Bez tytułu slajdu

advertisement
Dopasowanie sekwencji
Sequence alignment
Bioinformatyka, wykład 5 (8.XI.2007)
[email protected]
terminologia
z alignment
z dopasowanie sekwencji
z uliniowienie sekwencji
–
–
–
uliniowianie sekwencji
uliniawianie
uliniowanie
z elajment
33000
119
82
125
6
3
2
Uliniowianie
Z Wikipedii
z
W bioinformatyce, uliniawianie sekwencji to
sposób porównywania sekwencji
pierwszorzędowej DNA, RNA bądź białek w celu
identyfikacji regionów podobnych, które mogą
być wynikiem funkcjonalnych, strukturalnych
bądź ewolucyjnych związków pomiędzy
sekwencjami. Uliniowione sekwencje rezyduów
nukleotydów bądź aminokwasów zwykle są
przedstawiane jako wiersze macierzy Pomiędzy
znaki wstawiane są przerwy w taki sposób, aby
zapewnić jak największą zgodność
porównywanych sekwencji. ...
dopasowanie (alignment)
Ułożenie dwóch sekwencji biopolimerów (DNA, RNA lub białka) w celu
zidentyfikowania regionów podobieństwa istotnego ze względów ewolucyjnych,
strukturalnych lub funkcjonalnych (procedura oraz jej efekt).
dwie sekwencje - pairwise alignment
wiele sekwencji - multiple sequence alignment
gap
AGATTGATACCCA
AGA--TTGATACCCA
AGACATTAACTA
AGACATTAA---CTA
match
mismatch
Edgar Allan Poe, The Raven
Dopasowanie sekwencji - znaczenie
Podobieństwo porównywanych sekwencji (similarity) może świadczyć o:
podobnej funkcji sekwencji
podobnej strukturze białek
wspólnej historii ewolucyjnej sekwencji
Podobieństwo porównywanych sekwencji (similarity) może wynikać z:
homologii - pochodzeniu sekwencji (homologicznych) od wspólnego przodka;
sekwencje mogą, ale nie muszą pełnić te same funkcje
konwergencji - podobne motywy, które wyewoluowały w obu sekwencjach
(analogicznych) niezależnie; np. chymotrypsyna i subtylizyna - różna struktura
3D, ale podobne centrum aktywne (histydyna, seryna, kwas asparaginowy)
{... Problem rozróżnienia odległej homologii od analogii }
regiony zachowane = znaczenie funkcjonalne
sekwencje trypsyny Mus musculus i Astracus astracus
S-S
*
Mouse
IVGGYNCEENSVPYQVSLNS-----GYHFCGGSLINEQWVVSAGHCYK-------SRIQV
Crayfish IVGGTDAVLGEFPYQLSFQETFLGFSFHFCGASIYNENYAITAGHCVYGDDYENPSGLQI
*
Mouse
RLGEHNIEVLEGNEQFINAAKIIRHPQYDRKTLNNDIMLIKLSSRAVINARVSTISLPTA
Crayfish VAGELDMSVNEGSEQTITVSKIILHENFDYDLLDNDISLLKLSGSLTFNNNVAPIALPAQ
S-S
Mouse
PPATGTKCLISGWGNTASSGADYPDELQCLDAPVLSQAKCEASYPG-KITSNMFCVGFLE
Crayfish GHTATGNVIVTGWG-TTSEGGNTPDVLQKVTVPLVSDAECRDDYGADEIFDSMICAGVPE
S-S
*
Mouse
GGKDSCQGDSGGPVVCNG----QLQGVVSWGDGCAQKNKPGVYTKVYNYVKWIKNTIAAN
Crayfish GGKDSCQGDSGGPLAASDTGSTYLAGIVSWGYGCARPGYPGVYTEVSYHVDWIKANAV--
różnice między sekwencjami świadczą o mutacjach, które zaszły po
rozdzieleniu się sekwencji od wspólnego przodka
AGA--TTGATACCCA
AGACATTAA---CTA
AGA--TTGATACCCA
delecja
insercja
AGACATTAA---CTA
-CA
+TAC
G->A
C->T
TAC
AGACATTGACCA
substytucje
dopasowanie - zastosowanie
Porównywanie sekwencji jest bardzo pomocne w:
poszukiwaniu oraz określaniu funkcji i struktury (białek)
dla nowych sekwencji
określaniu powiązań filogenetycznych między sekwencjami
- homologii między sekwencjami oraz w analizach
ewolucyjnych
dopasowanie - metody
dopasowanie par sekwencji:
Macierz punktów - dot matrix, dotplot
Programowanie dynamiczne (DP)
Metody słów (k - tuple methods) - szybkie metody stosowane
przy przeszukiwaniu baz danych sekwencji z wykorzystaniem
programów FASTA i BLAST
dopasowanie wielu sekwencji
Dot matrix
M
T
S
I
E
Q
W
T
R
Q
V
M
•
T
S
I
E
L
Q
W
•
T
R
E
V
A
W
•
•
•
•
•
•
•
•
•
•
•
•
•
MTSIELQWTREVAW
MTSIE-QWTRQV--
Dot matrix – porównanie sekwencji samej z sobą
Dot matrix – porównanie dwóch podobnych sekwencji
Dot matrix - metody wstawiania punktów
Dla identycznych zasad lub reszt aminokwasowych (symboli)
W oparciu o macierz punktacji (PAM, BLOSUM), gdy symbole wykazują
podobieństwo większe niż pewna wartość punktacji (score)
Nadawanie różnych kolorów lub odcieni szarości w zależności od stopnia
podobieństwa symboli
Gdy liczba podobnych symboli w danym oknie przekracza pewną wartość
Dot matrix - metody wstawiania punktów
ACTGCTAGATCGTAGCTGATAATGACCG
ACAGCAACATCTGAACTGGCAGCGACGG
5/7
rodzaj sekwencji
liczba
wielkość
identycznych
okna
symboli
sekwencje DNA
15
10
sekwencje białek
2-3
2
sekwencje odległe
15
5
Dot matrix - metody wstawiania punktów
ACTGCTAGATCGTAGCTGATAATGACCG
ACAGCAACATCTGAACTGGCAGCGACGG
12/20
rodzaj sekwencji
liczba
wielkość
identycznych
okna
symboli
sekwencje DNA
15
10
sekwencje białek
2-3
2
sekwencje odległe
15
5
Dot matrix - zastosowanie
identyfikacja regionów podobnych lub identycznych
porównywanie sekwencji o strukturze wielodomenowej
rozpoznawanie dużych insercji i delecji
rozpoznawanie regionów powtórzonych i duplikacji
rozpoznawanie rearanżacji
rozpoznawanie regionów o słabo zróżnicowanym składzie
analiza sekwencji i struktury RNA
Dot matrix – insercja lub delecja
ATGCTAGACATCGGATATTCGACA
A
T
G
C
T
A
G
A
A
T
A
T
T
C
G
A
C
A
ATGCTAGACATCGGATATTCGACA
ATGCTAGA------ATATTCGACA
Download