Algorytmy operujące na wielu sekwencjach aminokwasowych i

advertisement
> t3983
GCTGGCGGGAAGCCTGATCCCCTGGATCGACAAACAGCTTGATAACGGCCAAAGCCGCGA
AGAGTGGAAAGGCCAGGCGGAAACCAACAAGATCCTCAATACTGCCTCTGTGATCCCGGT
TGATGGTTTGTGCGTGCGCGTCGGCGCGCTGCGCTGTCACAGCCAGGCGTTCACCATTAA
GCTGAAAAAAGAGGTATCCATTCCGACGGTGGAAGAACTGCTGGCGGCACATAATCCGTG
GGCGAAAGTGGTGCCGAACGATCGTGATATCACTATGCGCGAATTAACCCCGGCGGCGGT
GACCGGCACGTTGACTACGCCGGTTGGTCGTCTGCGTAAGCTGAACATGGGGCCAGAGTT
CTTGTCGGCGTTTACCGTAGGCGACCAGTTGTTATGGGGCGCCGCCGAGCCGCTGCGTCG
AATGCTGCGCCAGTTGGCGTAGTGGCTATTGCAGCGCTTATCGGGCCTGCGTGTGGTTCT
GTAGGCCGGATAAGGCGTGTCAGCGCCGCCATCCGGCAATATCCGCCAGATAAGGCGTAG
TCGGCAAGCAGACGTCAGATTGATATGTAGGGTGCATCGTCACCTTTTTTTGCGTAATAC
AGGAGTAAACGCAGATGTTTCATTTTTATCAGGAGTTAAGCAGAGCATTGGCTATTCTTT
AAGGGTAGCTTAATCCCACGGGTATTAAGCCTAACCTGAAGGTAGGACGACGCAGATAGG
ATGCACAGTGTGCTGCGCCGTTCAGGTCAAAGAAGTGTCACTACCTGATGTTGAATTCAG
TGAGATGGAGTGACGCCACAAAACAGGATAACAAACCATGTCCAGTCGTATCGATAGAGA
CGTGATTAATGCGCTAATTGCAGGACATTTTGCGGACCCTTTTTCCGTACTCGGAATGCA
CCAGACCCAAGCCGGACTAGAAGTCCGCGCCCTATTACCTGACGCCACCGACGTATGGGT
GATTGAACCCAAAACCGGACGTAAAGTCGGCAAACTGGAATGTCTCGACGCTCGCGGTTT
TTTCTGCGGCGTTTTACCCCGACGTAAAAATTTCTTTCGCTATCAGCTCGCCGTGACCTG
GCACGGACAGCAGAACCTCATCGACGATCCTTACCGTTTTGGTCCATTAATACAGGAAAT
GGATGCCTGGCTATTGTCGGAAGGCACCCACCTGCGTCCTTATGAAACGCTGGGCGCGCA
CGCCGATACGATGGATGGCGTCACCGGCACCCGTTTCTCCGTCTGGGCGCCTAATGCCCG
TCGCGTTTCGGTTGTCGGGCAATTCAACTATTGGGATGGGCGTCGCCACCCGATGCGTCT
GCGCAAAGAGAGCGGTATTTGGGAGCTGTTTATCCCCGGCGCGCATAATGGACAACTGTA
TAAATTCGAGCTGCTTGATGCGAACGGTAATCTGCGCATTAAAGCCGATCCCTATGCTTT
TGAGGCGCAGATGCGTCCGGAAACGGCGTCGATGATTTGCGGACTGCCGGAGAAAGTGAC
GCCAAGCGAAGAACGACAAAAAGCCAATCAGTTTGATGCGCCGATCTCGATTTATGAGGT
GCATTTAGGTTCATGGCGCCGCCATACGGATAACAATTTCTGGCTGAGCTATCGTGAGCT
GGCGGATCAGCTTGTGCCTTACGCCAAATGGATGGGCTTTACGCACCTTGAACTCTTGCC
GGTTAACGAACATCCGTTTGACGGCAGTTGGGGCTACCAGCCGACCGGCCTCTACGCGCC
GACCCGCCGCTTTGGTACGCGGGACGACTTCCGCTATTTCATCAATGCGGCCCATGCGGC
GGGCCTTAACGTCATTCTCGACTGGGTGCCGGGCCATTTCCCGTCCGATGAATTTAGCCT
CGCGGAGTTTGACGGCACCCACCTCTATGAGCATAGCGACCCGCGCGAGGGCTATCACCA
GGACTGGAATACGCTGATCTACAACTATGGTCGTCGTGAAGTCAGTAATTATCTGGTGGG
TAACGCCCTGTACTGGATGGAGCGTTTTGGGATTGATGCGCTGCGTGTCGATGCGGTGGC
CTCTATGATCTACCGCGACTACAGCCGCAAAGAGGGCGAGTGGATACCGAACGAGTTCGG
CGGTCGTGAAAACCTGGAAGCCATTGAGTTTCTGCGTAATACCAACCGCATTATTGGCGA
GCAGGTGCCCGGCGCGGTCAGCATGGCGGAAGAGTCGACAGACTTCTCTGGCGTGACGCG
TCCACCGGAAACGGGTGGGCTGGGGTTCTGGTACAAGTGGAATCTGGGCTGGATGCACGA
CACGCTGGACTACATGAAGCTGGACCCGGTGTACCGCCAGTATCATCACGACAAGCTGAC
CTTTGGTATGTTGTACAACCATACCGAAAACTTTGTTCTGCCGCTGTCGCACGATGAGGT
GGTTCACGGCAAGAAATCCATTCTCGATCGTATGCCGGGCGATGCGTGGCAAAAATTCGC
CAACCTGCGCGCCTATTATGGCTGGATGTGGGCCTTCCCCGGCAAGAAACTGCTGTTTAT
GGGGAATGAGTTTGCCCAGGGACGCGAGTGGAACCATGACGCCAGCCTCGACTGGCACCT
Algorytmy operujące na wielu sekwencjach
aminokwasowych i nukleotydowych
Cel dopasowania wielu sekwencji
MSA (ang. Multiple Sequence Alignments)
wykorzytsuje się do:
charakterystyki rodzin białek- identyfikacji
regionów homologii
wyznaczania sekwencji “konsensusowych”
przyrównanych sekwencji
przewidywania struktur drugo- i trzeciorzędowych
nowych sekwencji
jako danych wejściowych do programów
analizujących ewolucję białek
Alignment wielu sekwencji
Metody MSA
Alignment progresywny- algorytm zaproponowany przez
Fenga i Doolitla w 1987r, stosowany powszechnie do
dzisiaj. Dwa najpopularniejsze programy,
zaimplementowane z udziałem tego algorytmu to:
PILEUP
CLUSTAL W(X)
T-COFFEE
Alignment iteracyjny- program MUSCLE
Przyrównanie progresywne
Koncepcja algorytmu polega na sukcesywnym budowaniu
alignmentu, zaczynając od pojedynczych sekwencji,
następnie budując alignmenty poszczególnych
przyrównań
Kolejność budowy przyrównań wyznaczona jest przez
drzewo filogenetyczne lub inny wynik analizy klastrowej
danych sekwencji
Metody MSA
www.cs.tau.ac.il/~rshamir/algmb/slides/ppt/multialign-new.ppt
PILEUP
Wyznaczane jest parami podobieństwo zadanych
sekwencji, na tej podstawie wyznaczany jest dendogram
(nieukorzenione drzewo)
Wybierany jest alignment najbardziej podobnej pary
sekwencji
PILEUP
Wyznaczana jest “uśredniona” sekwencja tej pary,
obliczane jest podobieństwo pozostałych sekwencji do
niej
Sekwencja najbardziej podobna jest alignowana,
następnie wyznaczana jest sekwencja uśredniona.
Cała procedura jest powtarzana aż do momentu
przyrównania ostatniej sekwencji
CLUSTAL W (X)
Krok 1- przyrównania parami
Przyrównujemu każdą parę sekwencji Si z Sj (i ≠ j).
Wartość oceny przyrównania 2 sekwencji to liczba
dopasowanych k-merów w najlepszym alignmencie
(k=1-2 dla białek lub 3-4 dla kwasu nukleinowego),
pomniejszona o wartość kary za wprowadzone przerwy.
Otrzymaną ocenę dla każdej pary dzielimy przez liczbę
pozycji porównywanych (z wyłączeniem pozycji
zawierających gapy) i odejmujemy od liczby 1
Wynik to średnia liczba różnic na 1 pozycji
CLUSTAL W (X)
Krok 2- drzewo filogenetyczne
Wartości wyliczone w pierwszym kroku zapisujemy w
tablicy.
Na jej podstawie budujemy drzewo nieukorzenione
filogenetyczne (metoda NJ). Każda krawędź ma
przypisaną długość odpowiadającą długości
ewolucyjnej.
CLUSTAL W (X)
Krok 2- drzewo filogenetyczne
Drzewo jest ukorzaniane tak, aby średnie odległości do
liści po obu stronach korzenia były równe.
Przy pomocy tego drzewa przypisujemy każdej sekwencji
wagę S
v0
di
v1
...
Vn
Li to liczba liści
CLUSTAL W (X)
Krok 3- progresywny alignment
Konstruujemy przyrównanie odpowiadające wierzchołkom
drzewa w kolejności wielkości ich wag (od najmniejszej
do największej)
Za każdym razem budujemy alignment alignmentów
Wprowadzane przerwy w przyrównaniach są
zachowywane na dalszych etapach konstrukcji
CLUSTAL W (X)
Krok 3- progresywny alignment
Bardzo skomplikowany system kar za przerwy- kary za
otwarcie przerwy i kontynuację są różne w zależności od
jej położenia:
- mniejsze tam gdzie już jest przerwa
- mniejsze gdy otwierana jest przerwa w
ciągu aminokwasów hydrofilowych
- większe gdy otwierana jest nowa blisko już
istniejącej
CLUSTAL W (X)
Krok 3- progresywny alignment
Stosowane są różne tablice podstawień w zależności od
tego czy mamy sekwencje zbliżone ewolucyjnie czy też
odległe (w zależności od wartości ocen przypisanych
wierzchołkom drzewa ewolucyjnego)
CLUSTAL W (X)
[~]% clustalw
**************************************************************
******** CLUSTAL W (1.7) Multiple Sequence Alignments ********
**************************************************************
1. Sequence Input From Disc
2. Multiple Alignments
3. Profile / Structure Alignments
4. Phylogenetic trees
S. Execute a system command
H. HELP
X. EXIT (leave program)
Your choice:
CLUSTAL W (X)
Na wejściu program przyjmuje następujące formaty
plików:
NBRF/PIR
EMBL/SwissProt
Pearson (Fasta)
GDE
Clustal
GCG/MSF
RSF
CLUSTAL W (X)
****** MULTIPLE ALIGNMENT MENU ******
1. Do complete multiple alignment now (Slow/Accurate)
2. Produce guide tree file only
3. Do alignment using old guide tree file
4. Toggle Slow/Fast pairwise alignments = SLOW
5. Pairwise alignment parameters
6. Multiple alignment parameters
7. Reset gaps between alignments? = OFF
8. Toggle screen display
= ON
9. Output format options
S. Execute a system command
H. HELP
or press [RETURN] to go back to main menu
Your choice:
CLUSTAL W (X)
Your choice: 5
********* PAIRWISE ALIGNMENT PARAMETERS *********
Slow/Accurate alignments:
1. Gap Open Penalty
:15.00
2. Gap Extension Penalty :6.66
3. Protein weight matrix :BLOSUM30
4. DNA weight matrix
:IUB
Fast/Approximate alignments:
5. Gap penalty
:5
6. K-tuple (word) size :2
7. No. of top diagonals :4
8. Window size
:4
9. Toggle Slow/Fast pairwise alignments = SLOW
H. HELP
Enter number (or [RETURN] to exit):
CLUSTAL X
CLUSTAL W (X)
Zasady budowania alignmentów:
Im więcej sekwencji w przyrównaniu tym bardziej jest on
informatywny
Nie włączać do budowanego alignmentu sekwencji,
których podobieństwo jest > 80%
Sekwencje, które pochodzą z jednych podrodzin powinny
być przyrównywane najpierw osobno, a do końcowy
alignment wielu sekwencji budujemy na reprezentantach
poszczególnych grup
Ćwiczenie 1
- Pobierz plik
http://mafft.cbrc.jp/alignment/software/ex2.txt
- Następnie ściągnij i zainstaluj programy clustalx
http://www.clustal.org/clustal2/
oraz seaview
http://doua.prabi.fr/software/seaview
- W przypadku braku możliwości zainstalowania programu
idź do strony
http://www.ebi.ac.uk/Tools/msa/clustalw2/
- Wykonaj alignment, pamiętając o zasadach budowy
alignmentu. Wynik obejrzyj używając seaview.
T-COFFEE
Krok1
Każda para Si, Sj jest globalnie przyrównywana (przy
użyciu CLUSTALW) oraz lokalnie przyrównywana (przy
użyciu programu Lalign z pakietu FASTA)
Z lokalnego alignmentu branych jest 10 najlepszych
nieprzecinających się alignmentów. Powstają w ten
sposób 2 biblioteki przyrównań.
T-COFFEE
T-COFFEE
T-COFFEE
Krok2
Każde przyrównanie dostaje wagę równą liczbie
dopasowań (par identycznych symboli), pomnożoną
przez 100 i podzieloną przez liczbę par w alignmencie,
które nie zawierają spacji
Obie biblioteki są scalane w jedną – powtarzające się
pary uliniowień pochodzące z obu bibliotek są łączone z
wagą będącą sumą wag. Tak powstaje biblioteka główna
T-COFFEE
T-COFFEE
Krok3
Dla ustalonej pary sekwencji A, B budujemy alignment
trójek A, C, B, gdzie C oznacza dowolną sekwencje
zadaną na wejściu, za wyjątkiem A oraz B.
Dla trójki A, B, C przyjmujemy ocenę przyrównania równą
minimum ocen alignmentów A i C oraz C i B. Bierzemy
pod uwagę tylko te aminokwasy, które są wspólnie
“sparowane” z C
Dla pary każdej pary aminokwasów z A i B ocena ich
przyrównania to suma wag w przyrównaniach: A i B oraz
A, B i C
T-COFFEE
Krok3
Na podstawie uzyskanych wyników budujemy macierz
podstawień dla aminokwasów występujących w
sekwencjach A i B
Dla par aminokwasów, które nie pojawiły się w
alignmencie A, B ocena jest 0
Przy użyciu uzyskanej tablicy poprawiany jest alignment
każdej pary A i B (metodą programowania
dynamicznego
T-COFFEE
Krok3
Przy użyciu uzyskanej tablicy poprawiany jest alignment
każdej pary A i B (metodą programowania
dynamicznego)
Następnie stosowana jest standardowa metoda
progresywnego alignmentu.
T-COFFEE
Ćwiczenie 2
-Ponownie operujemy na pobranym pliku
- Ściągnij i zainstaluj program T-COFFEE
http://www.tcoffee.org/Projects/tcoffee/#DOWNLOAD
- W przypadku braku możliwości zainstalowania programu
idź do strony
http://www.ebi.ac.uk/Tools/msa/tcoffee/
- Wykonaj alignment
- Wynik obejrzyj w programie seaview. Porównaj z
wynikiem pochodzącym z programu clustalw.
Metody MSA
Alignment progresywny- algorytm zaproponowany przez
Fenga i Doolitla w 1987r, stosowany powszechnie do
dzisiaj. Dwa najpopularniejsze programy,
zaimplementowane z udziałem tego algorytmu to:
CLUSTAL W(X)
T-COFFEE
Alignment iteracyjny- program MUSCLE
Muscle
Program, który znakomicie sprawdza się przy dużych
zbiorach danych, a także w przypadku już wykonanych
alignmentów, które są bardzo “dziurawe”
Muscle
4 kroki programu MUSCLE
Budowana jest macierz odległości pomiędzy parami
sekwencji, na podstawie podobieństwa k-merów
Wyznaczane jest drzewo nieukorzenione metodą UPGMA
Metodą progresywnego alignmentu wyznaczane jest
przyrównanie wszystkich sekwencji
Uzyskany alignment jest “poprawiany” wszelakimi
dostępnymi metodami.
Muscle
Edytory przyrównań



Alignmenty wyznaczone metodami PILEUP oraz
CLUSTAL mogą być wizualizowane przy pomocy
programu LINEUP
MACAW oraz SeqVu są bardzo dobrymi edytorami
CINEMA (Colour INteractive Editor for Multiple
Alignments) to edytor napisany w Javie, możliwość
oglądania wyników CLUSTAL, BLAST oraz specjalny
moduł DotPlot
Z ciekawostek...









Edytory wyświetlają różne aminokwasy w
przyrównaniach za pomocą różnych kolorów, w
zależności od ich właściwości (na przykład prolina I
glicyna są częstymi aminokwasami w białkach
błonowych, mają swój kolor- brązowy, podobnie
cysteina jest niezwykła i ma swój własny kolor).
Lista jest następująca:
Polarne ładunek dodatni H, K, R
Niebieski
Polarne, ładunek ujemny D, E
Czerwony
Polarne neutrale S, T, N, Q
Zielony
Niepolarne, alifatyczne A, V, L, I, M Białye
Niepolarne, aromatyczne F, Y, W
Fioletowy
P, G
Brązowy
C
Żółty
Znaki specjalne B, Z, X, Szary
Ewolucja molekularna
Budowa drzew filogenetycznych
Drzewo filogenetyczne
Spójny graf acykliczny, który przedstawia zależności między
określonymi rodzajami jednostek (gatunki, sekwencje białek,
sekwencje DNA).
http://pl.wikipedia.org/wiki/Plik:Cladogram_chloroplast_supergroups.svg
Drzewo filogenetyczne
Drzewa filogenetyczne mogą być ukorzenione lub
nieukorzenione.
Drzewa nieukorzenione obrazują jedynie względne zależności
między badanymi cząsteczkami.
Ukorzenienie drzewa pozwala ukierunkować odtwarzanie
przebiegu ewolucji.
Większość algorytmów zwraca drzewa
nieukorzenione.
Topologia i opis ukorzenionego drzewa
filogenetycznego
Korzeń ma numer 2n-1
11
Węzły wewnęrzne mają numery
od n+1 do 2n-2
10
8
7
3
1
3
2
9
3
3
Długość gałęzi
3
3
4
2
5
2
6
Liście mają numerację od 1 do n
Trochę liczb...
Niech n będzie liczbą liści w drzewie filogenetycznym.
Wówczas:
– Liczba wszystkich węzłów drzewa ukorzenionego jest
równa 2n-1 (nieukorzenionego 2n-2)
– Liczba wszystkich krawędzi drzewa ukorzenionego jest
równa 2n-2 (nieukorzenionego 2n-3)
– Liczba możliwych pozycji umieszczenia korzenia w
drzewie powoduje, że drzew ukorzenionych przy tej
liczbie liści jest (2n-3) razy więcej niż drzew
nieukorzenionych
Ukorzenianie drzewa
Metoda punktu środkowego - korzeń umieszczamy
pośrodku najdłuższej gałęzi
Umieszczanie korzenia poprzez grupę zewnętrzną włączamy do analizy dalece spokrewnioną z pozostałymi
cząsteczkę, która w sposób naturalny ukorzenia cały graf.
1
Ukorzenianie drzewa
3
2
4
1
1
3
2
3
2
1
2
3
1
3
2
1
1
3
2
4
4
2
1
3
1
3
1
3
2
3
2
2
Ukorzenianie drzewa – przykład rzeczywisty
Metody budowy drzew
Dane wejściowe używane do budowy drzew dzielą się na
dwie podstawowe grupy:
– dystanse genetyczne, molekularne – drzewo filogenetyczne
– cechy (rozumiane też jako jednostki
dyskretne np. listingi mutacji danego locus)- drzewo
fenetyczne, które pozwalają na wnioskowanie o
własnościach genetycznych poprzednich w stosunku do
analizowanych pokoleń.
Metody budowy drzew
Metody rekonstrukcji drzew dzielą się na oparte na
grupowaniu (ang. clustering) oraz na poszukiwaniu (ang.
searching)
Dobry algorytm filogenetyczny
- cechuje się szybkością działania,
- operuje skutecznie nawet na niewielkiej ilości
danych wejściowych,
- pozwala uzyskać takie samo drzewo po dodaniu
kolejnych danych
Żadna opracowana dotąd metoda nie spełnia jednocześnie
wszystkich powyższych założeń!
Metody budowy drzew
1. Metody oparte na odległości par sekwencji:
– UPGMA
– NJ (metoda najbliższego sąsiada)
2. Metody parsymonii
3. Metoda największej wiarygodności
4. Metody oparte na analizie prawdopodobieństwa
Metody budowy drzew
1. Metody oparte na odległości par sekwencji:
– UPGMA
– NJ (metoda najbliższego sąsiada)
2. Metody parsymonii
3. Metoda największej wiarygodności
4. Metody oparte na analizie prawdopodobieństwa
UPGMA
(Unweighted Pair Group Method Using Arithmetic Averages)
Najmniej skomplikowany algorytm budowy drzewa. Drzewo
konstruowane jest w sposób intuicyjny, w oparciu o algorytm
iteracyjnego grupowania cząsteczek, zgodnie z którym każde
dwie cząsteczki, które dzieli najmniejszy spośród
wszystkich obliczonych dystans, łączone są krawędzią.
Dendrogram uzyskany tą metodą zawsze jest ukorzeniony
Jakiekolwiek odstępstwo od stałości tempa mutacji prowadzi
do uzyskania błędnego grafu
Znajduje zastosowanie w analizie danych
mikromacierzowych
UPGMA
(Unweighted Pair Group Method Using Arithmetic Averages)
Definicja
Niech dij będzie odległością pomiędzy dwoma klastrami Ci
oraz Cj, wówczas:
1
d ij =
d pq
∑
∣Ci∣∣C j∣
dla p należącego do Ci oraz q należącego do Cj
|Ci|, |Cj| to liczba sekwencji klastrach i oraz j,
odpowiednio
UPGMA
(Unweighted Pair Group Method Using Arithmetic Averages)
Definicja
Niech Ck będzie sumą dwóch odrębnych klastrów Ci oraz Cj.
Wówczas odległość pomiędzy Ck i klastrem Cl jest równa:
d kl =
d il∣C i∣+d jl∣C j∣
∣C i∣+∣C j∣
przy czym klaster Cl jest odrębnym klastrem od Ci oraz Cj
UPGMA
Algorytm
Krok 1
Krok 2
UPGMA
Algorytm
Krok 3
Krok 4
Krok 5
UPGMA- podsumowanie algorytmu
Inicjalizacja:
Przypisz każdą sekwencję i do jej własnego klastra Ci.
Każdej sekwencji przypisz liść T i umieść go na
wysokości 0.
Kolejne iteracje:
Wyznacz dwa klastry i, j dla których odległość dij jest
najmniejsza.
Zdefiniuj nowy klaster k poprzez wyznaczenie sumy
dwóch klastrów I wyznacz dkl dla każdego l
UPGMA- podsumowanie algorytmu
Kolejne iteracje:
Zdefiniuj węzeł k z liśćmi I oraz j, umieść je na wysokości
dij/2.
Umieść k w zbiorze klastrów, usuń ze zbioru i oraz j
Terminacja:
Jeżeli poza drzewem pozostały tylko dwa klastry i oraz j
umieść węzeł na wysokości dij/2
Problemy związane z metodą UPGMA
Analizowane sekwencje muszą spełniać warunek
ultrametryczności:
dist(A, C)<= max(dist (A, B), dist(B, C))
Oznacza to, że metoda UPGMA jest bardzo "wrażliwa" na
nierówne gromadzenie mutacji przez organizmy (problem
"zegara molekularnego"
Algorytm NJ
Metoda ta bierze pod uwagę zarówno odległość między
łączonymi obiektami, jak i ich odległość do wszystkich
pozostałych.
Jest metodą spójną. Dla dobrych danych, jej wyniki nie
odbiegają znacząco od parsymonii, największej
wiarygodności i metod bayesowskich.
NJ- algorytm
Krok 1
Dla każdego elementu wyznaczamy
parametr net divergence r (i):
r(A)=5+4+7+6+8=30
r(B)=5+7+10+9+11=42
r(C)=4+7+7+6+8=32
r(D)=7+10+7+5+9=38
r(E)=6+9+6+5+8=34
r(F)=8+11+8+9+8=44
NJ- algorytm
Krok 2
Obliczamy nową macierz odległości
Według wzoru:
M(ij)=d(ij) - [r(i) + r(j)]/(N-2)
NJ- algorytm
Krok 3
Wybieramy parę sąsiadów, dla których
odległość w macierzy jest najmniejsza.
Łączymy ich w jeden klaster U.
Wyznaczamy długości gałęzi od węzła wewnętrznego U do liści
A oraz B:
S(AU) =d(AB) / 2 + [r(A)-r(B)] / 2(N-2) = 1
S(BU) =d(AB) -S(AU) = 4
NJ- algorytm
Krok 4
Wyznaczamy nową macierz odległości
z uwzględnieniem węzła U:
d(CU) = d(AC) + d(BC) - d(AB) / 2 = 3
d(DU) = d(AD) + d(BD) - d(AB) / 2 = 6
d(EU) = d(AE) + d(BE) - d(AB) / 2 = 5
d(FU) = d(AF) + d(BF) - d(AB) / 2 = 7
Powtarzamy kolejne kroki do momentu gdy wszystkie liście zostaną
sklastrowane w drzewie
NJ- wady I zalety
Zalety
szybki algorytm, znajduje więc zastosowanie do analizy
dużych zbiorów danych
uwzględnia poprawkę dla wielokrotnych podstawień
uwzględnia istnienie gałęzi o bardzo różnych
długościach
Wady
informacja sekwencyjna jest zredukowana
NJ daje w wyniku tylko jedno możliwe drzewo
silnie zależy od użytego modelu ewolucji
Metoda maksymalnej parsymonii
Opiera się na założeniu, że najlepsze drzewo filogenetyczne
odzwierciedla historię ewolucyjną z najmniejszą ilością zmian
(mutacji).
Pozwala przypisać różnym mutacjom odmienne wagi podczas
analizy, czy zignorować możliwość występowania mutacji w
miejscach istotnych funkcjonalnie.
Problem jaki może powstać przy użyciu tej metody to błędne
wyniki, przy nie uwzględnieniu rewersji i homoplazji.
Drzewo MP jest zawsze nieukorzenione, nie daje informacji
odnośnie czasu dywergencji.
Metoda maksymalnej parsymonii
Przeszukuje wszystkie możliwe topologie drzew w
poszukiwaniu najlepszego drzewa.
Liczba możliwych drzew ukorzenionych dla n sekwencji jest
równa:
Nr = (2n -3)!/(2exp(n -2)) (n -2)!
Liczba możliwych drzew nieukorzenionych dla n sekwencji:
Nu = (2n -5)!/(2exp(n -3)) (n -3)!
Metoda parsymonii jest więc bardzo wymagająca czasowo!
Metoda maksymalnej parsymonii
Wybór optymalnego drzewa z zastosowaniem metody bootstrapu
Metody budowy drzew
1. Metody oparte na odległości par sekwencji:
UPGMA
NJ (metoda najbliższego sąsiada)
2. Metody parsymonii
3. Metoda największej wiarygodności (ang. Maximum
Likelihood)
4. Inne metody oparte na analizie prawdopodobieństwa
Metoda największej wiarygodności
Zaproponowana przez angielskiego statystyka R.A. Fischera
w 1922r. Znajduje zastosowanie w filogenetyce, ale również
ekonometrii, fizyce cząstek elementarnych czy analizie
obrazów satelitarnych.
http://statgen.iop.kcl.ac.uk/bgim/mle/sslike_3.html
Metoda największej wiarygodności
Wiarygodność to prawdopodobieństwo wystąpienia danych,
przy założeniu występowania danego modelu
probabilistycznego.
Prawdopodobieństwo wystąpienia danych zależne jest od
parametrów modelu.
modelu
Celem metody największej wiarygodności jest wybór takich
parametrów modelu, który zmaksymalizuje wartość
prawdopodobieństwa.
Metoda największej wiarygodności - przykład
Eksperyment: rzucamy 10-krotnie monetą.
Wynik: {O, O, O, R, O, R, R, O, R, O}
Na podstawie uzyskanych wyników chcemy oszacować czy
dana moneta jest monetą symetryczną.
Metoda największej wiarygodności - przykład
Model, który opisuje prawdopodobieństwo zaobserwowania k
reszek w n rzutach monetą ma rozkład dwumianowym zadany
wzorem:
P[k|p,n] = Cn,k pk(1-p)n-k
gdzie p to prawdopodobieństwo wystąpienia reszki, Cn,k to
liczba możliwości wystąpienia k reszek w n próbach.
Metoda największej wiarygodności – kolejne kroki
Krok 1. Wyznaczamy funkcję wiarygodności
Krok 2. Wyznaczamy logarytm tej funkcji
Krok 3. Wyznaczamy pochodne cząstkowe
Jeżeli funkcja L jest dyskretna wyznaczamy
Krok 4. Rozwiązujemy układ równań
W przypadku funkcji dyskretnej wiarygodność jest
maksymalizowana przez najmniejsze n dla którego
wyznaczony stosunek jest <=1
Metoda największej wiarygodności - przykład
Cel: Oszacowujemy parametr p.
W przypadku analizowanego eksperymentu:
L ⟨ p∣k,n⟩ =C n,k pk (1− p )n−k
log L⟨ p∣k,n ⟩=log (n!)−log (k ! )− log ((n−k )! )+klogp+ (n−k ) log (1− p )
Po wyznaczeniu pochodnej cząstkowej z log L[p|k,n] po
zmiennej p uzyskujemy:
∂log L
=k−np
∂p
Metoda największej wiarygodności - przykład
Estymator p w tym eksperymencie jest więc równy k/n.
3 orły, 7 reszek
p
ML
0.3
0.26682
5 orłów, 5 reszek 0.5
0.24649
8 orłów, 2 reszki 0.8
0.30199
9 orłów, 1 reszka 0.9
0.38742
http://people.brandeis.edu/~moshep
Metoda największej wiarygodności - filogenetyka
Wejście: n przyrównanych sekwencji o długościach m
Cel: rekonstrukcja drzewa, które najlepiej wyjaśnia historię
ewolucji sekwencji, cała procedura polega na przeszukaniu
wszystkich topologii, przy czym powinny być uwzględnione
Również długości krawędzi
Funkcja wiarygodności: prawdopodobieństwo warunkowe
uzyskania danych wejściowych, przy założeniu określonego
modelu ewolucyjnego
Probabilistyczne modele ewolucji
1. Model Jukesa i Cantora- zakłada niezależność zachodzenia
mutacji, częstości występowania poszczególnych nukleotydów
są takie same, równe ¼.
Probabilistyczne modele ewolucji
1. Model Jukesa i Cantora- jeżeli w naszych dwóch
sekwencjach występuje p zmian, wówczas odległość pomiędzy
nimi wyznaczamy według wzoru:
Probabilistyczne modele ewolucji
2. Model Kimury- uwzględnia występowanie tranzycji (zamiany
puryny w purynę i pirymidyny w pirymidynę A<->G, C<->T)
oraz transwersji (zamiana typów nukleotydów A<->T, G<->T,
A<->C, C<->G)
Q=
Probabilistyczne modele ewolucji
3. Model Felsensteina- zakłada różnice w częstościach
występowania nukleotydów
Probabilistyczne modele ewolucji
4. Model Hasegawa, Kishino, Yano- uwzględnia zarówno
różnice w występowaniu tranzycji i transwersji, jak I zakłada
różną częstość występowań nukleotydów
ML i filogenetyka - przykład
n=5, m=2
Nukleotyd
Czarodziej
Elf
Hobbit
Karzeł
Człowiek
1
A
C
T
G
T
2
A
A
C
G
G
Zakładamy model Jukesa-Cantora, w którym
częstości wystąpień wszystkich nukleotydów są
takie same:
π1 = π2 = π3 = π4 = 1/4.
ML i filogenetyka - przykład
Nukleotyd
Czarodziej
Elf
Hobbit
Karzeł
Człowiek
1
A
C
T
G
T
2
A
A
C
G
G
Rozważamy pierwszą pozycję w kwasie DNA,
nukleotydy dodajemy w kolejności alfabetycznej
do drzewa: A, C, G, T, T
ML i filogenetyka – proces Poissona
Proces stochastyczny jest procesem Poissona z przyrostem
λ dla pewnego λ ≥ 0, jeżeli ma następujące własności:
1. W czasie t=0 liczba zdarzeń jakie zaszły jest równa 0
2. Każde kolejne zdarzenie zachodzące w czasie t ∈ T jest
niezależne od pozostałych
3. Liczba zdarzeń w każdym przedziale czasowym t jest
zmienną losową, mającą rozkład Poissona ze średnią
równą λt,
ML i filogenetyka - przykład
Nukleotyd
Czarodziej
Elf
Hobbit
Karzeł
Człowiek
1
A
C
T
G
T
2
A
A
C
G
G
Prawdopodobieństwo mutacji nukleotydu i w
nukleotyd j w danej jednostce czasu t jest
wyznaczane ze wzoru:
gdzie πj to częstość występowania nukleotydu j
ML i filogenetyka - przykład
Nukleotyd
Czarodziej
Elf
Hobbit
Karzeł
Człowiek
1
A
C
T
G
T
2
A
A
C
G
G
Wyszukiwane jest takie ustawienie korzenia, aby uzyskana była
najlepsza wartość L dla zadanej pozycji. Wyznaczane są również
od razu długości gałęzi. W najdokładniejszych programach
(n.p. PHYML) używa się do tego celu algorytmu
Expectation-Maximization (EM).
ML i filogenetyka - przykład
Nukleotyd
Czarodziej
Elf
Hobbit
Karzeł
Człowiek
1
A
C
T
G
T
2
A
A
C
G
G
W kolejnym kroku włączamy do drzewa kolejny nukleotyd. Dla
Każdego kolejnego drzewa używamy algorytmu EM do oceny
Długości gałęzi.Następnie liczymy wiarygodności.
ML i filogenetyka - przykład
Nukleotyd
Czarodziej
Elf
Hobbit
Karzeł
Człowiek
1
A
C
T
G
T
2
A
A
C
G
G
W kolejnym kroku włączamy do drzewa kolejny nukleotyd. Dla
Każdego kolejnego drzewa używamy algorytmu EM do oceny
Długości gałęzi.Następnie liczymy wiarygodności – iloczyn
prawdopodobieństw wystąpienia wszystkich liści, z uwzględnieniem
Wyznaczonych długości gałęzi.
ML i filogenetyka - przykład
Nukleotyd
Czarodziej
Elf
Hobbit
Karzeł
Człowiek
1
A
C
T
G
T
2
A
A
C
G
G
Następnie liczymy to samo dla pozycji drugiej.
ML i filogenetyka – przykład
Nukleoty
d
Czarodzi Elf
ej
Hobbit Karzeł Człowi
ek
1
A
C
T
G
T
2
A
A
C
G
G
Po wybraniu najlepszego uśrednionego drzewa opisującego gatunki
które wymagało najmniej zmian w ewolucji, dokonujemy jeszcze
sprawdzenia czy jest ono najlepsze. Dzieje się to poprzez
dokonywanie lokalnych przestawień i ponowne wyznaczenie ML.
ML i filogenetyka – przykład
Nukleotyd
Czarodziej
Elf
Hobbit
Karzeł
Człowiek
1
A
C
T
G
T
2
A
A
C
G
G
Ćwiczenie 1
Proszę zaimplementować algorytm UPGMA, do
testów posłużyć się macierzą ze slajdu 54.
Ćwiczenie 2
Proszę zaimplementować algorytm NJ (najbliższego
sąsiada), do testów posłużyć się macierzą ze slajdu
54.
Ćwiczenie 3
Proszę zaimplementować algorytm maksymalnej
parsymonii, do testów posłużyć się macierzą ze slajdu
54.
Download