> t3983 GCTGGCGGGAAGCCTGATCCCCTGGATCGACAAACAGCTTGATAACGGCCAAAGCCGCGA AGAGTGGAAAGGCCAGGCGGAAACCAACAAGATCCTCAATACTGCCTCTGTGATCCCGGT TGATGGTTTGTGCGTGCGCGTCGGCGCGCTGCGCTGTCACAGCCAGGCGTTCACCATTAA GCTGAAAAAAGAGGTATCCATTCCGACGGTGGAAGAACTGCTGGCGGCACATAATCCGTG GGCGAAAGTGGTGCCGAACGATCGTGATATCACTATGCGCGAATTAACCCCGGCGGCGGT GACCGGCACGTTGACTACGCCGGTTGGTCGTCTGCGTAAGCTGAACATGGGGCCAGAGTT CTTGTCGGCGTTTACCGTAGGCGACCAGTTGTTATGGGGCGCCGCCGAGCCGCTGCGTCG AATGCTGCGCCAGTTGGCGTAGTGGCTATTGCAGCGCTTATCGGGCCTGCGTGTGGTTCT GTAGGCCGGATAAGGCGTGTCAGCGCCGCCATCCGGCAATATCCGCCAGATAAGGCGTAG TCGGCAAGCAGACGTCAGATTGATATGTAGGGTGCATCGTCACCTTTTTTTGCGTAATAC AGGAGTAAACGCAGATGTTTCATTTTTATCAGGAGTTAAGCAGAGCATTGGCTATTCTTT AAGGGTAGCTTAATCCCACGGGTATTAAGCCTAACCTGAAGGTAGGACGACGCAGATAGG ATGCACAGTGTGCTGCGCCGTTCAGGTCAAAGAAGTGTCACTACCTGATGTTGAATTCAG TGAGATGGAGTGACGCCACAAAACAGGATAACAAACCATGTCCAGTCGTATCGATAGAGA CGTGATTAATGCGCTAATTGCAGGACATTTTGCGGACCCTTTTTCCGTACTCGGAATGCA CCAGACCCAAGCCGGACTAGAAGTCCGCGCCCTATTACCTGACGCCACCGACGTATGGGT GATTGAACCCAAAACCGGACGTAAAGTCGGCAAACTGGAATGTCTCGACGCTCGCGGTTT TTTCTGCGGCGTTTTACCCCGACGTAAAAATTTCTTTCGCTATCAGCTCGCCGTGACCTG GCACGGACAGCAGAACCTCATCGACGATCCTTACCGTTTTGGTCCATTAATACAGGAAAT GGATGCCTGGCTATTGTCGGAAGGCACCCACCTGCGTCCTTATGAAACGCTGGGCGCGCA CGCCGATACGATGGATGGCGTCACCGGCACCCGTTTCTCCGTCTGGGCGCCTAATGCCCG TCGCGTTTCGGTTGTCGGGCAATTCAACTATTGGGATGGGCGTCGCCACCCGATGCGTCT GCGCAAAGAGAGCGGTATTTGGGAGCTGTTTATCCCCGGCGCGCATAATGGACAACTGTA TAAATTCGAGCTGCTTGATGCGAACGGTAATCTGCGCATTAAAGCCGATCCCTATGCTTT TGAGGCGCAGATGCGTCCGGAAACGGCGTCGATGATTTGCGGACTGCCGGAGAAAGTGAC GCCAAGCGAAGAACGACAAAAAGCCAATCAGTTTGATGCGCCGATCTCGATTTATGAGGT GCATTTAGGTTCATGGCGCCGCCATACGGATAACAATTTCTGGCTGAGCTATCGTGAGCT GGCGGATCAGCTTGTGCCTTACGCCAAATGGATGGGCTTTACGCACCTTGAACTCTTGCC GGTTAACGAACATCCGTTTGACGGCAGTTGGGGCTACCAGCCGACCGGCCTCTACGCGCC GACCCGCCGCTTTGGTACGCGGGACGACTTCCGCTATTTCATCAATGCGGCCCATGCGGC GGGCCTTAACGTCATTCTCGACTGGGTGCCGGGCCATTTCCCGTCCGATGAATTTAGCCT CGCGGAGTTTGACGGCACCCACCTCTATGAGCATAGCGACCCGCGCGAGGGCTATCACCA GGACTGGAATACGCTGATCTACAACTATGGTCGTCGTGAAGTCAGTAATTATCTGGTGGG TAACGCCCTGTACTGGATGGAGCGTTTTGGGATTGATGCGCTGCGTGTCGATGCGGTGGC CTCTATGATCTACCGCGACTACAGCCGCAAAGAGGGCGAGTGGATACCGAACGAGTTCGG CGGTCGTGAAAACCTGGAAGCCATTGAGTTTCTGCGTAATACCAACCGCATTATTGGCGA GCAGGTGCCCGGCGCGGTCAGCATGGCGGAAGAGTCGACAGACTTCTCTGGCGTGACGCG TCCACCGGAAACGGGTGGGCTGGGGTTCTGGTACAAGTGGAATCTGGGCTGGATGCACGA CACGCTGGACTACATGAAGCTGGACCCGGTGTACCGCCAGTATCATCACGACAAGCTGAC CTTTGGTATGTTGTACAACCATACCGAAAACTTTGTTCTGCCGCTGTCGCACGATGAGGT GGTTCACGGCAAGAAATCCATTCTCGATCGTATGCCGGGCGATGCGTGGCAAAAATTCGC CAACCTGCGCGCCTATTATGGCTGGATGTGGGCCTTCCCCGGCAAGAAACTGCTGTTTAT GGGGAATGAGTTTGCCCAGGGACGCGAGTGGAACCATGACGCCAGCCTCGACTGGCACCT Algorytmy operujące na wielu sekwencjach aminokwasowych i nukleotydowych Cel dopasowania wielu sekwencji MSA (ang. Multiple Sequence Alignments) wykorzytsuje się do: charakterystyki rodzin białek- identyfikacji regionów homologii wyznaczania sekwencji “konsensusowych” przyrównanych sekwencji przewidywania struktur drugo- i trzeciorzędowych nowych sekwencji jako danych wejściowych do programów analizujących ewolucję białek Alignment wielu sekwencji Metody MSA Alignment progresywny- algorytm zaproponowany przez Fenga i Doolitla w 1987r, stosowany powszechnie do dzisiaj. Dwa najpopularniejsze programy, zaimplementowane z udziałem tego algorytmu to: PILEUP CLUSTAL W(X) T-COFFEE Alignment iteracyjny- program MUSCLE Przyrównanie progresywne Koncepcja algorytmu polega na sukcesywnym budowaniu alignmentu, zaczynając od pojedynczych sekwencji, następnie budując alignmenty poszczególnych przyrównań Kolejność budowy przyrównań wyznaczona jest przez drzewo filogenetyczne lub inny wynik analizy klastrowej danych sekwencji Metody MSA www.cs.tau.ac.il/~rshamir/algmb/slides/ppt/multialign-new.ppt PILEUP Wyznaczane jest parami podobieństwo zadanych sekwencji, na tej podstawie wyznaczany jest dendogram (nieukorzenione drzewo) Wybierany jest alignment najbardziej podobnej pary sekwencji PILEUP Wyznaczana jest “uśredniona” sekwencja tej pary, obliczane jest podobieństwo pozostałych sekwencji do niej Sekwencja najbardziej podobna jest alignowana, następnie wyznaczana jest sekwencja uśredniona. Cała procedura jest powtarzana aż do momentu przyrównania ostatniej sekwencji CLUSTAL W (X) Krok 1- przyrównania parami Przyrównujemu każdą parę sekwencji Si z Sj (i ≠ j). Wartość oceny przyrównania 2 sekwencji to liczba dopasowanych k-merów w najlepszym alignmencie (k=1-2 dla białek lub 3-4 dla kwasu nukleinowego), pomniejszona o wartość kary za wprowadzone przerwy. Otrzymaną ocenę dla każdej pary dzielimy przez liczbę pozycji porównywanych (z wyłączeniem pozycji zawierających gapy) i odejmujemy od liczby 1 Wynik to średnia liczba różnic na 1 pozycji CLUSTAL W (X) Krok 2- drzewo filogenetyczne Wartości wyliczone w pierwszym kroku zapisujemy w tablicy. Na jej podstawie budujemy drzewo nieukorzenione filogenetyczne (metoda NJ). Każda krawędź ma przypisaną długość odpowiadającą długości ewolucyjnej. CLUSTAL W (X) Krok 2- drzewo filogenetyczne Drzewo jest ukorzaniane tak, aby średnie odległości do liści po obu stronach korzenia były równe. Przy pomocy tego drzewa przypisujemy każdej sekwencji wagę S v0 di v1 ... Vn Li to liczba liści CLUSTAL W (X) Krok 3- progresywny alignment Konstruujemy przyrównanie odpowiadające wierzchołkom drzewa w kolejności wielkości ich wag (od najmniejszej do największej) Za każdym razem budujemy alignment alignmentów Wprowadzane przerwy w przyrównaniach są zachowywane na dalszych etapach konstrukcji CLUSTAL W (X) Krok 3- progresywny alignment Bardzo skomplikowany system kar za przerwy- kary za otwarcie przerwy i kontynuację są różne w zależności od jej położenia: - mniejsze tam gdzie już jest przerwa - mniejsze gdy otwierana jest przerwa w ciągu aminokwasów hydrofilowych - większe gdy otwierana jest nowa blisko już istniejącej CLUSTAL W (X) Krok 3- progresywny alignment Stosowane są różne tablice podstawień w zależności od tego czy mamy sekwencje zbliżone ewolucyjnie czy też odległe (w zależności od wartości ocen przypisanych wierzchołkom drzewa ewolucyjnego) CLUSTAL W (X) [~]% clustalw ************************************************************** ******** CLUSTAL W (1.7) Multiple Sequence Alignments ******** ************************************************************** 1. Sequence Input From Disc 2. Multiple Alignments 3. Profile / Structure Alignments 4. Phylogenetic trees S. Execute a system command H. HELP X. EXIT (leave program) Your choice: CLUSTAL W (X) Na wejściu program przyjmuje następujące formaty plików: NBRF/PIR EMBL/SwissProt Pearson (Fasta) GDE Clustal GCG/MSF RSF CLUSTAL W (X) ****** MULTIPLE ALIGNMENT MENU ****** 1. Do complete multiple alignment now (Slow/Accurate) 2. Produce guide tree file only 3. Do alignment using old guide tree file 4. Toggle Slow/Fast pairwise alignments = SLOW 5. Pairwise alignment parameters 6. Multiple alignment parameters 7. Reset gaps between alignments? = OFF 8. Toggle screen display = ON 9. Output format options S. Execute a system command H. HELP or press [RETURN] to go back to main menu Your choice: CLUSTAL W (X) Your choice: 5 ********* PAIRWISE ALIGNMENT PARAMETERS ********* Slow/Accurate alignments: 1. Gap Open Penalty :15.00 2. Gap Extension Penalty :6.66 3. Protein weight matrix :BLOSUM30 4. DNA weight matrix :IUB Fast/Approximate alignments: 5. Gap penalty :5 6. K-tuple (word) size :2 7. No. of top diagonals :4 8. Window size :4 9. Toggle Slow/Fast pairwise alignments = SLOW H. HELP Enter number (or [RETURN] to exit): CLUSTAL X CLUSTAL W (X) Zasady budowania alignmentów: Im więcej sekwencji w przyrównaniu tym bardziej jest on informatywny Nie włączać do budowanego alignmentu sekwencji, których podobieństwo jest > 80% Sekwencje, które pochodzą z jednych podrodzin powinny być przyrównywane najpierw osobno, a do końcowy alignment wielu sekwencji budujemy na reprezentantach poszczególnych grup Ćwiczenie 1 - Pobierz plik http://mafft.cbrc.jp/alignment/software/ex2.txt - Następnie ściągnij i zainstaluj programy clustalx http://www.clustal.org/clustal2/ oraz seaview http://doua.prabi.fr/software/seaview - W przypadku braku możliwości zainstalowania programu idź do strony http://www.ebi.ac.uk/Tools/msa/clustalw2/ - Wykonaj alignment, pamiętając o zasadach budowy alignmentu. Wynik obejrzyj używając seaview. T-COFFEE Krok1 Każda para Si, Sj jest globalnie przyrównywana (przy użyciu CLUSTALW) oraz lokalnie przyrównywana (przy użyciu programu Lalign z pakietu FASTA) Z lokalnego alignmentu branych jest 10 najlepszych nieprzecinających się alignmentów. Powstają w ten sposób 2 biblioteki przyrównań. T-COFFEE T-COFFEE T-COFFEE Krok2 Każde przyrównanie dostaje wagę równą liczbie dopasowań (par identycznych symboli), pomnożoną przez 100 i podzieloną przez liczbę par w alignmencie, które nie zawierają spacji Obie biblioteki są scalane w jedną – powtarzające się pary uliniowień pochodzące z obu bibliotek są łączone z wagą będącą sumą wag. Tak powstaje biblioteka główna T-COFFEE T-COFFEE Krok3 Dla ustalonej pary sekwencji A, B budujemy alignment trójek A, C, B, gdzie C oznacza dowolną sekwencje zadaną na wejściu, za wyjątkiem A oraz B. Dla trójki A, B, C przyjmujemy ocenę przyrównania równą minimum ocen alignmentów A i C oraz C i B. Bierzemy pod uwagę tylko te aminokwasy, które są wspólnie “sparowane” z C Dla pary każdej pary aminokwasów z A i B ocena ich przyrównania to suma wag w przyrównaniach: A i B oraz A, B i C T-COFFEE Krok3 Na podstawie uzyskanych wyników budujemy macierz podstawień dla aminokwasów występujących w sekwencjach A i B Dla par aminokwasów, które nie pojawiły się w alignmencie A, B ocena jest 0 Przy użyciu uzyskanej tablicy poprawiany jest alignment każdej pary A i B (metodą programowania dynamicznego T-COFFEE Krok3 Przy użyciu uzyskanej tablicy poprawiany jest alignment każdej pary A i B (metodą programowania dynamicznego) Następnie stosowana jest standardowa metoda progresywnego alignmentu. T-COFFEE Ćwiczenie 2 -Ponownie operujemy na pobranym pliku - Ściągnij i zainstaluj program T-COFFEE http://www.tcoffee.org/Projects/tcoffee/#DOWNLOAD - W przypadku braku możliwości zainstalowania programu idź do strony http://www.ebi.ac.uk/Tools/msa/tcoffee/ - Wykonaj alignment - Wynik obejrzyj w programie seaview. Porównaj z wynikiem pochodzącym z programu clustalw. Metody MSA Alignment progresywny- algorytm zaproponowany przez Fenga i Doolitla w 1987r, stosowany powszechnie do dzisiaj. Dwa najpopularniejsze programy, zaimplementowane z udziałem tego algorytmu to: CLUSTAL W(X) T-COFFEE Alignment iteracyjny- program MUSCLE Muscle Program, który znakomicie sprawdza się przy dużych zbiorach danych, a także w przypadku już wykonanych alignmentów, które są bardzo “dziurawe” Muscle 4 kroki programu MUSCLE Budowana jest macierz odległości pomiędzy parami sekwencji, na podstawie podobieństwa k-merów Wyznaczane jest drzewo nieukorzenione metodą UPGMA Metodą progresywnego alignmentu wyznaczane jest przyrównanie wszystkich sekwencji Uzyskany alignment jest “poprawiany” wszelakimi dostępnymi metodami. Muscle Edytory przyrównań Alignmenty wyznaczone metodami PILEUP oraz CLUSTAL mogą być wizualizowane przy pomocy programu LINEUP MACAW oraz SeqVu są bardzo dobrymi edytorami CINEMA (Colour INteractive Editor for Multiple Alignments) to edytor napisany w Javie, możliwość oglądania wyników CLUSTAL, BLAST oraz specjalny moduł DotPlot Z ciekawostek... Edytory wyświetlają różne aminokwasy w przyrównaniach za pomocą różnych kolorów, w zależności od ich właściwości (na przykład prolina I glicyna są częstymi aminokwasami w białkach błonowych, mają swój kolor- brązowy, podobnie cysteina jest niezwykła i ma swój własny kolor). Lista jest następująca: Polarne ładunek dodatni H, K, R Niebieski Polarne, ładunek ujemny D, E Czerwony Polarne neutrale S, T, N, Q Zielony Niepolarne, alifatyczne A, V, L, I, M Białye Niepolarne, aromatyczne F, Y, W Fioletowy P, G Brązowy C Żółty Znaki specjalne B, Z, X, Szary Ewolucja molekularna Budowa drzew filogenetycznych Drzewo filogenetyczne Spójny graf acykliczny, który przedstawia zależności między określonymi rodzajami jednostek (gatunki, sekwencje białek, sekwencje DNA). http://pl.wikipedia.org/wiki/Plik:Cladogram_chloroplast_supergroups.svg Drzewo filogenetyczne Drzewa filogenetyczne mogą być ukorzenione lub nieukorzenione. Drzewa nieukorzenione obrazują jedynie względne zależności między badanymi cząsteczkami. Ukorzenienie drzewa pozwala ukierunkować odtwarzanie przebiegu ewolucji. Większość algorytmów zwraca drzewa nieukorzenione. Topologia i opis ukorzenionego drzewa filogenetycznego Korzeń ma numer 2n-1 11 Węzły wewnęrzne mają numery od n+1 do 2n-2 10 8 7 3 1 3 2 9 3 3 Długość gałęzi 3 3 4 2 5 2 6 Liście mają numerację od 1 do n Trochę liczb... Niech n będzie liczbą liści w drzewie filogenetycznym. Wówczas: – Liczba wszystkich węzłów drzewa ukorzenionego jest równa 2n-1 (nieukorzenionego 2n-2) – Liczba wszystkich krawędzi drzewa ukorzenionego jest równa 2n-2 (nieukorzenionego 2n-3) – Liczba możliwych pozycji umieszczenia korzenia w drzewie powoduje, że drzew ukorzenionych przy tej liczbie liści jest (2n-3) razy więcej niż drzew nieukorzenionych Ukorzenianie drzewa Metoda punktu środkowego - korzeń umieszczamy pośrodku najdłuższej gałęzi Umieszczanie korzenia poprzez grupę zewnętrzną włączamy do analizy dalece spokrewnioną z pozostałymi cząsteczkę, która w sposób naturalny ukorzenia cały graf. 1 Ukorzenianie drzewa 3 2 4 1 1 3 2 3 2 1 2 3 1 3 2 1 1 3 2 4 4 2 1 3 1 3 1 3 2 3 2 2 Ukorzenianie drzewa – przykład rzeczywisty Metody budowy drzew Dane wejściowe używane do budowy drzew dzielą się na dwie podstawowe grupy: – dystanse genetyczne, molekularne – drzewo filogenetyczne – cechy (rozumiane też jako jednostki dyskretne np. listingi mutacji danego locus)- drzewo fenetyczne, które pozwalają na wnioskowanie o własnościach genetycznych poprzednich w stosunku do analizowanych pokoleń. Metody budowy drzew Metody rekonstrukcji drzew dzielą się na oparte na grupowaniu (ang. clustering) oraz na poszukiwaniu (ang. searching) Dobry algorytm filogenetyczny - cechuje się szybkością działania, - operuje skutecznie nawet na niewielkiej ilości danych wejściowych, - pozwala uzyskać takie samo drzewo po dodaniu kolejnych danych Żadna opracowana dotąd metoda nie spełnia jednocześnie wszystkich powyższych założeń! Metody budowy drzew 1. Metody oparte na odległości par sekwencji: – UPGMA – NJ (metoda najbliższego sąsiada) 2. Metody parsymonii 3. Metoda największej wiarygodności 4. Metody oparte na analizie prawdopodobieństwa Metody budowy drzew 1. Metody oparte na odległości par sekwencji: – UPGMA – NJ (metoda najbliższego sąsiada) 2. Metody parsymonii 3. Metoda największej wiarygodności 4. Metody oparte na analizie prawdopodobieństwa UPGMA (Unweighted Pair Group Method Using Arithmetic Averages) Najmniej skomplikowany algorytm budowy drzewa. Drzewo konstruowane jest w sposób intuicyjny, w oparciu o algorytm iteracyjnego grupowania cząsteczek, zgodnie z którym każde dwie cząsteczki, które dzieli najmniejszy spośród wszystkich obliczonych dystans, łączone są krawędzią. Dendrogram uzyskany tą metodą zawsze jest ukorzeniony Jakiekolwiek odstępstwo od stałości tempa mutacji prowadzi do uzyskania błędnego grafu Znajduje zastosowanie w analizie danych mikromacierzowych UPGMA (Unweighted Pair Group Method Using Arithmetic Averages) Definicja Niech dij będzie odległością pomiędzy dwoma klastrami Ci oraz Cj, wówczas: 1 d ij = d pq ∑ ∣Ci∣∣C j∣ dla p należącego do Ci oraz q należącego do Cj |Ci|, |Cj| to liczba sekwencji klastrach i oraz j, odpowiednio UPGMA (Unweighted Pair Group Method Using Arithmetic Averages) Definicja Niech Ck będzie sumą dwóch odrębnych klastrów Ci oraz Cj. Wówczas odległość pomiędzy Ck i klastrem Cl jest równa: d kl = d il∣C i∣+d jl∣C j∣ ∣C i∣+∣C j∣ przy czym klaster Cl jest odrębnym klastrem od Ci oraz Cj UPGMA Algorytm Krok 1 Krok 2 UPGMA Algorytm Krok 3 Krok 4 Krok 5 UPGMA- podsumowanie algorytmu Inicjalizacja: Przypisz każdą sekwencję i do jej własnego klastra Ci. Każdej sekwencji przypisz liść T i umieść go na wysokości 0. Kolejne iteracje: Wyznacz dwa klastry i, j dla których odległość dij jest najmniejsza. Zdefiniuj nowy klaster k poprzez wyznaczenie sumy dwóch klastrów I wyznacz dkl dla każdego l UPGMA- podsumowanie algorytmu Kolejne iteracje: Zdefiniuj węzeł k z liśćmi I oraz j, umieść je na wysokości dij/2. Umieść k w zbiorze klastrów, usuń ze zbioru i oraz j Terminacja: Jeżeli poza drzewem pozostały tylko dwa klastry i oraz j umieść węzeł na wysokości dij/2 Problemy związane z metodą UPGMA Analizowane sekwencje muszą spełniać warunek ultrametryczności: dist(A, C)<= max(dist (A, B), dist(B, C)) Oznacza to, że metoda UPGMA jest bardzo "wrażliwa" na nierówne gromadzenie mutacji przez organizmy (problem "zegara molekularnego" Algorytm NJ Metoda ta bierze pod uwagę zarówno odległość między łączonymi obiektami, jak i ich odległość do wszystkich pozostałych. Jest metodą spójną. Dla dobrych danych, jej wyniki nie odbiegają znacząco od parsymonii, największej wiarygodności i metod bayesowskich. NJ- algorytm Krok 1 Dla każdego elementu wyznaczamy parametr net divergence r (i): r(A)=5+4+7+6+8=30 r(B)=5+7+10+9+11=42 r(C)=4+7+7+6+8=32 r(D)=7+10+7+5+9=38 r(E)=6+9+6+5+8=34 r(F)=8+11+8+9+8=44 NJ- algorytm Krok 2 Obliczamy nową macierz odległości Według wzoru: M(ij)=d(ij) - [r(i) + r(j)]/(N-2) NJ- algorytm Krok 3 Wybieramy parę sąsiadów, dla których odległość w macierzy jest najmniejsza. Łączymy ich w jeden klaster U. Wyznaczamy długości gałęzi od węzła wewnętrznego U do liści A oraz B: S(AU) =d(AB) / 2 + [r(A)-r(B)] / 2(N-2) = 1 S(BU) =d(AB) -S(AU) = 4 NJ- algorytm Krok 4 Wyznaczamy nową macierz odległości z uwzględnieniem węzła U: d(CU) = d(AC) + d(BC) - d(AB) / 2 = 3 d(DU) = d(AD) + d(BD) - d(AB) / 2 = 6 d(EU) = d(AE) + d(BE) - d(AB) / 2 = 5 d(FU) = d(AF) + d(BF) - d(AB) / 2 = 7 Powtarzamy kolejne kroki do momentu gdy wszystkie liście zostaną sklastrowane w drzewie NJ- wady I zalety Zalety szybki algorytm, znajduje więc zastosowanie do analizy dużych zbiorów danych uwzględnia poprawkę dla wielokrotnych podstawień uwzględnia istnienie gałęzi o bardzo różnych długościach Wady informacja sekwencyjna jest zredukowana NJ daje w wyniku tylko jedno możliwe drzewo silnie zależy od użytego modelu ewolucji Metoda maksymalnej parsymonii Opiera się na założeniu, że najlepsze drzewo filogenetyczne odzwierciedla historię ewolucyjną z najmniejszą ilością zmian (mutacji). Pozwala przypisać różnym mutacjom odmienne wagi podczas analizy, czy zignorować możliwość występowania mutacji w miejscach istotnych funkcjonalnie. Problem jaki może powstać przy użyciu tej metody to błędne wyniki, przy nie uwzględnieniu rewersji i homoplazji. Drzewo MP jest zawsze nieukorzenione, nie daje informacji odnośnie czasu dywergencji. Metoda maksymalnej parsymonii Przeszukuje wszystkie możliwe topologie drzew w poszukiwaniu najlepszego drzewa. Liczba możliwych drzew ukorzenionych dla n sekwencji jest równa: Nr = (2n -3)!/(2exp(n -2)) (n -2)! Liczba możliwych drzew nieukorzenionych dla n sekwencji: Nu = (2n -5)!/(2exp(n -3)) (n -3)! Metoda parsymonii jest więc bardzo wymagająca czasowo! Metoda maksymalnej parsymonii Wybór optymalnego drzewa z zastosowaniem metody bootstrapu Metody budowy drzew 1. Metody oparte na odległości par sekwencji: UPGMA NJ (metoda najbliższego sąsiada) 2. Metody parsymonii 3. Metoda największej wiarygodności (ang. Maximum Likelihood) 4. Inne metody oparte na analizie prawdopodobieństwa Metoda największej wiarygodności Zaproponowana przez angielskiego statystyka R.A. Fischera w 1922r. Znajduje zastosowanie w filogenetyce, ale również ekonometrii, fizyce cząstek elementarnych czy analizie obrazów satelitarnych. http://statgen.iop.kcl.ac.uk/bgim/mle/sslike_3.html Metoda największej wiarygodności Wiarygodność to prawdopodobieństwo wystąpienia danych, przy założeniu występowania danego modelu probabilistycznego. Prawdopodobieństwo wystąpienia danych zależne jest od parametrów modelu. modelu Celem metody największej wiarygodności jest wybór takich parametrów modelu, który zmaksymalizuje wartość prawdopodobieństwa. Metoda największej wiarygodności - przykład Eksperyment: rzucamy 10-krotnie monetą. Wynik: {O, O, O, R, O, R, R, O, R, O} Na podstawie uzyskanych wyników chcemy oszacować czy dana moneta jest monetą symetryczną. Metoda największej wiarygodności - przykład Model, który opisuje prawdopodobieństwo zaobserwowania k reszek w n rzutach monetą ma rozkład dwumianowym zadany wzorem: P[k|p,n] = Cn,k pk(1-p)n-k gdzie p to prawdopodobieństwo wystąpienia reszki, Cn,k to liczba możliwości wystąpienia k reszek w n próbach. Metoda największej wiarygodności – kolejne kroki Krok 1. Wyznaczamy funkcję wiarygodności Krok 2. Wyznaczamy logarytm tej funkcji Krok 3. Wyznaczamy pochodne cząstkowe Jeżeli funkcja L jest dyskretna wyznaczamy Krok 4. Rozwiązujemy układ równań W przypadku funkcji dyskretnej wiarygodność jest maksymalizowana przez najmniejsze n dla którego wyznaczony stosunek jest <=1 Metoda największej wiarygodności - przykład Cel: Oszacowujemy parametr p. W przypadku analizowanego eksperymentu: L 〈 p∣k,n〉 =C n,k pk (1− p )n−k log L〈 p∣k,n 〉=log (n!)−log (k ! )− log ((n−k )! )+klogp+ (n−k ) log (1− p ) Po wyznaczeniu pochodnej cząstkowej z log L[p|k,n] po zmiennej p uzyskujemy: ∂log L =k−np ∂p Metoda największej wiarygodności - przykład Estymator p w tym eksperymencie jest więc równy k/n. 3 orły, 7 reszek p ML 0.3 0.26682 5 orłów, 5 reszek 0.5 0.24649 8 orłów, 2 reszki 0.8 0.30199 9 orłów, 1 reszka 0.9 0.38742 http://people.brandeis.edu/~moshep Metoda największej wiarygodności - filogenetyka Wejście: n przyrównanych sekwencji o długościach m Cel: rekonstrukcja drzewa, które najlepiej wyjaśnia historię ewolucji sekwencji, cała procedura polega na przeszukaniu wszystkich topologii, przy czym powinny być uwzględnione Również długości krawędzi Funkcja wiarygodności: prawdopodobieństwo warunkowe uzyskania danych wejściowych, przy założeniu określonego modelu ewolucyjnego Probabilistyczne modele ewolucji 1. Model Jukesa i Cantora- zakłada niezależność zachodzenia mutacji, częstości występowania poszczególnych nukleotydów są takie same, równe ¼. Probabilistyczne modele ewolucji 1. Model Jukesa i Cantora- jeżeli w naszych dwóch sekwencjach występuje p zmian, wówczas odległość pomiędzy nimi wyznaczamy według wzoru: Probabilistyczne modele ewolucji 2. Model Kimury- uwzględnia występowanie tranzycji (zamiany puryny w purynę i pirymidyny w pirymidynę A<->G, C<->T) oraz transwersji (zamiana typów nukleotydów A<->T, G<->T, A<->C, C<->G) Q= Probabilistyczne modele ewolucji 3. Model Felsensteina- zakłada różnice w częstościach występowania nukleotydów Probabilistyczne modele ewolucji 4. Model Hasegawa, Kishino, Yano- uwzględnia zarówno różnice w występowaniu tranzycji i transwersji, jak I zakłada różną częstość występowań nukleotydów ML i filogenetyka - przykład n=5, m=2 Nukleotyd Czarodziej Elf Hobbit Karzeł Człowiek 1 A C T G T 2 A A C G G Zakładamy model Jukesa-Cantora, w którym częstości wystąpień wszystkich nukleotydów są takie same: π1 = π2 = π3 = π4 = 1/4. ML i filogenetyka - przykład Nukleotyd Czarodziej Elf Hobbit Karzeł Człowiek 1 A C T G T 2 A A C G G Rozważamy pierwszą pozycję w kwasie DNA, nukleotydy dodajemy w kolejności alfabetycznej do drzewa: A, C, G, T, T ML i filogenetyka – proces Poissona Proces stochastyczny jest procesem Poissona z przyrostem λ dla pewnego λ ≥ 0, jeżeli ma następujące własności: 1. W czasie t=0 liczba zdarzeń jakie zaszły jest równa 0 2. Każde kolejne zdarzenie zachodzące w czasie t ∈ T jest niezależne od pozostałych 3. Liczba zdarzeń w każdym przedziale czasowym t jest zmienną losową, mającą rozkład Poissona ze średnią równą λt, ML i filogenetyka - przykład Nukleotyd Czarodziej Elf Hobbit Karzeł Człowiek 1 A C T G T 2 A A C G G Prawdopodobieństwo mutacji nukleotydu i w nukleotyd j w danej jednostce czasu t jest wyznaczane ze wzoru: gdzie πj to częstość występowania nukleotydu j ML i filogenetyka - przykład Nukleotyd Czarodziej Elf Hobbit Karzeł Człowiek 1 A C T G T 2 A A C G G Wyszukiwane jest takie ustawienie korzenia, aby uzyskana była najlepsza wartość L dla zadanej pozycji. Wyznaczane są również od razu długości gałęzi. W najdokładniejszych programach (n.p. PHYML) używa się do tego celu algorytmu Expectation-Maximization (EM). ML i filogenetyka - przykład Nukleotyd Czarodziej Elf Hobbit Karzeł Człowiek 1 A C T G T 2 A A C G G W kolejnym kroku włączamy do drzewa kolejny nukleotyd. Dla Każdego kolejnego drzewa używamy algorytmu EM do oceny Długości gałęzi.Następnie liczymy wiarygodności. ML i filogenetyka - przykład Nukleotyd Czarodziej Elf Hobbit Karzeł Człowiek 1 A C T G T 2 A A C G G W kolejnym kroku włączamy do drzewa kolejny nukleotyd. Dla Każdego kolejnego drzewa używamy algorytmu EM do oceny Długości gałęzi.Następnie liczymy wiarygodności – iloczyn prawdopodobieństw wystąpienia wszystkich liści, z uwzględnieniem Wyznaczonych długości gałęzi. ML i filogenetyka - przykład Nukleotyd Czarodziej Elf Hobbit Karzeł Człowiek 1 A C T G T 2 A A C G G Następnie liczymy to samo dla pozycji drugiej. ML i filogenetyka – przykład Nukleoty d Czarodzi Elf ej Hobbit Karzeł Człowi ek 1 A C T G T 2 A A C G G Po wybraniu najlepszego uśrednionego drzewa opisującego gatunki które wymagało najmniej zmian w ewolucji, dokonujemy jeszcze sprawdzenia czy jest ono najlepsze. Dzieje się to poprzez dokonywanie lokalnych przestawień i ponowne wyznaczenie ML. ML i filogenetyka – przykład Nukleotyd Czarodziej Elf Hobbit Karzeł Człowiek 1 A C T G T 2 A A C G G Ćwiczenie 1 Proszę zaimplementować algorytm UPGMA, do testów posłużyć się macierzą ze slajdu 54. Ćwiczenie 2 Proszę zaimplementować algorytm NJ (najbliższego sąsiada), do testów posłużyć się macierzą ze slajdu 54. Ćwiczenie 3 Proszę zaimplementować algorytm maksymalnej parsymonii, do testów posłużyć się macierzą ze slajdu 54.