2017-03-21 Filogenetyka Dr Marek D. Koter, dr hab. Marcin Filipecki Katedra Genetyki, Hodowli i Biotechnologii Roślin, SGGW 1 2017-03-21 Twórcy teorii ewolucji… Charles Darwin Jean Baptiste de Lamarck Podróż HMS Beagle 2 2017-03-21 i zbrodniczy szarlatan…. Trofim Denisowicz Łysenko Gen i chromosom Thomas Hunt Morgan Gregor Mendel 3 2017-03-21 Kościół Katolicki wobec ewolucji Katolik.pl Filogenetyka • Cel – rekonstrukcja historii ewolucji wszystkich organizmów • Klasyczne podejście: historia ewolucji jest odtwarzana na podstawie porównań cech morfologicznych i fizjologicznych badanych organizmów. 4 2017-03-21 Cechy, które mogą być użyte do budowy drzewa rzędów owadów: Poruszanie się Okrycie stwardniałym oskórkiem lub kokonem, Widoczność niezupełnie rozwiniętych narządów Widoczność niecałkowicie wykształconych i nie funkcjonujących odnóży, Widoczność zawiązków skrzydeł Widoczność aparatu gębowego Zdolność do aktywnego poruszania się Pełne wykształcenie narządów lokomotorycznych Pełne wykształcenie zmysłów Obecność członowanych odnóży krocznych Liczba członowanych odnóży krocznych Obecność pseudopodiów Liczba pseudopodiów Geny, które bierze się najczęściej do budowy drzew genów: Cytochrom B NADH dehydrogenase subunit I (ND1) 18S RNA 28S RNA 5 2017-03-21 Filogenetyka • Molekularne podejście: zadaniem filogenetyki molekularnej jest zrekonstruowanie związków filogenetycznych między badanymi sekwencjami • Podstawowe założenie w filogenetyce molekularnej: • sekwencje przodka mutują w sekwencje potomków • podobne gatunki są genetycznie blisko spokrewnione Mechanizmy ewolucji • Mutacje w genach Mutacje są rozprzestrzeniane w populacji poprzez dryf genetyczny i/lub selekcję naturalną • Duplikacja i rekombinacja genów 6 2017-03-21 • tempo mutacji zależy od regionu w genomie, genie, rodzaju genu; • częściej obserwuje się podstawienia w III pozycji kodonów; CCG (prolina) zmiana G na jakikolwiek nt nie powoduje zmiany aminokwasu CTG (leucyna) zmiana C-T nie powoduje zmian • zmiana SYNONIMICZNA • zmiana NIESYNONIMICZNA • częściej obserwuje się podstawienia typu tranzycji (purynapuryna, pirymidyna-pirymidyna) niż transwersji; • częściej obserwowane są podstawienia między aminokwasami podobnymi do siebie, ze względu na swoje właściwości biochemiczne, biofizyczne, np.: izoleucyna – lecyna walina – izoleucyna Kwas asparaginowy – kwas glutaminowy Symbol 3-literowy OBOWIĄZUJĄCE SYMBOLE AMINOKWASÓW znaczenie kodony A B Ala Asp, Asn Alanina Asparagina, Asparaginian GCT, GCC, GCA, GCG GAT, GAC, AAT, AAC C D E F G H I K L M N P Q R S T V W X Y Z Cys Asp Glu Phe Gly His Ile Lys Leu Met Asn Pro Gln Arg Ser Thr Val Trp Xxx Tyr Glu, Gln Cysteina Asparaginian Glutaminian Fenyloalanina Glicyna Histydyna Izoleucyna Lizyna Leucyna Metionina Asparagina Prolina Glutamina Arginina Seryna Treonina Walina Tryptofan Nieznany Tyrozyna Glutaminian, Glutamina TGT, TGC GAT, GAC GAA, GAG TTT, TTC GGT, GGC, GGA, GGG CAT, CAC ATT, ATC, ATA AAA, AAG TTG, TTA, CTT, CTC, CTA, CTG ATG AAT, AAC CCT, CCC, CCA, CCG CAA, CAG CGT, CGC, CGA, CGG, AGA, AGG TCT, TCC, TCA, TCG, AGT, AGC ACT, ACC, ACA, ACG GTT, GTC, GTA, GTG TGG * End Terminator TAA, TAG, TGA TAT, TAC GAA, GAG, CAA, CAG 7 2017-03-21 • rzadko obserwuje się podstawienia między aminokwasami bardzo różniącymi się swoimi właściwościami: tryptofan – izoleucyna • rzadko obserwuje się podstawienia między aminokwasami pełniącymi ważne role w białkach: tryptofan (TGG) na kodon stop (TAG) • mutacje missens – jeden aminokwas zastępowany innym • mutacje nonsens – terminacja translacji • zmiana ramki odczytu Wyrazem analiz filogenetycznych są drzewa filogenetyczne między cząsteczkami – drzewo genów lub organizmami – drzewo gatunków 8 2017-03-21 Korzeń – wspólny przodek dla wszystkich taksonów Gałąź – obrazuje związki ewolucyjne między porównywanymi jednostkami taksonomicznymi Długość gałęzi – zazwyczaj reprezentuje liczbę zmian, które się zdarzyły w danej linii ewolucyjnej Węzeł – reprezentuje miejsce rozgałęzień jednostek taksonimicznych (populacji, organizmu, genu). Liść – reprezentuje aktualnie analizowaną jednostkę taksonomiczną • Drzewa ukorzenione i nieukorzenione • znany wspólny przodek lub istnieje hipoteza na temat wspólnego przodka / nieznany wspólny przodek • Topologia drzewa • Długość gałęzi (czas ewolucji, ilość zmian) 9 2017-03-21 Przykładowe drzewa filogenetyczne Po co konstruuje się drzewa filogenetyczne? •Poznanie i zrozumienie historii ewolucyjnej •Mapowanie różnicowania szczepów patogennych do opracowania szczepionek •Wsparcie dla epidemiologów – Choroby infekcyjne – Defekty genetyczne • Narzędzie do przewidywania funkcji nowo odkrytych genów • Badania różnicowania układów biologicznych • Poznanie ekologii mikroorganizmów 10 2017-03-21 Filogenetyka zwana jest czasem kladystyką Klad – zbiór potomków pochodzących od pojedynczego przodka Podstawowe założenia kladystyki: 1. każda grupa organizmów jest spokrewniona przez pochodzenie od wspólnego przodka 2. kladogeneza ma charakter bifurkacyjny (rozwidlający się) 3. zmiany w cechach pojawiają się w liniach filogenetycznych z upływem czasu Drzewo genów: bifurkacja – mutacja Drzewo gatunków: bifurkacja – specjacja Mutacja – warunek niezbędny, ale nie zawsze wystarczający do specjacji 11 2017-03-21 Często zapominamy o: I Domniemany znak równości między podobieństwem zestawu cech (np. nukleotydów), a pochodzeniem II Mutacje somatyczne ≠ mutacje genetyczne Mutacja – DNA lub białka wydziela się z tkanek somatycznych, dla filogenezy istotne są tylko mutacje w gametach III Cechy używane do budowy drzewa gatunków mają się nijak do cech używanych do budowy drzewa genów Homolog, ortolog, paralog 12 2017-03-21 Horyzontalny transfer genów Niektóre domyślne założenia kladystyki: • sekwencje są poprawne • sekwencje są homologiczne Podobieństwo – to wielkość obserwowalna, którą można określić np. jako % identycznych aminokwasów. Homologia – określa wspólne pochodzenie porównywanych genów (to może być wniosek wyciągnięty z analizy podobieństwa) Termin homologiczne oznacza odziedziczone po wspólnym przodku 13 2017-03-21 Niektóre domyślne założenia kladystyki (cd): • każda pozycja w sekwencjach dopasowanych (alignment) jest homologiczna z każdą odpowiednią pozycją w tym dopasowaniu • różnorodność sekwencji w danym zbiorze jest na tyle duża, że zawiera filogenetyczne sygnały, odpowiednie do rozwiązania postawionego problemu Jakich sekwencji użyć ? •DNA (mt, rDNA, powoli czy szybko ewoluujące) – Bardzo szczegółowe, niejednolite tempo mutacji •cDNA/RNA – Użyteczne dla bardziej odległych sekwencji homologicznych •Sekwencje białkowe – Użyteczne do badania większości odległych sekwencji homologicznych, możliwość konstrukcji bardzo rozległych ewolucyjnie drzew, bardziej jednolite tempo zmienności mutacyjnej, więcej elementów zmienności 14 2017-03-21 Sekwencje rybosomowego 16S RNA •Występują we wszystkich organizmach •Są wysoce konserwatywne •Nadają się do konstruowania bardzo rozległych ewolucyjnie drzew •Znane dla kilkudziesięciu tysięcy organizmów, głównie prokariotycznych Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Co jest obliczane? • Topologia drzewa –porządek (kolejność) odgałęzień i korzeń • Długość odgałęzień (czas ewolucji) • Sekwencje przodków • Wartości pokrewieństwa (np. prawdopodobieństwo poszczególnych przemian) • Wiarygodność drzewa 15 2017-03-21 Etapy analizy • Pobranie sekwencji DNA/RNA/białka • Wzajemne dopasowanie sekwencji (multiple alignment) • Obliczanie dystansów dla poszczególnych par • Konstruowanie drzewa: topologia + długość odgałęzień • Oszacowanie wiarygodności • Wizualizacja Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Dopasowywanie sekwencji (Multiple Sequence Alignment) • Dopasowanie spokrewnionych sekwencji w taki sposób, żeby odpowiadające sobie pozycje znajdowały się w tej samej kolumnie • Wypełnienie brakujących miejsca kreskami (delecje, insercje) • Każda kolumna znaków staje się pojedynczym elementem do dalszych obliczeń filogenetycznych Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski 16 2017-03-21 Dopasowanie i porównanie wielu sekwencji • Celem porównania wielu sekwencji jest ułożenie w kolumnach aminokwasów (nukleotydów) pochodzących od jednego aminokwasu (nukleotydu) w białku (genie) wspólnego przodka we wszystkich sekwencjach od niego pochodzących. Wstawienie przerwy Porównanie parami Porównanie parami wszystkich sekwencji • • • seq_1 & seq_ 2 0.91 seq_ 1 & seq_ 3 0.23 … seq_ 8 & seq_ 9 0.87 17 2017-03-21 Porównanie wielu sekwencji • W oparciu o dendrogram przewodni zaczyna się porównywanie grup sekwencji. • Drzewo przewodnie wskazuje, które sekwencje są najbliższe – a więc najpierw porównuje się te „łatwe”, a trudniejsze zostawia się na potem. 18 2017-03-21 Sekwencje nieułożone a b c d e mthislgslyshktaktingsdeaskmewhf mthvslgsmyshktgrtingsdqaskkmewhy mshisitmyshktartidgseqaskmewhy mthipigsmyshktaravngseqasklqwhy mthipigsmystartincseqasklewhy Porównanie wielu sekwencji C D mthipigsmyshktaravngseqasklqwhy E mthipigsmys--tartincseqasklewhy A B 19 2017-03-21 Porównanie wielu sekwencji C D mthipigsmyshktaravngseqasklqwhy E mthipigsmys--tartincseqasklewhy A mthislgslyshktaktingsdeas-kmewhf B mthvslgsmyshktgrtingsdqaskkmewhy Porównanie wielu sekwencji C mshisi-tmyshktartidgseqaskmewhy D mthipigsmyshktaravngseqasklqwhy E mthipigsmys--tartincseqasklewhy A mthislgslyshktaktingsdeas-kmewhf B mthvslgsmyshktgrtingsdqaskkmewhy 20 2017-03-21 Porównanie wielu sekwencji C mshisi-tmyshktartidgseqas-kmewhy D mthipigsmyshktaravngseqas-klqwhy E mthipigsmys--tartincseqas-klewhy A mthislgslyshktaktingsdeas-kmewhf B mthvslgsmyshktgrtingsdqaskkmewhy Sekwencje ułożone a b c d e mthislgslyshktaktingsdeas-kmewhf mthvslgsmyshktgrtingsdqaskkmewhy mshisi-tmyshktartidgseqas-kmewhy mthipigsmyshktaravngseqas-klqwhy mthipigsmys--tartincseqas-klewhy 21 2017-03-21 Metody obliczeniowe konstruowania drzew filogenetycznych • Metody analizy odległościowe (distance methods) – met. średnich połączeń – (UPGMA; unweighted pair group method with arithmetic mean, - met. przyłączania sąsiadów (NJ; neighbor joining) - met. Fitch-Margoliash (FM) - met. minimalnych odległości (ME) • Metody oparte na cechach (character based methods) - met. największej oszczędności (MP; Maximum Parsimony) - met. największej wiarygodności (ML; Maximum Likelihood) - met. oparta na statystyce Bayesa (BI: Bayesian Inference) • Łączenie drzew - drzewa konsensusowe, superdrzewa Budowa dendrogramu przewodniego Skonstruowanie dendrogramu przewodniego w oparciu o porównania parami Metoda średnich połączeń - UPGMA – unweighted pair group method with arithmetic mean (PileUp & Clustal V) Metoda przyłączania sąsiada - Neighbor-Joining (NJ) (Clustal W, Clustal X) 22 2017-03-21 Metody odległościowe • Odległość wyrażana jest w ułamkach miejsc, którymi różnią się między sobą 2 sekwencje w wielokrotnym przyrównaniu • Para sekwencji różniąca się w 10% miejsc jest bliżej spokrewniona niż para różniąca się w 30%. Metody odległościowe przodek A A A linia potomna C – A C – G C C liczba zmian 0 1 0 23 2017-03-21 Metoda nieważona grupowania parami ze średnią arytmetyczną UPGMA • program znajduje najpierw parę taksonów, którą dzieli najmniejsza różnica i ustala punkt rozejścia między nimi, czyli węzeł, w połowie odległości. • łączy je w klaster i wpisuje do nowej macierzy odległości dzielące ten klaster od pozostałych • powtarzanie tych etapów, aż macierz zostanie zredukowana do 1 obiektu 24 2017-03-21 UPGMA - krok 1 A B C D E A 0 6 9 11 9 B 6 0 7 9 7 C 9 7 0 8 6 D 11 9 8 0 4 E 6 4 0 9 7 D E UPGMA - krok 2 A B C DE A 0 6 9 10 D B 6 0 7 8 E C 9 7 0 7 A DE 10 8 7 0 B 25 2017-03-21 UPGMA - krok 3 AB C DE C AB 0 8 9 D C 8 0 7 E DE 9 7 0 A B UPGMA - krok 4 AB CDE C AB 0 8.5 D CDE 8.5 0 E A B 26 2017-03-21 A B C 1. D E A 0 6 9 11 9 B 6 0 7 9 7 C 9 7 0 8 6 D 11 9 8 0 4 9 7 6 4 0 E 3. AB C DE AB 0 8 A B C DE 2. A 0 6 9 10 D B 6 0 7 8 E C 9 7 0 7 A DE 10 8 7 0 B D E C 9 D 4. AB CDE AB 0 8.5 CDE 8.5 0 C D E C 8 0 7 E DE 9 7 0 A A B B UPGMA • Hipoteza zegara molekularnego – ewolucja różnych gatunków zachodzi w takim samym tempie (FAŁSZ) • Rzadko używana metoda przez filogenetyków, nadal popularna w epidemiologii drobnoustrojów 27 2017-03-21 Metody odległościowe – przyłączanie sąsiadów (NJ) • umożliwia konstruowanie nieukorzenionych drzew • drzewa addytywne – odległość pomiędzy gatunkami reprezentowanymi przez liście drzewa są równe sumie długości łączących je gałęzi (odległości od obu taksonów do węzła nie muszą być identyczne) i n j Metody oparte na cechach • metoda największej oszczędności (MP) • metoda największej wiarygodności (ML) • metoda oparta na statystyce Bayesowskiej 28 2017-03-21 Metoda największej oszczędności (MP) • Metoda parsymonii (oszczędności) – najodpowiedniejsze jest takie drzewo, w którym potrzebujemy najmniejszej liczby zmian do wyjaśnienia danych występujących jako przyrównanie sekwencji. Kryterium parsymonii Które drzewo jest najprostszym wytłumaczeniem obserwowanego zróżnicowania cechy między gatunkami? + wykształcenie się cechy * utracenie cechy + + + + * A B C D A D C B A C D B 29 2017-03-21 Metoda największej wiarygodności • Poszukiwanie drzewa, które zgodnie z określonym modelem ewolucji maksymalnie uwiarygodnia dane. • Wiarygodność obliczamy dla: • topologii drzewa • długości gałęzi • wartości wskaźników tempa podstawień (częstość występowania zasady, liczba tranzycji / liczby transwersji) • Wyznaczenie wartości ML może posłużyć do utworzenia rankingu alternatywnych drzew. Metoda bootstrap • Pozwala oszacować wiarygodność rozgałęzień w drzewach • Porównuje topologię drzewa dla losowo wygenerowanych dopasowań sekwencji (100 – 1000 dopasowań) • Drzewo z wartościami bootstrap (odsetek wygenerowanych drzew, w których obserwowano dokładnie takie samo rozgałęzienie linii ewolucyjnych) 30 2017-03-21 Charlie Sheen Thomas Bayes 31 2017-03-21 32 2017-03-21 33 2017-03-21 Dobór właściwego algorytmu •Niedyskretny charakter zmiennych jednostek, duża ilość danych, niewielkie zasoby obliczeniowe ==> Metoda najbliższego sąsiedztwa (Neighbor joining) •Dyskretny charakter zmiennych, niewielka liczba mutacji/homoplazja ==> Maximum Parsimony •Dyskretny charakter zmiennych, ograniczona długość sekwencji, występowanie zjawiska homoplazji ==>Maximum Likelihood • Dyskretny charakter zmiennych, wiele gatunków ==>Superdrzewo •Kompletne genomy ==>Filogeneza całych genomów 34