Konstrukcja drzew filogenetycznych wprowadzenie Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego Uniwersytet Warszawski Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Podobieństwo a homologia •Podobieństwo –sekwencje są podobne w całości lub fragmentach •Homologia –sekwencje pochodzą od wspólnego przodka Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Ortologi i paralogi •Ortolog – kombinacja genetyczna powstała w wyniku specjacji – można stosować do badań filogenetycznych organizmu •Paralog – efekt duplikacji genu przed specjacją – nie nadaje się do badań filogenezy organizmu Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Homoplazja •Podobieństwo sekwencji NIE będące rezultatem wspólnego pochodzenia •Może powstać wskutek ewolucji konwergentnej lub równoległej (parallelism) Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Drzewa filogenetyczne •Binarność konstrukcji •Drzewa ukorzenione i nieukorzenione •Topologia drzewa •Długość gałęzi (czas ewolucji) Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Filogeneza czego? •Organizmy –Filogeneza całych genomów –Rybosomowe RNA (namiastka genomu) •Szczepy (blisko spokrewnione mikroorganizmy) •Pojedyncze geny (lub rodziny genów) •Powtarzalne sekwencje DNA •Szlaki metaboliczne •Struktury drugorzędowe i trzeciorzędowe •Wszelkie dyskretne symbole •Języki i rodziny językowe Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Po co konstruuje się drzewa filogenetyczne? •Poznanie i zrozumienie historii ewolucyjnej •Mapowanie różnicowania szczepów patogennych do opracowania szczepionek •Wsparcie dla epidemiologów – Choroby infekcyjne – Defekty genetyczne • Narzędzie do przewidywania funkcji nowo odkrytych genów • Badania różnicowania układów biologicznych • Poznanie ekologii mikroorganizmów Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Drzewa ukorzenione i nieukorzenione •Korzeń – uwzględnienie przodka dla wszystkich taksonów •Drzewo nieukorzenione – typowy wynik, nieznany wspólny przodek •Drzewo ukorzenione – znany wspólny przodek Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Jakich sekwencji użyć ? •DNA – Bardzo szczegółowe, niejednolite tempo mutacji •cDNA/RNA – Użyteczne dla bardziej odległych sekwencji homologicznych •Sekwencje białkowe – Użyteczne do badania większości odległych sekwencji homologicznych, możliwość konstrukcji bardzo rozległych ewolucyjnie drzew, bardziej jednolite tempo zmienności mutacyjnej, więcej elementów zmienności Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Sekwencje rybosomowego 16S RNA •Występują we wszystkich organizmach •Są wysoce konserwatywne •Nadają się do konstruowania bardzo rozległych ewolucyjnie drzew •Znane dla kilkudziesięciu tysięcy organizmów, głównie prokariotycznych •Nieodpowiednie do bardzo szcegółowych badań filogenezy Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Co jest obliczane? •Topologia drzewa –porządek (kolejność) odgałęzień –korzeń •Długość odgałęzień (czas ewolucji) •Sekwencje przodków •Wartości pokrewieństwa (np. prawdopodobieństwo poszczególnych przemian) •Wiarygodność drzewa Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Etapy analizy •Pobranie sekwencji DNA/RNA/białka •Wzajemne dopasowanie sekwencji (multiple alignment) •Obliczanie dystansów dla poszczególnych par •Konstruowanie drzewa: topologia + długość odgałęzień •Oszacowanie wiarygodności •Wizualizacja Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Dopasowywanie sekwencji (Multiple Sequence Alignment) •Dopasowanie spokrewnionych sekwencji w taki sposób, żeby odpowiadające sobie pozycje znajdowały się w tej samej kolumnie •Wypełnienie brakujących miejsca kreskami (delecje) •Każda kolumna znaków staje się pojedynczym elementem do dalszych obliczeń filogenetycznych Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Algorytmy do konstruowania drzew filogenetycznych Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Metody obliczeniowe konstruowania drzew filogenetycznych •Metody analizy odległości –UPGMA, metoda najbliższego sąsiedztwa (neighbor joining) •Metoda największej oszczędności (Maximum Parsimony) •Metoda największej szansy (Maximum Likelihood) •Łączenie drzew –Drzewa konsensusowe, superdrzewa Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Pomiar podobieństwa a pomiar odległości •Pomiar podobieństwa –większa wartość =bardziej podobny •Pomiar odległości –większa wartość =mniej podobny –nierówność trójkątnych relacji •|x,y|+|y,z|<or =|x,z| –częste założenie addytywności dla konstrukcji drzew opartych na analizie odległości Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Proste odległości (dystanse) między porównywanymi sekwencjami •Liczba różnych pozycji •Różnice wagowe •Edycja odległości (ważona suma insercji, delecji, substytucji) •Wagowe macierze kosztów substytucji–PAM,BLOSUM •Poprawki Poissona Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Miara odległości między sekwencjami • p =n_d /n • =liczba różniących się symboli /ogólna liczba wszystkich symboli • p nie jest proporcjonalne do czasu ewolucji •Przyczyna: w danym miejscu może zajść więcej niż jedna mutacja •Poprawka Poissona: • d =-ln (1-p) Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Pomiar podobieństwa dla struktur białkowych •Utworzenie mapy kontaktów (graf) dla każdej struktury białka –wierzchołek =reszta (aminokwas) –krawędź =odległość między aminokwasami mniejsza niż 5 Angstromów •Dopasowywanie struktur parami –analiza nienakładających się pozycji w porównywanych strukturach •Pomiar podobieństwa –=liczba wspólnych krawędzi z map kontaktów Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Metoda najbliższego sąsiedztwa (Neighbor Joining Distance Method) •Compute pairwise distances,d(i,j),set L =all leaves T •Compute D(i,j)=d(i,j)-(r(i)+r(j)) •r(i)=average distance to other leaves •Merge closest pair of sequences i and j –for new k,set d(k,m)=1/2 (d(i,m)+d(j,m)-d(i,j))for m in L –Add k to T with •set d(i,k)=1/2 (d(i,j)+r(i)-r(j)) •set d(j,k)=d(i,j)-d(i,k) –replace i and j with k in L •Repeat Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Metoda najbliższego sąsiedztwa •Generuje drzewa nieukorzenione •Zakłada addytywność odległości w konstruowanym drzewie Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Cechy metod opartych na obliczaniu odległości (różnic) •Najszybsze metody •Niezbyt dokładne, lub nie zawsze skuteczne wykorzystanie danych •Możliwość korzystania z danych o charakterze niedyskretnym (nie tylko sekwencji) •Niestatystyczny model ewolucji •Brak oszacowania długości odgałęzień Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Metoda największej oszczędności (Maximum Parsimony) •Minimalizacja liczby stanów przejściowych (koniecznych zmian) na szlaku odgałęzień drzewa. •Model niestatystyczny •Brak możliwości obliczenia długości odgałęzień Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Metoda największej oszczędności (Maximum Likelihood) •Model wybitnie statystyczny •Istotna cecha metody =log likelihood (logarytm współczynnika prawdopodobieństwa) •Oblicza długości odgałęzień •Bardzo kosztowna obliczeniowo, stosuje heurystykę •Oszacowuje wiarygodność wyników •Wydajne wykorzystanie danych sekwencyjnych •Przykłady zastosowań:Phylip/dnaML,fastdnaML Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Metoda największej szansy - Założenia •Symbole (nukleotydy) ewoluują niezależnie od siebie •Zmiany tempa mutacji: –Zegar molekularny ==>jednolite tempo dla wszystkich pozycji i odgalęzień –Możliwa jest zmiana tempa zmienności mutacyjnej dla pozycji Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Łączenie drzew filogenetycznych •Drzewa konsensusowe –Dla drzew konstruowanych na tych sanych taksonach •Superdrzewa –Dla drzew zawierających nakładające się grupy taksonomiczne Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Superdrzewa •Superdrzewa konstruowane są z drzew obejmujących zachodzące na siebie grupy taksonomiczne •Superdrzewa są sposobem na konstruowanie bardzo dużych (rozległych ewolucyjnie i taksonomicznie) drzew •Zazwyczaj wymagane jest wyraźne wzajemne zachodzenie przynajmniej dla części par drzew (wspólne elementy) Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Filogeneza całych genomów •Badana jest na poziomie genów (nie sekwencji) •Stanowi wgląd w szersze przeorganizowanie genomu •Skuteczne podejście do badań odległych powiązań i bardziej globalnych mechanizmów zmienności •Uwzględnia inwersje i translokacje •Obecnie bardzo skuteczne narzędzie do badań filogenezy i ewolucji organizmów prokariotycznych Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Dobór właściwego algorytmu •Niedyskretny charakter zmiennych jednostek, duża ilość danych, niewielkie zasoby obliczeniowe ==> Metoda najbliższego sąsiedztwa (Neighbor joining) •Dyskretny charakter zmiennych, niewielka liczba mutacji/homoplazja ==> Maximum Parsimony •Dyskretny charakter zmiennych, ograniczona długość sekwencji, występowanie zjawiska homoplazji ==>Maximum Likelihood • Dyskretny charakter zmiennych, wiele gatunków ==>Superdrzewo •Kompletne genomy ==>Filogeneza całych genomów Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Zasoby internetowe •Felsenstein ’s Phylogenetic Program Directory –http://evolution.genetics.washington.edu/phylip.html •UT Austin Phylogenetics Lab –http://kristin.csres.utexas.edu/ •Woese Lab –http://www.life.uiuc.edu/micro/woese.html •Tree-of-life web site –http://tolweb.org/tree/phylogeny.html Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Książki o tematyce filogenetycznej •Graur,Li.Fundamentals of Molecular Evolution,Sinauer •Hall,Phylogenetics Made Easy ,Sinauer •Hillis,Moritz,Mable.Molecular Systematics ,2nd edition,Sinauer,1996 •Kitching,Forey,Humphries.Cladistics:The Theory and Practice of Parsimony Analysis ,1998 •Kimura,M.The Neutral Theory of Evolution ,Cambridge,1983 •Li.Molecular Evolution ,Sinaeur •Nei,M.&S.Kumar.Molecular Evolution and Phylogenetics ,Oxford,2000 •Page &Holmes.Molecular Evolution:A Phylogenetic Approach,1998 •Smith,J.M.,Evolutionary Genetics ,1998 •Wheeler &Meier.Species Concepts and Phylogenetic Theory ,2000 •Wilkins.Evolution of Developmental Pathways ,Sinaeur,2001 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Więcej książek o tematyce filogenetycznej •Harvey,Leigh Brown,Smith,Nee.New Uses for New Phylogenies, Oxford,1966 •Crandall,K.(editor)The Evolution of HIV,Johns Hopkins Univ.Press,1999 •Mount,D.W.Bioinformatics:Sequence and Genome Analysis ,Cold Spring Harbor Laboratory Press,2000, Chapter 6 -Phylogenetic Prediction •Doolittle,R.F.Computer Methods for Macromolecular Sequence Analysis ,Methods in Enzymology,vol.266, 1996,Academic Press Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Czasopisma o temetyce filogenetycznej •Cladistics •Molecular Biology and Evolution •Molecular Phylogenetics and Evolution •Systematic Biology •Systematic Zoology •Evolutionary Biology •Taxon •Bioinformatics •J.of Computational Biology •J.of Theoretical Biology •Ecology and Evolutionary Biology Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Konferencje o tematyce filogenetycznej •RECOMB •ISMB (Intelligent Systems for Molecular Biology) •Evolution 2002 •Classification Society of N.America Annual Mtg. •Conf.Of the Int ’l.Federation of Classification Societies (IFCS) •ICSEB (Intl.Conf.On Systematics &Evolutionary Biology) Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski P01055 P01057 P01056 P01058 P01059 P01063 P17734 P81483 P81484 P16343 P01064 P82469 P01061 P01062 P01060 1BBI: 1D6R:I 1DF9:C 1PI2: 1PBI:A AAB4719 TISYC2 JC2225 TIZB2 JC2073 JC2072 0506164 0401177 763679A TISYD2 0907248 1102213 1102213 0404180 TIZB1B TIMB TIZB1P JC1066 Q41066 P80321 Q41065 P81705 P56679 P16346 P01065 P24661 P07679 P19860 P22737 220645 P09864 P09863 3 10 20 30 40 50 60 ESSKPCCDQCACTKSNPPQCRCSDMRLNSCHSACKSCICALSYPAQCF-CVDITDFCYEP-CKP ESSKPCCDECACTKSIPPQCRCTDVRLNSCHSACSSCVCTFSIPAQCV-CVDMKDFCYAP-CKS QSSKPCCBHCACTKSIPPQCRCTDLRLDSCHSACKSCICTLSIPAQCV-CBBIBDFCYEP-CKS ESSKPCCDQCSCTKSMPPKCRCSDIRLNSCHSACKSCACTYSIPAKCF-CTDINDFCYEP-CKS ESSKPCCDLCTCTKSIPPQCHCNDMRLNSCHSACKSCICALSEPAQCF-CVDTTDFCYKS-CHN ESSKPCCDLCMCTASMPPQCHCADIRLNSCHSACDRCACTRSMPGQCR-CLDTTDFCYKP-CKS QSSKPCCRQCACTKSIPPQCRCSQVRLNSCHSACKSCACTFSIPAQCF-CGBIBBFCYKP-CKS -SSKPCCBHCACTKSIPPQCRCSBLRLNSCHSECKGCICTFSIPAQCI-CTDTNNFCYEP-CKS -SSKPCCBHCACTKSIPPQCRCSBLRLNSCHSECKGCICTFSIPAQCI-CTDTNNFCYEP-CKS ESSKPCCSSC-CTRSRPPQCQCTDVRLNSCHSACKSCMCTFSDPGMCS-CLDVTDFCYKP-CKS EYSKPCCDLCMCTRSMPPQCSCEDIRLNSCHSDCKSCMCTRSQPGQCR-CLDTNDFCYKP-CKS -SSGPCCDRCRCTKSEPPQCQCQDVRLNSCHSACEACVCSHSMPGLCS-CLDITHFCHEP-CKS ESSHPCCDLCLCTKSIPPQCQCADIRLDSCHSACKSCMCTRSMPGQCR-CLDTHDFCHKP-CKS ESSEPCCDSCDCTKSIPPECHCANIRLNSCHSACKSCICTRSMPGKCR-CLDTDDFCYKP-CES QSSPPCCBICVCTASIPPQCVCTBIRLBSCHSACKSCMCTRSMPGKCR-CLBTTBYCYKS-CKS ESSKPCCDQCACTKSNPPQCRCSDMRLNSCHSACKSCICALSYPAQCF-CVDITDFCYEP-CKP ---KPCCDQCACTKSNPPQCRCSDMRLNSCHSACKSCICALSYPAQCF-CVDITDFCYEP-CKESSEPCCDSCDCTKSIPPQCHCANIRLNSCHSACKSCICTRSMPGKCR-CLDTDDFCYKP-CES EYSKPCCDLCMCTRSMPPQCSCED-RINSCHSDCKSCMCTRSQPGQCR-CLDTNDFCYKP-CKS DVKSACCDTCLCTKSNPPTCRCVDVGET-CHSACLSCICAYSNPPKCQ-CFDTQKFCYKQ-CHN ESSKPCCDQCTCTKSIPPQCRCTDVRLNSCHSACSSCVCTFSIPAQCV-CVDMKDFCYAP-CKS ESSKPCCDLCMCTASMPPQCHCADIRLNSCHSACDRCACTRSMPGQCR-CLDTTDFCYKP-CKS ESSKPCCDLCMCTASMPPQCHCADIRLNSCHSACDRCACTRSMPGQCR-CLDTTDFCYKP-CKS ESSKPCCDQC-CTKSMPPKCRCSDIRLDSCHSACKSCACTYSIPAKCF-CTDINDFCYEP-CKS ESSKPCCDECKCTKSEPPQCQCVDTRLESCHSACKLCLCALSFPAKCR-CVDTTDFCYKP-CKS ESSKPCCDECKCTKSEPPQCQCVDTRLESCHSACKLCLCALSFPAKCR-CVDTTDFCYKP-CKS ESSKPCCDQC-CTKSMPPKCRCSDIRLDSCHSACKSCACTYSIPAKCF-CTDINDFCYEP-CKS ESSKPCCDLCMCTASMPPQCHCADIRLNSCHSACDRCACTRSMPGQCR-CLDTTDFCYKP-CKS ESSKPCCDLCMCTASMPPQCHCADIRLNSCHSACDRCACTRSMPGQCR-CLDTTDFCYKP-CKS EYSKPCCDLCMCTRSMPPQCSCEDIRLNSCHSDCKSCMCTRSQPGQCR-CLDTNDFCYKP-CKS ESSEPCCDSCRCTKSIPPQCHCADIRLNSCHSACKSCMCTRSMPGKCR-CLDTDDFCYKP-CES ESSEPCCDLCLCTKSIPPQCQCADIRLNSCHSACKSCMCTRSMPGQCH-CLDTHDFCHKP-CKS ESSEPCCDLCLCTKSIPPQCQCADIRLNSCHSACKSCMCTRSMPGQCR-CLDTHDFCHKP-CKS EYSKPCCDLCMCTRSMPPQCSCEDIRLNSCHSDCKSCMCTRSQPGQCR-CLDTNDFCYKP-CKS ESSHPCCDLCLCTKSIPPQCQCADIRLDSCHSACKSCMCTRSMPGQCH-CLDTHDFCHKP-CKS ESSEPCCDSCDCTKSKPPQCHCANIRLNSCHSACKSCICTRSMPGKCR-CLDTDDFCYKP-CES ESSHPCCDLCLCTKSIPPQCQCADIRLNSCHSACKSCMCTRSMPGQCR-CLDTHDFCHKP-CKS ESSEPCCDSCDCTKSKPPQCHCANIRLNSCHSACKSCICTRSMPGKCR-CLDTDDFCTKP-CES DVKSACCDTCLCTKSDPPTCRCVDVGET-CHSACDSCICALSYPPQCQ-CFDTHKFCYKA-CHN STTTACCDFCPCTRSIPPQCQCTDVREK-CHSACKSCLCTLSIPPQCH-CYDITDFCYPS-CRDVKSACCDTCLCTKSNPPTCRCVDVRET-CHSACDSCICAYSNPPKCQ-CFDTHKFCYKA-CHN --TSACCDKCFCTKSNPPICQCRDVGET-CHSACKFCICALSYPAQCH-CLDQNTFCYDK-CDS DVKSACCDTCLCTKSNPPTCRCVDVGET-CHSACLSCICAYSNPPKCQ-CFDTQKFCYKA-CHN --TTACCNFCPCTRSIPPQCRCTDIGET-CHSACKTCLCTKSIPPQCH-CADITNFCYPK-CNDVKSACCDTCLCTRSQPPTCRCVDVGER-CHSACNHCVCNYSNPPQCQ-CFDTHKFCYKA-CHS DVKSACCDTCLCTKSEPPTCRCVDVGER-CHSACNSCVCRYSNPPKCQ-CFDTHKFCYKS-CHN KRPWECCDIAMCTRSIPPICRCVDKVDR-CSDACKDCEETEDN--RHV-CFDTYIGDPGPTCHD ERPWKCCDLQTCTKSIPAFCRCRDLLEQ-CSDACKECGKVRDSDPPRYICQDVYRGIPAPMCHE ERPWKCCDLQTCTKSIPAFCRCRDLLEQ-CSDACKECGKVRDSDPPRYICQDVYRGIPAPMCHE ES-EGCCDRCICTKSMPPQCHCHDVRLDSCHSDCETCICTRSYPAQCR-CADTTDFCYKP-C-S TRPWKCCDRAICTKSFPPMCRCMDMVEQ-CAATCKKCGPATSDSSRRV-CEDXY----------KRPWKCCDQAVCTRSIPPICRCMDQVFE-CPSTCKACGPSVGDPSRRV-CQDQYV---------- Dziękuję za uwagę