Tworzenie drzew filogenetycznych Wyszukiwanie pokrewnych sekwencji za pomocą programu BLAST Załóżmy, że dysponujemy już interesującą nas sekwencją białka lub kwasu nukleinowego i chcemy znaleźć inne, spokrewnione z nią sekwencje. Określenie „spokrewnione” oznacza, że sekwencje są wystarczająco podobne, aby można było uznać, że mają wspólne pochodzenie, czyli wywodzą się od wspólnego przodka. Najprostszym sposobem na znalezienie spokrewnionych sekwencji jest poszukiwanie w komputerowych bazach danych sekwencji do nich podobnych. Poszukiwania takie można przeprowadzić dzięki uprzejmości różnych instytucji rządowych. My będziemy korzystać z poznanego już wcześniej programu BLAST. Jako sekwencję kwerendową wykorzystamy sekwencję genu nuoK z E. coliK12, który koduje podjednostkę K dehydrogenazy NADH. Po otwarciu okna programu MEGA wybieramy z menu Align opcję Do BLAST search. Wbudowana w program przeglądarka przeniesie nas na stronę BLAST w NCBI. Skopiujmy sekwencję genu nuoK z pliku o tej samej nazwie i wklejmy ją w pole edycyjne Enter accession number, gi, or FASTA sequence. W miejscu wyboru bazy danych (Choose Search Set, Database) wybierzmy ostatnią opcję (Others (nr etc.)). Następnie naciskamy przycisk BLAST. Po pewnym czasie pojawi się lista z wynikami. Istnieje możliwość zmiany układu strony na taki, jaki był stosowany we wcześniejszych wersjach programu. Wykorzystujemy w tym celu łącze Formatting options w górnej części ekranu i zaznaczamy pole Old View, a następnie klikamy przycisk Reformat. Wybór pokrewnych sekwencji, które mają być włączone do drzewa Przewijając stronę w dół natrafiamy najpierw na diagram, poniżej którego znajduje się tabela. Dla przypomnienia: w pierwszej kolumnie (Accession) znajdują się łącza do rekordu danej sekwencji w bazie GenBank. Druga kolumna to krótki opis sekwencji. Następne dwie kolumny przedstawiają wynik przyrównania w postaci maksymalnego wyniku lokalnego (Max score) oraz wyniku całkowitego sumującego wszystkie możliwe przyrównania wybranej sekwencji (Total score). Pierwsza pozycja ma wartość zbliżoną do 580. Im wyższa ta wartość, tym bliżej dana sekwencja jest spokrewniona z sekwencją kwerendową. Kolejna kolumna (Query coverage) zawiera procentowe udziały sekwencji kwerendowej wykorzystane przy obliczaniu wyniku całkowitego (Total score), zaś następna (E-value) wartości oczekiwane (E). Wartość E dostarcza informacji o prawdopodobieństwie, że dane skojarzenie sekwencji jest wynikiem czystego przypadku. Im niższa wartość E, tym mniejsze prawdopodobieństwo, że skojarzenie jest wynikiem zdarzenia losowego, a zatem tym bardziej jest ono istotne. Empiryczna interpretacja wartości tego parametru jest następująca. Jeśli wartość E<1e-50, to z bardzo dużym prawdopodobieństwem, graniczącym z pewnością, można stwierdzić, że skojarzone sekwencje są homologami. Jeśli ta wartość znajduje się w zakresie od 1e-50 do 0,01, to skojarzone sekwencje można uznać za homologiczne. Jeśli wartość E znajduje się między 0,01 a 10, to skojarzenie nie jest istotne, ale może wskazywać odległe pokrewieństwo dwóch sekwencji. Potrzebny jest wówczas dodatkowy dowód potwierdzający homologię. Jeśli E>10, to analizowane sekwencje albo są niespokrewnione, albo ich pokrewieństwo jest tak odległe, że nie można go wykryć obecnie dostępnymi metodami. Kwestia tego, że wybrane sekwencje są homologami jest istotna, gdyż do budowy drzewa filogenetycznego należy wybrać wyłącznie sekwencje homologiczne. W filogenetyce zakłada się, że wszystkie sekwencje (lub organizmy) pochodzą od wspólnego przodka. W 1 istocie termin „homologiczne” oznacza „odziedziczone po wspólnym przodku”. Wybierzemy więc tylko te sekwencje, co do których możemy mieć mocne przekonanie, że są homologiczne. Na nasze potrzeby ustalimy granicę E<0,001 (na drzewie znajdą się zatem tylko te sekwencje, dla których E<0,001). Gdy już zdecydowaliśmy, które sekwencje możemy umieścić na drzewie, powinniśmy zastanowić się, które z nich naprawdę chcemy uwzględnić. Zauważmy, że w zestawie jest wiele sekwencji z różnych szczepów E. coli. Chociaż niektóre z nich mogą się nieznacznie różnić między sobą, to w naszym przykładzie wybierzemy tylko po jednej sekwencji z każdego gatunku. Aby ostatecznie zdecydować, czy chcemy uwzględnić daną sekwencję, powinniśmy się przyjrzeć jej przyrównaniu z sekwencją kwerendową. Aby to uczynić, należy kliknąć na wartość wyniku Max score dla danej sekwencji. W kolumnie Max score znajdują się łącza, kierujące do przyrównań na dole strony. Kliknięcie wartości odpowiadającej sekwencji Escherichia coli str. K12 substr. MG1655 przeniesie nas do jej przyrównania. Widać, że jest ona zgodna z sekwencją kwerendową w 300 na 300 pozycji, bez żadnych przerw (idealna zgodność). Wynika to z tego, że sekwencja ta pochodzi właśnie z tego szczepu. W wierszu bezpośrednio nad przyrównaniem znajduje się informacja: Strand=Plus/Minus. Oznacza to, że sekwencja w bazie GenBank pochodzi z nici komplementarnej do sekwencji kwerendowej. Nieco wyżej, pod wierszem Features in this part of subject sequence: widać dwa łącza zaczynające się od NADH:ubiquinone oxidoreductase, z których jedno kończy się na membrane subunit K. Ponieważ gen nuoK koduje podjednostkę K, to jest to sekwencja z E. coli, którą chcemy włączyć do drzewa. Sprowadzanie sekwencji z GenBank Klikamy łącze subunit K, aby przejść do widoku rekordu tej sekwencji w bazie GenBank. Następnie po prawej stronie rozwijamy menu Customize view i zaznaczamy Show Reverse complement oraz klikamy Update view. Uzyskana sekwencja jest kodowana na nici komplementarnej do sekwencji kwerendowej, więc dopiero wtedy znajdzie się we właściwej orientacji. Następnie przewijamy stronę do samego dołu, gdzie znajdziemy właściwie zorientowaną sekwencję kodującą genu nuoK. Jeśli do przeszukiwania baz danych za pomocą BLAST użylibyśmy innej niż MEGA przeglądarki, to należałoby teraz zapamiętać uzyskaną sekwencję w formacie FASTA. Po zapisaniu wszystkich sekwencji, które chcielibyśmy użyć do budowy drzewa, należałoby je zestawić w jednym pliku, a następnie otworzyć ten plik w programie do przeprowadzania przyrównań, takim jak ClustalW czy ClustalX. MEGA ułatwia nam to zadanie. Klikamy na przycisk Add to Alignment (oznaczony czerwonym krzyżykiem), znajdujący się na pasku poleceń, a MEGA otworzy okno Input Sequence Label, w którym wybieramy sposób nazwania sekwencji. Jednocześnie zostanie otwarte okno eksploratora przyrównań, w którym została umieszczona sekwencja. W przeglądarce MEGA cofamy się do okna zawierającego zestawienie sekwencji wybranych przez program BLAST. Dodajemy kolejno sekwencje, po jednej z każdego gatunku, za każdym razem przyglądając się uważnie przyrównaniu. Załóżmy, że dokonaliśmy wyboru następujących sekwencji: 1. Escherichia coli str. K-12 substr. MG1665 complete genome 2. Schigella flexnerii 2a str. 301 complete genome 3. Schigella boydii Sb227 complete genome 4. Schigella dysenteriae Sd 197 complete genome 5. Schigella sonnei Ss046 complete genome 2 6. Escherichia fergusonii ATCC 35469 chromosome complete genome 7. Citrobacter rodentium ICC168 complete genome 8. Enterobacter cloacae subsp. dissolvens SDM complete genome 9. Salmonella enterica subsp. enterica serovar Heidelberg str. B182 complete genome. Po zakończeniu dodawania sekwencji, warto by było zapisać zawartość eksploratora przyrównań, aby nie utracić wykonanej do tej pory pracy. Wybieramy polecenie Save session z menu Data, a następnie określamy nazwę zbioru (np. nuoK). Będzie on miał rozszerzenie mas, co oznacza, że jest to zbiór z przyrównaniem. Na tym kończymy pracę z przeglądarką i możemy zamknąć jej okno. Przyrównywanie sekwencji Podstawową przesłanką w filogenetyce jest homologiczność wszystkich sekwencji na drzewie. Ponadto wszystkie metody budowy drzew zakładają, że w zestawie homologicznych sekwencji wszystkie zasady w kolumnach są również homologiczne (tzn. pochodzą od wspólnej ancestralnej zasady obecnej w tej pozycji w sekwencji przodka). Jeśli w analizowanych sekwencjach nie zdarzyła się żadna insercja ani delecja, to wypisanie ich, jedna pod drugą, wystarczy do spełnienia tego założenia. Insercje i delecje, zwane łącznie „indelami”, zmieniają długości sekwencji i powodują przesunięcie zasad lub aminokwasów. Przyrównanie jest procesem mającym na celu wprowadzenie przerw w sekwencjach, po to, aby z powrotem przesunąć zasady do ich homologicznych pozycji. Jest ono niezwykle ważne, gdyż jakość drzewa filogenetycznego nie może być lepsza od jakości przyrównania. W oknie eksploratora przyrównań z menu Edit opcję Select All, a następnie z menu Alignment wybieramy Align by ClustalW. Wyświetli się nowe okno z parametrami programu ClustalW. Klikamy OK. Na chwilę pojawi się okno przedstawiające postęp obliczeń, po czym okno eksploratora przyrównań pokaże przyrównane sekwencje. Przyrównanie jest gotowe i warto je znowu zapisać. Budowa drzewa metodą NJ (łączenia sąsiadów) Część programu MEGA, która oblicza drzewa nie może korzystać bezpośrednio ze zbioru nuoK.mas, lecz wymaga zbioru w specjalnym formacie MEGA. Z menu Data wybieramy Export Alignment, a następnie opcję MEGA format. Nazwijmy plik nuoK.meg, aby wiadomo było, że to plik MEGA. Pojawi się okno dialogowe z pytaniem o tytuł danych. Nie ma właściwie znaczenia, co tu wpiszemy (może to być np. sekwencje DNA genu nuoK). W kolejnym oknie znajdzie się pytanie, czy są to sekwencje kodujące białko. Klikamy wtedy przycisk Yes – to ważne. W ten sposób ukończyliśmy pracę w edytorze przyrównań i możemy zamknąć jego okno. W głównym oknie MEGA klikamy Open A File/Session, odnajdujemy plik nuoK.meg, który właśnie utworzyliśmy i otwieramy go. MEGA otworzy okno eksploratora sekwencji (Sequence Data Explorer), aby powiadomić nas o udanym otwarciu pliku. Wracamy do głównego okna programu MEGA i wybieramy Phylogeny> Construct/Test NeighborJoining Tree. Program zapyta nas, czy chcemy przeprowadzić analizę dla aktualnego przyrównania – klikamy Yes. Otwarte zostanie okno ustawień analizy (Analysis Preferences), które umożliwia ustawienie warunków wszystkich analiz przeprowadzanych przez program MEGA. Klikamy przycisk Compute (Policz). Wyświetli się drzewo NJ w oknie eksploratora drzew. W ten sposób otrzymaliśmy właściwe, choć, niewielkie drzewo filogenetyczne. Zwróćmy uwagę, że większość czasu poświęciliśmy wyborowi sekwencji i sprowadzeniu ich 3 z bazy GenBank. Końcowy etap właściwej konstrukcji drzewa nie wymagał zbyt wielkiego wysiłku. Dzięki programowi MEGA można znacznie przyśpieszyć pobieranie sekwencji (wystarczy kliknąć czerwony krzyżyk); nic jednak nie przyspieszy procesu podejmowania decyzji. Musimy wziąć pod uwagę wartość E wybranej sekwencji i długość jej przyrównania z sekwencją kwerendową, ale przede wszystkim własną wiedzę na temat biologii sekwencji oraz to, co chcemy osiągnąć poprzez poznanie filogenezy. Potrafimy już wykorzystać program MEGA do: • Przeszukiwania bazy sekwencji za pomocą BLAST w celu identyfikacji sekwencji homologicznych z sekwencją, która nas interesuje. • Wybrania z uzyskanego zestawu sekwencji, które zostaną użyte do odtworzenia filogenezy. • Pobrania tych sekwencji do eksploratora przyrównań. • Zapisania wybranych sekwencji. • Przyrównania ich za pomocą programu ClustalW. • Zbudowania na podstawie przyrównania drzewa NJ. • Przedstawienia, zapamiętania i wydrukowania tego drzewa. Część II. Wybór sekwencji homologicznych Homologię trzeba odróżnić od podobieństwa. „Homologia” oznacza, że dwa taksony lub sekwencje pochodzą od jednego przodka, jak również to, że identyczne reszty w jakimś miejscu w przyrównaniu są identyczne na skutek dziedziczenia. „Podobieństwo” odzwierciedla jedynie procent pozycji, które są identyczne. Dwie niespokrewnione sekwencje mogą być tak przyrównane, że niektóre pozycje będą identyczne, ale ta identyczność nie koniecznie musi wynikać z pochodzenia od wspólnego przodka. Oczywiście umieszczenie dwóch niespokrewnionych sekwencji na tym samym drzewie nie ma sensu, bez względu na ich podobieństwo, ponieważ celem budowy drzewa jest pokazanie procesu dziedziczenia po wspólnych przodkach. W pewnym sensie wszystkie sekwencje wywodzą się od wspólnej sekwencji ancestralnej. Jednakże w miarę jak geny i białka ewoluują, dochodzi do takiego ich zróżnicowania, że dwa geny mogą być równie mało do siebie podobne, jak dwie sekwencje wybrane losowo. Ich homologia jest wtedy niewidoczna i nie powinno się ich umieszczać na tym samym drzewie sekwencji. Znajdowanie sekwencji homologicznych za pomocą programu BLAST W poprzedniej części dowiedzieliśmy się, że program BLAST jest podstawowym narzędziem do identyfikowania sekwencji, które są homologiczne z interesującą nas sekwencją. Do zilustrowania zagadnień omawianych w tej części posłuży nam plik ebgC, który zawiera zarówno sekwencję DNA genu ebgC, jak i sekwencję kodowanego przezeń białka. Spróbujmy przeszukać bazę danych sekwencji GenBank, stosując jako kwerendę sekwencję genu ebgC. Wyświetlone zostało pierwszych 100 trafień, z których pierwsze 90 ma wartość E<0,01. Przyrównanie sekwencji kwerendowej np. z sekwencją Vibrio parahaemolyticus obejmuje 52 lub 30 zasad (odpowiednio dla pierwszego i drugiego dopasowania), podczas gdy sekwencje E. coli i Shigella przyrównywane są z sekwencją kwerendową na przestrzeni wszystkich 450 zasad. Biorąc pod uwagę regułę (wynikającą z doświadczenia), że wybieramy sekwencje, które przyrównane są przynajmniej na połowie długości mamy ok. 83 homologicznych sekwencji, które mogą być umieszczone na drzewie. 4 Sekwencje pochodzące z tego samego szczepu E. coli, K12, są identyczne, podobnie jak inne nazwane „wildtype ebg operon” oraz „ebg repressor”. Ponieważ E. coli i Shigella są tak blisko spokrewnione, że, poza aspektami medycznymi, mogą być traktowane jako ten sam gatunek, jest to z pewnością bardzo małe, płaskie drzewo z sekwencjami o tak bliskim pokrewieństwie, że wszystkie wartości E wynoszą 0,0. Oczywiście ebgC może mieć bardzo ograniczone występowanie, niemiej chcielibyśmy wiedzieć na pewno, czy homologi istnieją też u dalej spokrewnionych gatunków. Trudność, jaką napotykamy przy poszukiwaniu dalej spokrewnionych homologów, wynika z niskiej wykrywalności homologii DNA, gdzie są tylko cztery możliwe stany każdej cechy (A, C, G, T). Zatem, jeśli sekwencje staną się tak różne, że będą identyczne jedynie w ok. 25% miejsc, to będą się wydawać nie bardziej spokrewnione niż dwie wybrane losowo sekwencje niehomologiczne. Sposobem na znalezienie dalej spokrewnionych sekwencji jest użycie w poszukiwaniach jako kwerendy sekwencji białka. W białkach każda pozycja ma 20 możliwych stanów, więc homologia przestaje być wykrywalna, gdy podobieństwo spadnie do ok. 5%. Spróbujemy zatem przeszukać bazę danych sekwencji GenPept stosując jako kwerendę sekwencję białkową ebgC. Wykorzystujemy w tym celu BLASTP. W parametrach analizy ustawiamy liczbę wyników na 250. Widzimy, że teraz dużo więcej trafień ma wartość E<0,01. Pierwsze przyrównanie wygląda bardzo dziwnie, ale zwróćmy uwagę, że tylko jego pierwsza linia widoczna jest na dole rekordu. Zamiast jednej, czy dwóch cech z jednego trafienia mamy łącza do kilkuset plików. Nagłówek przyrównania informuje, że jest ono identyczne z kwerendą w 149 na 149 pozycji (co stanowi idealne dopasowanie). Wynika to stąd, że pierwsze trafienie jest samą sekwencją kwerendową. Chociaż te wszystkie sekwencje białkowe są identyczne z kwerendą, to geny je kodujące mogą się różnić z powodu tzw. cichych podstawień, które nie powodują zmiany aminokwasu. Jeśli chcemy dokładnie zbadać strukturę drzewa, która ma odzwierciedlać wszystkie najdrobniejsze różnice, niezbędne jest uwzględnienie różnych sekwencji DNA kodujących identyczne białka. Obecnie zajmiemy się drzewem opisującym takie drobne różnice. Chcemy więc wykorzystać każdą odróżniającą się sekwencję, ale nie jesteśmy w stanie stwierdzić, które sekwencje kodujące są identyczne. Nie znaczy to jednak, że musimy pobierać każdą sekwencję. Możemy wyeliminować te, które pochodzą z tego samego szczepu. Niektóre są opisane jako E. coli K12. Dodatkowa wiedza jest potrzebna, aby zidentyfikować te same szczepy, np. szczepy W3110 oraz K12 są identyczne, podobnie jak CFT073, UTI89 oraz 536. Wybór pierwszego łącza prowadzi nas do rekordu z sekwencją aminokwasową białka ebgC z E. coli K12. Nie chcemy jednak przenosić tej sekwencji do eksploratora przyrównań, bowiem jeśli utworzymy drzewo na podstawie sekwencji aminokwasowych, to nie wykryjemy różnic sekwencji wynikających z podstawień cichych. Ponadto, na ogół lepiej jest budować drzewa na podstawie sekwencji kodujących DNA, chociażby z tego powodu, że metody filogenetyczne, szczególnie bayesowska i największej wiarygodności, są bardzo powolne, gdy pracują na sekwencjach białkowych. Po przejściu w dół ekranu pokazuje się sekwencja białkowa, a nieco powyżej znajduje się łącze CDS do sekwencji kodującej. Kliknięcie tego łącza prowadzi do pliku, który zawiera sekwencję kodującą. Kliknięcie czerwonego krzyżyka powoduje dodanie sekwencji do eksploratora przyrównań. Większość plików CDS – ale nie wszystkie- pokazuje sekwencje we właściwej orientacji. Jeśli niechcący dodamy do eksploratora przyrównań sekwencję w niewłaściwej orientacji, wystarczy kliknąć prawym przyciskiem myszy nazwę sekwencji i wybrać reverse complement z listy dostępnych opcji. W ten sposób dodajemy do eksploratora przyrównań wybrane (ok.32) niepowtarzające sekwencje kodujące z pierwszej trafionej sekwencji, a następnie niepowtarzające się się sekwencje z każdej kolejnej. W pewnym momencie wartości E stają się zbyt wysokie (to 5 oznacza zbyt wysokie ryzyko, że sekwencja nie jest homologiczna z sekwencją kwerendową). Nie ma jednoznacznych wskazówek, jaki poziom odcięcia wartości E należy przyjąć. Niektórzy uważają 1e-05 za sztywną granicę, inni zadowolą się 1e-02. W efekcie wykorzystania sekwencji białkowej jako kwerendy uzyskaliśmy znacznie więcej homologów niż przy wykorzystaniu sekwencji DNA. Zauważmy, że nazwy sekwencji są dość długie. MEGA z założenia tworzy je z pierwszych 40 znaków opisu sekwencji. Powoduje to kilka problemów. Po pierwsze nazwy te zostaną użyte jako identyfikatory sekwencji na drzewie. Czterdziestoliterowe napisy zajmą po prostu zbyt wiele miejsca. Po drugie nazwy się mogą powtarzać i często są mylące. Formaty zbiorów niektórych programów filogenetycznych wymagają nazw do 10 znaków, podczas gdy inne traktują jako znaczące pierwsze 30 znaków. Poza tym, niektóre formaty zbiorów (Nexus) nie dopuszczają znaków innych niż litery i cyfry, więc takie znaki, jak – ()*, itd. powodują złe funkcjonowanie tych programów. (Niejednolite formaty zbiorów i ich udziwnienia to jeden z głównych powodów frustracji filogenetyków). Wszystko to powoduje konieczność edytowania nazw sekwencji. Żeby zmienić nazwę w eksploratorze przyrównań należy kliknąć dwa razy nazwę sekwencji i wprowadzić poprawną jej wersję. Ważne, aby zrobić to na tym etapie, ponieważ nie da się jej łatwo zmienić w pliku meg, który używany jest przez program do wykonywania analiz. Kilka wskazówek dotyczących nazw sekwencji przedstawiono poniżej: • Każda nazwa musi być niepowtarzalna. Żaden program nie zaakceptuje wielu sekwencji o tej samej nazwie. • Należy zlikwidować spacje zastępując je znakiem podkreślenia (_). Wiele programów nie zaakceptuje spacji w nazwie. • W nazwach sekwencji należy używać jedynie liter, cyfr, znaku podkreślenia i kropki (.). Szczególnie należy dopilnować usunięcia znaków dwukropków oraz łączników, które bardzo łatwo przeoczyć. • Należy starać się ograniczyć nazwy do 10 znaków. Nie jest to niezbędne dla programu MEGA, ale inne programy mogą wymagać krótkich nazw. • Nazwy powinny coś znaczyć. W naszym laboratorium możemy używać nazwy WRM22 na oznaczenie szczególnego szczepu C. elegans, ale nie będzie to zrozumiałe dla innych. Z kolei C_elegans_WRM22 będzie dobrą nazwą, odróżniająca ten szczególny szczep od innych. Przyrównywanie sekwencji Na początku otwieramy plik ebgC2.mas (wybieramy opcję Align). Zawiera on zbiór 32 odpowiednio opisanych sekwencji homologicznych dotyczących naszego przykładu. Przed przyrównaniem sekwencji zwróćmy uwagę na etykietę Translated Protein Sequences, znajdująca się w górnej części okna. Kliknięcie jej zamienia sekwencje kodujące na odpowiadające im sekwencje białkowe. Ostatnim znakiem sekwencji jest gwiazdka odpowiadająca kodonowi stop. Gwiazdek nie ma oczywiście wewnątrz sekwencji. Wybieramy kartę DNA sequences, aby wrócić do widoku DNA, gdzie możemy przyrównać sekwencje, jak to zostało przedstawione wcześniej. Jeśli teraz przetłumaczymy dopasowanie na białko, to zobaczymy, że w sekwencjach znajdują się znaki zapytania i gwiazdki. Co takiego się stało? ClustalW wprowadził przerwy zgodnie ze swoim algorytmem. Gdy przerwy pojawiają się wewnątrz kodonów, program tłumaczący napotyka na niezdefiniowane kodony i oznacza je znakiem zapytania. Kiedy występują pojedyncze lub podwójne przerwy, następuje przesunięcie ramki odczytu, co w konsekwencji daje później nonsensowny kodon. Przerwy powinny wskazywać na indele, które kiedyś powstały. Gdyby takie przerwy rzeczywiście 6 powstały w sekwencji białka przodka, to takie białko straciłoby aktywność i sekwencje potomne nie mogłyby przetrwać do dziś. Jasno więc widać, że z punktu widzenia biologii ClustalW wstawił przerwy w niewłaściwych miejscach. Czemu więc ClustalW zachowuje się w tak absurdalny sposób? Program nie wie nic o biologii czy funkcjonalnych ograniczeniach narzuconych przez przesunięcie ramki odczytu. Po prostu stara się zmaksymalizować wynik przyrównania. Problem źle umiejscowionych przerw (a co za tym idzie źle przyrównanych zasad) możemy rozwiązać przez przyrównania sekwencji białka, zamiast DNA. Powróćmy do okna białkowego dla oryginalnego zestawu sekwencji (przed przyrównaniem sekwencji DNA) i wybierzmy Align by ClustalW z menu Alignment. Pojawi się okno dialogowe ClustalW Parameters, z parametrami programu, lecz domyślne wartości kar za przerwy są inne niż w poprzednim przypadku, gdyż przyrównujemy teraz sekwencje białkowe. Możemy myśleć, że należałoby przyjąć te domyślne wartości, gdyż tak naprawdę nie wiemy, jakie powinny być kary za wprowadzanie przerw. Tak się jednak składa, że domyślne kary za przerwy podczas przyrównywania białek nie są optymalne. Jeśli mamy zamiar zmodyfikować te wartości, powinniśmy rozumieć, co one oznaczają, a to wymaga pewnej wiedzy na temat działania programu ClustalW. Proces przyrównywania sekwencji jest dwustopniowy. Najpierw ClustalW przyrównuje wszystkie sekwencje parami. W każdej parze wprowadza przerwy w obu sekwencjach, starając się zmaksymalizować liczbę pasujących do siebie reszt. Każdemu dopasowaniu przypisuje nagrodę w postaci punktów dodatnich, a wynik dla danego przyrównania jest sumą tych punktów. Program szuka przyrównania, które maksymalizuje ten wynik. Gdybyśmy mogli wprowadzić tyle przerw, ile nam się podoba, to moglibyśmy zapisać dwie zupełnie niespokrewnione ze sobą sekwencje, jedną ponad drugą w taki sposób, że każda litera byłaby ponad taką sama literą lub ponad przerwą. W rezultacie otrzymalibyśmy idealny, lecz nic nie znaczący wynik. Rozwiązaniem tego problemu jest obniżenie wyniku poprzez wprowadzenie kary za każdą przerwę. Zwykle kara za rozpoczęcie przerwy jest duża, a mniejsza za każdy dodatkowy znak w przerwie. Dzięki temu nie są wprowadzane przerwy, które zmniejszają wynik bardziej, niż zyskuje się przez dodatkowo pasujące do siebie litery. ClustalW używa wyników przyrównania sekwencji parami do zbudowania drzewa przewodniego. Nie jest to prawdziwe drzewo filogenetyczne, ponieważ nie opiera się na porównaniu homologicznych miejsc w całym zestawie, jest jednak wykorzystywane w drugiej fazie, w której następuje przyrównanie wszystkich sekwencji w celu uzyskania przyrównania całkowitego. Zwykle w tej drugiej fazie wielokrotnego przyrównania jest stosowany inny zestaw kar. W fazie przyrównań parami odpowiednie są domyślne kary za przerwy, natomiast w fazie przyrównywania wielokrotnego znacznie poprawia wynik ustawienie kary 3,0 za otwarcie przerwy oraz 1,8 za jej rozszerzenie. Po ustaleniu wartości kar i kliknięciu OK otrzymamy przyrównanie sekwencji białkowych. Jedną z cech programu MEGA jest to, że cokolwiek się zrobi w oknie białek, zostanie przeniesione do okna sekwencji DNA. Wszystkie przerwy są więc teraz między kodonami, a nie wewnątrz nich, i szerokość wszystkich jest wielokrotnością trzech pojedynczych przerw, przez co wyeliminowane zostały artefakty, które wynikały z przesunięcia ramki odczytu. Ostatnie badania wskazują, że drzewa skonstruowane na bazie takich przyrównań są dokładniejsze niż drzewa uzyskane przez bezpośrednie przyrównanie sekwencji DNA. Można i zawsze powinno się sprawdzić przyrównanie wizualnie, żeby stwierdzić, czy nie ma miejsc przyrównywanych w sposób oczywisty źle. Istotne jest tu stwierdzenie „w sposób oczywisty”, bowiem nie należy zbytnio manipulować przyrównaniem. Algorytm programu ClustalW jest bardzo dobry i jest mało prawdopodobne, żeby takie modyfikacje poprawiły wynik. Jeśli rzeczywiście widzimy źle rozmieszczone przerwy, to wykorzystujemy 7 strzałki, żeby ręcznie dokonać poprawek. Istotna jest relacja między jakością przyrównania a jakością samego drzewa filogenetycznego. Jeśli dokładność przyrównania wynosi >50%, dalsze powiększanie jego dokładności ma niewielki wpływ na dokładność drzewa. Przyrównanie należy teraz zapisać jako zbiór MEGA. Odrzucanie powtarzających się sekwencji Ponieważ chcieliśmy włączyć do drzewa wszystkie warianty kodującej sekwencji ebgC, załadowaliśmy wszystko, co nie było w sposób oczywisty jej duplikatem. Chociaż różne szczepy, które posiadają tę samą sekwencję białkową ebgC, mogą mieć różne sekwencje kodujące, nie jest tak jednak zawsze. Mogło się zdarzyć, że włączyliśmy dwie identyczne sekwencje. Identyczne sekwencje nie dodają informacji do drzewa, natomiast zaciemniają jego wygląd i przedłużają czas obliczeń, powinny zatem być wyeliminowane. Wczytajmy plik ebgC.meg do programu MEGA. Po otwarciu okna eksploratora sekwencji (Sequence Data Explorer) w głównym oknie wybierzmy Compute Pairwise z menu Distances. Po otwarciu okna opcji analiz (Analysis Preferences) kliknijmy żółte pole w wierszu Substitutions type i z rozwijanego menu wybierzmy Nucleotide, a następnie w wierszu Model/Method wybieramy No. of differences oraz klikamy Compute. Otworzy się okno wyników pokazujące odległości policzone parami. Być może trzeba będzie powiększyć okno, aby zobaczyć całą macierz z odległościami. Pokazane odległości to różnice pomiędzy dwiema porównywanymi sekwencjami. Kiedy odległość wynosi zero, sekwencje są identyczne. Aby ułatwić zlokalizowanie zer, klikamy skierowaną w dół strzałkę w lewym górnym rogu okna. W ten sposób redukujemy liczbę pokazanych miejsc dziesiętnych do zera. Pierwsza sekwencja, E. coli K12, jest identyczna z S. sonnei Ss046, E coli B171, E coli B7A, E coli E2 oraz E coli 101 1 (zauważmy, że pomimo, iż w edytorze przyrównań używaliśmy podkreśleń w nazwach sekwencji, MEGA pokazuje je ze spacjami). Podobnie, identyczne są sekwencje: z dwóch szczepów S flexneri 2a; z S bodyii i S flexneri 8401; z E coli UT189 i E coli APEC; wreszcie z dwóch szczepów E coli O157:H7. Aby wyeliminować wszystkich przedstawicieli, poza jednym z każdego zbioru sekwencji identycznych, wracamy do okna edytora przyrównań i usuwamy powtarzające się sekwencje. Odrzucenie niewątpliwie błędnych sekwencji Gdy przewiniemy okno edytora przyrównań do samego końca w prawo, zauważymy, że sekwencja nazwana po prostu E coli jest dłuższa od pozostałych. Ręczne przesunięcie niedopasowanego fragmentu tej sekwencji o jedno miejsce na prawo do końca przerw w sumie o 7 pozycji dopasowuje ją bardzo ładnie do sekwencji powyżej niej – z wyjątkiem długiego ogona wystającego z prawej. Mogło się zdarzyć, że w sekwencji nastąpiła delecja jednej zasady i długa insercja na końcu 3’. Bardziej jednak prawdopodobny jest tu błąd sekwencjonowania, gdzie GG zostało odczytane jako G i autorzy czytali dalej sekwencję, aż do pierwszego napotkanego kodonu stop. Ponieważ jest to jedynie kolejna sekwencja z niezidentyfikowanego szczepu E. coli, prawdopodobnie niewiele wnosi do naszego drzewa, a na dodatek jest błędna. Trzeba ją usunąć. Tak dochodzimy do przyrównania, w którym w pewnym obszarze wszystkie sekwencje mają przerwy. Obszary zawierające wyłącznie przerwy nic nie wnoszą do przyrównania i oczywiście nie reprezentują rzeczywistych, historycznych indeli. Żeby usunąć te miejsca, zaznaczmy cale przyrównanie wciskając Ctrl-A, a następnie wybierzmy Delete Gap-only Sites z menu Alignment. Zmodyfikowane przyrównanie zapisujemy jako ebgC_mod.mas, i eksportujemy w formacie MEGA jako ebgC_mod.meg. 8 Czasami można trafić na sekwencję dużo dłuższą niż pozostałe, która nie jest w sposób oczywisty „błędna”. Taka sekwencja może powstać na skutek fuzji dwóch genów, które zwykle kodują różne podjednostki. W takim przypadku możemy usunąć nadmiarowy fragment przez jego zaznaczenie i wciśnięcie Ctrl-X. Weryfikacja średniego stopnia identyczności aminokwasów W badaniach porównujących ClustalW z innymi programami wykazano, że jeśli średni stopień identyczności aminokwasów przy porównaniu parami, jest zbyt niski, to dokładność wielokrotnego przyrównania spada poniżej poziomu pozwalającego na uzyskanie wiarygodnych drzew filogenetycznych. Należy zaznaczyć, że to wielokrotne przyrównania stanowią dane na podstawie których szacuje się drzewa, a nie sekwencje same w sobie. Jeśli przyrównanie jest niewystarczająco pewne, tak samo jest z drzewem. Badania wykazały, że gdy średnia procentowa identyczność aminokwasów jest poniżej 20%, to mniej niż 50% reszt jest poprawnie przyrównana. W „obszarze półmroku”, od 20% do 30% identyczności, ok. 80% reszt aminokwasowych jest prawidłowo przyrównanych, a powyżej tego obszaru ponad 90% reszt. Na szczęście, niedawne analizy wykazały, że dokładność drzewa jest zaskakująco odporna na niedokładności przyrównania. Dokładność drzewa w niewielkim stopniu zależy od dokładności przyrównania, jeśli tylko dokładność przyrównania wynosi > 50%. Żeby określić stopień identyczności aminokwasów, otwórzmy plik ebgC_mod.mas, kliknijmy etykietę Translated Protein Sequences i wyeksportujmy to białkowe przyrównanie jako nowy plik meg programu MEGA, o nazwie ebgC_mod_pep.meg. Wczytajmy ten plik, a następnie w głównym oknie programu MEGA z menu Distance wybierzmy Compute Overall Mean Distance. Zmieńmy Model na odległość p, wybierając z rozwijanego menu w wierszu Model/Method opcję p-distance, po czym kliknijmy przycisk Compute. Odległość p wynosi 1 minus identyczność aminokwasów wyrażona ułamkiem dziesiętnym, zatem jeśli średnia odległość p wynosi <0,8 to przyrównanie jest do przyjęcia, gdy zaś jest większe lub równe 0,8 to nie jest. W naszym przypadku średnia odległość wynosi 0,271, co odpowiada 72,9% identyczności i jest w zupełności do przyjęcia. Niekodujące sekwencje DNA Jeśli nasze dane są niekodującymi sekwencjami DNA, to w celu przyjęcia przyrównania jako wystarczająco dokładnego do obliczeń filogenetycznych, nie możemy zastosować 20% identyczności aminokwasowej. Dla niekodujących sekwencji DNA dopiero identyczność sekwencji na poziomie 66% gwarantuje ok. 50% dokładności uszeregowania. Zbadajmy procent identyczności sekwencji DNA, tak jak to zrobiliśmy poprzednio dla aminokwasów: określmy średnią odległość wg modelu odległości p. Jeśli średnia odległość wynosi >0,33, to procent identyczności wynosi <66% i dokładność przyrównania jest prawdopodobnie zbyt niska, aby użyć go do oszacowania filogenezy. Jeśli przyrównanie nie jest wystarczająco wiarygodne, nie budujmy na jego podstawie drzewa filogenetycznego. Otrzymane drzewo nic nie będzie znaczyło i będzie zwodnicze zarówno dla nas, jak i naszych odbiorców. Wyjściem z tej sytuacji jest usuwanie sekwencji najbardziej oddalonych od interesującej nas sekwencji, aż do momentu, gdy średnia odległość p wyniesie <0,8 dla sekwencji białkowych lub <0,33 dla niekodujących sekwencji DNA. Cz. III Budowanie drzew metodą łączenia sąsiadów Metoda łączenia sąsiadów jest jednym z przykładów zastosowań analizy skupień w molekularnej analizie filogenetycznej. Umożliwia ona konstruowanie drzew filogenetycznych 9 nieukorzenionych. Drzewa wyznaczone metodą łączenia sąsiadów wykazują własność addytywności. Drzewo jest addytywne, gdy odległości pomiędzy sekwencjami reprezentowanymi przez liście drzewa są równe sumie długości łączących je gałęzi. Macierz odległości ewolucyjnych jest addytywna, gdy jest możliwe wyznaczenie dla niej drzewa, w którym łączna długość gałęzi łączących dowolne dwie sekwencje przezeń opisywane będzie równa odległości ewolucyjnej między tymi sekwencjami. Metoda łączenia sąsiadów umożliwia konstrukcję drzewa addytywnego, w którym odległości między sekwencjami będą najlepszym możliwym przybliżeniem odległości ewolucyjnych w oryginalnej macierzy. Jeśli taka macierz jest dokładnie addytywna, metoda łączenia sąsiadów gwarantuje wyznaczenie dla niej poprawnego drzewa. W rzeczywistości jednak odległości nie są dokładnie addytywne, dlatego drzewa konstruowane za pomocą metody łączenia sąsiadów mają przybliżony charakter. W nieukorzenionym drzewie dwa liście uważamy za sąsiadów, gdy gałęzie od nich biegnące łączą się w najbliższym (tym samym) węźle. Metoda łączenia sąsiadów rozpoczyna konstrukcję drzewa od zbioru niepołączonych liści odpowiadających poszczególnym sekwencjom. Odległości między poszczególnymi sekwencjami znajdują się w zadanej macierzy. W pierwszym kroku działania algorytmu połączeniu dwóch sąsiadujących ze sobą węzłów i oraz j towarzyszy dodanie węzła n w konstruowanym drzewie. W kolejnych krokach liście/węzły włączone już do rosnącego drzewa są pomijane, co oznacza, że po każdej takiej iteracji liczebność zbioru niepołączonych węzłów zmniejszy się o 1. Algorytm kontynuuje działanie do chwili, gdy wszystkie liście/węzły będą ze sobą połączone. Podsumowując, można stwierdzić, że metoda łączenia sąsiadów daje możliwość szybkiego wyznaczenia względnie wiarygodnego drzewa filogenetycznego i z tego powodu jest dosyć często wykorzystywana w prowadzonych aktualnie badaniach. Z oszacowania złożoności obliczeniowej algorytmu wynika, że wyniki można uzyskać niemal natychmiast, nawet dla bardzo dużych zbiorów sekwencji, podczas gdy bardziej skomplikowane metody mogą być znacznie bardziej wymagające obliczeniowo. Metoda łączenia sąsiadów jest dokładna, jeśli zadana macierz odległości ewolucyjnych jest w przybliżeniu addytywna. Jeśli zadana macierz odległości ewolucyjnych nie jest nawet w przybliżeniu addytywna (np. z powodu niewłaściwej metody wyznaczania odległości ewolucyjnych lub błędów w dopasowaniu wielosekwencyjnym), to zastosowanie metody NJ prowadzi do uzyskania drzewa o błędnej topologii. Pierwszym etapem na drodze do stworzenia drzewa NJ za pomocą programu MEGA jest wczytanie zbioru z danymi (przyrównania) w formacie meg. W naszym przypadku wczytujemy zbiór smallData.meg. Weryfikacja danych Przede wszystkim należy ustalić, czy dane w ogóle nadają się do budowy drzewa metodą NJ. Autorzy programu MEGA stwierdzają w jednej ze swoich prac, że jeśli średnia odległość między dwiema sekwencjami, liczona wg wzoru Jukesa-Cantora (JC), jest większa od 1, to dane nie nadają się do budowy drzewa metodą NJ i należy zastosować inną metodę. W głównym oknie programu MEGA w menu Distance wybiramy Compute Overall Mean Distance. Pojawi się okno Analysis Preferences służące do wybierania parametrów analiz. W wierszu Gaps/Missing Data pozostawiamy Complete Deletion. Gdyby w uszeregowaniu było bardzo wiele przerw należałoby wybrać Pairwise Deletion. Ustawiamy Model na Jukes-Cantor i klikamy przycisk Compute. Dla zbioru danych smallData średnia odległość wynosi 0,347, jest więc całkiem odpowiednia do budowy drzewa NJ. 10 Wyliczanie drzewa NJ W głównym oknie programu MEGA z menu Phylogeny wybieramy opcję Construct/Test Neighbor-Joining Tree. Ponownie pojawi się okno parametrów analiz (Analysis Preferences) służące do określania warunków obliczania drzewa. W oknie możemy odczytać, że wybraną analizą jest odtworzenie filogenezy (Phylogeny reconstruction) oraz, że metodą rekonstrukcji jest metoda łączenia sąsiadów. Kliknięcie na którymś z żółtych pól umożliwia wybór parametrów obliczania drzewa. Opcję Test of Phylogeny na razie pominiemy. Opcja Gaps/Missing Data Treatment określa, w jaki sposób algorytm NJ traktuje przerwy w sekwencjach. Wyborem domyślnym jest Complete Deletion, co oznacza, że program ignoruje wszystkie miejsca (kolumny w przyrównaniu) zawierające przerwy w jakiejkolwiek sekwencji. Wybór Complete Deletion jest teraz odpowiedni, gdyż w badanym przyrównaniu jest niewiele przerw. Gdy jednak dane zawierają przyrównanie z wieloma przerwami, wybór Complete Deletion nie jest odpowiedni, gdyż prowadzi do usunięcia dużej części analizowanych pozycji. Jeśli zmienimy Complete Deletion na Pairwise Deletion, to zostaną usunięte tylko te przerwy, które występują przy obliczaniu odległości pomiędzy parami sekwencji. Kolejna opcja Select Codon Positions dotyczy pozycji kodonu. Wyborem domyślnym, którego na ogół dokonujemy, jest użycie wszystkich trzech pozycji. Niemniej możliwa jest budowa drzewa w oparciu o pozycję tylko trzeciej zasady kodonu. Z powodu nadmiarowości kodu genetycznego znaczna część substytucji w trzeciej pozycji będzie cicha i nie będzie w związku z tym podlegała doborowi. Wybór wyłącznie trzeciej pozycji kodonu jest odpowiedni, gdy chcemy precyzyjnie oszacować względne tempo ewolucji wzdłuż gałęzi. Najlepiej jednak używać domyślnej opcji wszystkich trzech miejsc kodonu. Następnym parametrem do wyboru jest model substytucji (Substitution Model). Ponieważ danymi są sekwencje nukleotydowe, wybieramy w wierszu Substitution Type opcję Nucleotide, a potem w wierszu Model/Method jeden z dostępnych modeli. Wyborem domyślnym jest Maximum Composite Likelihood (złożony model największej wiarygodności, MCL), który poleca na wszystkie okazje jeden z twórców MEGA, Sudhir Kumar. Model ten nie był dostępny we wcześniejszych wersjach MEGA (poniżej 4.0). Model Jukesa-Cantora koryguje wielokrotne podstawienia w tych samych pozycjach, model Kimura 2-Parameter (dwuparametryczny model Kimury) dopuszcza różne tempa tranzycji i transwersji, a model Tamura-Nei wprowadza korektę związaną z nierówną częstością zasad, odbiegającą od domyślnej częstości 0,25. Model MCL jest opartą na metodzie największej wiarygodności implementacją modelu Tamury-Nei, która zwiększa dokładność szacowania odległości liczonych parami. Ostatnia opcja Rates among Sites, dopuszcza rózne tempa ewolucji między pozycjami. Wyborem domyślnym jest tempo jednolite (Uniform rates). Alternatywa – tempo zmienne – zgodnie z rozkładem gamma Different (Gamma Distributed (G)), wymaga określenia parametru kształtu rozkładu α, który musi być oszacowany odpowiednimi metodami. Dla naszych potrzeb przyjmujemy opcję domyślną. Opcjami Substitutions to include oraz Pattern among Lineages również nie będziemy się szczegółowo zajmować. Po prostu zaakceptujemy wybór domyślny. Klikamy Compute, żeby policzyć i wyświetlić drzewo. Ocena rzetelności drzewa Jedną z najważniejszych rzeczy, którą musimy sobie uświadomić przy tworzeniu drzew filogenetycznych jest to, że prawie na pewno są one nieprawidłowe. Nawet jeśli nie uwzględnimy długości gałęzi, to dla drzewa złożonego ze 100 sekwencji istnieje ok. 3 × 1074 11 różnych topologii. Zadaniem metod rekonstrukcji drzew, takich jak NJ, jest próba wyboru jednego drzewa, które odzwierciedla rzeczywisty przebieg historycznego procesu rozgałęziania się drzewa sekwencji. Odtworzone drzewo prawie na pewno nie będzie prawidłowe. Będzie najlepszym przybliżeniem możliwym przy określonych założeniach metody i wybranego modelu oraz implementacji tej metody. Jako, że nie możemy poznać prawdziwego drzewa, pozostaje nam wiara w to, że otrzymane drzewo jest bardzo zbliżone do prawdziwego. Ponieważ otrzymane drzewa są szacunkowe, chcielibyśmy mieć jakieś pojęcie o rzetelności (wiarygodności) tych szacunków. Najczęściej stosowaną metodą szacowania wiarygodności drzew filogenetycznych jest metoda samopróbkowania (ang. bootstrap), chociaż inne metody, jak bayesowskie prawdopodobieństwo a posteriori, czy przybliżony test ilorazu wiarygodności (Approximate Likelihood Ratio Test, aLRT), który ostatnio wprowadzono do programu PHYML, zyskują na popularności. Trzeba sobie zdawać sprawę, że są to metody szacowania powtarzalności, nie zaś dokładności. W przypadku samopróbkowania powtarzalność występowania kladów (zbiór wszystkich sekwencji potomnych określonego węzła wewnętrznego) na drzewie jest oparta na tworzeniu z danych wielu pseudo-próbek. Na szczęście samopróbkowanie i prawdopodobieństwo a posteriori są szacunkami konserwatywnymi. Symulacje, w których właściwe drzewo jest znane i może być porównane z drzewami szacunkowymi, pokazują, że obie metody nie doszacowują prawdopodobieństwa istnienia kladu (grupy sekwencji pochodzącej z określonego węzła). Bootstrap jest metodą wprowadzoną przez Felsensteina w roku 1985 i od tamtej pory jest rutynowo wykorzystywana w badaniach filogenetycznych. Podstawienia w sekwencjach są procesem przypadkowym. Nawet jeśli sekwencje ewoluują w sposób poprawnie opisywany przez określony model ewolucji, liczba podstawień występująca w dowolnej gałęzi rzeczywistego drzewa może znacząco odbiegać od spodziewanej średniej liczby podstawień przewidywanych na podstawie modelu. Oznacza to, że mierzone odległości pomiędzy sekwencjami podlegają przypadkowej zmienności. Chcemy wiedzieć, czy opisywana przypadkowa zmienność odległości ewolucyjnych wpływa na konstruowanie drzewa. Metoda bootstrap pozwala uzyskać odpowiedź na takie pytanie na podstawie porównania topologii drzew konstruowanych dla losowo wygenerowanych dopasowań sekwencji, nieznacznie różniących się od zadanego dopasowania wielosekwencyjnego. Generowanie dopasowań sekwencji odbywa się przez losowanie kolumn z zadanego dopasowania sekwencji. Każde z wygenerowanych dopasowań ma taką samą długość, jak wejściowe dopasowanie sekwencji. W wyniku losowania niektóre z kolumn wejściowego przyrównania mogą się pojawić w wygenerowanym przyrównaniu więcej niż jeden raz, inne zaś mogą się w nim w ogóle nie pojawić (mamy tu więc do czynienia z tzw. losowaniem ze zwracaniem). Wygenerowane w ten sposób przyrównania zawierają zatem nieco inną informację filogenetyczną niż oryginalne przyrównanie wielosekwencyjne. Topologia drzewa skonstruowanego dla takich wygenerowanych przyrównań niekoniecznie może być taka sama jak dla przypadku drzewa wyznaczonego na podstawie oryginalnego przyrównania sekwencji. Jeżeli w danych wejściowych zawartych jest dużo informacji filogenetycznej, to informacja o pokrewieństwie ewolucyjnym między poszczególnymi sekwencjami w analizowanym zbiorze jest zawarta na całej długości ich przyrównania. Z tego powodu randomizacja danych nie powinna w takim przypadku wiele zmienić. Czasami jednak sygnał decydujący o umieszczeniu w drzewie pewnych węzłów może być stosunkowo słaby. Szum informacyjny zawarty w wygenerowanych przyrównaniach może wtedy doprowadzić do uzyskiwania drzew o innej topologii. Zwróćmy uwagę, że procedura losowania ze zwracaniem nie jest równoważna zwykłemu przetasowaniu kolejności kolumn. Metody filogenetyczne traktują każdą z kolumn źródłowego przyrównania niezależnie, stąd przyrównanie zawierające te 12 same kolumny tylko w innej kolejności zawiera dokładnie taką samą informację, jak oryginalne przyrównanie wielosekwencyjne. Wykorzystanie metody bootstrap do oceny wiarygodności skonstruowanego wcześniej drzewa filogenetycznego obejmuje wygenerowanie wielu przyrównań sekwencji (zazwyczaj między 100 a 1000). Dla każdego z wygenerowanych przyrównań jest wyznaczane drzewo filogenetyczne. W zbiorze takich drzew niektóre drzewa będą miały taką samą topologię, jak drzewa oryginalne. Inne będą się od niego różnić. Każdemu z węzłów w oryginalnym drzewie jest następnie przypisywana wartość bootstrap równa odsetkowi wygenerowanych drzew, w których obserwowano dokładnie takie samo rozgałęzienie linii ewolucyjnych. Wyniki uzyskane za pomocą metody bootstrap często są przedstawiane w postaci drzewa konsensusowego. Najpierw określa się częstość występowania każdego z możliwych kladów (grup sekwencji pochodzących z określonego węzła) w zestawie wygenerowanych drzew, a następnie klady są uporządkowywane wg malejących wartości bootstrap. Konstrukcja drzewa konsensusowego polega na dodawaniu, zgodnie z kolejnością, pojedynczych kladów, poczynając od tych o największych wartościach bootstrap. Dodawany może być wyłącznie taki klad, któremu odpowiada największa możliwa wartość bootstrap oraz którego dodanie nie oznacza konfliktu z wcześniej dodanymi kladami. Topologia drzewa konsensusowego może nieznacznie różnić się od drzewa skonstruowanego dla oryginalnego przyrównania wielosekwencyjnego. W takiej sytuacji należy zdecydować, czy ostatecznie zaprezentować oryginalne drzewo z wartościami bootstrap, czy też drzewo konsensusowe, w którym będą występować klady z wartościami bootstrap większymi niż w oryginalnym drzewie. Dobrze określone klady o dużych wartościach bootstrap prawie zawsze wystąpią zarówno w drzewie oryginalnym, jak i konsensusowym. Zatem kwestia wyboru prezentowanego drzewa sprowadza się do sposobu przedstawienia mniej dokładnie określonych części drzewa. Aby przeprowadzić test samopróbkowania, w głównym oknie programu MEGA z menu Phylogeny wybieramy Construct/Test Neighbor-Joining Tree, a następnie w oknie parametrów analiz, w wierszu Test of Phylogeny z rozwijanego menu wybieramy Bootstrap. W wierszu No. of bootstrap replications, pojawi się domyślna wartość 500. Liczba replikacji powinna być ustawiona na co najmniej 100, a najlepiej na 2000. Im będzie większa, tym test będzie dłużej trwał, jednak metoda NJ działa tak szybko, że można spokojnie wybrać 2000. Większe liczby przynoszą niewielką korzyść. Po ustawieniu liczby powtórzeń, ustawiamy pozostałe parametry dokładnie tak, jak dla filogenezy NJ i klikamy Compute. Pasek postępu pokazuje stopień zaawansowania analizy. Po pojawieniu się drzewa wybierzmy Topology only z menu View, aby wyświetlić drzewo w formacie, w którym lepiej widać porządek rozgałęzień. Liczby obok każdego węzła to procenty samopróbkowania. Wyrażają (w procentach) częstość występowania wszystkich sekwencji pochodzących z danego węzła (kladu) we wszystkich powtórzeniach samopróbkowania. Na koniec z menu File wybieramy Save, aby zapisać drzewo w formacie MEGA (mts). Z tego samego menu można wybrać opcję wydrukowania drzewa. Budowa drzew dla sekwencji białkowych Tak bardzo przywykliśmy do odczytywania sekwencji białkowych z sekwencji DNA, że mogliśmy już zapomnieć o czasach, gdy białka były sekwencjonowane bezpośrednio. Jeśli jednak sekwencje kodujące niektórych interesujących nas białek nie są znane, to drzewo NJ trzeba będzie zbudować w oparciu o sekwencje białkowe. Różnica sprowadza się jedynie do wyboru modelu substytucji aminokwasów zamiast modelu substytucji nukleotydów. Model korekty Poissona z grubsza odpowiada modelowi Jukesa-Cantora, wprowadzając poprawkę 13 na wielokrotne substytucje. Modele Dayhoff i JTT również uwzględniają podstawienia wielokrotne, ale posługują się macierzami temp podstawień utworzonymi na podstawie zaobserwowanych proporcji podstawień w dużych zestawach sekwencji. Macierz Dayhoff pochodzi z roku 1979, natomiast macierze JTT to uaktualnione podejście Dayhoff z roku 1992, oparte na znacznie większym zestawie białek. Do budowy białkowych drzew NJ lepiej jest używać model JTT. Cz. IV Rysowanie drzew filogenetycznych Drzewo filogenetyczne składa się z gałęzi i węzłów. Zapisując wcześniej drzewo, zapisaliśmy jego opis w pliku o specjalnym formacie mts. Na jego podstawie MEGA może szybko narysować drzewo. Drzewo przypomina zbiór współrzędnych XY. Możemy go opisać podając współrzędne, ale częściej wybieramy formę graficzną, w której relacje między elementami zbioru są dla odbiorców bardziej czytelne. Z tego samego powodu wolimy narysować drzewo, które lepiej zilustruje nam historyczne pokrewieństwa między interesującymi nas sekwencjami. Zmiana wyglądu drzewa Drzewo filogenetyczne zawierające tę samą informację możemy, podobnie jak wykres, przedstawić na różne sposoby. Obecnie skoncentrujemy się na różnych sposobach rysowania drzew, po to by móc przekazać odbiorcom informację w jak najbardziej przejrzystej formie. Wybór, którego dokonamy, pomoże odbiorcom skoncentrować się na tym, co chcemy im przekazać za pomocą drzewa. Jeśli odznaczymy wybraną wcześniej opcję Topology Only z menu View, uzyskamy drzewo dla zbioru smallData w popularnym formacie prostokątnego filogramu. Linie pionowe reprezentują wewnętrzne węzły, a linie poziome – gałęzie. W filogramie te długości poziomych linii są proporcjonalne do długości gałęzi. Na dole rysunku znajduje się zwykle skala w postaci linii o określonej długości pokazująca liczbę podstawień na jedno miejsce. Jedną z zalet takiego formatu jest bezpośrednie przedstawienie długości gałęzi. Z drugiej strony, trudno dostrzec porządek rozgałęzień między węzłami połączonymi bardzo krótkimi gałęziami (np. wewnątrz kladu E. coli/Shigella), zwłaszcza gdy na drzewie są również bardzo długie gałęzie. Niektórym węzłom nie można też przypisać odpowiadających im wartości samopróbkowania. Wtedy lepszy może być format kladogramu, w którym długości gałęzi nie są proporcjonalne do rzeczywistych odległości między węzłami. Aby przedstawić drzewo w tej postaci w oknie eksploratora drzew klikamy przycisk Display Only Topolgy. Wadą prostokątnego kladogramu jest to, że nie wiemy teraz jak długie są gałęzie. Aby temu zaradzić, klikamy przycisk Options z ikoną przypominająca młotek. Pojawi się okno dialogowe. Klikamy Branch, zaznaczmy pole wyboru długości gałęzi Display Branch length i OK. Pod każdą gałęzią widzimy teraz wydrukowaną jej długość, a po lewej stronie węzła odpowiadającą mu procentową wartość bootstrap. Okno dialogowe Options pozwala na ustalenie z dokładnością do ilu miejsc po przecinku będą zapisane liczby określające długość gałęzi; ustalenie grubości linii, kształtu i stylu czcionki użytej do opisania długości gałęzi, procentowej wartości samopróbkowania, określenie czy te wartości są wyświetlane czy też nie (poprzez zaznaczenie lub odznaczenie pola wyboru Display Statistics/Frequency), ustalenie położenia tych liczb, itd. Okno dialogowe Options pozwala na precyzyjną kontrolę naprawdę wielu czynników wpływających na wygląd drzewa. 14 Przyciskiem stylu gałęzi Tree/Branch Style można wybrać wygląd inny niż prostokątny. W stylu prostym Stright (zwanym czasem ukośnym) węzły są umieszczone na przecięciu gałęzi. Aby rysunek był bardziej czytelny, długości gałęzi można pominąć. W tym stylu wyraźnie widać, że gałęzie wywodzą się od wspólnego przodka. Jest to szczególnie pomocne, gdy z jednego węzła wychodzą więcej niż dwie gałęzie (mówmy wtedy o politomii). Przyciski umieszczone wzdłuż lewej krawędzi okna eksploratora drzew kontrolują najróżniejsze narzędzia modyfikujące wygląd drzewa. Najlepiej zilustrować ich działanie na przykładzie bardziej złożonego drzewa, opartego na danych largeData (plik largeData.meg). Drzewo NJ oparte na largeData zawiera 77 sekwencji i jest stosunkowo duże. Etykieta Tree w oknie dialogowym Options (aby je wyświetlić klikamy przycisk z młotkiem) pozwala na modyfikację wyglądu drzewa. Diagram w oknie pokazuje, że liczba w polu Taxon Separation wpływa na pionowe odległości między gałęziami. Zmniejszenie domyślnej wartości z 24 do 10 pikseli zmniejszy odpowiednio drzewo w pionie, a zwiększenie jego szerokości w polu Tree Width do 600 pikseli rozciągnie je nieco w poziomie. Powyższe modyfikacje pozwolą na obejrzenie całego drzewa w zadowalających proporcjach. Etykieta Labels w oknie Options pozwala na wybór czcionki, jej wielkości i stylu etykietek taksonów (tzn. nazw sekwencji). Ukorzenianie drzewa Dotychczasowe formy reprezentacji graficznej drzew sprawiały wrażenie jakby wszystkie sekwencje wywodziły się od jednego przodka, odpowiadającemu węzłowi wysuniętemu najbardziej na lewo. Taki wygląd jest mylący. Węzeł wewnętrzny, z którego wywodzą się wszystkie sekwencje czy taksony, nazywamy korzeniem. Gdy znamy położenie korzenia, to znamy też kierunek ewolucji i kolejność dziedziczenia sekwencji. Możemy wtedy prześledzić drogę od korzenia do dowolnej sekwencji. Wszystkie taksony, czy sekwencje potomne określonego węzła wewnętrznego stanowią klad. Zrozumienie kolejności dziedziczenia wymaga znajomości położenia korzenia. Problem polega na tym, że NJ podobnie jak większość innych metod budowy drzew filogenetycznych, nie potrafi ustalić położenia korzenia. Tak więc NJ odtwarza drzewo nieukorzenione. Gdy drzewo przedstawiamy w formie prostokątnej (albo prostej), to któryś węzeł z natury rzeczy musi znaleźć się najbardziej z lewej strony. Niesłusznie możemy postrzegać ten węzeł jako korzeń, podczas gdy w rzeczywistości korzenia wcale tu nie ma. Jeśli chcemy wyświetlić nieukorzenione drzewo w sposób najbardziej obiektywny, to z menu View powinniśmy wybrać opcję Tree/Branch Style, a następnie Radiation. Otrzymamy wtedy drzewo w formacie promienistym. Problem w tym, że format promienisty, mimo że najbardziej obiektywny, jest trudny do interpretacji, szczególnie dla niespecjalistów. Narysowanie drzewa w formacie prostokątnym wymaga umiejscowienia korzenia na którejś z gałęzi nieukorzenionego drzewa. Niektóre programy umiejscawiają korzeń po prostu na gałęzi prowadzącej do pierwszej sekwencji w przyrównaniu. MEGA jest tu o tyle lepsza, że umieszcza korzeń po środku drzewa, na gałęzi znajdującej się w połowie drogi między dwiema najbardziej odległymi sekwencjami. Jeśli tempo ewolucji wzdłuż gałęzi jest z grubsza stałe, to takie wypośrodkowane ukorzenienie prawie na pewno ustawi korzeń prawidłowo. Możemy w ten sposób np. ukorzenić drzewo NJ utworzone na podstawie zbioru smallData. Najczęściej jednak ta metoda umiejscawia korzeń nieprawidłowo i dlatego nie należy na niej zbytnio polegać. Pamiętajmy, że pomimo wyglądu, drzewo NJ jest w rzeczywistości nieukorzenione. 15 My jednak na ogół chcemy znać kierunek ewolucji i kolejność dziedziczenia. Dlatego musimy znaleźć położenie korzenia. Same sekwencje nie zawierają informacji wystarczających do prawidłowego umiejscowienia korzenia. Potrzebujemy do tego dodatkowych informacji z zewnątrz. Taka informacja istnieje w postaci grupy zewnętrznej. Grupę zewnętrzną definiujemy jako jedną lub więcej sekwencji, które są dalej spokrewnione z sekwencjami grupy wewnętrznej, niż sekwencje z tej ostatniej ze sobą nawzajem. Empirycznie ustalono dla naszego przypadku (zbiór largeData.meg), że sekwencje CFXA3, CFXA2, PER1, tla1, CGA1 oraz CME2 pochodzą z grupy bakterii o nazwie CFB i że ta grupa jest dalej spokrewniona z pozostałymi sekwencjami, niż one wzajemnie ze sobą. Dlatego korzeń powinniśmy umieścić wewnątrz gałęzi prowadzącej od grupy CFB do wszystkich pozostałych sekwencji. Do ukorzenienia drzewa korzystamy z narzędzia Place Root on Branch. Wybieramy to narzędzie, klikając je, i wybierając za jego pomocą odpowiednią gałąź. Drzewo powinno zostać teraz ukorzenione. Najbardziej na lewo wysunięty węzeł, będący teraz korzeniem, prowadzi do dwóch grup: górnej grupy wewnętrznej i dolnej grupy zewnętrznej CFB. Porównajmy teraz ukorzenione drzewo z drzewem nieukorzenionym. Jest niesłychanie ważne, aby nie mylić wyglądu ukorzenionego drzewa z rzeczywistym drzewem ukorzenionym. Gdy w artykule lub na seminarium widzimy jakieś drzewo, to powinniśmy przyjąć, że jest ono nieukorzenione, chyba że autor wyraźnie określi sposób jego ukorzenienia. Jeżeli nie, to znaczy, że wszelkie wnioski oparte na kolejności dziedziczenia sekwencji czy taksonów na takim drzewie należy odrzucić jako niepewne. Znajdowanie grupy zewnętrznej Co zrobić, gdy pośród sekwencji na drzewie nie ma oczywistej grupy zewnętrznej? No cóż, trzeba wtedy dodać do przyrównania jakieś sekwencje z grupy zewnętrznej. Załóżmy, że mamy do czynienia z zestawem sekwencji pochodzących wyłącznie od ssaków. Można wtedy poszukać jednej lub więcej sekwencji homologicznych z ptaków lub gadów. Wiemy, że ptaki odłączyły się od ssaków, zanim ssaki zaczęły się różnicować między sobą. Dlatego sekwencje ptasie na pewno będą należały do grupy zewnętrznej. Pewną trudność może sprawić wymóg homologii tych sekwencji. Tak więc, sekwencje z grupy zewnętrznej musiały rozejść się z sekwencjami grupy wewnętrznej, zanim te ostatnie zaczęły się różnicować między sobą, ale nie tak wcześnie, żeby ich wzajemna homologia przestała być wykrywalna. Można sobie zadać pytanie skąd wiadomo, że korzeń drzewa dla zbioru smallData został prawidłowo umiejscowiony. Otóż wiadomo, że wszystkie sekwencje ze zbioru smallData pochodzą z bakterii gram-ujemnych. Wyniki przeszukiwania programem BLAST zawierają m. in. trzy sekwencje, które pochodzą z bakterii gram-dodatnich, grupy, która odłączyła się od bakterii gram-ujemnych ok. 2,2 mld lat temu, znacznie wcześniej niż bakterie gram-ujemne zaczęły się różnicować między sobą. Dlatego sekwencje z bakterii gramdodatnich stanowią grupę zewnętrzną. Można więc dodać te sekwencje do edytora przyrównań, przyrównać je wszystkie razem i zrobić nowe drzewo NJ, z grupą zewnętrzną złożoną z bakterii gram-dodatnich. Najgłębiej położony węzeł wśród bakterii gram-ujemnych jest taki sam jak w przypadku drzewa utworzonego tylko na ich podstawie. Zadanie 1 Przeprowadź za pomocą BLASTa przeszukiwanie bazy GenPept, stosując jako kwerendę sekwencję białkową ebgC. W opcjach programu ustaw liczbę wyświetlanych wyników na 250. Odszukaj przyrównania dla następujących sekwencji: Clostridium acetobutylicum ATCC 824 chromosome complete genome, Streptococcus pneumoniae gamPNI0373 chromosome 16 complete genome, Clostridium perfringens F262 Contig 15 whole genome shotgun sequence. Dodaj do uprzednio otrzymanego zestawu sekwencji (ebgC2.mas) CDSy w odpowiedniej orientacji. Przeprowadź przyrównanie dla całego zestawu i utwórz oraz narysuj drzewo NJ. Zwróć uwagę na jego topologię i porównaj z topologią drzewa dla zestawu ebgC.meg. Zapisywanie drzew Kiedy już włożyliśmy tyle trudu w osiągnięcie zadowalającego nas wyglądu drzewa, ważne jest jego zapisanie. Są dwa różne sposoby zapisywania drzewa: (1) jako jego opisu oraz (2) jako jego wizerunku. Aby zapisać opis drzewa w formacie MEGA mts należy kliknąć ikonę Save current session po lewej stronie okna lub wybrać z memu File opcję Save current session. Opis drzewa można też zapamiętać w formacie Newick, wybierając opcję Export z menu File. Format Newick, noszący nazwę pubu, w którym wymyśliła go grupa systematyków, jest wykorzystywany w większości programów rysujących drzewa. MEGA odczyta drzewa zapisane w tym formacie przez inne programy, gdy z menu File w jego głównym oknie wybierzemy Open a File/Session, a następnie wskażemy plik do otwarcia z odpowiednim rozszerzeniem. Sam obraz drzewa można zapamiętać, wybierając z menu Image w oknie eksploratora drzew polecenie Save As Enhanced Metafile (EMF), Save As PNG File lub Save As PDF File. Zbiory zapisane w formacie emf można, w celu dodania dodatkowych elementów (jak strzałki, opisy, itp.), otworzyć w większości programów graficznych napisanych dla Windows. Ponieważ emf jest graficznym formatem wektorowym, manipulacje rysunkiem nie prowadzą do utraty jego jakości. Z kolei, większość czasopism przyjmuje rysunki w formacie TIFF. Dlatego też, jeśli nie trzeba w rysunku nic zmieniać, to warto go w tym formacie zapisać. TIFF jest formatem bitmapowym, więc warto wypróbować różne opcje rysowania drzew w MEGA, aby po wydrukowaniu rysunek wyglądał jak należy. Wreszcie naciśnięcie Ctrl-C, albo wybór Copy to Clipboard z menu File pozwala na wklejenie rysunku drzewa bezpośrednio do takich programów jak CorelDraw, Word czy PowerPoint. Legendy MEGA posiada także komendę Caption, która automatycznie tworzy opis każdej przeprowadzonej analizy. W celu utworzenia opisu drzewa filogenetycznego należy w oknie eksploratora drzew wybrać z menu pozycję Caption. Otwierające się okno legendy, poza opisem warunków obliczania drzewa, łącznie z parametrami samopróbkowania, podaje też odpowiednie cytowania. Legendę można zapisać, wydrukować albo skopiować do schowka. Jest to niesłychanie pomocne, gdy nadchodzi czas pisania artykułu. Warto zapisywać legendę, zawsze gdy budujemy drzewo. Przypomnienie sobie szczegółów analizy może być naprawdę trudne po kilku tygodniach lub miesiącach, gdy piszemy artykuł. Jednocześnie, w publikacji nie można używać legendy MEGA bez żadnych zmian. Można ją potraktować jako dobry punkt wyjścia do podpisu pod rysunkiem lub opisu drzewa w tekście. Cz. V Budowanie drzew metodą MP (największej oszczędności) Kryterium parsymonii ma długą historię w badaniach filogenetycznych prowadzonych na podstawie cech morfologicznych. Zgodnie z tym kryterium spośród wielu możliwych rozwiązań postawionego problemu wybierane jest takie, które obejmuje najmniejszą liczbę 17 arbitralnych założeń. Parsymonia często znajduje zastosowanie w analizie cech morfologicznych reprezentowanych w postaci binarnej, tj. 0 i 1, gdzie 0 odpowiada stanowi cechy u gatunku przodka, a 1 – stanowi cechy u gatunku potomnego. Przykładowo 1 może oznaczać strukturę kości w skrzydle ptaka, a 0 może oznaczać strukturę przedniej kończyny salamandry. W praktyce wybór odpowiadających sobie cech morfologicznych u różnych gatunków nie jest tak oczywisty, jak w opisanym przykładzie i wymaga gruntowanej znajomości anatomii i paleontologii. Kryterium parsymonii może być również wykorzystane w analizie danych molekularnych. Każdą kolumnę w przyrównaniu wielosekwencyjnym traktuje się jako stan cechy. Każde z obserwowanych w kolumnie podstawień zmienia stan cechy. Zastosowanie kryterium parsymonii oznacza poszukiwanie drzewa, które będzie opisywało obserwowaną zmienność sekwencji poprzez najmniejszą liczbę podstawień. Ponieważ nie wiadomo jak wyglądała sekwencja przodka, z którego wyewoluowały obserwowane obecnie sekwencje, nie można ustalić kierunku zmian cech. Dlatego kryterium parsymonii jest wykorzystywane w analizie danych molekularnych do oceny drzew nieukorzenionych. Rozważmy pojedynczą pozycję przyrównania sekwencji, na której u człowieka, szympansa i goryla znajduje się C, a u orangutana i gibona znajduje się T. Zmienność na tej pozycji może być opisana przez jedno podstawienie (oznaczone * na rys. A). Na drzewie z rys. B występują dwa podstawienia. W przypadku rozpatrywanej pozycji przyrównania pierwsze z omawianych drzew jest zatem bardziej prawdopodobne. Warto zdać sobie sprawę, że nie wszystkie pozycje przyrównania są informatywne. Tak np., jeśli we wszystkich sekwencjach w przyrównaniu na pewnej pozycji występuje ta sama reszta, to ta pozycja nie zawiera informacji filogenetycznej. A Człowiek (C) Gibon (T) B Gibon (T) * Człowiek (C) * * Szympans (C) Goryl (C) Orangutan (T) Szympans (C) C Goryl (C) Orangutan (T) D Człowiek (C) Gibon (T) Gibon (T) * Szympans (C) Goryl (C) Człowiek (C) * Orangutan (C) Szympans (C) Goryl (C) Orangutan (C) Rys. Kryterium parsymonii zastosowane do przykładowej pozycji informatywnej w danych molekularnych pozwala wybrać drzewo (A) i odrzucić drzewo (B). W świetle tego samego kryterium drzewa (C) i (D) są nierozróżnialne, ponieważ wyznaczono je dla nieinformatywnej pozycji w przyrównaniu (Źródło: Attwood T, Higgs PG. 2008. Bioinformatyka i ewolucja molekularna. PWN, Warszawa, s. 265). Przypadek opisywany przez drzewa C i D również jest nieinformatywny – we wszystkich bowiem sekwencjach, z wyjątkiem sekwencji gibona, występuje C. W tej sytuacji, niezależnie od wyboru topologii drzewa, zawsze jedno podstawienie będzie występować na 18 gałęzi prowadzącej do sekwencji gibona. Taka pozycja przyrównania nie jest informatywna, gdyż wyznaczone dla niej alternatywne drzewa są nierozróżnialne w świetle kryterium parsymonii. Prosta reguła mówi, że aby pozycja przyrównania była informatywna, musi zawierać co najmniej dwa rodzaje reszt, z których każda występuje na tej pozycji co najmniej dwa razy. Aby oszacować drzewo zgodnie z zasadą największej oszczędności (ang. Maximum Parsimony, MP), wczytujemy plik smallData.meg. Z menu Phylogeny wybieramy Construct/Test Maximum Parsimony Tree(s). Okno dialogowe parametrów analizy wygląda znajomo, chociaż nieco inaczej niż poprzednio. Zamiast opcji Model/Method (model/metoda) mamy teraz Tree Inference Options (opcje poszukiwania), ponieważ do szacowania drzewa zgodnie z zasadą maksymalnej parsymonii nie wykorzystuje się modeli substytucji. Metoda największej oszczędności oparta jest na przesłance, że optymalne jest takie drzewo, które do wyjaśnienia danych potrzebuje najmniejszej liczby zmian. Zamiast modelu musimy więc wybrać metodę, której program użyje do poszukiwania drzewa wymagającego minimalnej liczby zmian, czyli najbardziej oszczędnego. Klikamy żółte pole w wierszu MP Search Method i mamy do wyboru cztery metody budowy drzewa MP: wyczerpującą metodę podziału i ograniczeń Max-mini Branch&-bound, minimalistyczną metodę heurystyczną Min-Mini Heuristic, oraz pozostałe dwie metody heurystyczne Subtree-Pruning-Regrafting (SPR) i Tree-Bisection-Reconnection (TBR). Dwie pierwsze metody są raczej powolne. W domyślnie ustawionej metodzie Subtree-Pruning-Regrafting (SPR) możemy wybrać 1., 2., 3., 4 lub 5. poziom poszukiwania (MP Search Level) oraz ustalić ilość powtórzeń przy losowym wyborze drzewa początkowego. Max. No. of Trees to Retain pozwala ustalić maksymalną liczbę zapamiętanych drzew po zakończeniu analizy. Pozostawiamy opcje domyślne i klikamy Compute, aby rozpocząć szacowanie drzewa. Rezultatem analizy jest otrzymanie najoszczędniejszego drzewa. Metoda MP tworzy większą liczbę najoszczędniejszych drzew. Kliknięcie przycisku i (informacje) wyświetla okno dialogowe, z którego dowiadujemy się, że w rzeczywistości patrzymy na jedno z kilku (np. 3) lub wielu różnych możliwych drzew. Pozostałe drzewa możemy zobaczyć, gdy w polu Tree# (numer drzewa), które znajduje się na górze okna eksploratora drzew, klikniemy strzałkę zwróconą w górę. Aby zauważyć różnice między kolejnymi drzewami trzeba się im dokładnie przyjrzeć. Różnica nie jest żadnym błędem programu – to tylko konsekwencja wrodzonej właściwości metody MP. Na drzewie MP da się zauważyć dwie różnice w stosunku do drzewa NJ: (1) drzewo MP ma postać kladogramu (pokazującego jedynie topologię), a nie filogramu, (2) nie jest prawidłowo ukorzenione. Obie różnice biorą się stąd, że program MP nie policzył długości gałęzi drzewa. Bez tego nie da się przedstawić drzewa w formie filogramu. Nie da się też zastosować metody wypośrodkowania do przedstawienia drzewa tak, jakby było ukorzenione. Zamiast tego program wyświetla drzewo, które wygląda tak, jakby było ukorzenione ostatnią sekwencją. Za pomocą narzędzia ukorzeniającego (Place Root on Branch) możemy prawidłowo ukorzenić drzewo, klikając gałąź łączącą grupy E. coli/Shigella i Vibrio. Aby obliczyć długość gałęzi, klikamy przycisk Display Only Topology. W ten sposób wyłączymy opcję, która sprawia, że wyświetlana jest tylko topologia drzewa, i program policzy długości gałęzi. Drzewo jest jednak wciąż nieprawidłowo ukorzenione. Długości gałęzi w metodach MP i NJ nie są równoważne i w tym przykładzie metoda wypośrodkowania umiejscawia korzeń nieprawidłowo. Pamiętajmy, że otrzymane drzewo jest wciąż nieukorzenione, niezależnie od tego jak się je narysuje. MP, podobnie jak NJ może szacować wyłącznie nieukorzenione drzewa. Jeśli klikniemy strzałkę pola Tree#, to następne drzewo zobaczymy również w formie filogramu, ponieważ obliczanie długości drzewa jest tak szybkie, że ledwie można to 19 zauważyć. Wynika to z niewielkiej liczby krótkich sekwencji, z jakimi mamy do czynienia w tym przykładzie. Częściej jednak w zależności od danych, obliczanie długości gałęzi drzewa MP zajmuje od kilku minut do nawet kilku godzin. Zanim rozważymy dokładniej zagadnienie wielu różnych równie oszczędnych drzew, zobaczymy, jakie znaczenie może mieć zmiana poziomu poszukiwania w metodzie SubtreePruning-Regrafting. Jeśli zastosujemy poziom 2 (Level 2), to otrzymamy znacznie więcej równie oszczędnych drzew, niż przy poziomie pierwszym, a przy poziomie trzecim jeszcze więcej. Z powodu losowego charakteru obliczeń, za każdym razem otrzymujemy na tym samym poziomie inną liczbę drzew. Im wyższy jest poziom poszukiwania, tym jest ono dokładniejsze i tym więcej równie oszczędnych drzew otrzymujemy. Czy to znaczy, że opuszczamy niektóre drzewa? Tak, ale dodatkowy czas, potrzebny do ich odszukania, najczęściej nie usprawiedliwia związanego z tym wysiłku. Niezależnie od tego, czy znajdziemy 30 czy 300 drzew, staniemy przed dylematem, co z nimi zrobić. Oczywiście nie możemy ich wszystkich pokazać naszym odbiorcom. Możemy więc pokazać którekolwiek z nich, ponieważ wszystkie są równie oszczędne, a więc równie „dobre”. Jeśli jednak tak postąpimy, to musimy powiedzieć odbiorcom ile jest różnych, ale równie dobrych drzew. Możemy też nasze wyniki streścić i przedstawić w postaci drzewa uzgodnionego, czyli konsensusowego. Aby je obliczyć, w oknie eksploratora drzew, z menu Compute, wybieramy Consensus Tree albo klikamy przycisk Compute Consensus. Pojawi się okno dialogowe z pytaniem o wartość progu odcięcia. Przyjęcie domyślnej wartości 50% oznacza, ze klady występujące rzadziej, niż w 50% drzew, pojawią się w postaci politomii, to znaczy wielu gałęzi wychodzących z jednego węzła. Pojawienie się politomii oznacza, że nie udało się ustalić kolejności rozgałęzień. Nie jest to zaskakujące, gdy weźmie się pod uwagę bardzo krótkie gałęzie w tym kladzie. Krótkie gałęzie wskazują na niewielkie zróżnicowanie między sekwencjami, a gdy nie ma wielu zamian, to nie da się łatwo ustalić ich kolejności. Liczby przy węzłach wyrażają procentowy udział drzew, w których te klady występują, podobnie jak to ma miejsce przy uzgodnionym drzewie z samopróbkowania. Nie należy jednak mylić drzewa uzgodnionego konsensusu z drzewem po samopróbkowaniu. W tym przykładzie otrzymaliśmy drzewo uzgodnione na podstawie większej ilości dobrych drzew, faktycznie uśredniając je. Wszystkie te drzewa powstały na podstawie tych samych danych. Powtórzenia samopróbkowania stanowią niejako różne próbki tych samych danych. Aby otrzymać drzewo po samopróbkowaniu, wybieramy w głównym oknie MEGA Construct/Test Maximum Parsimony Tree(s), a w wierszu Test of Phylogeny z rozwijanego menu wybieramy Bootstrap oraz ustawiamy liczbę powtórzeń (No. of Bootstrap Replications) na 500. Jeśli zastosujemy poziom 3 poszukiwania (MP Search Level) otrzymamy jeszcze więcej równie oszczędnych drzew. Jeśli klikniemy przycisk Compute Consensus, a następnie etykietę Bootstrap consensus tree, to zobaczymy, że drzewo po samopróbkowaniu (otrzymane na podstawie wielu zestawów sztucznych danych) ma jeszcze mniejszą rozdzielczość (więcej politomii) niż drzewo uzgodnione (otrzymane na podstawie oryginalnego zestawu danych). Drzewa uzgodnione nie mogą pokazać długości gałęzi, drzewa indywidualne zaś nie mogą pokazać, jak często klady pojawiają się wśród różnych, równie oszczędnych drzew. Od nas zależy, które z tych drzew pokażemy, ale musimy wyraźnie zaznaczyć, co pokazujemy i dlaczego. Czy to wszystko, co powiedziano o wielu drzewach i ich uzgadnianiu, oznacza, że należy zapomnieć o metodzie MP i trzymać się metody NJ? Wcale nie. Korzystną właściwością metody NJ jest to, ze otrzymujemy dzięki niej jedno drzewo, przez co może sprawić złudne wrażenie, że jest to najlepsze drzewo. Liczba drzew MP i politomie na uzgodnionym drzewie MP odzwierciedlają rzeczywisty brak 20 pewności przy ustalaniu kolejności rozgałęzień. Metoda NJ może sprawiać fałszywe wrażenie większej pewności. W przypadku sekwencji białkowych, należy mieć na uwadze, że metoda MP nie korzysta ze zdefiniowanych substytucyjnych modeli ewolucji, więc jest bez znaczenia, czy stosujemy ją do sekwencji białkowych czy nukleotydowych. Literatura: Hall BG. 2008. Łatwe drzewa filogenetyczne. WUW, Warszawa. Attwood T, Higgs PG. 2008. Bioinformatyka i ewolucja molekularna. PWN, Warszawa. Xiong J. 2009. Podstawy bioinformatyki. WUW, Warszawa. 21