Tworzenie drzew filogenetycznych62

advertisement
Tworzenie drzew filogenetycznych
Wyszukiwanie pokrewnych sekwencji za pomocą programu BLAST
Załóżmy, że dysponujemy już interesującą nas sekwencją białka lub kwasu
nukleinowego i chcemy znaleźć inne, spokrewnione z nią sekwencje. Określenie
„spokrewnione” oznacza, że sekwencje są wystarczająco podobne, aby można było uznać, że
mają wspólne pochodzenie, czyli wywodzą się od wspólnego przodka.
Najprostszym sposobem na znalezienie spokrewnionych sekwencji jest poszukiwanie
w komputerowych bazach danych sekwencji do nich podobnych. Poszukiwania takie można
przeprowadzić dzięki uprzejmości różnych instytucji rządowych. My będziemy korzystać z
poznanego już wcześniej programu BLAST. Jako sekwencję kwerendową wykorzystamy
sekwencję genu nuoK z E. coliK12, który koduje podjednostkę K dehydrogenazy NADH. Po
otwarciu okna programu MEGA wybieramy z menu Align opcję Do BLAST search.
Wbudowana w program przeglądarka przeniesie nas na stronę BLAST w NCBI.
Skopiujmy sekwencję genu nuoK z pliku o tej samej nazwie i wklejmy ją w pole
edycyjne Enter accession number, gi, or FASTA sequence. W miejscu wyboru bazy
danych (Choose Search Set, Database) wybierzmy ostatnią opcję (Others (nr etc.)).
Następnie naciskamy przycisk BLAST. Po pewnym czasie pojawi się lista z wynikami.
Istnieje możliwość zmiany układu strony na taki, jaki był stosowany we wcześniejszych
wersjach programu. Wykorzystujemy w tym celu łącze Formatting options w górnej części
ekranu i zaznaczamy pole Old View, a następnie klikamy przycisk Reformat.
Wybór pokrewnych sekwencji, które mają być włączone do drzewa
Przewijając stronę w dół natrafiamy najpierw na diagram, poniżej którego znajduje się
tabela. Dla przypomnienia: w pierwszej kolumnie (Accession) znajdują się łącza do rekordu
danej sekwencji w bazie GenBank. Druga kolumna to krótki opis sekwencji. Następne dwie
kolumny przedstawiają wynik przyrównania w postaci maksymalnego wyniku lokalnego
(Max score) oraz wyniku całkowitego sumującego wszystkie możliwe przyrównania
wybranej sekwencji (Total score). Pierwsza pozycja ma wartość zbliżoną do 580. Im wyższa
ta wartość, tym bliżej dana sekwencja jest spokrewniona z sekwencją kwerendową. Kolejna
kolumna (Query coverage) zawiera procentowe udziały sekwencji kwerendowej
wykorzystane przy obliczaniu wyniku całkowitego (Total score), zaś następna (E-value)
wartości oczekiwane (E).
Wartość E dostarcza informacji o prawdopodobieństwie, że dane skojarzenie
sekwencji jest wynikiem czystego przypadku. Im niższa wartość E, tym mniejsze
prawdopodobieństwo, że skojarzenie jest wynikiem zdarzenia losowego, a zatem tym bardziej
jest ono istotne. Empiryczna interpretacja wartości tego parametru jest następująca. Jeśli
wartość E<1e-50, to z bardzo dużym prawdopodobieństwem, graniczącym z pewnością,
można stwierdzić, że skojarzone sekwencje są homologami. Jeśli ta wartość znajduje się w
zakresie od 1e-50 do 0,01, to skojarzone sekwencje można uznać za homologiczne. Jeśli
wartość E znajduje się między 0,01 a 10, to skojarzenie nie jest istotne, ale może wskazywać
odległe pokrewieństwo dwóch sekwencji. Potrzebny jest wówczas dodatkowy dowód
potwierdzający homologię. Jeśli E>10, to analizowane sekwencje albo są niespokrewnione,
albo ich pokrewieństwo jest tak odległe, że nie można go wykryć obecnie dostępnymi
metodami.
Kwestia tego, że wybrane sekwencje są homologami jest istotna, gdyż do budowy
drzewa filogenetycznego należy wybrać wyłącznie sekwencje homologiczne. W filogenetyce
zakłada się, że wszystkie sekwencje (lub organizmy) pochodzą od wspólnego przodka. W
1
istocie termin „homologiczne” oznacza „odziedziczone po wspólnym przodku”. Wybierzemy
więc tylko te sekwencje, co do których możemy mieć mocne przekonanie, że są
homologiczne. Na nasze potrzeby ustalimy granicę E<0,001 (na drzewie znajdą się zatem
tylko te sekwencje, dla których E<0,001).
Gdy już zdecydowaliśmy, które sekwencje możemy umieścić na drzewie, powinniśmy
zastanowić się, które z nich naprawdę chcemy uwzględnić. Zauważmy, że w zestawie jest
wiele sekwencji z różnych szczepów E. coli. Chociaż niektóre z nich mogą się nieznacznie
różnić między sobą, to w naszym przykładzie wybierzemy tylko po jednej sekwencji z
każdego gatunku. Aby ostatecznie zdecydować, czy chcemy uwzględnić daną sekwencję,
powinniśmy się przyjrzeć jej przyrównaniu z sekwencją kwerendową. Aby to uczynić, należy
kliknąć na wartość wyniku Max score dla danej sekwencji. W kolumnie Max score znajdują
się łącza, kierujące do przyrównań na dole strony. Kliknięcie wartości odpowiadającej
sekwencji Escherichia coli str. K12 substr. MG1655 przeniesie nas do jej
przyrównania.
Widać, że jest ona zgodna z sekwencją kwerendową w 300 na 300 pozycji, bez
żadnych przerw (idealna zgodność). Wynika to z tego, że sekwencja ta pochodzi właśnie z
tego szczepu. W wierszu bezpośrednio nad przyrównaniem znajduje się informacja:
Strand=Plus/Minus. Oznacza to, że sekwencja w bazie GenBank pochodzi z nici
komplementarnej do sekwencji kwerendowej. Nieco wyżej, pod wierszem Features in
this part of subject sequence: widać dwa łącza zaczynające się od
NADH:ubiquinone oxidoreductase, z których jedno kończy się na membrane subunit K.
Ponieważ gen nuoK koduje podjednostkę K, to jest to sekwencja z E. coli, którą chcemy
włączyć do drzewa.
Sprowadzanie sekwencji z GenBank
Klikamy łącze subunit K, aby przejść do widoku rekordu tej sekwencji w bazie
GenBank. Następnie po prawej stronie rozwijamy menu Customize view i zaznaczamy Show
Reverse complement oraz klikamy Update view. Uzyskana sekwencja jest kodowana na nici
komplementarnej do sekwencji kwerendowej, więc dopiero wtedy znajdzie się we właściwej
orientacji. Następnie przewijamy stronę do samego dołu, gdzie znajdziemy właściwie
zorientowaną sekwencję kodującą genu nuoK.
Jeśli do przeszukiwania baz danych za pomocą BLAST użylibyśmy innej niż MEGA
przeglądarki, to należałoby teraz zapamiętać uzyskaną sekwencję w formacie FASTA. Po
zapisaniu wszystkich sekwencji, które chcielibyśmy użyć do budowy drzewa, należałoby je
zestawić w jednym pliku, a następnie otworzyć ten plik w programie do przeprowadzania
przyrównań, takim jak ClustalW czy ClustalX. MEGA ułatwia nam to zadanie. Klikamy na
przycisk Add to Alignment (oznaczony czerwonym krzyżykiem), znajdujący się na pasku
poleceń, a MEGA otworzy okno Input Sequence Label, w którym wybieramy sposób
nazwania sekwencji. Jednocześnie zostanie otwarte okno eksploratora przyrównań, w którym
została umieszczona sekwencja.
W przeglądarce MEGA cofamy się do okna zawierającego zestawienie sekwencji
wybranych przez program BLAST. Dodajemy kolejno sekwencje, po jednej z każdego
gatunku, za każdym razem przyglądając się uważnie przyrównaniu. Załóżmy, że dokonaliśmy
wyboru następujących sekwencji:
1. Escherichia coli str. K-12 substr. MG1665 complete genome
2. Schigella flexnerii 2a str. 301 complete genome
3. Schigella boydii Sb227 complete genome
4. Schigella dysenteriae Sd 197 complete genome
5. Schigella sonnei Ss046 complete genome
2
6. Escherichia fergusonii ATCC 35469 chromosome complete genome
7. Citrobacter rodentium ICC168 complete genome
8. Enterobacter cloacae subsp. dissolvens SDM complete genome
9. Salmonella enterica subsp. enterica serovar Heidelberg str. B182 complete genome.
Po zakończeniu dodawania sekwencji, warto by było zapisać zawartość eksploratora
przyrównań, aby nie utracić wykonanej do tej pory pracy. Wybieramy polecenie Save session
z menu Data, a następnie określamy nazwę zbioru (np. nuoK). Będzie on miał rozszerzenie
mas, co oznacza, że jest to zbiór z przyrównaniem. Na tym kończymy pracę z przeglądarką i
możemy zamknąć jej okno.
Przyrównywanie sekwencji
Podstawową przesłanką w filogenetyce jest homologiczność wszystkich sekwencji na
drzewie. Ponadto wszystkie metody budowy drzew zakładają, że w zestawie homologicznych
sekwencji wszystkie zasady w kolumnach są również homologiczne (tzn. pochodzą od
wspólnej ancestralnej zasady obecnej w tej pozycji w sekwencji przodka). Jeśli w
analizowanych sekwencjach nie zdarzyła się żadna insercja ani delecja, to wypisanie ich,
jedna pod drugą, wystarczy do spełnienia tego założenia. Insercje i delecje, zwane łącznie
„indelami”, zmieniają długości sekwencji i powodują przesunięcie zasad lub aminokwasów.
Przyrównanie jest procesem mającym na celu wprowadzenie przerw w sekwencjach, po to,
aby z powrotem przesunąć zasady do ich homologicznych pozycji. Jest ono niezwykle ważne,
gdyż jakość drzewa filogenetycznego nie może być lepsza od jakości przyrównania.
W oknie eksploratora przyrównań z menu Edit opcję Select All, a następnie z menu
Alignment wybieramy Align by ClustalW. Wyświetli się nowe okno z parametrami
programu ClustalW. Klikamy OK.
Na chwilę pojawi się okno przedstawiające postęp obliczeń, po czym okno
eksploratora przyrównań pokaże przyrównane sekwencje. Przyrównanie jest gotowe i warto
je znowu zapisać.
Budowa drzewa metodą NJ (łączenia sąsiadów)
Część programu MEGA, która oblicza drzewa nie może korzystać bezpośrednio ze
zbioru nuoK.mas, lecz wymaga zbioru w specjalnym formacie MEGA. Z menu Data
wybieramy Export Alignment, a następnie opcję MEGA format. Nazwijmy plik nuoK.meg,
aby wiadomo było, że to plik MEGA. Pojawi się okno dialogowe z pytaniem o tytuł danych.
Nie ma właściwie znaczenia, co tu wpiszemy (może to być np. sekwencje DNA genu
nuoK). W kolejnym oknie znajdzie się pytanie, czy są to sekwencje kodujące białko.
Klikamy wtedy przycisk Yes – to ważne.
W ten sposób ukończyliśmy pracę w edytorze przyrównań i możemy zamknąć jego
okno. W głównym oknie MEGA klikamy Open A File/Session, odnajdujemy plik nuoK.meg,
który właśnie utworzyliśmy i otwieramy go. MEGA otworzy okno eksploratora sekwencji
(Sequence Data Explorer), aby powiadomić nas o udanym otwarciu pliku. Wracamy do
głównego okna programu MEGA i wybieramy Phylogeny> Construct/Test NeighborJoining Tree. Program zapyta nas, czy chcemy przeprowadzić analizę dla aktualnego
przyrównania – klikamy Yes. Otwarte zostanie okno ustawień analizy (Analysis Preferences),
które umożliwia ustawienie warunków wszystkich analiz przeprowadzanych przez program
MEGA. Klikamy przycisk Compute (Policz). Wyświetli się drzewo NJ w oknie eksploratora
drzew.
W ten sposób otrzymaliśmy właściwe, choć, niewielkie drzewo filogenetyczne.
Zwróćmy uwagę, że większość czasu poświęciliśmy wyborowi sekwencji i sprowadzeniu ich
3
z bazy GenBank. Końcowy etap właściwej konstrukcji drzewa nie wymagał zbyt wielkiego
wysiłku. Dzięki programowi MEGA można znacznie przyśpieszyć pobieranie sekwencji
(wystarczy kliknąć czerwony krzyżyk); nic jednak nie przyspieszy procesu podejmowania
decyzji. Musimy wziąć pod uwagę wartość E wybranej sekwencji i długość jej przyrównania
z sekwencją kwerendową, ale przede wszystkim własną wiedzę na temat biologii sekwencji
oraz to, co chcemy osiągnąć poprzez poznanie filogenezy.
Potrafimy już wykorzystać program MEGA do:
• Przeszukiwania bazy sekwencji za pomocą BLAST w celu identyfikacji sekwencji
homologicznych z sekwencją, która nas interesuje.
• Wybrania z uzyskanego zestawu sekwencji, które zostaną użyte do odtworzenia
filogenezy.
• Pobrania tych sekwencji do eksploratora przyrównań.
• Zapisania wybranych sekwencji.
• Przyrównania ich za pomocą programu ClustalW.
• Zbudowania na podstawie przyrównania drzewa NJ.
• Przedstawienia, zapamiętania i wydrukowania tego drzewa.
Część II. Wybór sekwencji homologicznych
Homologię trzeba odróżnić od podobieństwa. „Homologia” oznacza, że dwa taksony
lub sekwencje pochodzą od jednego przodka, jak również to, że identyczne reszty w jakimś
miejscu w przyrównaniu są identyczne na skutek dziedziczenia. „Podobieństwo”
odzwierciedla jedynie procent pozycji, które są identyczne. Dwie niespokrewnione sekwencje
mogą być tak przyrównane, że niektóre pozycje będą identyczne, ale ta identyczność nie
koniecznie musi wynikać z pochodzenia od wspólnego przodka. Oczywiście umieszczenie
dwóch niespokrewnionych sekwencji na tym samym drzewie nie ma sensu, bez względu na
ich podobieństwo, ponieważ celem budowy drzewa jest pokazanie procesu dziedziczenia po
wspólnych przodkach.
W pewnym sensie wszystkie sekwencje wywodzą się od wspólnej sekwencji
ancestralnej. Jednakże w miarę jak geny i białka ewoluują, dochodzi do takiego ich
zróżnicowania, że dwa geny mogą być równie mało do siebie podobne, jak dwie sekwencje
wybrane losowo. Ich homologia jest wtedy niewidoczna i nie powinno się ich umieszczać na
tym samym drzewie sekwencji.
Znajdowanie sekwencji homologicznych za pomocą programu BLAST
W poprzedniej części dowiedzieliśmy się, że program BLAST jest podstawowym
narzędziem do identyfikowania sekwencji, które są homologiczne z interesującą nas
sekwencją. Do zilustrowania zagadnień omawianych w tej części posłuży nam plik ebgC,
który zawiera zarówno sekwencję DNA genu ebgC, jak i sekwencję kodowanego przezeń
białka.
Spróbujmy przeszukać bazę danych sekwencji GenBank, stosując jako kwerendę
sekwencję genu ebgC. Wyświetlone zostało pierwszych 100 trafień, z których pierwsze 90 ma
wartość E<0,01. Przyrównanie sekwencji kwerendowej np. z sekwencją Vibrio
parahaemolyticus obejmuje 52 lub 30 zasad (odpowiednio dla pierwszego i drugiego
dopasowania), podczas gdy sekwencje E. coli i Shigella przyrównywane są z sekwencją
kwerendową na przestrzeni wszystkich 450 zasad. Biorąc pod uwagę regułę (wynikającą z
doświadczenia), że wybieramy sekwencje, które przyrównane są przynajmniej na połowie
długości mamy ok. 83 homologicznych sekwencji, które mogą być umieszczone na drzewie.
4
Sekwencje pochodzące z tego samego szczepu E. coli, K12, są identyczne, podobnie jak inne
nazwane „wildtype ebg operon” oraz „ebg repressor”. Ponieważ E. coli i Shigella są tak
blisko spokrewnione, że, poza aspektami medycznymi, mogą być traktowane jako ten sam
gatunek, jest to z pewnością bardzo małe, płaskie drzewo z sekwencjami o tak bliskim
pokrewieństwie, że wszystkie wartości E wynoszą 0,0.
Oczywiście ebgC może mieć bardzo ograniczone występowanie, niemiej chcielibyśmy
wiedzieć na pewno, czy homologi istnieją też u dalej spokrewnionych gatunków. Trudność,
jaką napotykamy przy poszukiwaniu dalej spokrewnionych homologów, wynika z niskiej
wykrywalności homologii DNA, gdzie są tylko cztery możliwe stany każdej cechy (A, C, G,
T). Zatem, jeśli sekwencje staną się tak różne, że będą identyczne jedynie w ok. 25% miejsc,
to będą się wydawać nie bardziej spokrewnione niż dwie wybrane losowo sekwencje
niehomologiczne. Sposobem na znalezienie dalej spokrewnionych sekwencji jest użycie w
poszukiwaniach jako kwerendy sekwencji białka. W białkach każda pozycja ma 20
możliwych stanów, więc homologia przestaje być wykrywalna, gdy podobieństwo spadnie do
ok. 5%.
Spróbujemy zatem przeszukać bazę danych sekwencji GenPept stosując jako
kwerendę sekwencję białkową ebgC. Wykorzystujemy w tym celu BLASTP. W parametrach
analizy ustawiamy liczbę wyników na 250. Widzimy, że teraz dużo więcej trafień ma wartość
E<0,01. Pierwsze przyrównanie wygląda bardzo dziwnie, ale zwróćmy uwagę, że tylko jego
pierwsza linia widoczna jest na dole rekordu. Zamiast jednej, czy dwóch cech z jednego
trafienia mamy łącza do kilkuset plików. Nagłówek przyrównania informuje, że jest ono
identyczne z kwerendą w 149 na 149 pozycji (co stanowi idealne dopasowanie). Wynika to
stąd, że pierwsze trafienie jest samą sekwencją kwerendową. Chociaż te wszystkie sekwencje
białkowe są identyczne z kwerendą, to geny je kodujące mogą się różnić z powodu tzw.
cichych podstawień, które nie powodują zmiany aminokwasu.
Jeśli chcemy dokładnie zbadać strukturę drzewa, która ma odzwierciedlać wszystkie
najdrobniejsze różnice, niezbędne jest uwzględnienie różnych sekwencji DNA kodujących
identyczne białka. Obecnie zajmiemy się drzewem opisującym takie drobne różnice. Chcemy
więc wykorzystać każdą odróżniającą się sekwencję, ale nie jesteśmy w stanie stwierdzić,
które sekwencje kodujące są identyczne. Nie znaczy to jednak, że musimy pobierać każdą
sekwencję. Możemy wyeliminować te, które pochodzą z tego samego szczepu. Niektóre są
opisane jako E. coli K12. Dodatkowa wiedza jest potrzebna, aby zidentyfikować te same
szczepy, np. szczepy W3110 oraz K12 są identyczne, podobnie jak CFT073, UTI89 oraz 536.
Wybór pierwszego łącza prowadzi nas do rekordu z sekwencją aminokwasową białka
ebgC z E. coli K12. Nie chcemy jednak przenosić tej sekwencji do eksploratora przyrównań,
bowiem jeśli utworzymy drzewo na podstawie sekwencji aminokwasowych, to nie
wykryjemy różnic sekwencji wynikających z podstawień cichych. Ponadto, na ogół lepiej jest
budować drzewa na podstawie sekwencji kodujących DNA, chociażby z tego powodu, że
metody filogenetyczne, szczególnie bayesowska i największej wiarygodności, są bardzo
powolne, gdy pracują na sekwencjach białkowych. Po przejściu w dół ekranu pokazuje się
sekwencja białkowa, a nieco powyżej znajduje się łącze CDS do sekwencji kodującej.
Kliknięcie tego łącza prowadzi do pliku, który zawiera sekwencję kodującą.
Kliknięcie czerwonego krzyżyka powoduje dodanie sekwencji do eksploratora przyrównań.
Większość plików CDS – ale nie wszystkie- pokazuje sekwencje we właściwej orientacji.
Jeśli niechcący dodamy do eksploratora przyrównań sekwencję w niewłaściwej orientacji,
wystarczy kliknąć prawym przyciskiem myszy nazwę sekwencji i wybrać reverse
complement z listy dostępnych opcji.
W ten sposób dodajemy do eksploratora przyrównań wybrane (ok.32) niepowtarzające
sekwencje
kodujące z pierwszej trafionej sekwencji, a następnie niepowtarzające się
się
sekwencje z każdej kolejnej. W pewnym momencie wartości E stają się zbyt wysokie (to
5
oznacza zbyt wysokie ryzyko, że sekwencja nie jest homologiczna z sekwencją kwerendową).
Nie ma jednoznacznych wskazówek, jaki poziom odcięcia wartości E należy przyjąć.
Niektórzy uważają 1e-05 za sztywną granicę, inni zadowolą się 1e-02. W efekcie
wykorzystania sekwencji białkowej jako kwerendy uzyskaliśmy znacznie więcej homologów
niż przy wykorzystaniu sekwencji DNA. Zauważmy, że nazwy sekwencji są dość długie.
MEGA z założenia tworzy je z pierwszych 40 znaków opisu sekwencji. Powoduje to kilka
problemów. Po pierwsze nazwy te zostaną użyte jako identyfikatory sekwencji na drzewie.
Czterdziestoliterowe napisy zajmą po prostu zbyt wiele miejsca. Po drugie nazwy się mogą
powtarzać i często są mylące.
Formaty zbiorów niektórych programów filogenetycznych wymagają nazw do 10
znaków, podczas gdy inne traktują jako znaczące pierwsze 30 znaków. Poza tym, niektóre
formaty zbiorów (Nexus) nie dopuszczają znaków innych niż litery i cyfry, więc takie znaki,
jak – ()*, itd. powodują złe funkcjonowanie tych programów. (Niejednolite formaty zbiorów i
ich udziwnienia to jeden z głównych powodów frustracji filogenetyków). Wszystko to
powoduje konieczność edytowania nazw sekwencji.
Żeby zmienić nazwę w eksploratorze przyrównań należy kliknąć dwa razy nazwę
sekwencji i wprowadzić poprawną jej wersję. Ważne, aby zrobić to na tym etapie, ponieważ
nie da się jej łatwo zmienić w pliku meg, który używany jest przez program do wykonywania
analiz. Kilka wskazówek dotyczących nazw sekwencji przedstawiono poniżej:
• Każda nazwa musi być niepowtarzalna. Żaden program nie zaakceptuje wielu
sekwencji o tej samej nazwie.
• Należy zlikwidować spacje zastępując je znakiem podkreślenia (_). Wiele programów
nie zaakceptuje spacji w nazwie.
• W nazwach sekwencji należy używać jedynie liter, cyfr, znaku podkreślenia i kropki
(.). Szczególnie należy dopilnować usunięcia znaków dwukropków oraz łączników,
które bardzo łatwo przeoczyć.
• Należy starać się ograniczyć nazwy do 10 znaków. Nie jest to niezbędne dla programu
MEGA, ale inne programy mogą wymagać krótkich nazw.
• Nazwy powinny coś znaczyć. W naszym laboratorium możemy używać nazwy
WRM22 na oznaczenie szczególnego szczepu C. elegans, ale nie będzie to zrozumiałe
dla innych. Z kolei C_elegans_WRM22 będzie dobrą nazwą, odróżniająca ten
szczególny szczep od innych.
Przyrównywanie sekwencji
Na początku otwieramy plik ebgC2.mas (wybieramy opcję Align). Zawiera on zbiór
32 odpowiednio opisanych sekwencji homologicznych dotyczących naszego przykładu.
Przed przyrównaniem sekwencji zwróćmy uwagę na etykietę Translated Protein
Sequences, znajdująca się w górnej części okna. Kliknięcie jej zamienia sekwencje kodujące
na odpowiadające im sekwencje białkowe. Ostatnim znakiem sekwencji jest gwiazdka
odpowiadająca kodonowi stop. Gwiazdek nie ma oczywiście wewnątrz sekwencji.
Wybieramy kartę DNA sequences, aby wrócić do widoku DNA, gdzie możemy przyrównać
sekwencje, jak to zostało przedstawione wcześniej. Jeśli teraz przetłumaczymy dopasowanie
na białko, to zobaczymy, że w sekwencjach znajdują się znaki zapytania i gwiazdki. Co
takiego się stało?
ClustalW wprowadził przerwy zgodnie ze swoim algorytmem. Gdy przerwy pojawiają
się wewnątrz kodonów, program tłumaczący napotyka na niezdefiniowane kodony i oznacza
je znakiem zapytania. Kiedy występują pojedyncze lub podwójne przerwy, następuje
przesunięcie ramki odczytu, co w konsekwencji daje później nonsensowny kodon. Przerwy
powinny wskazywać na indele, które kiedyś powstały. Gdyby takie przerwy rzeczywiście
6
powstały w sekwencji białka przodka, to takie białko straciłoby aktywność i sekwencje
potomne nie mogłyby przetrwać do dziś. Jasno więc widać, że z punktu widzenia biologii
ClustalW wstawił przerwy w niewłaściwych miejscach. Czemu więc ClustalW zachowuje się
w tak absurdalny sposób? Program nie wie nic o biologii czy funkcjonalnych ograniczeniach
narzuconych przez przesunięcie ramki odczytu. Po prostu stara się zmaksymalizować wynik
przyrównania. Problem źle umiejscowionych przerw (a co za tym idzie źle przyrównanych
zasad) możemy rozwiązać przez przyrównania sekwencji białka, zamiast DNA.
Powróćmy do okna białkowego dla oryginalnego zestawu sekwencji (przed
przyrównaniem sekwencji DNA) i wybierzmy Align by ClustalW z menu Alignment.
Pojawi się okno dialogowe ClustalW Parameters, z parametrami programu, lecz domyślne
wartości kar za przerwy są inne niż w poprzednim przypadku, gdyż przyrównujemy teraz
sekwencje białkowe. Możemy myśleć, że należałoby przyjąć te domyślne wartości, gdyż tak
naprawdę nie wiemy, jakie powinny być kary za wprowadzanie przerw. Tak się jednak
składa, że domyślne kary za przerwy podczas przyrównywania białek nie są optymalne. Jeśli
mamy zamiar zmodyfikować te wartości, powinniśmy rozumieć, co one oznaczają, a to
wymaga pewnej wiedzy na temat działania programu ClustalW.
Proces przyrównywania sekwencji jest dwustopniowy. Najpierw ClustalW
przyrównuje wszystkie sekwencje parami. W każdej parze wprowadza przerwy w obu
sekwencjach, starając się zmaksymalizować liczbę pasujących do siebie reszt. Każdemu
dopasowaniu przypisuje nagrodę w postaci punktów dodatnich, a wynik dla danego
przyrównania jest sumą tych punktów. Program szuka przyrównania, które maksymalizuje ten
wynik. Gdybyśmy mogli wprowadzić tyle przerw, ile nam się podoba, to moglibyśmy zapisać
dwie zupełnie niespokrewnione ze sobą sekwencje, jedną ponad drugą w taki sposób, że
każda litera byłaby ponad taką sama literą lub ponad przerwą. W rezultacie otrzymalibyśmy
idealny, lecz nic nie znaczący wynik. Rozwiązaniem tego problemu jest obniżenie wyniku
poprzez wprowadzenie kary za każdą przerwę. Zwykle kara za rozpoczęcie przerwy jest duża,
a mniejsza za każdy dodatkowy znak w przerwie. Dzięki temu nie są wprowadzane przerwy,
które zmniejszają wynik bardziej, niż zyskuje się przez dodatkowo pasujące do siebie litery.
ClustalW używa wyników przyrównania sekwencji parami do zbudowania drzewa
przewodniego. Nie jest to prawdziwe drzewo filogenetyczne, ponieważ nie opiera się na
porównaniu homologicznych miejsc w całym zestawie, jest jednak wykorzystywane w drugiej
fazie, w której następuje przyrównanie wszystkich sekwencji w celu uzyskania przyrównania
całkowitego. Zwykle w tej drugiej fazie wielokrotnego przyrównania jest stosowany inny
zestaw kar.
W fazie przyrównań parami odpowiednie są domyślne kary za przerwy, natomiast w
fazie przyrównywania wielokrotnego znacznie poprawia wynik ustawienie kary 3,0 za
otwarcie przerwy oraz 1,8 za jej rozszerzenie.
Po ustaleniu wartości kar i kliknięciu OK otrzymamy przyrównanie sekwencji
białkowych. Jedną z cech programu MEGA jest to, że cokolwiek się zrobi w oknie białek,
zostanie przeniesione do okna sekwencji DNA. Wszystkie przerwy są więc teraz między
kodonami, a nie wewnątrz nich, i szerokość wszystkich jest wielokrotnością trzech
pojedynczych przerw, przez co wyeliminowane zostały artefakty, które wynikały z
przesunięcia ramki odczytu. Ostatnie badania wskazują, że drzewa skonstruowane na bazie
takich przyrównań są dokładniejsze niż drzewa uzyskane przez bezpośrednie przyrównanie
sekwencji DNA.
Można i zawsze powinno się sprawdzić przyrównanie wizualnie, żeby stwierdzić, czy
nie ma miejsc przyrównywanych w sposób oczywisty źle. Istotne jest tu stwierdzenie „w
sposób oczywisty”, bowiem nie należy zbytnio manipulować przyrównaniem. Algorytm
programu ClustalW jest bardzo dobry i jest mało prawdopodobne, żeby takie modyfikacje
poprawiły wynik. Jeśli rzeczywiście widzimy źle rozmieszczone przerwy, to wykorzystujemy
7
strzałki, żeby ręcznie dokonać poprawek. Istotna jest relacja między jakością przyrównania a
jakością samego drzewa filogenetycznego. Jeśli dokładność przyrównania wynosi >50%,
dalsze powiększanie jego dokładności ma niewielki wpływ na dokładność drzewa.
Przyrównanie należy teraz zapisać jako zbiór MEGA.
Odrzucanie powtarzających się sekwencji
Ponieważ chcieliśmy włączyć do drzewa wszystkie warianty kodującej sekwencji
ebgC, załadowaliśmy wszystko, co nie było w sposób oczywisty jej duplikatem. Chociaż
różne szczepy, które posiadają tę samą sekwencję białkową ebgC, mogą mieć różne
sekwencje kodujące, nie jest tak jednak zawsze. Mogło się zdarzyć, że włączyliśmy dwie
identyczne sekwencje. Identyczne sekwencje nie dodają informacji do drzewa, natomiast
zaciemniają jego wygląd i przedłużają czas obliczeń, powinny zatem być wyeliminowane.
Wczytajmy plik ebgC.meg do programu MEGA. Po otwarciu okna eksploratora
sekwencji (Sequence Data Explorer) w głównym oknie wybierzmy Compute Pairwise z
menu Distances. Po otwarciu okna opcji analiz (Analysis Preferences) kliknijmy żółte pole w
wierszu Substitutions type i z rozwijanego menu wybierzmy Nucleotide, a następnie w
wierszu Model/Method wybieramy No. of differences oraz klikamy Compute. Otworzy się
okno wyników pokazujące odległości policzone parami. Być może trzeba będzie powiększyć
okno, aby zobaczyć całą macierz z odległościami. Pokazane odległości to różnice pomiędzy
dwiema porównywanymi sekwencjami. Kiedy odległość wynosi zero, sekwencje są
identyczne. Aby ułatwić zlokalizowanie zer, klikamy skierowaną w dół strzałkę w lewym
górnym rogu okna. W ten sposób redukujemy liczbę pokazanych miejsc dziesiętnych do zera.
Pierwsza sekwencja, E. coli K12, jest identyczna z S. sonnei Ss046, E coli B171, E coli B7A,
E coli E2 oraz E coli 101 1 (zauważmy, że pomimo, iż w edytorze przyrównań używaliśmy
podkreśleń w nazwach sekwencji, MEGA pokazuje je ze spacjami). Podobnie, identyczne są
sekwencje: z dwóch szczepów S flexneri 2a; z S bodyii i S flexneri 8401; z E coli UT189 i E
coli APEC; wreszcie z dwóch szczepów E coli O157:H7. Aby wyeliminować wszystkich
przedstawicieli, poza jednym z każdego zbioru sekwencji identycznych, wracamy do okna
edytora przyrównań i usuwamy powtarzające się sekwencje.
Odrzucenie niewątpliwie błędnych sekwencji
Gdy przewiniemy okno edytora przyrównań do samego końca w prawo, zauważymy,
że sekwencja nazwana po prostu E coli jest dłuższa od pozostałych. Ręczne przesunięcie
niedopasowanego fragmentu tej sekwencji o jedno miejsce na prawo do końca przerw w
sumie o 7 pozycji dopasowuje ją bardzo ładnie do sekwencji powyżej niej – z wyjątkiem
długiego ogona wystającego z prawej.
Mogło się zdarzyć, że w sekwencji nastąpiła delecja jednej zasady i długa insercja na
końcu 3’. Bardziej jednak prawdopodobny jest tu błąd sekwencjonowania, gdzie GG zostało
odczytane jako G i autorzy czytali dalej sekwencję, aż do pierwszego napotkanego kodonu
stop. Ponieważ jest to jedynie kolejna sekwencja z niezidentyfikowanego szczepu E. coli,
prawdopodobnie niewiele wnosi do naszego drzewa, a na dodatek jest błędna. Trzeba ją
usunąć.
Tak dochodzimy do przyrównania, w którym w pewnym obszarze wszystkie
sekwencje mają przerwy. Obszary zawierające wyłącznie przerwy nic nie wnoszą do
przyrównania i oczywiście nie reprezentują rzeczywistych, historycznych indeli. Żeby usunąć
te miejsca, zaznaczmy cale przyrównanie wciskając Ctrl-A, a następnie wybierzmy Delete
Gap-only Sites z menu Alignment. Zmodyfikowane
przyrównanie
zapisujemy
jako
ebgC_mod.mas, i eksportujemy w formacie MEGA jako ebgC_mod.meg.
8
Czasami można trafić na sekwencję dużo dłuższą niż pozostałe, która nie jest w
sposób oczywisty „błędna”. Taka sekwencja może powstać na skutek fuzji dwóch genów,
które zwykle kodują różne podjednostki. W takim przypadku możemy usunąć nadmiarowy
fragment przez jego zaznaczenie i wciśnięcie Ctrl-X.
Weryfikacja średniego stopnia identyczności aminokwasów
W badaniach porównujących ClustalW z innymi programami wykazano, że jeśli
średni stopień identyczności aminokwasów przy porównaniu parami, jest zbyt niski, to
dokładność wielokrotnego przyrównania spada poniżej poziomu pozwalającego na uzyskanie
wiarygodnych drzew filogenetycznych. Należy zaznaczyć, że to wielokrotne przyrównania
stanowią dane na podstawie których szacuje się drzewa, a nie sekwencje same w sobie. Jeśli
przyrównanie jest niewystarczająco pewne, tak samo jest z drzewem. Badania wykazały, że
gdy średnia procentowa identyczność aminokwasów jest poniżej 20%, to mniej niż 50% reszt
jest poprawnie przyrównana. W „obszarze półmroku”, od 20% do 30% identyczności, ok.
80% reszt aminokwasowych jest prawidłowo przyrównanych, a powyżej tego obszaru ponad
90% reszt. Na szczęście, niedawne analizy wykazały, że dokładność drzewa jest zaskakująco
odporna na niedokładności przyrównania. Dokładność drzewa w niewielkim stopniu zależy
od dokładności przyrównania, jeśli tylko dokładność przyrównania wynosi > 50%. Żeby
określić stopień identyczności aminokwasów, otwórzmy plik ebgC_mod.mas, kliknijmy
etykietę Translated Protein Sequences i wyeksportujmy to białkowe przyrównanie jako
nowy plik meg programu MEGA, o nazwie ebgC_mod_pep.meg.
Wczytajmy ten plik, a następnie w głównym oknie programu MEGA z menu Distance
wybierzmy Compute Overall Mean Distance. Zmieńmy Model na odległość p, wybierając z
rozwijanego menu w wierszu Model/Method opcję p-distance, po czym kliknijmy przycisk
Compute. Odległość p wynosi 1 minus identyczność aminokwasów wyrażona ułamkiem
dziesiętnym, zatem jeśli średnia odległość p wynosi <0,8 to przyrównanie jest do przyjęcia,
gdy zaś jest większe lub równe 0,8 to nie jest. W naszym przypadku średnia odległość wynosi
0,271, co odpowiada 72,9% identyczności i jest w zupełności do przyjęcia.
Niekodujące sekwencje DNA
Jeśli nasze dane są niekodującymi sekwencjami DNA, to w celu przyjęcia
przyrównania jako wystarczająco dokładnego do obliczeń filogenetycznych, nie możemy
zastosować 20% identyczności aminokwasowej. Dla niekodujących sekwencji DNA dopiero
identyczność sekwencji na poziomie 66% gwarantuje ok. 50% dokładności uszeregowania.
Zbadajmy procent identyczności sekwencji DNA, tak jak to zrobiliśmy poprzednio dla
aminokwasów: określmy średnią odległość wg modelu odległości p. Jeśli średnia odległość
wynosi >0,33, to procent identyczności wynosi <66% i dokładność przyrównania jest
prawdopodobnie zbyt niska, aby użyć go do oszacowania filogenezy.
Jeśli przyrównanie nie jest wystarczająco wiarygodne, nie budujmy na jego podstawie
drzewa filogenetycznego. Otrzymane drzewo nic nie będzie znaczyło i będzie zwodnicze
zarówno dla nas, jak i naszych odbiorców. Wyjściem z tej sytuacji jest usuwanie sekwencji
najbardziej oddalonych od interesującej nas sekwencji, aż do momentu, gdy średnia odległość
p wyniesie <0,8 dla sekwencji białkowych lub <0,33 dla niekodujących sekwencji DNA.
Cz. III Budowanie drzew metodą łączenia sąsiadów
Metoda łączenia sąsiadów jest jednym z przykładów zastosowań analizy skupień w
molekularnej analizie filogenetycznej. Umożliwia ona konstruowanie drzew filogenetycznych
9
nieukorzenionych. Drzewa wyznaczone metodą łączenia sąsiadów wykazują własność
addytywności. Drzewo jest addytywne, gdy odległości pomiędzy sekwencjami
reprezentowanymi przez liście drzewa są równe sumie długości łączących je gałęzi. Macierz
odległości ewolucyjnych jest addytywna, gdy jest możliwe wyznaczenie dla niej drzewa, w
którym łączna długość gałęzi łączących dowolne dwie sekwencje przezeń opisywane będzie
równa odległości ewolucyjnej między tymi sekwencjami. Metoda łączenia sąsiadów
umożliwia konstrukcję drzewa addytywnego, w którym odległości między sekwencjami będą
najlepszym możliwym przybliżeniem odległości ewolucyjnych w oryginalnej macierzy. Jeśli
taka macierz jest dokładnie addytywna, metoda łączenia sąsiadów gwarantuje wyznaczenie
dla niej poprawnego drzewa. W rzeczywistości jednak odległości nie są dokładnie addytywne,
dlatego drzewa konstruowane za pomocą metody łączenia sąsiadów mają przybliżony
charakter.
W nieukorzenionym drzewie dwa liście uważamy za sąsiadów, gdy gałęzie od nich
biegnące łączą się w najbliższym (tym samym) węźle. Metoda łączenia sąsiadów rozpoczyna
konstrukcję drzewa od zbioru niepołączonych liści odpowiadających poszczególnym
sekwencjom. Odległości między poszczególnymi sekwencjami znajdują się w zadanej
macierzy. W pierwszym kroku działania algorytmu połączeniu dwóch sąsiadujących ze sobą
węzłów i oraz j towarzyszy dodanie węzła n w konstruowanym drzewie. W kolejnych
krokach liście/węzły włączone już do rosnącego drzewa są pomijane, co oznacza, że po
każdej takiej iteracji liczebność zbioru niepołączonych węzłów zmniejszy się o 1. Algorytm
kontynuuje działanie do chwili, gdy wszystkie liście/węzły będą ze sobą połączone.
Podsumowując, można stwierdzić, że metoda łączenia sąsiadów daje możliwość
szybkiego wyznaczenia względnie wiarygodnego drzewa filogenetycznego i z tego powodu
jest dosyć często wykorzystywana w prowadzonych aktualnie badaniach. Z oszacowania
złożoności obliczeniowej algorytmu wynika, że wyniki można uzyskać niemal natychmiast,
nawet dla bardzo dużych zbiorów sekwencji, podczas gdy bardziej skomplikowane metody
mogą być znacznie bardziej wymagające obliczeniowo. Metoda łączenia sąsiadów jest
dokładna, jeśli zadana macierz odległości ewolucyjnych jest w przybliżeniu addytywna. Jeśli
zadana macierz odległości ewolucyjnych nie jest nawet w przybliżeniu addytywna (np. z
powodu niewłaściwej metody wyznaczania odległości ewolucyjnych lub błędów w
dopasowaniu wielosekwencyjnym), to zastosowanie metody NJ prowadzi do uzyskania
drzewa o błędnej topologii.
Pierwszym etapem na drodze do stworzenia drzewa NJ za pomocą programu MEGA
jest wczytanie zbioru z danymi (przyrównania) w formacie meg. W naszym przypadku
wczytujemy zbiór smallData.meg.
Weryfikacja danych
Przede wszystkim należy ustalić, czy dane w ogóle nadają się do budowy drzewa
metodą NJ. Autorzy programu MEGA stwierdzają w jednej ze swoich prac, że jeśli średnia
odległość między dwiema sekwencjami, liczona wg wzoru Jukesa-Cantora (JC), jest większa
od 1, to dane nie nadają się do budowy drzewa metodą NJ i należy zastosować inną metodę.
W głównym oknie programu MEGA w menu Distance wybiramy Compute Overall
Mean Distance. Pojawi się okno Analysis Preferences służące do wybierania parametrów
analiz. W wierszu Gaps/Missing Data pozostawiamy Complete Deletion. Gdyby w
uszeregowaniu było bardzo wiele przerw należałoby wybrać Pairwise Deletion. Ustawiamy
Model na Jukes-Cantor i klikamy przycisk Compute. Dla zbioru danych smallData średnia
odległość wynosi 0,347, jest więc całkiem odpowiednia do budowy drzewa NJ.
10
Wyliczanie drzewa NJ
W głównym oknie programu MEGA z menu Phylogeny wybieramy opcję
Construct/Test Neighbor-Joining Tree. Ponownie pojawi się okno parametrów analiz
(Analysis Preferences) służące do określania warunków obliczania drzewa. W oknie możemy
odczytać, że wybraną analizą jest odtworzenie filogenezy (Phylogeny reconstruction) oraz,
że metodą rekonstrukcji jest metoda łączenia sąsiadów. Kliknięcie na którymś z żółtych pól
umożliwia wybór parametrów obliczania drzewa. Opcję Test of Phylogeny na razie
pominiemy. Opcja Gaps/Missing Data Treatment określa, w jaki sposób algorytm NJ
traktuje przerwy w sekwencjach. Wyborem domyślnym jest Complete Deletion, co oznacza,
że program ignoruje wszystkie miejsca (kolumny w przyrównaniu) zawierające przerwy w
jakiejkolwiek sekwencji. Wybór Complete Deletion jest teraz odpowiedni, gdyż w badanym
przyrównaniu jest niewiele przerw. Gdy jednak dane zawierają przyrównanie z wieloma
przerwami, wybór Complete Deletion nie jest odpowiedni, gdyż prowadzi do usunięcia dużej
części analizowanych pozycji.
Jeśli zmienimy Complete Deletion na Pairwise Deletion, to zostaną usunięte tylko te
przerwy, które występują przy obliczaniu odległości pomiędzy parami sekwencji. Kolejna
opcja Select Codon Positions dotyczy pozycji kodonu. Wyborem domyślnym, którego na
ogół dokonujemy, jest użycie wszystkich trzech pozycji. Niemniej możliwa jest budowa
drzewa w oparciu o pozycję tylko trzeciej zasady kodonu. Z powodu nadmiarowości kodu
genetycznego znaczna część substytucji w trzeciej pozycji będzie cicha i nie będzie w
związku z tym podlegała doborowi. Wybór wyłącznie trzeciej pozycji kodonu jest
odpowiedni, gdy chcemy precyzyjnie oszacować względne tempo ewolucji wzdłuż gałęzi.
Najlepiej jednak używać domyślnej opcji wszystkich trzech miejsc kodonu.
Następnym parametrem do wyboru jest model substytucji (Substitution Model).
Ponieważ danymi są sekwencje nukleotydowe, wybieramy w wierszu Substitution Type
opcję Nucleotide, a potem w wierszu Model/Method jeden z dostępnych modeli. Wyborem
domyślnym jest Maximum Composite Likelihood (złożony model największej
wiarygodności, MCL), który poleca na wszystkie okazje jeden z twórców MEGA, Sudhir
Kumar. Model ten nie był dostępny we wcześniejszych wersjach MEGA (poniżej 4.0). Model
Jukesa-Cantora koryguje wielokrotne podstawienia w tych samych pozycjach, model
Kimura 2-Parameter (dwuparametryczny model Kimury) dopuszcza różne tempa tranzycji i
transwersji, a model Tamura-Nei wprowadza korektę związaną z nierówną częstością zasad,
odbiegającą od domyślnej częstości 0,25. Model MCL jest opartą na metodzie największej
wiarygodności implementacją modelu Tamury-Nei, która zwiększa dokładność szacowania
odległości liczonych parami.
Ostatnia opcja Rates among Sites, dopuszcza rózne tempa ewolucji między
pozycjami. Wyborem domyślnym jest tempo jednolite (Uniform rates). Alternatywa – tempo
zmienne – zgodnie z rozkładem gamma Different (Gamma Distributed (G)), wymaga
określenia parametru kształtu rozkładu α, który musi być oszacowany odpowiednimi
metodami. Dla naszych potrzeb przyjmujemy opcję domyślną. Opcjami Substitutions to
include oraz Pattern among Lineages również nie będziemy się szczegółowo zajmować. Po
prostu zaakceptujemy wybór domyślny. Klikamy Compute, żeby policzyć i wyświetlić
drzewo.
Ocena rzetelności drzewa
Jedną z najważniejszych rzeczy, którą musimy sobie uświadomić przy tworzeniu
drzew filogenetycznych jest to, że prawie na pewno są one nieprawidłowe. Nawet jeśli nie
uwzględnimy długości gałęzi, to dla drzewa złożonego ze 100 sekwencji istnieje ok. 3 × 1074
11
różnych topologii. Zadaniem metod rekonstrukcji drzew, takich jak NJ, jest próba wyboru
jednego drzewa, które odzwierciedla rzeczywisty przebieg historycznego procesu
rozgałęziania się drzewa sekwencji. Odtworzone drzewo prawie na pewno nie będzie
prawidłowe. Będzie najlepszym przybliżeniem możliwym przy określonych założeniach
metody i wybranego modelu oraz implementacji tej metody. Jako, że nie możemy poznać
prawdziwego drzewa, pozostaje nam wiara w to, że otrzymane drzewo jest bardzo zbliżone do
prawdziwego.
Ponieważ otrzymane drzewa są szacunkowe, chcielibyśmy mieć jakieś pojęcie o
rzetelności (wiarygodności) tych szacunków. Najczęściej stosowaną metodą szacowania
wiarygodności drzew filogenetycznych jest metoda samopróbkowania (ang. bootstrap),
chociaż inne metody, jak bayesowskie prawdopodobieństwo a posteriori, czy przybliżony test
ilorazu wiarygodności (Approximate Likelihood Ratio Test, aLRT), który ostatnio
wprowadzono do programu PHYML, zyskują na popularności. Trzeba sobie zdawać sprawę,
że są to metody szacowania powtarzalności, nie zaś dokładności. W przypadku
samopróbkowania powtarzalność występowania kladów (zbiór wszystkich sekwencji
potomnych określonego węzła wewnętrznego) na drzewie jest oparta na tworzeniu z danych
wielu pseudo-próbek. Na szczęście samopróbkowanie i prawdopodobieństwo a posteriori są
szacunkami konserwatywnymi. Symulacje, w których właściwe drzewo jest znane i może być
porównane z drzewami szacunkowymi, pokazują, że obie metody nie doszacowują
prawdopodobieństwa istnienia kladu (grupy sekwencji pochodzącej z określonego węzła).
Bootstrap jest metodą wprowadzoną przez Felsensteina w roku 1985 i od tamtej pory
jest rutynowo wykorzystywana w badaniach filogenetycznych. Podstawienia w sekwencjach
są procesem przypadkowym. Nawet jeśli sekwencje ewoluują w sposób poprawnie
opisywany przez określony model ewolucji, liczba podstawień występująca w dowolnej
gałęzi rzeczywistego drzewa może znacząco odbiegać od spodziewanej średniej liczby
podstawień przewidywanych na podstawie modelu. Oznacza to, że mierzone odległości
pomiędzy sekwencjami podlegają przypadkowej zmienności. Chcemy wiedzieć, czy
opisywana przypadkowa zmienność odległości ewolucyjnych wpływa na konstruowanie
drzewa. Metoda bootstrap pozwala uzyskać odpowiedź na takie pytanie na podstawie
porównania topologii drzew konstruowanych dla losowo wygenerowanych dopasowań
sekwencji, nieznacznie różniących się od zadanego dopasowania wielosekwencyjnego.
Generowanie dopasowań sekwencji odbywa się przez losowanie kolumn z zadanego
dopasowania sekwencji. Każde z wygenerowanych dopasowań ma taką samą długość, jak
wejściowe dopasowanie sekwencji. W wyniku losowania niektóre z kolumn wejściowego
przyrównania mogą się pojawić w wygenerowanym przyrównaniu więcej niż jeden raz, inne
zaś mogą się w nim w ogóle nie pojawić (mamy tu więc do czynienia z tzw. losowaniem ze
zwracaniem). Wygenerowane w ten sposób przyrównania zawierają zatem nieco inną
informację filogenetyczną niż oryginalne przyrównanie wielosekwencyjne. Topologia drzewa
skonstruowanego dla takich wygenerowanych przyrównań niekoniecznie może być taka sama
jak dla przypadku drzewa wyznaczonego na podstawie oryginalnego przyrównania sekwencji.
Jeżeli w danych wejściowych zawartych jest dużo informacji filogenetycznej, to informacja o
pokrewieństwie ewolucyjnym między poszczególnymi sekwencjami w analizowanym zbiorze
jest zawarta na całej długości ich przyrównania. Z tego powodu randomizacja danych nie
powinna w takim przypadku wiele zmienić. Czasami jednak sygnał decydujący o
umieszczeniu w drzewie pewnych węzłów może być stosunkowo słaby. Szum informacyjny
zawarty w wygenerowanych przyrównaniach może wtedy doprowadzić do uzyskiwania
drzew o innej topologii. Zwróćmy uwagę, że procedura losowania ze zwracaniem nie jest
równoważna zwykłemu przetasowaniu kolejności kolumn. Metody filogenetyczne traktują
każdą z kolumn źródłowego przyrównania niezależnie, stąd przyrównanie zawierające te
12
same kolumny tylko w innej kolejności zawiera dokładnie taką samą informację, jak
oryginalne przyrównanie wielosekwencyjne.
Wykorzystanie metody bootstrap do oceny wiarygodności skonstruowanego wcześniej
drzewa filogenetycznego obejmuje wygenerowanie wielu przyrównań sekwencji (zazwyczaj
między 100 a 1000). Dla każdego z wygenerowanych przyrównań jest wyznaczane drzewo
filogenetyczne. W zbiorze takich drzew niektóre drzewa będą miały taką samą topologię, jak
drzewa oryginalne. Inne będą się od niego różnić. Każdemu z węzłów w oryginalnym drzewie
jest następnie przypisywana wartość bootstrap równa odsetkowi wygenerowanych drzew, w
których obserwowano dokładnie takie samo rozgałęzienie linii ewolucyjnych.
Wyniki uzyskane za pomocą metody bootstrap często są przedstawiane w postaci
drzewa konsensusowego. Najpierw określa się częstość występowania każdego z możliwych
kladów (grup sekwencji pochodzących z określonego węzła) w zestawie wygenerowanych
drzew, a następnie klady są uporządkowywane wg malejących wartości bootstrap.
Konstrukcja drzewa konsensusowego polega na dodawaniu, zgodnie z kolejnością,
pojedynczych kladów, poczynając od tych o największych wartościach bootstrap. Dodawany
może być wyłącznie taki klad, któremu odpowiada największa możliwa wartość bootstrap
oraz którego dodanie nie oznacza konfliktu z wcześniej dodanymi kladami. Topologia drzewa
konsensusowego może nieznacznie różnić się od drzewa skonstruowanego dla oryginalnego
przyrównania wielosekwencyjnego. W takiej sytuacji należy zdecydować, czy ostatecznie
zaprezentować oryginalne drzewo z wartościami bootstrap, czy też drzewo konsensusowe, w
którym będą występować klady z wartościami bootstrap większymi niż w oryginalnym
drzewie. Dobrze określone klady o dużych wartościach bootstrap prawie zawsze wystąpią
zarówno w drzewie oryginalnym, jak i konsensusowym. Zatem kwestia wyboru
prezentowanego drzewa sprowadza się do sposobu przedstawienia mniej dokładnie
określonych części drzewa.
Aby przeprowadzić test samopróbkowania, w głównym oknie programu MEGA z
menu Phylogeny wybieramy Construct/Test Neighbor-Joining Tree, a następnie w oknie
parametrów analiz, w wierszu Test of Phylogeny z rozwijanego menu wybieramy Bootstrap.
W wierszu No. of bootstrap replications, pojawi się domyślna wartość 500. Liczba
replikacji powinna być ustawiona na co najmniej 100, a najlepiej na 2000. Im będzie większa,
tym test będzie dłużej trwał, jednak metoda NJ działa tak szybko, że można spokojnie wybrać
2000. Większe liczby przynoszą niewielką korzyść. Po ustawieniu liczby powtórzeń,
ustawiamy pozostałe parametry dokładnie tak, jak dla filogenezy NJ i klikamy Compute.
Pasek postępu pokazuje stopień zaawansowania analizy. Po pojawieniu się drzewa
wybierzmy Topology only z menu View, aby wyświetlić drzewo w formacie, w którym lepiej
widać porządek rozgałęzień.
Liczby obok każdego węzła to procenty samopróbkowania. Wyrażają (w procentach)
częstość występowania wszystkich sekwencji pochodzących z danego węzła (kladu) we
wszystkich powtórzeniach samopróbkowania. Na koniec z menu File wybieramy Save, aby
zapisać drzewo w formacie MEGA (mts). Z tego samego menu można wybrać opcję
wydrukowania drzewa.
Budowa drzew dla sekwencji białkowych
Tak bardzo przywykliśmy do odczytywania sekwencji białkowych z sekwencji DNA,
że mogliśmy już zapomnieć o czasach, gdy białka były sekwencjonowane bezpośrednio. Jeśli
jednak sekwencje kodujące niektórych interesujących nas białek nie są znane, to drzewo NJ
trzeba będzie zbudować w oparciu o sekwencje białkowe. Różnica sprowadza się jedynie do
wyboru modelu substytucji aminokwasów zamiast modelu substytucji nukleotydów. Model
korekty Poissona z grubsza odpowiada modelowi Jukesa-Cantora, wprowadzając poprawkę
13
na wielokrotne substytucje. Modele Dayhoff i JTT również uwzględniają podstawienia
wielokrotne, ale posługują się macierzami temp podstawień utworzonymi na podstawie
zaobserwowanych proporcji podstawień w dużych zestawach sekwencji. Macierz Dayhoff
pochodzi z roku 1979, natomiast macierze JTT to uaktualnione podejście Dayhoff z roku
1992, oparte na znacznie większym zestawie białek. Do budowy białkowych drzew NJ lepiej
jest używać model JTT.
Cz. IV Rysowanie drzew filogenetycznych
Drzewo filogenetyczne składa się z gałęzi i węzłów. Zapisując wcześniej drzewo,
zapisaliśmy jego opis w pliku o specjalnym formacie mts. Na jego podstawie MEGA może
szybko narysować drzewo. Drzewo przypomina zbiór współrzędnych XY. Możemy go opisać
podając współrzędne, ale częściej wybieramy formę graficzną, w której relacje między
elementami zbioru są dla odbiorców bardziej czytelne. Z tego samego powodu wolimy
narysować drzewo, które lepiej zilustruje nam historyczne pokrewieństwa między
interesującymi nas sekwencjami.
Zmiana wyglądu drzewa
Drzewo filogenetyczne zawierające tę samą informację możemy, podobnie jak
wykres, przedstawić na różne sposoby. Obecnie skoncentrujemy się na różnych sposobach
rysowania drzew, po to by móc przekazać odbiorcom informację w jak najbardziej
przejrzystej formie. Wybór, którego dokonamy, pomoże odbiorcom skoncentrować się na
tym, co chcemy im przekazać za pomocą drzewa.
Jeśli odznaczymy wybraną wcześniej opcję Topology Only z menu View, uzyskamy
drzewo dla zbioru smallData w popularnym formacie prostokątnego filogramu. Linie pionowe
reprezentują wewnętrzne węzły, a linie poziome – gałęzie. W filogramie te długości
poziomych linii są proporcjonalne do długości gałęzi. Na dole rysunku znajduje się zwykle
skala w postaci linii o określonej długości pokazująca liczbę podstawień na jedno miejsce.
Jedną z zalet takiego formatu jest bezpośrednie przedstawienie długości gałęzi. Z drugiej
strony, trudno dostrzec porządek rozgałęzień między węzłami połączonymi bardzo krótkimi
gałęziami (np. wewnątrz kladu E. coli/Shigella), zwłaszcza gdy na drzewie są również bardzo
długie gałęzie. Niektórym węzłom nie można też przypisać odpowiadających im wartości
samopróbkowania.
Wtedy lepszy może być format kladogramu, w którym długości gałęzi nie są
proporcjonalne do rzeczywistych odległości między węzłami. Aby przedstawić drzewo w tej
postaci w oknie eksploratora drzew klikamy przycisk Display Only Topolgy. Wadą
prostokątnego kladogramu jest to, że nie wiemy teraz jak długie są gałęzie. Aby temu
zaradzić, klikamy przycisk Options z ikoną przypominająca młotek. Pojawi się okno
dialogowe.
Klikamy Branch, zaznaczmy pole wyboru długości gałęzi Display Branch length i
OK. Pod każdą gałęzią widzimy teraz wydrukowaną jej długość, a po lewej stronie węzła
odpowiadającą mu procentową wartość bootstrap. Okno dialogowe Options pozwala na
ustalenie z dokładnością do ilu miejsc po przecinku będą zapisane liczby określające długość
gałęzi; ustalenie grubości linii, kształtu i stylu czcionki użytej do opisania długości gałęzi,
procentowej wartości samopróbkowania, określenie czy te wartości są wyświetlane czy też
nie (poprzez zaznaczenie lub odznaczenie pola wyboru Display Statistics/Frequency),
ustalenie położenia tych liczb, itd. Okno dialogowe Options pozwala na precyzyjną kontrolę
naprawdę wielu czynników wpływających na wygląd drzewa.
14
Przyciskiem stylu gałęzi Tree/Branch Style można wybrać wygląd inny niż
prostokątny. W stylu prostym Stright (zwanym czasem ukośnym) węzły są umieszczone na
przecięciu gałęzi. Aby rysunek był bardziej czytelny, długości gałęzi można pominąć. W tym
stylu wyraźnie widać, że gałęzie wywodzą się od wspólnego przodka. Jest to szczególnie
pomocne, gdy z jednego węzła wychodzą więcej niż dwie gałęzie (mówmy wtedy o
politomii).
Przyciski umieszczone wzdłuż lewej krawędzi okna eksploratora drzew kontrolują
najróżniejsze narzędzia modyfikujące wygląd drzewa. Najlepiej zilustrować ich działanie na
przykładzie bardziej złożonego drzewa, opartego na danych largeData (plik
largeData.meg). Drzewo NJ oparte na largeData zawiera 77 sekwencji i jest stosunkowo
duże. Etykieta Tree w oknie dialogowym Options (aby je wyświetlić klikamy przycisk z
młotkiem) pozwala na modyfikację wyglądu drzewa. Diagram w oknie pokazuje, że liczba w
polu Taxon Separation wpływa na pionowe odległości między gałęziami. Zmniejszenie
domyślnej wartości z 24 do 10 pikseli zmniejszy odpowiednio drzewo w pionie, a
zwiększenie jego szerokości w polu Tree Width do 600 pikseli rozciągnie je nieco w
poziomie. Powyższe modyfikacje pozwolą na obejrzenie całego drzewa w zadowalających
proporcjach.
Etykieta Labels w oknie Options pozwala na wybór czcionki, jej wielkości i stylu
etykietek taksonów (tzn. nazw sekwencji).
Ukorzenianie drzewa
Dotychczasowe formy reprezentacji graficznej drzew sprawiały wrażenie jakby
wszystkie sekwencje wywodziły się od jednego przodka, odpowiadającemu węzłowi
wysuniętemu najbardziej na lewo. Taki wygląd jest mylący. Węzeł wewnętrzny, z którego
wywodzą się wszystkie sekwencje czy taksony, nazywamy korzeniem. Gdy znamy położenie
korzenia, to znamy też kierunek ewolucji i kolejność dziedziczenia sekwencji. Możemy wtedy
prześledzić drogę od korzenia do dowolnej sekwencji. Wszystkie taksony, czy sekwencje
potomne określonego węzła wewnętrznego stanowią klad. Zrozumienie kolejności
dziedziczenia wymaga znajomości położenia korzenia. Problem polega na tym, że NJ
podobnie jak większość innych metod budowy drzew filogenetycznych, nie potrafi ustalić
położenia korzenia. Tak więc NJ odtwarza drzewo nieukorzenione.
Gdy drzewo przedstawiamy w formie prostokątnej (albo prostej), to któryś węzeł z
natury rzeczy musi znaleźć się najbardziej z lewej strony. Niesłusznie możemy postrzegać ten
węzeł jako korzeń, podczas gdy w rzeczywistości korzenia wcale tu nie ma. Jeśli chcemy
wyświetlić nieukorzenione drzewo w sposób najbardziej obiektywny, to z menu View
powinniśmy wybrać opcję Tree/Branch Style, a następnie Radiation. Otrzymamy wtedy
drzewo w formacie promienistym.
Problem w tym, że format promienisty, mimo że najbardziej obiektywny, jest trudny
do interpretacji, szczególnie dla niespecjalistów. Narysowanie drzewa w formacie
prostokątnym wymaga umiejscowienia korzenia na którejś z gałęzi nieukorzenionego drzewa.
Niektóre programy umiejscawiają korzeń po prostu na gałęzi prowadzącej do pierwszej
sekwencji w przyrównaniu. MEGA jest tu o tyle lepsza, że umieszcza korzeń po środku
drzewa, na gałęzi znajdującej się w połowie drogi między dwiema najbardziej odległymi
sekwencjami. Jeśli tempo ewolucji wzdłuż gałęzi jest z grubsza stałe, to takie
wypośrodkowane ukorzenienie prawie na pewno ustawi korzeń prawidłowo. Możemy w ten
sposób np. ukorzenić drzewo NJ utworzone na podstawie zbioru smallData. Najczęściej
jednak ta metoda umiejscawia korzeń nieprawidłowo i dlatego nie należy na niej zbytnio
polegać. Pamiętajmy, że pomimo wyglądu, drzewo NJ jest w rzeczywistości nieukorzenione.
15
My jednak na ogół chcemy znać kierunek ewolucji i kolejność dziedziczenia. Dlatego
musimy znaleźć położenie korzenia.
Same sekwencje nie zawierają informacji wystarczających do prawidłowego
umiejscowienia korzenia. Potrzebujemy do tego dodatkowych informacji z zewnątrz. Taka
informacja istnieje w postaci grupy zewnętrznej. Grupę zewnętrzną definiujemy jako jedną
lub więcej sekwencji, które są dalej spokrewnione z sekwencjami grupy wewnętrznej, niż
sekwencje z tej ostatniej ze sobą nawzajem. Empirycznie ustalono dla naszego przypadku
(zbiór largeData.meg), że sekwencje CFXA3, CFXA2, PER1, tla1, CGA1 oraz CME2
pochodzą z grupy bakterii o nazwie CFB i że ta grupa jest dalej spokrewniona z pozostałymi
sekwencjami, niż one wzajemnie ze sobą. Dlatego korzeń powinniśmy umieścić wewnątrz
gałęzi prowadzącej od grupy CFB do wszystkich pozostałych sekwencji. Do ukorzenienia
drzewa korzystamy z narzędzia Place Root on Branch. Wybieramy to narzędzie, klikając je,
i wybierając za jego pomocą odpowiednią gałąź. Drzewo powinno zostać teraz ukorzenione.
Najbardziej na lewo wysunięty węzeł, będący teraz korzeniem, prowadzi do dwóch grup:
górnej grupy wewnętrznej i dolnej grupy zewnętrznej CFB. Porównajmy teraz ukorzenione
drzewo z drzewem nieukorzenionym.
Jest niesłychanie ważne, aby nie mylić wyglądu ukorzenionego drzewa z
rzeczywistym drzewem ukorzenionym. Gdy w artykule lub na seminarium widzimy jakieś
drzewo, to powinniśmy przyjąć, że jest ono nieukorzenione, chyba że autor wyraźnie określi
sposób jego ukorzenienia. Jeżeli nie, to znaczy, że wszelkie wnioski oparte na kolejności
dziedziczenia sekwencji czy taksonów na takim drzewie należy odrzucić jako niepewne.
Znajdowanie grupy zewnętrznej
Co zrobić, gdy pośród sekwencji na drzewie nie ma oczywistej grupy zewnętrznej? No
cóż, trzeba wtedy dodać do przyrównania jakieś sekwencje z grupy zewnętrznej. Załóżmy, że
mamy do czynienia z zestawem sekwencji pochodzących wyłącznie od ssaków. Można wtedy
poszukać jednej lub więcej sekwencji homologicznych z ptaków lub gadów. Wiemy, że ptaki
odłączyły się od ssaków, zanim ssaki zaczęły się różnicować między sobą. Dlatego sekwencje
ptasie na pewno będą należały do grupy zewnętrznej. Pewną trudność może sprawić wymóg
homologii tych sekwencji. Tak więc, sekwencje z grupy zewnętrznej musiały rozejść się z
sekwencjami grupy wewnętrznej, zanim te ostatnie zaczęły się różnicować między sobą, ale
nie tak wcześnie, żeby ich wzajemna homologia przestała być wykrywalna.
Można sobie zadać pytanie skąd wiadomo, że korzeń drzewa dla zbioru smallData
został prawidłowo umiejscowiony. Otóż wiadomo, że wszystkie sekwencje ze zbioru
smallData pochodzą z bakterii gram-ujemnych. Wyniki przeszukiwania programem BLAST
zawierają m. in. trzy sekwencje, które pochodzą z bakterii gram-dodatnich, grupy, która
odłączyła się od bakterii gram-ujemnych ok. 2,2 mld lat temu, znacznie wcześniej niż bakterie
gram-ujemne zaczęły się różnicować między sobą. Dlatego sekwencje z bakterii gramdodatnich stanowią grupę zewnętrzną. Można więc dodać te sekwencje do edytora
przyrównań, przyrównać je wszystkie razem i zrobić nowe drzewo NJ, z grupą zewnętrzną
złożoną z bakterii gram-dodatnich. Najgłębiej położony węzeł wśród bakterii gram-ujemnych
jest taki sam jak w przypadku drzewa utworzonego tylko na ich podstawie.
Zadanie 1
Przeprowadź za pomocą BLASTa przeszukiwanie bazy GenPept, stosując jako kwerendę
sekwencję białkową ebgC. W opcjach programu ustaw liczbę wyświetlanych wyników na
250. Odszukaj przyrównania dla następujących sekwencji: Clostridium acetobutylicum ATCC
824 chromosome complete genome, Streptococcus pneumoniae gamPNI0373 chromosome
16
complete genome, Clostridium perfringens F262 Contig 15 whole genome shotgun sequence.
Dodaj do uprzednio otrzymanego zestawu sekwencji (ebgC2.mas) CDSy w odpowiedniej
orientacji. Przeprowadź przyrównanie dla całego zestawu i utwórz oraz narysuj drzewo NJ.
Zwróć uwagę na jego topologię i porównaj z topologią drzewa dla zestawu ebgC.meg.
Zapisywanie drzew
Kiedy już włożyliśmy tyle trudu w osiągnięcie zadowalającego nas wyglądu drzewa,
ważne jest jego zapisanie. Są dwa różne sposoby zapisywania drzewa: (1) jako jego opisu
oraz (2) jako jego wizerunku.
Aby zapisać opis drzewa w formacie MEGA mts należy kliknąć ikonę Save current
session po lewej stronie okna lub wybrać z memu File opcję Save current session. Opis
drzewa można też zapamiętać w formacie Newick, wybierając opcję Export z menu File.
Format Newick, noszący nazwę pubu, w którym wymyśliła go grupa systematyków, jest
wykorzystywany w większości programów rysujących drzewa. MEGA odczyta drzewa
zapisane w tym formacie przez inne programy, gdy z menu File w jego głównym oknie
wybierzemy Open a File/Session, a następnie wskażemy plik do otwarcia z odpowiednim
rozszerzeniem.
Sam obraz drzewa można zapamiętać, wybierając z menu Image w oknie eksploratora
drzew polecenie Save As Enhanced Metafile (EMF), Save As PNG File lub Save As PDF
File. Zbiory zapisane w formacie emf można, w celu dodania dodatkowych elementów (jak
strzałki, opisy, itp.), otworzyć w większości programów graficznych napisanych dla
Windows. Ponieważ emf jest graficznym formatem wektorowym, manipulacje rysunkiem nie
prowadzą do utraty jego jakości. Z kolei, większość czasopism przyjmuje rysunki w formacie
TIFF. Dlatego też, jeśli nie trzeba w rysunku nic zmieniać, to warto go w tym formacie
zapisać. TIFF jest formatem bitmapowym, więc warto wypróbować różne opcje rysowania
drzew w MEGA, aby po wydrukowaniu rysunek wyglądał jak należy.
Wreszcie naciśnięcie Ctrl-C, albo wybór Copy to Clipboard z menu File pozwala na
wklejenie rysunku drzewa bezpośrednio do takich programów jak CorelDraw, Word czy
PowerPoint.
Legendy
MEGA posiada także komendę Caption, która automatycznie tworzy opis każdej
przeprowadzonej analizy. W celu utworzenia opisu drzewa filogenetycznego należy w oknie
eksploratora drzew wybrać z menu pozycję Caption. Otwierające się okno legendy, poza
opisem warunków obliczania drzewa, łącznie z parametrami samopróbkowania, podaje też
odpowiednie cytowania.
Legendę można zapisać, wydrukować albo skopiować do schowka. Jest to
niesłychanie pomocne, gdy nadchodzi czas pisania artykułu. Warto zapisywać legendę,
zawsze gdy budujemy drzewo. Przypomnienie sobie szczegółów analizy może być naprawdę
trudne po kilku tygodniach lub miesiącach, gdy piszemy artykuł. Jednocześnie, w publikacji
nie można używać legendy MEGA bez żadnych zmian. Można ją potraktować jako dobry
punkt wyjścia do podpisu pod rysunkiem lub opisu drzewa w tekście.
Cz. V Budowanie drzew metodą MP (największej oszczędności)
Kryterium parsymonii ma długą historię w badaniach filogenetycznych prowadzonych
na podstawie cech morfologicznych. Zgodnie z tym kryterium spośród wielu możliwych
rozwiązań postawionego problemu wybierane jest takie, które obejmuje najmniejszą liczbę
17
arbitralnych założeń. Parsymonia często znajduje zastosowanie w analizie cech
morfologicznych reprezentowanych w postaci binarnej, tj. 0 i 1, gdzie 0 odpowiada stanowi
cechy u gatunku przodka, a 1 – stanowi cechy u gatunku potomnego. Przykładowo 1 może
oznaczać strukturę kości w skrzydle ptaka, a 0 może oznaczać strukturę przedniej kończyny
salamandry. W praktyce wybór odpowiadających sobie cech morfologicznych u różnych
gatunków nie jest tak oczywisty, jak w opisanym przykładzie i wymaga gruntowanej
znajomości anatomii i paleontologii.
Kryterium parsymonii może być również wykorzystane w analizie danych
molekularnych. Każdą kolumnę w przyrównaniu wielosekwencyjnym traktuje się jako stan
cechy. Każde z obserwowanych w kolumnie podstawień zmienia stan cechy. Zastosowanie
kryterium parsymonii oznacza poszukiwanie drzewa, które będzie opisywało obserwowaną
zmienność sekwencji poprzez najmniejszą liczbę podstawień. Ponieważ nie wiadomo jak
wyglądała sekwencja przodka, z którego wyewoluowały obserwowane obecnie sekwencje,
nie można ustalić kierunku zmian cech. Dlatego kryterium parsymonii jest wykorzystywane
w analizie danych molekularnych do oceny drzew nieukorzenionych. Rozważmy pojedynczą
pozycję przyrównania sekwencji, na której u człowieka, szympansa i goryla znajduje się C, a
u orangutana i gibona znajduje się T. Zmienność na tej pozycji może być opisana przez jedno
podstawienie (oznaczone * na rys. A). Na drzewie z rys. B występują dwa podstawienia. W
przypadku rozpatrywanej pozycji przyrównania pierwsze z omawianych drzew jest zatem
bardziej prawdopodobne. Warto zdać sobie sprawę, że nie wszystkie pozycje przyrównania są
informatywne. Tak np., jeśli we wszystkich sekwencjach w przyrównaniu na pewnej pozycji
występuje ta sama reszta, to ta pozycja nie zawiera informacji filogenetycznej.
A
Człowiek (C)
Gibon (T)
B
Gibon (T)
*
Człowiek (C)
*
*
Szympans (C)
Goryl (C)
Orangutan (T)
Szympans (C)
C
Goryl (C)
Orangutan (T)
D
Człowiek (C)
Gibon (T)
Gibon (T)
*
Szympans (C)
Goryl (C)
Człowiek (C)
*
Orangutan (C)
Szympans (C)
Goryl (C)
Orangutan (C)
Rys. Kryterium parsymonii zastosowane do przykładowej pozycji informatywnej w danych
molekularnych pozwala wybrać drzewo (A) i odrzucić drzewo (B). W świetle tego samego
kryterium drzewa (C) i (D) są nierozróżnialne, ponieważ wyznaczono je dla nieinformatywnej
pozycji w przyrównaniu (Źródło: Attwood T, Higgs PG. 2008. Bioinformatyka i ewolucja
molekularna. PWN, Warszawa, s. 265).
Przypadek opisywany przez drzewa C i D również jest nieinformatywny – we
wszystkich bowiem sekwencjach, z wyjątkiem sekwencji gibona, występuje C. W tej sytuacji,
niezależnie od wyboru topologii drzewa, zawsze jedno podstawienie będzie występować na
18
gałęzi prowadzącej do sekwencji gibona. Taka pozycja przyrównania nie jest informatywna,
gdyż wyznaczone dla niej alternatywne drzewa są nierozróżnialne w świetle kryterium
parsymonii. Prosta reguła mówi, że aby pozycja przyrównania była informatywna, musi
zawierać co najmniej dwa rodzaje reszt, z których każda występuje na tej pozycji co najmniej
dwa razy.
Aby oszacować drzewo zgodnie z zasadą największej oszczędności (ang. Maximum
Parsimony, MP), wczytujemy plik smallData.meg. Z menu Phylogeny wybieramy
Construct/Test Maximum Parsimony Tree(s). Okno dialogowe parametrów analizy
wygląda znajomo, chociaż nieco inaczej niż poprzednio.
Zamiast opcji Model/Method (model/metoda) mamy teraz Tree Inference Options
(opcje poszukiwania), ponieważ do szacowania drzewa zgodnie z zasadą maksymalnej
parsymonii nie wykorzystuje się modeli substytucji. Metoda największej oszczędności oparta
jest na przesłance, że optymalne jest takie drzewo, które do wyjaśnienia danych potrzebuje
najmniejszej liczby zmian. Zamiast modelu musimy więc wybrać metodę, której program
użyje do poszukiwania drzewa wymagającego minimalnej liczby zmian, czyli najbardziej
oszczędnego. Klikamy żółte pole w wierszu MP Search Method i mamy do wyboru cztery
metody budowy drzewa MP: wyczerpującą metodę podziału i ograniczeń Max-mini Branch&-bound, minimalistyczną metodę heurystyczną Min-Mini Heuristic, oraz pozostałe dwie
metody heurystyczne Subtree-Pruning-Regrafting (SPR) i Tree-Bisection-Reconnection
(TBR). Dwie pierwsze metody są raczej powolne. W domyślnie ustawionej metodzie
Subtree-Pruning-Regrafting (SPR) możemy wybrać 1., 2., 3., 4 lub 5. poziom
poszukiwania (MP Search Level) oraz ustalić ilość powtórzeń przy losowym wyborze
drzewa początkowego. Max. No. of Trees to Retain pozwala ustalić maksymalną liczbę
zapamiętanych drzew po zakończeniu analizy. Pozostawiamy opcje domyślne i klikamy
Compute, aby rozpocząć szacowanie drzewa. Rezultatem analizy jest otrzymanie
najoszczędniejszego drzewa.
Metoda MP tworzy większą liczbę najoszczędniejszych drzew. Kliknięcie przycisku i
(informacje) wyświetla okno dialogowe, z którego dowiadujemy się, że w rzeczywistości
patrzymy na jedno z kilku (np. 3) lub wielu różnych możliwych drzew. Pozostałe drzewa
możemy zobaczyć, gdy w polu Tree# (numer drzewa), które znajduje się na górze okna
eksploratora drzew, klikniemy strzałkę zwróconą w górę. Aby zauważyć różnice między
kolejnymi drzewami trzeba się im dokładnie przyjrzeć. Różnica nie jest żadnym błędem
programu – to tylko konsekwencja wrodzonej właściwości metody MP.
Na drzewie MP da się zauważyć dwie różnice w stosunku do drzewa NJ: (1) drzewo
MP ma postać kladogramu (pokazującego jedynie topologię), a nie filogramu, (2) nie jest
prawidłowo ukorzenione. Obie różnice biorą się stąd, że program MP nie policzył długości
gałęzi drzewa. Bez tego nie da się przedstawić drzewa w formie filogramu. Nie da się też
zastosować metody wypośrodkowania do przedstawienia drzewa tak, jakby było ukorzenione.
Zamiast tego program wyświetla drzewo, które wygląda tak, jakby było ukorzenione ostatnią
sekwencją. Za pomocą narzędzia ukorzeniającego (Place Root on Branch) możemy
prawidłowo ukorzenić drzewo, klikając gałąź łączącą grupy E. coli/Shigella i Vibrio.
Aby obliczyć długość gałęzi, klikamy przycisk Display Only Topology. W ten sposób
wyłączymy opcję, która sprawia, że wyświetlana jest tylko topologia drzewa, i program
policzy długości gałęzi. Drzewo jest jednak wciąż nieprawidłowo ukorzenione. Długości
gałęzi w metodach MP i NJ nie są równoważne i w tym przykładzie metoda
wypośrodkowania umiejscawia korzeń nieprawidłowo. Pamiętajmy, że otrzymane drzewo jest
wciąż nieukorzenione, niezależnie od tego jak się je narysuje. MP, podobnie jak NJ może
szacować wyłącznie nieukorzenione drzewa.
Jeśli klikniemy strzałkę pola Tree#, to następne drzewo zobaczymy również w formie
filogramu, ponieważ obliczanie długości drzewa jest tak szybkie, że ledwie można to
19
zauważyć. Wynika to z niewielkiej liczby krótkich sekwencji, z jakimi mamy do czynienia w
tym przykładzie. Częściej jednak w zależności od danych, obliczanie długości gałęzi drzewa
MP zajmuje od kilku minut do nawet kilku godzin.
Zanim rozważymy dokładniej zagadnienie wielu różnych równie oszczędnych drzew,
zobaczymy, jakie znaczenie może mieć zmiana poziomu poszukiwania w metodzie SubtreePruning-Regrafting. Jeśli zastosujemy poziom 2 (Level 2), to otrzymamy znacznie więcej
równie oszczędnych drzew, niż przy poziomie pierwszym, a przy poziomie trzecim jeszcze
więcej. Z powodu losowego charakteru obliczeń, za każdym razem otrzymujemy na tym
samym poziomie inną liczbę drzew. Im wyższy jest poziom poszukiwania, tym jest ono
dokładniejsze i tym więcej równie oszczędnych drzew otrzymujemy. Czy to znaczy, że
opuszczamy niektóre drzewa? Tak, ale dodatkowy czas, potrzebny do ich odszukania,
najczęściej nie usprawiedliwia związanego z tym wysiłku.
Niezależnie od tego, czy znajdziemy 30 czy 300 drzew, staniemy przed dylematem, co
z nimi zrobić. Oczywiście nie możemy ich wszystkich pokazać naszym odbiorcom. Możemy
więc pokazać którekolwiek z nich, ponieważ wszystkie są równie oszczędne, a więc równie
„dobre”. Jeśli jednak tak postąpimy, to musimy powiedzieć odbiorcom ile jest różnych, ale
równie dobrych drzew.
Możemy też nasze wyniki streścić i przedstawić w postaci drzewa uzgodnionego, czyli
konsensusowego. Aby je obliczyć, w oknie eksploratora drzew, z menu Compute,
wybieramy Consensus Tree albo klikamy przycisk Compute Consensus. Pojawi się okno
dialogowe z pytaniem o wartość progu odcięcia. Przyjęcie domyślnej wartości 50% oznacza,
ze klady występujące rzadziej, niż w 50% drzew, pojawią się w postaci politomii, to znaczy
wielu gałęzi wychodzących z jednego węzła. Pojawienie się politomii oznacza, że nie udało
się ustalić kolejności rozgałęzień. Nie jest to zaskakujące, gdy weźmie się pod uwagę bardzo
krótkie gałęzie w tym kladzie. Krótkie gałęzie wskazują na niewielkie zróżnicowanie między
sekwencjami, a gdy nie ma wielu zamian, to nie da się łatwo ustalić ich kolejności. Liczby
przy węzłach wyrażają procentowy udział drzew, w których te klady występują, podobnie jak
to ma miejsce przy uzgodnionym drzewie z samopróbkowania.
Nie należy jednak mylić drzewa uzgodnionego konsensusu z drzewem po
samopróbkowaniu. W tym przykładzie otrzymaliśmy drzewo uzgodnione na podstawie
większej ilości dobrych drzew, faktycznie uśredniając je. Wszystkie te drzewa powstały na
podstawie tych samych danych. Powtórzenia samopróbkowania stanowią niejako różne
próbki tych samych danych. Aby otrzymać drzewo po samopróbkowaniu, wybieramy w
głównym oknie MEGA Construct/Test Maximum Parsimony Tree(s), a w wierszu Test of
Phylogeny z rozwijanego menu wybieramy Bootstrap oraz ustawiamy liczbę powtórzeń (No.
of Bootstrap Replications) na 500.
Jeśli zastosujemy poziom 3 poszukiwania (MP Search Level) otrzymamy jeszcze
więcej równie oszczędnych drzew. Jeśli klikniemy przycisk Compute Consensus, a
następnie etykietę Bootstrap consensus tree, to zobaczymy, że drzewo po samopróbkowaniu
(otrzymane na podstawie wielu zestawów sztucznych danych) ma jeszcze mniejszą
rozdzielczość (więcej politomii) niż drzewo uzgodnione (otrzymane na podstawie
oryginalnego zestawu danych). Drzewa uzgodnione nie mogą pokazać długości gałęzi,
drzewa indywidualne zaś nie mogą pokazać, jak często klady pojawiają się wśród różnych,
równie oszczędnych drzew. Od nas zależy, które z tych drzew pokażemy, ale musimy
wyraźnie zaznaczyć, co pokazujemy i dlaczego. Czy to wszystko, co powiedziano o wielu
drzewach i ich uzgadnianiu, oznacza, że należy zapomnieć o metodzie MP i trzymać się
metody NJ? Wcale nie. Korzystną właściwością metody NJ jest to, ze otrzymujemy dzięki
niej jedno drzewo, przez co może sprawić złudne wrażenie, że jest to najlepsze drzewo.
Liczba drzew MP i politomie na uzgodnionym drzewie MP odzwierciedlają rzeczywisty brak
20
pewności przy ustalaniu kolejności rozgałęzień. Metoda NJ może sprawiać fałszywe wrażenie
większej pewności.
W przypadku sekwencji białkowych, należy mieć na uwadze, że metoda MP nie
korzysta ze zdefiniowanych substytucyjnych modeli ewolucji, więc jest bez znaczenia, czy
stosujemy ją do sekwencji białkowych czy nukleotydowych.
Literatura:
Hall BG. 2008. Łatwe drzewa filogenetyczne. WUW, Warszawa.
Attwood T, Higgs PG. 2008. Bioinformatyka i ewolucja molekularna. PWN, Warszawa.
Xiong J. 2009. Podstawy bioinformatyki. WUW, Warszawa.
21
Download