Bioinformatyka Autor: Łukasz Kościński FI LO B I O I N FO R MATYKA Wprowadzenie Drzewo jest graficznym modelem powstałym w wyniku rekurencyjnego podziału zbioru obserwacji A na n rozłącznych podzbiorów A1, A2, A3, …An. Celem budowy modelu jest uzyskanie podzbiorów maksymalnie jednorodnych z punktu widzenia wartości zmiennej zależnej. Jest to proces wieloetapowy, który w każdym kolejnym kroku może wykorzystywać inną zmienną niezależną. Na każdym etapie analizuje się bowiem wszystkie atrybuty i wybiera ten, który zapewnia najlepszy podział węzła, czyli wydziela najbardziej homogeniczne podzbiory. Początek każdego drzewa stanowi cały zbiór obserwacji, który jest dzielony na 2 lub więcej podzbiorów. W pierwszym przypadku mówi się o drzewach binarnych, a w drugim o drzewach dowolnych. Dzielony zbiór nosi nazwę węzła macierzystego (ang. parent node), natomiast wydzielone podzbiory – nazwę węzłów potomków (ang. child nodes). W kolejnym etapie podziału węzeł potomek, który jest dalej dzielony, staje się węzłem macierzystym dla 2. etapu, zaś węzeł, który pozostaje bez zmian, staje się węzłem końcowym, nazywanym liściem. Wielkość drzewa to liczba liści, zaś głębokość drzewa to liczba krawędzi między wierzchołkiem a najbardziej odległym liściem. Drzewa klasyfikacyjne i regresyjne to narzędzia analizy i odkrywania wiedzy (ang. data mining) służące do budowy modeli predykcyjnych i deskryptywnych. Z drzewami klasyfikacyjnymi mamy do czynienia wtedy, gdy zmienna zależna jest wyrażona na skali nominalnej lub porządkowej, natomiast z drzewami regresyjnymi wtedy, gdy poziom pomiaru tej zmiennej jest co najmniej przedziałowy. Zajęcia 8: Filobioinformatyka Bioinformatyka Autor: Łukasz Kościński Drzewa klasyfikacyjne w filobioinformatyce Takson - grupa organizmów (populacji) na tyle do siebie podobnych, że można ją wyróżnić i zaklasyfikować do jakiejś kategorii systematycznej. Mianem taksonu określa się te organizmy, które wyróżniają się konkretną cechą, na tyle charakterystyczną, że na jej podstawie można je zaszeregować do konkretnej kategorii. Omawiając takson należy pamiętać, że nazwa ta odnosi się do ściśle określonej grupy osobników, np. skowronków (takson skowronek w randze gatunku) lub kotowatych (takson kotowate w randze rodziny). Kategoria gatunek nie jest taksonem, ale gatunek do niej zaklasyfikowany – jest. Takson parafiletyczny – takson, który obejmuje tylko część potomków wspólnego przodka. Istnienie taksonów parafiletycznych wynika po części z niedoskonałości metod stosowanych dotychczas przez naukowców a po części z przyzwyczajenia. Analiza filogenetyczna jest jedną z bardzo istotnych gałęzi bioinformatyki ze względu na jej olbrzymią przydatność m.in.: • Do rekonstrukcji historycznych związków filogenetycznych pomiędzy taksonami, dzięki czemu jesteśmy w stanie sprawdzać drogi ewolucji oraz koewolucji organizmów, dystanse filogenetyczne itp. Dzięki analizie filogenetycznej jesteśmy w stanie określić na jakim etapie nastąpiło rozdzielenie szczepów dzięki czemu jesteśmy w stanie np. domniemywać, czy w danym okresie nastąpiła jakaś presja ewolucyjna powodująca to zróżnicowanie; • W aplikacjach biomedycznych np. epidemiologii i sądowej – do ustalania np. bliskości genetycznej sprawców zbrodni itp.; • W badaniach molekularnych nad organizacją genomu strukturą genów – przez co pozwala wynajdywać prawidłowości, jaka konstrukcja genów oraz jakie sekwencje i motywy strukturalne mogą być wysoce konserwowane w toku ewolucji; • W badaniach nad powstawaniem nowych alleli i szczepów laboratoryjnych; • W studiach porównawczych w ekologii; • Na wszystkich polach, gdzie dokonuje porównań między obiektami lub procesami. Zajęcia 8: Filobioinformatyka Bioinformatyka Autor: Łukasz Kościński Jednym z najbardziej popularnych narzędzi filobioinformatyki są drzewa klasyfikacyjne. W zależności od naszych oczekiwań w stosunku do analizy klasyfikacyjnej możemy je konstruować różnymi metodami. Poniżej przedstawione są najbardziej popularne metody tworzenia i analizy tych drzew: 1. Unweighted pair group method with arithmetic mean (UPGMA) , to najprostsza metoda grupująca taksony według ogólnego podobieństwa lub odległości. Pracuje ona wyłącznie na matrycach dystansowych np. hybrydyzacja DNA-DNA lub konstruowanych z danych sekwencyjnych na podstawie ilości substytucji. UPGMA umożliwia określenie długości gałęzi (odległości ewolucyjnej) oraz ich porządkowanie. Zakłada ona również stały zegar molekularny tzn., że możliwe jest teoretycznie oszacowanie czasu dywergencji na podstawie różnic w sekwencjach (Koncepcja zegara molekularnego (Zuckerlandl i Pauling, 1965) postuluje równe tempo substytucji we wszystkich liniach ewolucyjnych. Dzięki danym fosylnym (kopalnym) możliwe jest kalibrowanie zegara i określanie bezwzględnego czasu dywergencji. Zasada działania metody UPGMA: 1. Znajdź najbliższą parę gatunków. 2. Połącz oba te gatunki w klaster. 3. Policz na nowo pozostałe dystanse jako średnią od A-C. 4. Idź do kroku 1 i powtórz procedurę. Reguła “trzech punktów”: Aby analiza UPGMA mogła być przeprowadzona z sukcesem dane muszą być “zultrametryzowane”. Oznacza to, że dla dowolnych trzech taksonów (x, y, z) dystanse (d) pomiędzy nimi muszą spełniać następujące wyrażenie: d(x,z) ≤ max (d(x,y), d(y,z)) Zajęcia 8: Filobioinformatyka Bioinformatyka Autor: Łukasz Kościński 2. Neighbour - Joining (NJ) (Saitou & Nei, 1987) - metoda ta koncepcyjnie zbliżona do analizy klastrów, jednak dopuszcza niejednakowe tempo zmian molekularnych wśród gałęzi. Zasada analizy NJ to wyszukiwanie par taksonów, które minimalizują totalną długość gałęzi na każdym etapie grupowania taksonów początkowo zgrupowanych w całkowicie politomicznym drzewie („gwiazda”). Zasada działania algorytmu NJ: 1. Początkowe drzewo ma postać w pełni politomicznej gwiazdy. 2. Losowo wybierana jest para sekwencji i łączona gałęzią z centrum gwiazdy. Liczona jest całkowita długość gałęzi drzewa. Para jest zwracana do gwiazdy. 3. Powtarzane jest to ze wszystkimi możliwymi kombinacjami par, aż do znalezienia drzewa o najmniejszej całkowitej długości gałęzi. Para sekwencji z tego drzewa sąsiaduje ze sobą w finalnym drzewie. 4. Para ta jest tymczasowo kombinowana w jednostkę, włączana do gwiazdy krótszej o jedną gałąź i matryca dystansów liczona jest na nowo. 5. Procedura jest powtarzana tak długo, aż wszyscy „sąsiedzi” zostaną znalezieni i otrzymamy gotowe drzewo. 3. Maximum Likelihood (ML) - metoda stosowana tylko do danych sekwencyjnych, zdobywa uznanie jednakże dzieje sie to powoli, ze względu na stosunkowo skomplikowaną podstawę teoretyczną i znaczne wymagania co do mocy sprzętu obliczeniowego. ML zakłada określony, niekiedy złożony model ewolucji sekwencji. Celem analizy ML jest odpowiedź na pytanie: “jakie jest prawdopodobieństwo powstania obserwowanych danych” (w tym wypadku alignmentu wielu sekwencji) dla danej topologii drzewa filogenetycznego i przy określonym modelu ewolucji? Zajęcia 8: Filobioinformatyka Bioinformatyka Autor: Łukasz Kościński 4. Maximum Parsimony (MP) - Założeniem jest, że ewolucja przebiega najkrótszą z możliwych dróg (zasada parsymonii). Jest metodą bardziej ewolucyjnie rygorystyczną niż metody dystansowe. Zasada analizy MP: porównywane są wszystkie możliwe topologie drzew. To drzewo, które wymaga w sumie najmniejszej liczby zmian poszczególnych cech (substytucji i delecji/insercji) jest najlepszym drzewem. Odmiany analizy MP: 1. parsymonia Wagnera – zezwala na rewersje, wszystkie cechy uporządkowane. 2. parsymonia Dollo – cecha pojawia się tylko raz, możliwa jest rewersja do cechy ancestralnej. 3. parsymonia Camina-Sokala – najostrzejsza, zmiany ewolucyjne są nieodwracalne (=Dollo + brak rewersji). 4. parsymonia ogólna – dopuszczane są wszystkie możliwe sytuacje z trzech poprzednich, stosowane indywidualnie do określonych cech lub ich grup. W metodzie MP Analizowane są wszystkie możliwe drzewa, dzięki czemu gwarantowane jest znalezienie najkrótszego drzewa. Niestety przez to, jest to metoda bardzo czasochłonna i możliwa do zastosowania jedynie dla małych matryc danych (do 12 taksonów). Zajęcia 8: Filobioinformatyka Bioinformatyka Autor: Łukasz Kościński Porównanie powyższych algorytmów: Metody UPGMA oraz NJ konstruują drzewa poprzez grupowanie na podstawie ogólnego podobieństwa (morfologicznego, sekwencji itp.). A ogólne podobieństwo niekoniecznie musi odzwierciedlać prawdziwe pokrewieństwo filogenetyczne. Natomiast Metody ML i MP, choć koncepcyjnie lepiej zakotwiczone w procesach ewolucyjnych, są ekstremalnie wymagające w stosunku do mocy obliczeniowej, natomiast mnogość parametrów opcjonalnych może w efekcie wpłynąć na rekonstrukcję w trudny do oszacowania sposób (subiektywizm badacza). Metoda UPGMA Zalety • bardzo prosta i szybka Wady • bardzo czuła na różne tempo ewolucji • grupowanie możliwe jest jedynie, jeśli dane są ultrametryczne tzn. spełniają warunek „trzech punktów” NJ • bardzo szybka • akceptuje linie wykazujące różne tempo ewolucji • informacja • daje z sekwencji jest zredukowana tylko jedno możliwe drzewo • silnie zależy od rodzaju zastosowanego modelu ewolucji ML • niższa wariancja (=mniejszy wpływ błędu próby) • dobre podstawy statystyczne • sprawdza różne topologie • używa całą informację z sekwencji • bardzo dobre wyniki przy krótkich • bardzo wolna i wymaga dużej mocy komputera • rezultaty zależą od zastosowanego modelu ewolucji sekwencjach MP • jedyna w pełni kladystyczna metoda • można identyfikować obszary problematyczne • nie redukuje informacji z sekwencji • sprawdza różnorodne drzewa (hipotezy) Zajęcia 8: Filobioinformatyka • bardzo powolna dla nawet niedużych matryc, nawet dla strategii branch-andbound • nie wykorzystuje pełnej informacji z sekwencji (tylko informatywne) • nie zakłada modelu ewolucji • nie daje informacji o długości gałęzi Bioinformatyka Autor: Łukasz Kościński Drzewa ukorzenione (ang. rooted trees) oraz nieukorzenione (ang. unrooted trees). Drzewo ukorzenione – jest takim drzewem, w którym istnieje węzeł macierzysty (korzeń) z którego można wyprowadzić wszystkie węzły potomne. Drzewo nieukorzenione – nie ma charakteru kierunkowego związanego z czasem ewolucyjnym. Grupa monofiletyczna – ujmuje wszystkie taksony pochodzące od danego przodka. Grupa parafiletyczna – ujmuje część taksonów pochodzących od danego przodka. Grupa polifiletyczna – ujmuje taksony pochodzące z różnych gałęzi. Transwersja – mutacja genowa, punktowa zmiana chemiczna w obrębie nici DNA, w której zasada purynowa ulega zamianie na pirymidynową lub odwrotnie. Tranzycja jest to zmiana prawidłowych nukleotydów w DNA na inne w ramach jednej grupy zasad azotowych (puryn lub pirymidyn)- adeniny na guaninę, a cytozyny na tyminę (i na odwrót). Ćwiczenia: 1. Narysuj wszystkie drzewa dla trzech taksonów A,B i C. 2. Przekształć podane na tablicy drzewo nieukorzenione w jego wszystkie możliwe pochodne drzewa ukorzenione. 3. Przekształć podane drzewo ukorzenione w nieukorzenione. 4. Modele ewolucji: Jukesa – Cantora oraz dwuparametrowego modelu Kimury. 5. Omówienie modeli koewolucji. 6. DEF. Iteracja oraz Rekurencja. 7. Dla alignmentu następujących 4 sekwencji skonstruuj macierz odległości: ATCG ATCC GTCC GTAC Zajęcia 8: Filobioinformatyka Bioinformatyka Autor: Łukasz Kościński 8. Mając do dyspozycji następującą macierz odległości: A B C D E A - 24 35 37 45 B - - 39 41 49 C - - - 14 22 D - - - - 8 E - - - - - skonstruuj drzewo filogenetyczne dla tych taksonów łącząc iteracyjnie w pary organizmy najbliżej spokrewnione. Zajęcia 8: Filobioinformatyka