filobioinformatyka

advertisement
Bioinformatyka
Autor: Łukasz Kościński
FI LO B I O I N FO R MATYKA
Wprowadzenie
Drzewo jest graficznym modelem powstałym w wyniku rekurencyjnego podziału zbioru
obserwacji A na n rozłącznych podzbiorów A1, A2, A3, …An. Celem budowy modelu jest
uzyskanie podzbiorów maksymalnie jednorodnych z punktu widzenia wartości zmiennej
zależnej. Jest to proces wieloetapowy, który w każdym kolejnym kroku może
wykorzystywać inną zmienną niezależną. Na każdym etapie analizuje się bowiem
wszystkie atrybuty i wybiera ten, który zapewnia najlepszy podział węzła, czyli wydziela
najbardziej homogeniczne podzbiory.
Początek każdego drzewa stanowi cały zbiór obserwacji, który jest dzielony na 2 lub
więcej podzbiorów. W pierwszym przypadku mówi się o drzewach binarnych, a w drugim
o drzewach dowolnych. Dzielony zbiór nosi nazwę węzła macierzystego (ang. parent
node), natomiast wydzielone podzbiory – nazwę węzłów potomków (ang. child nodes).
W kolejnym etapie podziału węzeł potomek, który jest dalej dzielony, staje się węzłem
macierzystym dla 2. etapu, zaś węzeł, który pozostaje bez zmian, staje się węzłem
końcowym, nazywanym liściem. Wielkość drzewa to liczba liści, zaś głębokość drzewa to
liczba krawędzi między wierzchołkiem a najbardziej odległym liściem.
Drzewa klasyfikacyjne i regresyjne to narzędzia analizy i odkrywania wiedzy (ang. data
mining) służące do budowy modeli predykcyjnych i deskryptywnych. Z drzewami
klasyfikacyjnymi mamy do czynienia wtedy, gdy zmienna zależna jest wyrażona na skali
nominalnej lub porządkowej, natomiast z drzewami regresyjnymi wtedy, gdy poziom
pomiaru tej zmiennej jest co najmniej przedziałowy.
Zajęcia 8: Filobioinformatyka
Bioinformatyka
Autor: Łukasz Kościński
Drzewa klasyfikacyjne w filobioinformatyce
Takson - grupa organizmów (populacji) na tyle do siebie podobnych, że można ją
wyróżnić i zaklasyfikować do jakiejś kategorii systematycznej. Mianem taksonu określa się
te organizmy, które wyróżniają się konkretną cechą, na tyle charakterystyczną, że na jej
podstawie można je zaszeregować do konkretnej kategorii. Omawiając takson należy
pamiętać, że nazwa ta odnosi się do ściśle określonej grupy osobników, np.
skowronków (takson skowronek w randze gatunku) lub kotowatych (takson kotowate w
randze
rodziny).
Kategoria
gatunek
nie
jest
taksonem,
ale
gatunek
do
niej
zaklasyfikowany – jest.
Takson parafiletyczny – takson, który obejmuje tylko część potomków wspólnego
przodka. Istnienie taksonów parafiletycznych wynika po części z niedoskonałości metod
stosowanych dotychczas przez naukowców a po części z przyzwyczajenia.
Analiza filogenetyczna jest jedną z bardzo istotnych gałęzi bioinformatyki ze względu na jej
olbrzymią przydatność m.in.:
•
Do rekonstrukcji historycznych związków filogenetycznych pomiędzy taksonami,
dzięki czemu jesteśmy w stanie sprawdzać drogi ewolucji oraz koewolucji
organizmów, dystanse filogenetyczne itp. Dzięki analizie filogenetycznej jesteśmy w
stanie określić na jakim etapie nastąpiło rozdzielenie szczepów dzięki czemu
jesteśmy w stanie np. domniemywać, czy w danym okresie nastąpiła jakaś presja
ewolucyjna powodująca to zróżnicowanie;
•
W aplikacjach biomedycznych np. epidemiologii i sądowej – do ustalania np.
bliskości genetycznej sprawców zbrodni itp.;
•
W badaniach molekularnych nad organizacją genomu strukturą genów – przez co
pozwala wynajdywać prawidłowości, jaka konstrukcja genów oraz jakie sekwencje i
motywy strukturalne mogą być wysoce konserwowane w toku ewolucji;
•
W badaniach nad powstawaniem nowych alleli i szczepów laboratoryjnych;
•
W studiach porównawczych w ekologii;
•
Na wszystkich polach, gdzie dokonuje porównań między obiektami lub procesami.
Zajęcia 8: Filobioinformatyka
Bioinformatyka
Autor: Łukasz Kościński
Jednym z najbardziej popularnych narzędzi filobioinformatyki są drzewa klasyfikacyjne. W
zależności od naszych oczekiwań w stosunku do analizy klasyfikacyjnej możemy je
konstruować różnymi metodami. Poniżej przedstawione są najbardziej popularne metody
tworzenia i analizy tych drzew:
1. Unweighted pair group method with arithmetic mean (UPGMA) , to najprostsza
metoda grupująca taksony według ogólnego podobieństwa lub odległości. Pracuje
ona wyłącznie na matrycach dystansowych np. hybrydyzacja DNA-DNA lub
konstruowanych z danych sekwencyjnych na podstawie ilości substytucji. UPGMA
umożliwia
określenie
długości
gałęzi
(odległości
ewolucyjnej)
oraz
ich
porządkowanie. Zakłada ona również stały zegar molekularny tzn., że możliwe jest
teoretycznie oszacowanie czasu dywergencji na podstawie różnic w sekwencjach
(Koncepcja zegara molekularnego (Zuckerlandl i Pauling, 1965) postuluje równe
tempo substytucji we wszystkich liniach ewolucyjnych. Dzięki danym fosylnym
(kopalnym) możliwe jest kalibrowanie zegara i określanie bezwzględnego czasu
dywergencji.
Zasada działania metody UPGMA:
1. Znajdź najbliższą parę gatunków.
2. Połącz oba te gatunki w klaster.
3. Policz na nowo pozostałe dystanse jako średnią od A-C.
4. Idź do kroku 1 i powtórz procedurę.
Reguła “trzech punktów”: Aby analiza UPGMA mogła być przeprowadzona
z sukcesem dane muszą być “zultrametryzowane”. Oznacza to, że dla dowolnych
trzech taksonów (x, y, z) dystanse (d) pomiędzy nimi muszą spełniać następujące
wyrażenie: d(x,z) ≤ max (d(x,y), d(y,z))
Zajęcia 8: Filobioinformatyka
Bioinformatyka
Autor: Łukasz Kościński
2. Neighbour - Joining (NJ) (Saitou & Nei, 1987) - metoda ta koncepcyjnie zbliżona
do analizy klastrów, jednak dopuszcza niejednakowe tempo zmian molekularnych
wśród gałęzi. Zasada analizy NJ to wyszukiwanie par taksonów, które minimalizują
totalną długość gałęzi na każdym etapie grupowania taksonów początkowo
zgrupowanych w całkowicie politomicznym drzewie („gwiazda”).
Zasada działania algorytmu NJ:
1. Początkowe drzewo ma postać w pełni politomicznej gwiazdy.
2. Losowo wybierana jest para sekwencji i łączona gałęzią z centrum gwiazdy.
Liczona jest całkowita długość gałęzi drzewa. Para jest zwracana do gwiazdy.
3. Powtarzane jest to ze wszystkimi możliwymi kombinacjami par, aż do
znalezienia drzewa o najmniejszej całkowitej długości gałęzi. Para sekwencji z
tego drzewa sąsiaduje ze sobą w finalnym drzewie.
4. Para ta jest tymczasowo kombinowana w jednostkę, włączana do gwiazdy
krótszej o jedną gałąź i matryca dystansów liczona jest na nowo.
5. Procedura jest powtarzana tak długo, aż wszyscy „sąsiedzi” zostaną znalezieni i
otrzymamy gotowe drzewo.
3. Maximum Likelihood (ML) - metoda stosowana tylko do danych sekwencyjnych,
zdobywa uznanie jednakże dzieje sie to powoli, ze względu na stosunkowo
skomplikowaną podstawę teoretyczną i znaczne wymagania co do mocy sprzętu
obliczeniowego. ML zakłada określony, niekiedy złożony model ewolucji sekwencji.
Celem analizy ML jest odpowiedź na pytanie: “jakie jest prawdopodobieństwo
powstania obserwowanych danych” (w tym wypadku alignmentu wielu sekwencji)
dla danej topologii drzewa filogenetycznego i przy określonym modelu ewolucji?
Zajęcia 8: Filobioinformatyka
Bioinformatyka
Autor: Łukasz Kościński
4. Maximum Parsimony (MP) - Założeniem jest, że ewolucja przebiega najkrótszą z
możliwych
dróg
(zasada
parsymonii).
Jest
metodą
bardziej
ewolucyjnie
rygorystyczną niż metody dystansowe.
Zasada analizy MP: porównywane są wszystkie możliwe topologie drzew. To
drzewo, które wymaga w sumie najmniejszej liczby zmian poszczególnych cech
(substytucji i delecji/insercji) jest najlepszym drzewem.
Odmiany analizy MP:
1. parsymonia Wagnera – zezwala na rewersje, wszystkie cechy uporządkowane.
2. parsymonia Dollo – cecha pojawia się tylko raz, możliwa jest rewersja do cechy
ancestralnej.
3. parsymonia
Camina-Sokala
–
najostrzejsza,
zmiany
ewolucyjne
są
nieodwracalne (=Dollo + brak rewersji).
4. parsymonia ogólna – dopuszczane są wszystkie możliwe sytuacje z trzech
poprzednich, stosowane indywidualnie do określonych cech lub ich grup.
W metodzie MP Analizowane są wszystkie możliwe drzewa, dzięki czemu
gwarantowane jest znalezienie najkrótszego drzewa. Niestety przez to, jest to
metoda bardzo czasochłonna i możliwa do zastosowania jedynie dla małych matryc
danych (do 12 taksonów).
Zajęcia 8: Filobioinformatyka
Bioinformatyka
Autor: Łukasz Kościński
Porównanie powyższych algorytmów:
Metody UPGMA oraz NJ konstruują drzewa poprzez grupowanie na podstawie ogólnego
podobieństwa (morfologicznego, sekwencji itp.). A ogólne podobieństwo niekoniecznie
musi odzwierciedlać prawdziwe pokrewieństwo filogenetyczne.
Natomiast Metody ML i MP, choć koncepcyjnie lepiej zakotwiczone w procesach
ewolucyjnych, są ekstremalnie wymagające w stosunku do mocy obliczeniowej, natomiast
mnogość parametrów opcjonalnych może w efekcie wpłynąć na rekonstrukcję w trudny do
oszacowania sposób (subiektywizm badacza).
Metoda
UPGMA
Zalety
• bardzo
prosta i szybka
Wady
• bardzo
czuła na różne tempo ewolucji
• grupowanie
możliwe jest jedynie, jeśli dane
są ultrametryczne tzn. spełniają warunek
„trzech punktów”
NJ
• bardzo
szybka
• akceptuje
linie wykazujące różne
tempo ewolucji
• informacja
• daje
z sekwencji jest zredukowana
tylko jedno możliwe drzewo
• silnie
zależy od rodzaju zastosowanego
modelu ewolucji
ML
• niższa
wariancja (=mniejszy wpływ
błędu próby)
• dobre
podstawy statystyczne
• sprawdza
różne topologie
• używa
całą informację z sekwencji
• bardzo
dobre wyniki przy krótkich
• bardzo
wolna i wymaga dużej mocy
komputera
• rezultaty
zależą od zastosowanego modelu
ewolucji
sekwencjach
MP
• jedyna
w pełni kladystyczna metoda
• można
identyfikować obszary
problematyczne
• nie
redukuje informacji z sekwencji
• sprawdza
różnorodne drzewa
(hipotezy)
Zajęcia 8: Filobioinformatyka
• bardzo
powolna dla nawet niedużych
matryc, nawet dla strategii branch-andbound
• nie
wykorzystuje pełnej informacji z
sekwencji (tylko informatywne)
• nie
zakłada modelu ewolucji
• nie
daje informacji o długości gałęzi
Bioinformatyka
Autor: Łukasz Kościński
Drzewa ukorzenione (ang. rooted trees) oraz nieukorzenione (ang. unrooted trees).
Drzewo ukorzenione – jest takim drzewem, w którym istnieje węzeł macierzysty (korzeń)
z którego można wyprowadzić wszystkie węzły potomne.
Drzewo nieukorzenione – nie ma charakteru kierunkowego związanego z czasem
ewolucyjnym.
Grupa monofiletyczna – ujmuje wszystkie taksony pochodzące od danego przodka.
Grupa parafiletyczna – ujmuje część taksonów pochodzących od danego przodka.
Grupa polifiletyczna – ujmuje taksony pochodzące z różnych gałęzi.
Transwersja – mutacja genowa, punktowa zmiana chemiczna w obrębie nici DNA, w
której zasada purynowa ulega zamianie na pirymidynową lub odwrotnie.
Tranzycja jest to zmiana prawidłowych nukleotydów w DNA na inne w ramach jednej
grupy zasad azotowych (puryn lub pirymidyn)- adeniny na guaninę, a cytozyny na tyminę (i
na odwrót).
Ćwiczenia:
1. Narysuj wszystkie drzewa dla trzech taksonów A,B i C.
2. Przekształć podane na tablicy drzewo nieukorzenione w jego wszystkie możliwe
pochodne drzewa ukorzenione.
3. Przekształć podane drzewo ukorzenione w nieukorzenione.
4. Modele ewolucji: Jukesa – Cantora oraz dwuparametrowego modelu Kimury.
5. Omówienie modeli koewolucji.
6. DEF. Iteracja oraz Rekurencja.
7. Dla alignmentu następujących 4 sekwencji skonstruuj macierz odległości:
ATCG
ATCC
GTCC
GTAC
Zajęcia 8: Filobioinformatyka
Bioinformatyka
Autor: Łukasz Kościński
8. Mając do dyspozycji następującą macierz odległości:
A
B
C
D
E
A
-
24
35
37
45
B
-
-
39
41
49
C
-
-
-
14
22
D
-
-
-
-
8
E
-
-
-
-
-
skonstruuj drzewo filogenetyczne dla tych taksonów łącząc iteracyjnie w pary
organizmy najbliżej spokrewnione.
Zajęcia 8: Filobioinformatyka
Download