Filogenetyka - Marcin Filipecki

advertisement
2017-03-21
Filogenetyka
Dr Marek D. Koter, dr hab. Marcin Filipecki
Katedra Genetyki, Hodowli i Biotechnologii
Roślin, SGGW
1
2017-03-21
Twórcy teorii ewolucji…
Charles Darwin
Jean Baptiste de Lamarck
Podróż HMS Beagle
2
2017-03-21
i zbrodniczy szarlatan….
Trofim Denisowicz Łysenko
Gen i chromosom
Thomas Hunt Morgan
Gregor Mendel
3
2017-03-21
Kościół Katolicki wobec ewolucji
Katolik.pl
Filogenetyka
• Cel – rekonstrukcja historii ewolucji
wszystkich organizmów
• Klasyczne podejście:
historia ewolucji jest odtwarzana na podstawie
porównań cech morfologicznych i
fizjologicznych badanych organizmów.
4
2017-03-21
Cechy, które mogą być użyte do budowy drzewa rzędów owadów:
Poruszanie się
Okrycie stwardniałym oskórkiem lub kokonem,
Widoczność niezupełnie rozwiniętych narządów
Widoczność niecałkowicie wykształconych i nie funkcjonujących
odnóży,
Widoczność zawiązków skrzydeł
Widoczność aparatu gębowego
Zdolność do aktywnego poruszania się
Pełne wykształcenie narządów lokomotorycznych
Pełne wykształcenie zmysłów
Obecność członowanych odnóży krocznych
Liczba członowanych odnóży krocznych
Obecność pseudopodiów
Liczba pseudopodiów
Geny, które bierze się najczęściej do budowy drzew genów:
Cytochrom B
NADH dehydrogenase subunit I (ND1)
18S RNA
28S RNA
5
2017-03-21
Filogenetyka
• Molekularne podejście:
zadaniem filogenetyki molekularnej jest
zrekonstruowanie związków filogenetycznych między
badanymi sekwencjami
• Podstawowe założenie w filogenetyce molekularnej:
• sekwencje przodka mutują w sekwencje potomków
• podobne gatunki są genetycznie blisko spokrewnione
Mechanizmy ewolucji
• Mutacje w genach
Mutacje są rozprzestrzeniane w populacji
poprzez dryf genetyczny i/lub selekcję
naturalną
• Duplikacja i rekombinacja genów
6
2017-03-21
• tempo mutacji zależy od regionu w genomie, genie, rodzaju genu;
• częściej obserwuje się podstawienia w III pozycji kodonów;
CCG (prolina) zmiana G na jakikolwiek nt nie powoduje zmiany
aminokwasu
CTG (leucyna) zmiana C-T nie powoduje zmian
• zmiana SYNONIMICZNA
• zmiana NIESYNONIMICZNA
• częściej obserwuje się podstawienia typu tranzycji (purynapuryna, pirymidyna-pirymidyna) niż transwersji;
• częściej obserwowane są podstawienia między aminokwasami
podobnymi do siebie, ze względu na swoje właściwości
biochemiczne, biofizyczne, np.:
izoleucyna – lecyna
walina – izoleucyna
Kwas asparaginowy – kwas glutaminowy
Symbol
3-literowy
OBOWIĄZUJĄCE SYMBOLE AMINOKWASÓW
znaczenie
kodony
A
B
Ala
Asp, Asn
Alanina
Asparagina, Asparaginian
GCT, GCC, GCA, GCG
GAT, GAC, AAT, AAC
C
D
E
F
G
H
I
K
L
M
N
P
Q
R
S
T
V
W
X
Y
Z
Cys
Asp
Glu
Phe
Gly
His
Ile
Lys
Leu
Met
Asn
Pro
Gln
Arg
Ser
Thr
Val
Trp
Xxx
Tyr
Glu, Gln
Cysteina
Asparaginian
Glutaminian
Fenyloalanina
Glicyna
Histydyna
Izoleucyna
Lizyna
Leucyna
Metionina
Asparagina
Prolina
Glutamina
Arginina
Seryna
Treonina
Walina
Tryptofan
Nieznany
Tyrozyna
Glutaminian, Glutamina
TGT, TGC
GAT, GAC
GAA, GAG
TTT, TTC
GGT, GGC, GGA, GGG
CAT, CAC
ATT, ATC, ATA
AAA, AAG
TTG, TTA, CTT, CTC, CTA, CTG
ATG
AAT, AAC
CCT, CCC, CCA, CCG
CAA, CAG
CGT, CGC, CGA, CGG, AGA, AGG
TCT, TCC, TCA, TCG, AGT, AGC
ACT, ACC, ACA, ACG
GTT, GTC, GTA, GTG
TGG
*
End
Terminator
TAA, TAG, TGA
TAT, TAC
GAA, GAG, CAA, CAG
7
2017-03-21
• rzadko obserwuje się podstawienia między
aminokwasami bardzo różniącymi się swoimi
właściwościami:
tryptofan – izoleucyna
• rzadko obserwuje się podstawienia między
aminokwasami pełniącymi ważne role w białkach:
tryptofan (TGG) na kodon stop (TAG)
• mutacje missens – jeden aminokwas zastępowany
innym
• mutacje nonsens – terminacja translacji
• zmiana ramki odczytu
Wyrazem analiz filogenetycznych są drzewa
filogenetyczne
między cząsteczkami – drzewo genów
lub organizmami – drzewo gatunków
8
2017-03-21
Korzeń – wspólny przodek dla wszystkich taksonów
Gałąź – obrazuje związki ewolucyjne między
porównywanymi jednostkami taksonomicznymi
Długość gałęzi – zazwyczaj reprezentuje liczbę zmian,
które się zdarzyły w danej linii ewolucyjnej
Węzeł – reprezentuje miejsce rozgałęzień jednostek
taksonimicznych (populacji, organizmu, genu).
Liść – reprezentuje aktualnie analizowaną jednostkę
taksonomiczną
• Drzewa ukorzenione i nieukorzenione
• znany wspólny przodek lub istnieje hipoteza na temat
wspólnego przodka / nieznany wspólny przodek
• Topologia drzewa
• Długość gałęzi (czas ewolucji, ilość zmian)
9
2017-03-21
Przykładowe drzewa filogenetyczne
Po co konstruuje się drzewa filogenetyczne?
•Poznanie i zrozumienie historii ewolucyjnej
•Mapowanie różnicowania szczepów patogennych do
opracowania szczepionek
•Wsparcie dla epidemiologów
– Choroby infekcyjne
– Defekty genetyczne
• Narzędzie do przewidywania funkcji nowo odkrytych
genów
• Badania różnicowania układów biologicznych
• Poznanie ekologii mikroorganizmów
10
2017-03-21
Filogenetyka zwana jest czasem kladystyką
Klad – zbiór potomków pochodzących od pojedynczego przodka
Podstawowe założenia kladystyki:
1.
każda grupa organizmów jest spokrewniona przez
pochodzenie od wspólnego przodka
2. kladogeneza ma charakter bifurkacyjny (rozwidlający się)
3. zmiany w cechach pojawiają się w liniach
filogenetycznych z upływem czasu
Drzewo genów: bifurkacja – mutacja
Drzewo gatunków: bifurkacja – specjacja
Mutacja –
warunek niezbędny, ale nie zawsze wystarczający do
specjacji
11
2017-03-21
Często zapominamy o:
I
Domniemany znak równości między podobieństwem
zestawu cech (np. nukleotydów), a pochodzeniem
II Mutacje somatyczne ≠ mutacje genetyczne
Mutacja – DNA lub białka wydziela się z tkanek
somatycznych, dla filogenezy istotne są tylko mutacje
w gametach
III Cechy używane do budowy drzewa gatunków mają
się nijak do cech używanych do budowy drzewa
genów
Homolog, ortolog, paralog
12
2017-03-21
Horyzontalny transfer genów
Niektóre domyślne założenia kladystyki:
• sekwencje są poprawne
• sekwencje są homologiczne
Podobieństwo – to wielkość obserwowalna, którą można
określić np. jako % identycznych aminokwasów.
Homologia – określa wspólne pochodzenie porównywanych
genów (to może być wniosek wyciągnięty z analizy
podobieństwa)
Termin homologiczne oznacza odziedziczone po
wspólnym przodku
13
2017-03-21
Niektóre domyślne założenia kladystyki (cd):
• każda pozycja w sekwencjach dopasowanych (alignment)
jest homologiczna z każdą odpowiednią pozycją w tym
dopasowaniu
• różnorodność sekwencji w danym zbiorze jest na tyle
duża, że zawiera filogenetyczne sygnały, odpowiednie do
rozwiązania postawionego problemu
Jakich sekwencji użyć ?
•DNA (mt, rDNA, powoli czy szybko ewoluujące)
– Bardzo szczegółowe, niejednolite tempo mutacji
•cDNA/RNA
– Użyteczne dla bardziej odległych sekwencji homologicznych
•Sekwencje białkowe
– Użyteczne do badania większości odległych sekwencji
homologicznych, możliwość konstrukcji bardzo rozległych
ewolucyjnie drzew, bardziej jednolite tempo zmienności
mutacyjnej, więcej elementów zmienności
14
2017-03-21
Sekwencje rybosomowego 16S RNA
•Występują we wszystkich organizmach
•Są wysoce konserwatywne
•Nadają się do konstruowania bardzo rozległych
ewolucyjnie drzew
•Znane dla kilkudziesięciu tysięcy organizmów, głównie
prokariotycznych
Jacek Leluk
Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski
Co jest obliczane?
• Topologia drzewa
–porządek (kolejność) odgałęzień i korzeń
• Długość odgałęzień (czas ewolucji)
• Sekwencje przodków
• Wartości pokrewieństwa (np.
prawdopodobieństwo poszczególnych przemian)
• Wiarygodność drzewa
15
2017-03-21
Etapy analizy
• Pobranie sekwencji DNA/RNA/białka
• Wzajemne dopasowanie sekwencji (multiple alignment)
• Obliczanie dystansów dla poszczególnych par
• Konstruowanie drzewa: topologia + długość odgałęzień
• Oszacowanie wiarygodności
• Wizualizacja
Jacek Leluk
Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski
Dopasowywanie sekwencji
(Multiple Sequence Alignment)
• Dopasowanie spokrewnionych sekwencji w taki
sposób, żeby odpowiadające sobie pozycje
znajdowały się w tej samej kolumnie
• Wypełnienie brakujących miejsca kreskami
(delecje, insercje)
• Każda kolumna znaków staje się pojedynczym
elementem do dalszych obliczeń filogenetycznych
Jacek Leluk
Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski
16
2017-03-21
Dopasowanie i porównanie wielu sekwencji
• Celem porównania wielu sekwencji jest ułożenie w
kolumnach aminokwasów (nukleotydów) pochodzących
od jednego aminokwasu (nukleotydu) w białku (genie)
wspólnego przodka we wszystkich sekwencjach od
niego pochodzących.
Wstawienie przerwy
Porównanie parami
Porównanie parami wszystkich sekwencji
•
•
•
seq_1 & seq_ 2  0.91
seq_ 1 & seq_ 3  0.23
…
seq_ 8 & seq_ 9  0.87
17
2017-03-21
Porównanie wielu sekwencji
• W oparciu o dendrogram przewodni zaczyna
się porównywanie grup sekwencji.
• Drzewo przewodnie wskazuje, które
sekwencje są najbliższe – a więc najpierw
porównuje się te „łatwe”, a trudniejsze
zostawia się na potem.
18
2017-03-21
Sekwencje nieułożone
a
b
c
d
e
mthislgslyshktaktingsdeaskmewhf
mthvslgsmyshktgrtingsdqaskkmewhy
mshisitmyshktartidgseqaskmewhy
mthipigsmyshktaravngseqasklqwhy
mthipigsmystartincseqasklewhy
Porównanie wielu sekwencji
C
D
mthipigsmyshktaravngseqasklqwhy
E
mthipigsmys--tartincseqasklewhy
A
B
19
2017-03-21
Porównanie wielu sekwencji
C
D
mthipigsmyshktaravngseqasklqwhy
E
mthipigsmys--tartincseqasklewhy
A
mthislgslyshktaktingsdeas-kmewhf
B
mthvslgsmyshktgrtingsdqaskkmewhy
Porównanie wielu sekwencji
C
mshisi-tmyshktartidgseqaskmewhy
D
mthipigsmyshktaravngseqasklqwhy
E
mthipigsmys--tartincseqasklewhy
A
mthislgslyshktaktingsdeas-kmewhf
B
mthvslgsmyshktgrtingsdqaskkmewhy
20
2017-03-21
Porównanie wielu sekwencji
C
mshisi-tmyshktartidgseqas-kmewhy
D
mthipigsmyshktaravngseqas-klqwhy
E
mthipigsmys--tartincseqas-klewhy
A
mthislgslyshktaktingsdeas-kmewhf
B
mthvslgsmyshktgrtingsdqaskkmewhy
Sekwencje ułożone
a
b
c
d
e
mthislgslyshktaktingsdeas-kmewhf
mthvslgsmyshktgrtingsdqaskkmewhy
mshisi-tmyshktartidgseqas-kmewhy
mthipigsmyshktaravngseqas-klqwhy
mthipigsmys--tartincseqas-klewhy
21
2017-03-21
Metody obliczeniowe konstruowania drzew
filogenetycznych
• Metody analizy odległościowe (distance methods)
– met. średnich połączeń – (UPGMA; unweighted pair group method
with arithmetic mean,
- met. przyłączania sąsiadów (NJ; neighbor joining)
- met. Fitch-Margoliash (FM)
- met. minimalnych odległości (ME)
• Metody oparte na cechach (character based methods)
- met. największej oszczędności (MP; Maximum Parsimony)
- met. największej wiarygodności (ML; Maximum Likelihood)
- met. oparta na statystyce Bayesa (BI: Bayesian Inference)
• Łączenie drzew - drzewa konsensusowe, superdrzewa
Budowa dendrogramu przewodniego
Skonstruowanie dendrogramu przewodniego w
oparciu o porównania parami
 Metoda
średnich połączeń - UPGMA – unweighted pair
group method with arithmetic mean (PileUp & Clustal
V)
 Metoda
przyłączania sąsiada - Neighbor-Joining (NJ)
(Clustal W, Clustal X)
22
2017-03-21
Metody odległościowe
• Odległość wyrażana jest w ułamkach miejsc,
którymi różnią się między sobą 2 sekwencje w
wielokrotnym przyrównaniu
• Para sekwencji różniąca się w 10% miejsc jest bliżej
spokrewniona niż para różniąca się w 30%.
Metody odległościowe
przodek
A
A
A
linia potomna
C – A
C – G
C
C
liczba zmian
0
1
0
23
2017-03-21
Metoda nieważona grupowania parami ze średnią
arytmetyczną UPGMA
• program znajduje najpierw parę taksonów, którą
dzieli najmniejsza różnica i ustala punkt rozejścia
między nimi, czyli węzeł, w połowie odległości.
• łączy je w klaster i wpisuje do nowej macierzy
odległości dzielące ten klaster od pozostałych
• powtarzanie tych etapów, aż macierz zostanie
zredukowana do 1 obiektu
24
2017-03-21
UPGMA - krok 1
A B C
D E
A
0 6
9 11
9
B
6 0
7
9
7
C
9 7
0
8
6
D 11 9
8
0
4
E
6
4
0
9 7
D
E
UPGMA - krok 2
A B C DE
A
0
6
9
10
D
B
6
0
7
8
E
C
9
7
0
7
A
DE 10
8
7
0
B
25
2017-03-21
UPGMA - krok 3
AB C DE
C
AB
0
8
9
D
C
8
0
7
E
DE
9
7
0
A
B
UPGMA - krok 4
AB CDE
C
AB
0
8.5
D
CDE
8.5
0
E
A
B
26
2017-03-21
A B C
1.
D E
A
0 6
9 11 9
B
6 0
7
9 7
C
9 7
0
8 6
D 11 9
8
0 4
9 7
6
4 0
E
3.
AB C DE
AB
0
8
A B C DE
2.
A
0
6
9
10
D
B
6
0
7
8
E
C
9
7
0
7
A
DE 10
8
7
0
B
D
E
C
9
D
4.
AB CDE
AB
0
8.5
CDE
8.5
0
C
D
E
C
8
0
7
E
DE
9
7
0
A
A
B
B
UPGMA
• Hipoteza zegara molekularnego – ewolucja
różnych gatunków zachodzi w takim samym
tempie (FAŁSZ)
• Rzadko używana metoda przez
filogenetyków, nadal popularna w
epidemiologii drobnoustrojów
27
2017-03-21
Metody odległościowe – przyłączanie sąsiadów
(NJ)
• umożliwia konstruowanie nieukorzenionych drzew
• drzewa addytywne – odległość pomiędzy
gatunkami reprezentowanymi przez liście drzewa
są równe sumie długości łączących je gałęzi
(odległości od obu taksonów do węzła nie muszą
być identyczne)
i
n
j
Metody oparte na cechach
• metoda największej oszczędności (MP)
• metoda największej wiarygodności (ML)
• metoda oparta na statystyce Bayesowskiej
28
2017-03-21
Metoda największej oszczędności (MP)
• Metoda parsymonii (oszczędności) –
najodpowiedniejsze jest takie drzewo, w
którym potrzebujemy najmniejszej liczby
zmian do wyjaśnienia danych występujących
jako przyrównanie sekwencji.
Kryterium parsymonii
Które drzewo jest najprostszym wytłumaczeniem
obserwowanego zróżnicowania cechy między gatunkami?
+ wykształcenie się cechy
* utracenie cechy
+
+
+ +
*
A
B
C D
A
D C
B
A
C D B
29
2017-03-21
Metoda największej wiarygodności
• Poszukiwanie drzewa, które zgodnie z określonym modelem
ewolucji maksymalnie uwiarygodnia dane.
• Wiarygodność obliczamy dla:
• topologii drzewa
• długości gałęzi
• wartości wskaźników tempa podstawień (częstość występowania
zasady, liczba tranzycji / liczby transwersji)
• Wyznaczenie wartości ML może posłużyć do utworzenia
rankingu alternatywnych drzew.
Metoda bootstrap
• Pozwala oszacować wiarygodność rozgałęzień w
drzewach
• Porównuje topologię drzewa dla losowo
wygenerowanych dopasowań sekwencji (100 –
1000 dopasowań)
• Drzewo z wartościami bootstrap (odsetek
wygenerowanych drzew, w których obserwowano
dokładnie takie samo rozgałęzienie linii
ewolucyjnych)
30
2017-03-21
Charlie Sheen
Thomas Bayes
31
2017-03-21
32
2017-03-21
33
2017-03-21
Dobór właściwego algorytmu
•Niedyskretny charakter zmiennych jednostek, duża ilość
danych, niewielkie zasoby obliczeniowe ==> Metoda
najbliższego sąsiedztwa (Neighbor joining)
•Dyskretny charakter zmiennych, niewielka liczba
mutacji/homoplazja ==> Maximum Parsimony
•Dyskretny charakter zmiennych, ograniczona długość
sekwencji, występowanie zjawiska homoplazji
==>Maximum Likelihood
• Dyskretny charakter zmiennych, wiele gatunków
==>Superdrzewo
•Kompletne genomy ==>Filogeneza całych genomów
34
Download