Genetyka populacyjna Wiesław Babik [email protected] tel. 12 663 5171 pokój. 2.2.5 konsultacje czwartek 15‐16 Informacje slajdy z wykładów i inne pliki do ściągnięcia ze strony kursu: www.eko.uj.edu.pl/molecol 5 wykładów 3 x 45 min egzamin – test wyboru 20 pytań, 50% + 1 poprawnych odpowiedzi, może być przed sesją w terminie wykładu; 11 pytań prostych, 9 trudniejszych warunkiem przystąpienia do egzaminu jest zaliczenie konwersatorium Informacje - konwersatoria 5 konwersatoriów 3 x 45 min, zaczynają się po zakończeniu wykładów, prawdopodobnie 12 listopada na początku każdych zajęć test wyboru, 5 pytań = max 5 p., 10min., kto się spóźni traci czas/punkty na każdych zajęciach można zdobyć max. 3 p. za aktywność łącznie na każdych zajęciach można zdobyć max. 8 p. łącznie na wszystkich zajęciach można zdobyć 40 p. test zaliczeniowy – test wyboru 30 pytań = max. 30 p. łącznie (zajęcia + test końcowy) można zdobyć 70 p. zaliczenie od 30 p., nie na ocenę nie ma poprawiania testów końcowych ani testu zaliczeniowego Podręczniki Podręczniki po polsku Genetyka populacji bada „zachowanie” genów i determinowanych genetycznie cech w populacjach organizmów mechanizmy zmieniające skład genetyczny populacji mutacje rekombinacja dobór naturalny migracje przypadek modele upraszczają rzeczywistość i pozwalają na ilościowe przewidywania zmian genetycznych w populacjach – zrozumienie jak różne procesy wpływają na zmiany ewolucyjne Zastosowania u człowieka doradztwo genetyczne dla rodzin identyfikacja genów odpowiedzialnych za choroby o złożonym podłożu (nowotwory, cukrzyca, schizofrenia...) identyfikacja patogenów oraz ich dróg transmisji interpretacja statystyczna materiału dowodowego w sądownictwie identyfikacja sprawców przestępstw identyfikacja szczątków ofiar przypadki spornego rodzicielstwa rekonstrukcja historii człowieka jako gatunku, np. migracje między populacjami ludzkimi Zastosowania zrozumienie procesu ewolucji organizmów, genów i genomów doskonalenie zwierząt i roślin udomowionych szybka ocena bioróżnorodności programy hodowlane dla gatunków zagrożonych zachowanie maksimum zmienności genetycznej wymierających gatunków rekonstrukcja pokrewieństw między organizmami na wszystkich poziomach taksonomicznych Powstanie i wczesny rozwój powstała w latach 20 i 30tych XX w.: Fisher, Haldane i Wright pozwoliła na syntezę teorii ewolucji Darwina i genetyki Mendla Pojęcia locus – miejsce na chromosomie gdzie znajduje się określony fragment DNA, np. dany gen, często używany zamiennie z gen allel (wariant) – forma genu rozróżnialna od innych form tego samego genu, czasem używane też na określenie kopii genu – wynika z kontekstu • w populacji może występować wiele różnych alleli w danym locus • diploidalny osobnik ma maksymalnie dwa różne allele kopia genu – termin używany przy liczeniu genów, nie interesuje nas czy kopie genów są takie same czy różne, • diploidany osobnik ma dwie kopie każdego genu autosomalnego • w populacji N diploidalnych osobników jest 2N kopii każdego genu autosomalnego fenotyp – właściwość organizmu lub ich grupy • kolor oczu, włosów, grupa krwi genotyp – typ genetyczny w jednym lub więcej genów • w locus A osobnik może być homozygotą A1A1 lub heterozygotą A1A2 Gen (locus) i allel miejsce na chromosomie które zajmuje dany gen to locus forma (wariant) genu która znajduje się w danym locus na konkretnym chromosomie to allel w każdym locus dostajemy jeden allel (kopię genu) od każdego Allel A z rodziców – wyjątki to mitochondrialny DNA i chromosomy płci te allele (kopie genu) mogą być Gen (locus) na chromosomy grupę krwi ABO homologiczne takie same (homozygota) lub różne (heterozygota) skład alleli w danym locus to genotyp Allel B heterozygota AB – grupa krwi AB Proste cechy fenotypowe Dziedziczenie mendlowskie & dyskretne stany cech => cechę może warunkować jeden gen Interpretacja zmienności fenotypowej jest wątpliwa Cechy ilościowe większość obserwowanych właściwości organizmów rozkład zmienności ciągły i zbliżony do normalnego wielkość miotu masa ciała (g) wielkości cech częściowo dziedziczne, a częściowo kształtowane przez środowisko => komponent genetyczny i środowiskowy zmienności Frankham i in. 2010 Cechy ilościowe rozkład cechy warunkowanej genetycznie będzie ciągły gdy: wiele alleli w genie cechę warunkuje wiele genów na wielkość cechy wpływa środowisko a b c d e f g Cechy ilościowe rozkład cechy warunkowanej genetycznie będzie ciągły gdy: wiele alleli w genie cechę warunkuje wiele genów na wielkość cechy wpływa środowisko geny dużych i małych efektów specjalny aparat matematyczny i pojęciowy: odziedziczalność (h2), wariancja fenotypowa (VP), wariancja genetyczna (VG), korelacja rodzice‐potomstwo... osobny wykład Allozymy alleliczne formy białek, prosta interpretacja genetyczna ekstrakt z tkanki rozdziela się w żelu w polu elektrycznym stosuje się barwienie specyficzne dla danego białka allele o różnej sekwencji aminokwasów mogą migrować w żelu z różną prędkością – różnice w ładunku elektrycznym fot. M. Ratkiewicz Allozymy można badać u wszystkich organizmów zazwyczaj bada się 10‐30 białek, u człowieka ponad 70, głównie rozpuszczalne enzymy P ‐ proporcja loci polimorficznych (min. 2 allele) wśród wszystkich badanych kryterium polimorfizmu (0.95, 0.99) 10 loci, z nich 3 zmienne P = 3/10 = 0.3 H – średnia heterozygotyczność – proporcja loci, które są heterozygotyczne u osobnika uśredniona dla całej populacji 10 loci w tym 3 zmienne z proporcjami heterozygot: 0.4, 0.2, 0.1, reszta 0.0, H = (0.4 + 0.2 +0.1 + 0 + 0 + 0 + 0 + 0 + 0 + 0)/10 = 0.07 Allozymy wykazują zmienność u większości gatunków w pewnym stopniu poziom zmienności jest powiązany z wielkością populacji u człowieka zbadano 71 loci P = 0.282, H = 0.067 duże zróżnicowanie między grupami i gatunkami w grupach Allozymy w populacjach znaczne zasoby zmienności badania allozymów wykrywają jedynie część zmienności (ok. 1/3 podstawień aminokwasów w białkach, przede wszystkim te zmieniające ładunek) allozymy mogą stanowić nielosową próbę genów trudności praktyczne w badaniach – wymagania świeżej tkanki, destrukcyjne pobieranie prób potrzeba charakterystyki zmienności genetycznej na poziomie DNA Zmienność na poziomie DNA zmienność na poziomie DNA to JEST zmienność genetyczna wiele technik badania, tylko niektóre szerzej stosowane analiza zmienności mikrosatelitów sekwencjonowanie DNA i analiza polimorfizmów pojedynczych nukleotydów (SNP) technika PCR (reakcja łańcuchowa polimerazy) pozwala uzyskać dużą ilość określonego fragmentu DNA z minimalnej ilości materiału, amplifikacja ~ 106‐108 x Frankham i in. 2010 Mikrosatelity Krótkie sekwencje powtarzalne (motyw powtarzalny 2‐5 nukleotydów) rozrzucone po genomie Liczne u eukariotów (u człowieka > milion loci) Doskonałe markery genetyczne gdyż wykazują zazwyczaj wysoką zmienność – wiele alleli w populacji Allele różnią się liczbą powtórzeń a więc i długością, potrafimy je rozróżniać Namnażane techniką PCR, locus identyfikujemy przez unikatowe sekwencje flankujące (adres) powtórzenie AT wiele takich miejsc w genomie TCATGTACGTTGATATATATATATATATGTCCTGATGTTA unikatowe sekwencje flankujące Mikrosatelity kodominujące, prosty sposób dziedziczenia wysoka zmienność – nawet kilkaset alleli na locus w populacji, zazwyczaj kilkanaście, kilkadziesiąt, na podstawie kilku‐kilkunastu loci możliwa identyfikacja osobników z praktycznie 100% pewnością łatwa automatyzacja można namnażać kilka‐kilkanaście loci w reakcji multiplex łatwy sposób wyznaczania pokrewieństwa między osobnikami dużo narzędzi do opracowywania i analizy statystycznej Zmienność sekwencji DNA sekwencjonowanie daje dostęp do dowolnej części genomu analizując zmienność DNA w populacji porównujemy między osobnikami te same (homologiczne) pozycje nukleotydowe – wyrównanie (alignment) sekwencji dobre wyrównanie sekw. homologiczne złe wyrównanie sekw. homologiczne sekwencje niehomologiczne pozycja nukleotydowa Zmienność sekwencji DNA - przykład Kreitman (1983): sekwencja ok. 2400 par zasad (pz, bp) 11 kopii genu dehydrogenazy alkoholowej (Adh) u Drosophila melanogaster Frankham i in. 2010 • • • • liczba miejsc zmiennych czyli polimorficznych (S) = 43 (1.8%) 11 kopii genów, ale 9 różnych alleli więcej zmienności w intronach tylko jedna różnica aminokwasowa – dwa allele odróżnialne techniką elektroforezy allozymów => tylko jedno podstawienie niesynonimowe, 13 podstawień synonimowych w egzonach Zmienność sekwencji DNA - przykład Różnorodność nukleotydów () – proporcja pozycji nukleotydowych różniących się między parą sekwencji losowo wybranych z populacji – czyli średnia dla wszystkich możliwych porównań; heterozygotyczność na poziomie nukleotydów i j n ij n 2 1 n i 1 j i 1 ij nn 1 2 ij proporcja różnych pozycji nukleotydowych w porównaniu i z j S N •S ‐ liczba miejsc zmiennych •N‐ długość sekwencji 3 4 5 6 7 2 0,13 3 0,59 0,55 4 0,67 0,63 0,25 5 0,80 0,84 0,55 0,46 6 0,80 0,67 0,38 0,46 0,59 7 0,84 0,71 0,50 0,59 0,63 0,21 8, 9, 10 1,13 1,10 0,88 0,97 0,59 0,59 0,38 11 1,12 1,18 0,97 1,05 0,84 0,67 0,46 Proporcja miejsc zmiennych pS pS 2 = 0.0065= 0.65% pS = 0.018 = 1.18% 8, 9, 10 0,42 Zakres zmienności DNA porównuje się zmienność która wydaje się nie mieć wyraźnego znaczenia funkcjonalnego – zmienność synonimowa („cicha”) –nie wywołująca zmian sekwencji aminokwasów Frankham i in. 2010 szeroki zakres zmienności mniejsze organizmy, o większych populacjach mają więcej zmienności DNA Polimorfizm Pojedynczych Nukleotydów (Punktowy) SNP – ang. Single Nucleotide Polymorphism Pozycje w genomie, które są polimorficzne – w danej pozycji w populacji może występować jeden z dwu (bardzo rzadko trzech lub czterech) nukleotydów => SNP ma zazwyczaj dwa warianty (allele) – locus bialleliczny SNP identyfikuje się przez sekwencjonowanie genomów lub ich fragmentów u wielu osobników Gdy już zidentyfikujemy SNP istnieją wydajne metody genotypowania Polimorfizm Pojedynczych Nukleotydów (Punktowy) SNP – ang. Single Nucleotide Polymorphism • W genomie człowieka odpowiadają za >90% obserwowanej zmienności sekwencji (liczba zmian), ok. 7 – 10 mln SNP z częstością rzadszego allelu (MAF) > 5% • Każdy(a) z nas ma ok. 3.2 mln SNP, z których większość występuje też u innych ludzi • Mogą występować w rejonach kodujących i nie kodujących • Wiele z nich nie ma wpływu na zdrowie ludzi, ale • Istnieją SNP, które decydują o wystąpieniu pewnych chorób czy predyspozycji • Wiele metod badawczych w tym mikromacierze pozwalające na jednorazowe genotypowanie nawet milionów SNP Zmienność i transmisja różnych części genomu człowieka Geny na Właściwość Autosomach Zmienność wysoka średnia niska bardzo wysoka 0.0008 0.0004 0.0002 0.004 słaby słaby silny silny Ne 3Ne/4 Ne/4 Ne/4 niskie niskie średnie bardzo wysokie 1.1 0.8 0 0 Przepływ genów ♂ 50% 33% 100% 0% Przepływ genów ♀ 50% 67% 0% 100% Dryf genetyczny Efektywna wielkość populacji Tempo mutacji Rekombinacja (cM/Mb) Chromosomie Chromosomie X Y mtDNA Pojęcia częstość genotypu – proporcja danego genotypu wśród badanych osobników (w badanej populacji) dwa allele A1 i A2, gatunek diploidalny, gen autosomalny P = NA1A1/N, H = NA1A2/N, R = NA2A2/N częstość allelu – proporcja danego allelu wśród wszystkich badanych kopii genów dwa allele A1 i A2, gatunek diploidalny, gen autosomalny częstość homozygot plus połowa częstości heterozygot (mają tylko jeden allel): p = P + 1/2 H, q = Q + 1/2H, q = 1 ‐ p liczba alleli (kopii genu) danego typu podzielona przez całkowitą liczbę alleli (kopii genu) w populacji p =NA1/2N, q = NA2/2N Prawo Hardy’ego-Weinberga założenia organizm diploidany rozmnażanie płciowe niezachodzące na siebie pokolenia identyczne częstości alleli u obu płci lub gatunek hermafrodytyczny kojarzenie losowe bardzo duża (w teorii: nieskończona) populacja brak mutacji brak migracji na rozpatrywany locus nie działa dobór naturalny locus autosomalny, dwa allele A1 i A2 o częstościach p i q częstości genotypów wynoszą: P(A1A1) = p2 H(A1A2)= 2pq Q(A2A2) = q2 i nie zmieniają się z pokolenia na pokolenie Prawo Hardy’ego-Weinberga Losowe łączenie się gamet ‐ częstości różnych genotypów (kombinacji gamet) zależą tylko od częstości gamet allel częstość allel A1 częstość p A1A1 p2 A1A2 pq q A2A1 qp A2A2 q2 gamety żeńskie A2 gamety męskie A1 A2 p q Częstości genotypów w zygotach: P’(A1A1) = p2 H’(A1A2)= pq + qp = 2pq Q’(A2A2) = q2 Prawo Hardy’ego-Weinberga (H-W) Losowe kojarzenie się osobników częstości genotypów samic częstości genotypów samców A1A1(P) A1A2(H) A2A2(Q) A1A1(P) P2 PH PQ A1A2(H) PH H2 HQ A2A2(Q) PQ HQ Q2 Potomstwo Kojarzenie częstość A1A1 A1A2 A2A2 A1A1 x A1A1 P2 P2 ‐ ‐ A1A1 x A1A2 2PH PH PH ‐ A1A1 x A2A2 2PQ ‐ 2PQ ‐ A1A2 x A1A2 H2 1/4H2 1/2H2 1/4H2 A1A2 x A2A2 2HQ HQ HQ A2A2 x A2A2 Q2 _ _ Q2 Razem 1 (P + 1/2H)2 = p2 2(P + 1/2H)(Q + 1/2H) = 2pq (Q + 1/2H)2 = q2 Prawo Hardy’ego-Weiberga zależność częstości genotypów od częstości alleli Najwięcej heterozygot w populacji gdy częstości alleli jednakowe Rzadki allel występuje prawie wyłącznie w heterozygotach przy losowym kojarzeniu równowaga osiągana jest w czasie jednego pokolenia Prawo Hardy’ego-Weinberga 3 allele gamety ♀ A1 – p p p2 gamety ♂ q r pq pr A2 – q qp q2 qr A3 – r rp rq r2 Częstości genotypów A1A1 A1A2 A2A2 A1A3 A2A3 A3A3 r2 p2 2pq q2 2pr 2qr n alleli: n(n + 1)/2 możliwych genotypów, z tego n typów homozygot i n(n ‐ 1)/2 typów heterozygot Pij = 2pipj, Pii = pi2 n 2 H 1 p HE heterozygotyczność oczekiwana E i i 1 dla locus nazywana też różnorodnością genów można ją stosować do genomów o dowolnej ploidalności, np. mtDNA Częstość nosicieli gdy allel szkodliwy, powodujący chorobę lub śmierć homozygot jest recesywny to częstość nosicieli będzie o wiele większa niż częstość chorych locus z dwoma allelami A i a, homozygoty aa chore lub umierają, częstości genotypów w zygotach: AA – p2, Aa – 2pq częstość nosicieli to proporcja heterozygot wśród osobników z normalnym fenotypem (genotypy AA i Aa) f nosicieli f Aa 2 pq 2q 2 f AA f Aa p 2 pq 1 q p q 1 gdy allel jest rzadki, będzie występował prawie wyłącznie w heterozygotach Chondrodystrofia u kondora kalifornijskiego homozygoty dw/dw (karłowate) mają skrócone kości długie i giną w okolicach wylęgu heterozygoty +/dw i homozygoty +/+ są normalne normalnych kondorów (proporcje mierzone podczas wylęgu) jest 97.04%, karłowatych 2.96% => częstość homozygot dw/dw = 0.0296 częstość allelu dw przy założeniu proporcji genotypów podczas wylęgu zgodnych z prawem Hardy’ego‐Weinberga: 0.0296 0.17 częstość nosicieli f nosicieli 2q 2 0.17 0.29 10x więcej niż chorych 1 q 1 0.17 Przyczyny odchyleń od H-W nielosowe kojarzenia kojarzenie w pokrewieństwie (wsobność) podział populacji na subpopulacje = struktura genetyczna populacji błędne genotypowanie, np. występowanie alleli zerowych Te czynniki mogą powodować drastyczne odchylenia częstości genotypów od oczekiwań z prawa Hardy’ego‐ Weinberga dobór naturalny migracje mutacje zachodzące na siebie pokolenia Odchylenia powodowane przez te czynniki będą umiarkowane jeżeli występuje losowe kojarzenie, bo w każdym pokoleniu przywraca ono częstości genotypów oczekiwane z prawa Hardy’ego‐Weinberga Allele zerowe w mikrosatelitach allel ACTGTGCACCTGATCTG(AT)10GTCTGTACTGATCCTA TGACACGTGGACTAGAC CAGACATGACTAGGAT √ starter ACTGTGCACCTGATCTG(AT)17GTCTGTACTGATCCTA TGACACGTGGACTAGAC CAGACATGACTAGGAT √ ACTGTGCACCTGATCTG(AT)12GTCTGTACTGATCCTA TGACACGTGGACTAGAC CAGACATGACTAGGAT ACTGTGCACCTGATCTC(AT)12GTCTGTACTGATCCTA ! CAGACATGACTAGGAT TGACACGTGGACTAGAC zerowy – brak amplifikacji ACTGTGCACCTGATCTG(AT)15GTCTGTACTGATCCTA TGACACGTGGACTAGAC CAGACATGACTAGGAT ACTGTGCACCTGATCTG(AT)10GTCTGTACTGATCCTA TGACACGTGGACTAGAC CAGACATGACTAGGAT √ √ √ Prawo Hardy’ego-Weinberga nierówne częstości alleli w płciach: locus autosomalny wszystkie samice A1A1 –> pf = 1, pm= 0 wszystkie samce A2A2 –> qm = 1, qf = 0 całe potomstwo będzie heterozygotyczne, ale częstości alleli u samic i samców będą jednakowe w kolejnym pokoleniu częstości genotypów będą zgodne z oczekiwaniami H‐W – równowaga osiągnięta w ciągu 2 pokoleń Locus na chromosomie X, allele A1 i A2, trzy genotypy u samic, tylko dwa u samców, częstości alleli mogą się różnić między płciami, 2/3 chromosomów X jest u samic, 1/3 u samców pf = Pf + ½Hf qf = Qf + ½Hf pm = Pm qm = Qm q = 2/3qf + 1/3qm Prawo Hardy’ego-Weinberga – locus na X Potomstwo samice Potomstwo samce Kojarzenie ♀ ♂ częstość A1A1 A1A2 A2A2 A1 A1A1 x A1 PfPm PfPm ‐ ‐ PfPm A1A1 x A2 PfQm PfQm ‐ PfQm A1A2 x A1 HfPm 1/2HfPm 1/2HfPm ‐ 1/2HfPm 1/2HfPm A1A2 x A2 HfQm ‐ 1/2HfQm 1/2HfQm 1/2HfQm 1/2HfQm A2A2 x A1 QfPm A2A2 x A2 QfQm Razem 1 QfPm A2 QfPm _ _ QfQm pfpm pfqm+pmqf qfqm QfQm pf qf qf’ = Qf’ + 1/2Hf’ = qfqm+ ½(pfqm + pmqf) = ½qf(pm+ qm) + ½qm(pf + qf) = = ½ (qf + qm) qm’=qf Prawo Hardy’ego-Weinberga – locus na X częstość allelu u samic jest równa średniej z częstości u obu płci w poprzednim pokoleniu częstość allelu u samców jest równa częstości u samic w poprzednim pokoleniu gdy płcie różnią się częstościami alleli ich wyrównanie zajmuje kilka pokoleń gdy nie wiemy że locus leży na chromosomie płci zaobserwujemy pozorny niedobór heterozygot podobnie zachowują się wszystkie geny u organizmów haplo‐ diploidalnych jak błonkówki (Nie)równowaga sprzężeń Dwa geny autosomalne: A i B, każdy z dwoma allelami: A1, A2 oraz B1, B2, możliwe 4 typy gamet: Gameta Częstość Allel Częstość A1B1 x11 A1 p1 = x11 + x12 A1B2 x12 A2 p2 = x21 + x22 A2B1 x21 B1 q1 = x11 + x21 A2B2 x22 B2 q2 = x12 + x22 Jeżeli allele obu genów są przekazywane losowo, niezależnie od siebie, to częstości gamet będą wynosiły: x11 = p1q1 x12=p1q2 x21 = p2q1 x22 = p2q2 wtedy znając częstości alleli w obu loci możemy określić częstości gamet (Nie)równowaga sprzężeń A1 B1 A2 B2 tylko konwencja bo etykiety alleli można zamienić!!! gamety niezrekombinowane A1 B2 A2 B1 gamety zrekombinowane Odchylenie od losowości nazywamy nierównowagą sprzężeń (nierównowagą gametyczną), częstości gamet możemy zapisać: x11 = p1q1 + D x22 = p2q2 + D x12= p1q2 ‐ D x21 = p2q1 ‐ D (Nie)równowaga sprzężeń częstości niezrekombinowanych gamet D = x11 – p1q1, p1 = x11 + x12, q1 = x11 + x21, a więc D = x11(1 – x11 – x21 – x12) – x12x21 = x11x22 – x12x21 częstości zrekombinowanych gamet Dmax = 0.25, gdy nie ma gamet zrekombinowanych a niezrekombinowane mają równe częstości 0.5 Dmin = ‐0.25, gdy nie ma gamet niezrekombinowanych a zrekombinowane mają równe częstości po 0.5 D ≠ 0, niektóre kombinacje alleli występują w gametach częściej niż wynikałoby to z przypadku, inne rzadziej więcej o nierównowadze sprzężeń na konwersatorium i ostatnim wykładzie Dryf genetyczny - eksperyment 0 p o bw75/bw75 k bw/bw75 o l bw/bw e pokolenie zero: 107 populacji D. melanogaster w każdej 8 ♀♀ i 8 ♂♂ bw/bw75 kolejne pokolenia: 8 ♀♀ i 8 ♂♂ losowo wybieranych z poprzedniego pokolenia n i a jak zmieniają się częstości alleli? 19 Buri 1956 Model populacji Wrighta-Fishera N diploidalnych hermafrodytycznych osobników => skończona wielkość! N nie zmienia się z pokolenia na pokolenie niezachodzące pokolenia każdy osobnik produkuje bardzo dużo gamet => pula gamet efektywnie nieskończona nowe pokolenie powstaje przez losowe łączenie się w pary Frankham i in. 2010 2N gamet z puli każdy osobnik przekazuje średnio 2 gamety do następnego pokolenia, wariancja też 2 – rozkład Poissona, może przekazać 0, 1, 2, 3 … gamet brak doboru, mutacji, migracji => prawdopodobieństwo przejścia allelu do pokolenia t + 1 zależy tylko od jego częstości w pokoleniu t => brak pamięci, proces Markova Dryf genetyczny jako błąd próby populacja wielkości N, allele A1 i A2 z częstościami p i q prawdopodobieństwo że w następnym pokoleniu będzie dokładnie j kopii allelu A1 otrzymujemy z rozkładu dwumianowego: 2N j 2N j 2 N ! p q p jq2N j P j alleli A1 j!2 N j ! j gdy N = 9 (2N = 18) i p = 0.5, to Pt+1{j=0}=3.8 x 10‐6, ale Pt+1{j = 9} = 0.18 populacja polimorficzna może przejść z dowolnego stanu do dowolnego innego, lecz niewielkie zmiany są bardziej prawdopodobne gdy jeden z alleli się utrwali zmiany nie będą możliwe Dryf genetyczny zmiany częstości alleli będą większe w mniejszych populacjach prawdopodobieństwo utrwalenia się allelu jest równe jego aktualnej częstości => kumulatywne działanie dryfu n populacji z początkową częstością allelu A1 = p => allel A1 utrwali się w np populacjach Futuyma 2008 Dryf powoduje różnicowanie populacji Różnicowanie Podział populacji Eksperyment Teoria Frankham i in. 2010 Dryf genetyczny i dyfuzja matematyczny opis dryfu opiera się na modelach dyfuzji cząsteczek gazu – analizujemy dużą liczbę populacji, których częstości alleli zmieniają się analogicznie do zmiany położenia cząsteczek gazu w przestrzeni 1 p ln 1 p t ( p ) 4 N średni czas utrwalenia allelu 1 p p ln p t p 4 N średni czas utraty allelu 0 1 p t ( p) pt1 ( p ) (1 p)t0 ( p ) średni czas zachowania polimorfizmu dla nowopowstałego allelu (p = 1/(2N)): śr. czas utrwalenia = 4N pokoleń, a prawdopodobieństwo utrwalenia tylko 1/(2N)) 1 x ex śr. czas utraty 2ln(2N) ln e x x a prawdopodobieństwo utraty aż 1 ‐ 1/(2N) Dryf i spadek heterozygotyczności identyczność przez pochodzenie (identity by descent, IBD) – dwie kopie genów wywodzą się z jednej (fizycznie, przez replikację DNA) kopii genu w poprzednim (lub dawniejszym – możemy zdefiniować arbitralnie) pokoleniu identyczność stanu (identity by state, IBS) – dwie kopie genów reprezentują ten sam allel (np. A1) zakładamy że brak mutacji, migracji i doboru G ‐ prawdopodobieństwo że dwa losowo wybrane z populacji allele są IBS ~ homozygotyczność w kolejnym pokoleniu IBS może wystąpić na dwa sposoby t t + 1 G’ prawdopodobieństwo 1 2N t G t + 1 G’ prawdopodobieństwo 1 1 2N Dryf i spadek heterozygotyczności 1 1 1 G 2N 2N H 1 G G' 1 1 1 1 1 H 1 H 2N 2N 2 N 1 1 1 1 1 H H H H H H ' H 1 2N 2N 2N H ' 1 G' 1 1 H 1 H 0 1 2 N 1 1 H 2 H 1 1 H 0 1 2N 2N ... t t 1 H t H 0 1 H 0e 2 N 2N 2 tempo spadku heterozygotyczności odwrotnie proporcjonalne do wielkości populacji 1 x ex spadek heterozygotyczności jest geometryczny Dryf i spadek heterozygotyczności Ile czasu trzeba żeby heterozygotyczność w populacji spadła o połowę? 1 x ex t1 / 2 H0 1 H 0 1 x ln e x 2 2N t1 / 2 1 ln 2 ln1 2N ln 2 t1/ 2 2 N ln 2 1.39 N 1 ln1 2N N=100 t1/2= 139 pokoleń Frankham i in. 2010 N = 1000 000 t1/2= 1 390 000 pokoleń – bardzo dużo 1 Dryf genetyczny prowadzi do utraty zmienności w populacjach, w tempie odwrotnie proporcjonalnym do ich wielkości nawet w największych populacjach dryf determinuje los większości nowopowstałych alleli bo na początku są one rzadkie powoduje różnicowanie się częstości alleli między populacjami odstępstwa od prawa H‐W generowane przez dryf są rzędu 1/(2N) na pokolenie i są usuwane przez losowe kojarzenie – sam dryf nie powoduje znaczących odchyleń od H‐W przy występowaniu losowego kojarzenia, choć zmienia częstości alleli w populacji Spadek heterozygotyczności eksperyment z dryfem u D. melanogaster wielkość każdej populacji N = 16 osobników heterozygotyczność uśredniona dla wszystkich populacji oczekiwanie dla N=16 oczekiwanie dla N = 9 spadek szybszy niż oczekiwany! Buri 1956 Efektywna wielkość populacji w populacjach spadek zmienności jest szybszy a wahania częstości alleli większe niż by to wynikało z ich wielkości => populacje naturalne nie spełniają założeń idealnych populacji Wrighta‐Fishera teoria będzie nadal obowiązywać gdy wielkość populacji (N) zastąpimy efektywną wielkością populacji (Ne) Ne to taka wielkość idealnej populacji, w której dryf działa z taką samą siłą jak w populacji badanej; Ne można definiować w oparciu o: zmianę prawdopodobieństwa identyczności przez pochodzenie (IBD) – inbreeding Ne zmianę wariancji częstości alleli – variance Ne tempo spadku heterozygotyczności – eigenvalue Ne zazwyczaj (nie zawsze) wszystkie podejścia dają zbliżone wyniki Czynniki wpływające na Ne zmiany wielkości populacji 1 H t H 0 1 2N t Ht 1 1 1 1 1 1 1 1 H 0 2 N 0 2 N1 2 N 2 2 N t 1 1 1 2 N i 0 i t 1 1 1 1 1 2 N 2 N i 0 i e t Ne 1 i N i t 1 1 x ex t ln e x x ln ab ln a ln b średnia harmoniczna wielkości populacji w kolejnych pokoleniach średnia harmoniczna mniejsza od średniej arytmetycznej Dla liczebności w kolejnych pokoleniach: 1000, 700, 200, 15, 100 średnia arytmetyczna to 403 a Ne (średnia harmoniczna to 59) Efekt założyciela i wąskie gardła efekt założyciela – nowa populacja zakładana przez kilku migrantów wąskie gardło populacyjne (bottleneck) – drastyczny spadek liczebności populacji oba zjawiska powodują spadek zmienności genetycznej, bo drastycznie obniżają efektywną wielkość populacji również spadek potencjału ewolucyjnego Frankham i in. 2010 Stopień spadku zmienności zależy od: • stopnia redukcji liczebności • czasu trwania redukcji liczebności • ewentualnej imigracji osobników Żubr – mimo że odtworzono go jedynie z 12 (7) założycieli zachowała się znacząca zmienność mikrosatelitów i MHC, wąskie gardło trwało tylko jedno pokolenie Czynniki wpływające na Ne nierówny stosunek płci 1 1 1 Ne 4N f 4Nm Ne 4Nm N f N f Nm zróżnicowanie liczby potomstwa w idealnej populacji Wrighta‐Fishera średnia liczba gamet na osobnika przechodzących do następnego pokolenia wynosi 2 i jest równa wariancji (rozkład Poissona) gdy wariancja jest większa od średniej Ne spada 4N 2 Ne Vk 2 Ne w różnych częściach genomu, Ne/N mtDNA jest haploidalny i przekazywany tylko po matce NemtDNA = ½Ne♀ = ¼Ne gdy efektywna wielkość populacji dla samców i samic jest taka sama analogicznie NeY= ½Ne♂=1/4Ne gdy efektywna wielkość populacji dla samców i samic jest taka sama dla genów na chromosomie X NeX = 3/4Ne z metaanalizy danych dla różnych organizmów wynika że prawie zawsze Ne << N, średnio Ne ≈ 1/10N Frankham i in. 2010 Szacowanie Ne głównie za pomocą markerów molekularnych ‐ konwersatorium spadek heterozygotyczności z pokolenia na pokolenie (mikrosatelity, SNP) zmiany częstości alleli w czasie tempo spadku nierównowagi sprzężeń między loci wzrost współczynnika wsobności oceniany z rodowodów spadek różnorodności allelicznej równowaga dryf‐mutacje – na kolejnych wykładach Szacowanie Ne - przykład wombat północny, w ciągu 120 lat jego populacja spadła z >1000 do ok. 25 osobników w 1981 r i 70 w latach 90tych analiza mikrosatelitów z prób historycznych i współczesnych – pozostało 41% historycznej zmienności t t 12 Ht 1 2 Ne e 1 e N e 0.41 H 0 2Ne 12 ln(0.41) 2Ne 12 Ne 6.7 2 ln(0.41) Ne w ciągu ostatnich 120 lat < 7 osobników! Czas pokolenia 10 lat Wsobność (inbred) wsobność – kojarzenie między spokrewnionymi osobnikami u człowieka tabu na kojarzenia krewniacze, kojarzenia między kuzynami Rodzic – pokolenie 0 samozapłodnienie – najbardziej ekstremalna forma inbreedingu identyczność przez pochodzenie Dziecko – pokolenie 1 (identity by descent, IBD) – dwie kopie genów wywodzą się z jednej (fizycznie, przez replikację DNA) współczynnik wsobności F – prawdopodobieństwo że dwie kopie genu w danym locus u osobnika są IBD arbitralnie możemy wybrać czas (pokolenie) w przeszłości gdy F = 0 Wsobność (inbred) genotyp rodzica to 12 – zerujemy F w tym pokoleniu, więc 1 i 2 nie są IBD, nie ma dla nas znaczenia ich stan alleliczny możliwe genotypy dziecka i ich prawdopodobieństwa: 11 – ¼ autozygotczny Rodzic – pokolenie 0 12 – ¼ 21 – ¼ allozygotyczny 22 – ¼ autozygotyczny Pautozygotyczności = ¼ + ¼ = ½ Pallozygotyczności = ¼ + ¼ = ½ Dziecko – pokolenie 1 F = Pautozygotyczności = ½ genotyp autozygotyczny musi być homozygotyczny, allozygotyczny może być homo‐ lub heterozygotyczny (ignorujemy mutacje i rekombinację) F można definiować jako prawdopodobieństwo lub jako korelacje łączących się gamet, korelacja może być ujemna Wsobność (inbred) populacja zaczyna rozmnażać się przez samozapłodnienie A2A2 A2A2 A1A1 A1A2 A1A1 A1A1 A1A2 A2A2 A1A2 A1A1 A2A2 A1A1 A2A2 A1A1 A1A1 A1A1 A1A2 A1A1 A1A2 A1A1 A2A2 A1A2 A2A2 A1A2 A2A2 A2A2 A2A2 A1A1 A2A2 A1A1 A2A2 A1A2 autozygotyczna homozygota częstości alleli p=1/2 q =1/2 oczekiwane częstości genotypów A1A1 A1A2 A2A2 8/32 16/32 8/32 obserwowane częstości genotypów A1A1 A1A2 A2A2 12/32 8/32 12/32 allozygotyczna niedobór heterozygot homozygota autozygotyczna homozygota allozygotyczna heterozygota Wsobność (inbred) allele (kopie genu) w osobniku mogą być allozygotyczne z prawdopodobieństwem 1 – F, albo autozygotyczne z F dla allozygotycznych proporcje genotypów zgodne z oczekiwaniami H‐W dla autozygotycznych tylko homozygoty – ich częstości zgodne z częstościami alleli częstości genotypów przy wsobności: A1A1: p2(1 –F) + pF = p2 + pqF A1A2: 2pq(1 – F) = 2pq ‐2pqF = q2 + pqF A2A2: q2(1‐F) + qF wsobność nie zmienia częstości alleli w populacji lecz zmienia częstości genotypów Wsobność (inbred) w populacjach o skończonej wielkości inbred wzrasta z pokolenia na pokolenie nawet przy losowym kojarzeniu: F=1/(2N) wpływ inbredu na częstości genotypów usuwany przez losowe kojarzenie, ale populacja staje się coraz bardziej zinbredowana Frankham i in. 2010 Depresja wsobna Depresja wsobna to spadek przeżywalności, płodności lub tempa wzrostu, obserwowany często w następstwie kojarzeń krewniaczych Zjawisko to jest szczególnie ważne w genetyce konserwatorskiej gdyż poziom wsobności w małych populacjach jest często znaczny, choć kojarzenia mogą być losowe Genetycznie, populacje wsobne mają obniżoną heterozygotyczność (większą homozygotyczność) Dwie konkurencyjne hipotezy: Dominacji: spadek dostosowania wywołany ujawnianiem się rzadkich szkodliwych alleli w stanie homozygotycznym, gatunki o długiej historii wsobności powinny radzić sobie lepiej Naddominacji: sama heterozygotyczność w wielu loci podnosi dostosowanie Wydaje się że dominacja ważniejsza Depresja wsobna Z teorii dominacji wynika oczekiwanie że powinno działać ‘czyszczenie ze szkodliwych mutacji’ – i działa Barton i in 2007 Depresja wsobna jest powszechna wśród organizmów nie rozmnażających się przez samozapłodnienie ma znaczący komponent stochastyczny zazwyczaj jest silniejsza w warunkach stresowych zazwyczaj jest silniejsza w populacjach dzikich niż w niewoli nie występuje u organizmów haploidalnych i w genach w których brak dominacji lub naddominacji jej skutki w małych populacjach można usunąć wprowadzając osobniki z innych populacji (pod warunkiem że będą się kojarzyć i produkować potomstwo z rezydentami) – genetic rescue Depresja wsobna wymieranie populacji w zależności od współczynnika wsobności (F) Genetic rescue Frankham i in. 2010 Obliczanie F z rodowodów ♂ A B ♀ C D E I Rodowód kojarzenie między kuzynami A B C D E I musimy prześledzić wszystkie ścieżki od jednego rodzica do drugiego przez wspólnego przodka (przodków) w przykładzie tylko jedna ścieżka: DBACE dla każdej liczymy FI ½(1+FA) FI = ½ x ½ x ½ (1+ FA) x ½ x ½ = (½)5(1 + FA) ogólnie FI = (½)i(1 + FA) gdzie i to liczba osobników w ścieżce A B C ½ ½ D E ½ ½ I gdy więcej ścieżek to wykluczają się wzajemnie, bo osobnik może być autozygotyczny tylko przez jedną z nich aby otrzymać F dla osobnika sumujemy F dla różnych ścieżek Obliczanie F z rodowodów A A B B A B C D C D C D E G E G E G I I Rodowód Udział w FI Ścieżka:GDACE (½)5(1 + FA) I GDBCE (½)5(1 + FB) skomplikowane rodowody: algorytmy i programy komputerowe i 1 FI 1 FA A 2 A – liczba ścieżek Systemy regularnego inbredu gdy osobniki rozmnażają się wyłącznie przez samozapłodnienie, to w krótkim czasie podział populacji na klony i całkowity zanik heterozygotyczności linie wsobne zwierząt laboratoryjnych – kojarzenie brat‐ siostra przez min. 20 pokoleń Frankham i in. 2010 Dobór naturalny przeżywanie i reprodukcja zróżnicowane w zależności od posiadanych cech dostosowanie: zdolność do przeżycia i wyprodukowania potomstwa => miara zdolności do przekazania własnych kopii genów (alleli) przyszłym pokoleniom zjawisko statystyczne aby ewolucja na drodze doboru zachodziła, cechy decydujące o dostosowaniu muszą się dziedziczyć dobór działa lokalnie w obrębie genomu – na te geny, które odpowiedzialne są za kształtowanie cechy pod działaniem doboru – dlatego często można rozpatrywać działanie doboru na pojedynczy gen, w oderwaniu od reszty genomu Obserwacje doboru naturalnego w naturze Ewolucja ryjka pluskwiaka Jadera haematoloma Koelreuteria elegans serconasiennica Obserwacje doboru naturalnego w naturze melanizm przemysłowy u ćmy Biston betularia Futuyma 2008 odporność na myksomatozę/zjadliwość wirusa u królików z Australii Frankham i in. 2010 Efekty doboru sztucznego Adaptacje cechy pozwalające organizmom przystosować się do środowiska i warunków życia jedynym znanym mechanizmem powstawania adaptacji jest dobór naturalny, czyli adaptacje to cechy powstałe pod wpływem doboru naturalnego dobór może wytworzyć niezwykle złożone adaptacje, drogą akumulacji niewielkich zmian, z których każda podnosi dostosowanie adaptacja może zachodzić z istniejącej w populacji zmienności (standing genetic variation ‐ szybciej) lub w wyniku pojawiania się mutacji (wolniej) Dostosowanie dobór działa na fenotyp a jedynie pośrednio, przez los fenotypu, na genotyp który go warunkuje bezwzględne mierzy się tempem wzrostu liczebności danego genotypu w analizie doboru znaczenie ma dostosowanie względne (w), mierzone w stosunku do genotypu o najwyższym dostosowaniu dostosowanie średnie to średnia dostosowań wszystkich genotypów ważona przez ich częstości w populacji dobór ma wiele składników, które należy rozważyć badając dostosowanie dostosowanie często mierzy się liczbą potomków dożywających wieku rozmnażania i rozmnażających się Założenia prostych modeli doboru System genetyczny pojedynczy, dwualleliczny locus autosomalny diploidalność osobniki kojarzą się losowo Dobór identyczny u obu płci dobór przejawia się różnicami przeżywalności dla każdego genotypu dobór jest stały w czasie i przestrzeni Inne czynniki niezachodzące na siebie pokolenia brak mutacji nieskończenie duża populacja brak przepływu genów (migracji) brak wsobności Dostosowanie względne Zygoty: A1A1 – 100, A1A2 – 200, A2A2 – 100 Dorosłe osobniki: A1A1 – 80, A1A2 – 160, A2A2 – 50 Przeżywalność (w tym przypadku miara dostosowania): A1A1 – 0.8; A1A2 – 0.8, A2A2 – 0.5 wygodnie jest wystandaryzować te wartości tak, żeby największe dostosowanie wynosiło 1: w11 = 0.8/0.8 = 1 w12 = 0.8/0.8 = 1 w22 = 0.5/0.8 = 0.625 gdy rozpatrujemy zmiany częstości alleli po wpływem doboru liczy się dostosowanie względne – dostosowanie genotypu względem innych genotypów obecnych w populacji Ogólny model doboru ze stałym dostosowaniem Locus z dwoma allelami A1 i A2 o częstościach p i q genotyp A1A1 A1A2 częstość przed doborem p2 2pq dostosowanie (względne) w11 w12 udział po dobrze p2w11 2pqw12 częstość po doborze dostosowanie średnie p 2 w11 w 2 pqw12 w A2A2 q2 w22 q2w22 q 2 w22 w Razem 1 w 1 w p 2 w11 2 pqw12 q 2 w22 interesują nas zmiany częstości alleli z pokolenia na pokolenie, częstość allelu po doborze wynosi p 2 w11 pqw12 p pw11 qw12 p' 2 p w11 2 pqw12 q 2 w22 w Ogólny model doboru ze stałym dostosowaniem zmiana częstości allelu po jednym pokoleniu p p ' p p pw11 qw12 pw pq pw11 w12 qw12 w22 w w Szybkość zmiany częstości allelu zależy od wariancji częstości alleli i różnic w dostosowaniu między genotypami Jak zmienia się średnie dostosowanie wraz ze zmianami częstości alleli? dw d 2 p w11 2 pqw12 q 2 w22 dp dp p + q = 1 i wzory d 2 2 2 p w11 2 pw12 2 p w12 w22 2 pw22 p w22 na pochodne dp 2 pw11 1 2 p w12 qw22 2 pw11 qw12 pw12 qw22 2 pw11 w12 qw12 w22 pq dw p 2 w dp Dobór przeciwko recesywnemu allelowi letalnemu kondor kalifornijski – karłowatość chondrodystroficzna, warunkowana recesywnym allelem jednego genu fenotyp genotyp częstość przed doborem dostosowanie (względne) udział po dobrze norm ++ p2 1 p2 x 1 częstość po doborze p2/(1 ‐ q2) 2pq/(1 ‐ q2) 0 q1 norm +dw 2pq 1 2pq x 1 giną dwdw q2 0 q2 x 0 q 0 pq 0 q1 q 1 q 2 1 q 1 q 1 q q q q2 q2 q q1 q 1 q 1 q q 0.17 0.17 2 q 0.025 1 0.17 q1 0.145 Razem 1 1 ‐ q2 1.0 Dobór przeciw homozygotom recesywnym (korzystny allel dominujący, szkodliwy recesywny) genotyp A1A1 dostosowanie 1 s – współczynnik doboru > 0 A1A2 1 A2A2 1‐s w p 2 1 2 pq1 1 s q 2 p q sq2 1 sq2 2 spq2 p 0 2 1 sq spq2 0 q 2 1 sq Częstość allelu będzie spadać coraz wolniej, gdyż coraz rzadziej będzie występował w homozygotach. Nieskuteczność eugeniki w usuwaniu szkodliwych alleli Dobór przeciwko allelowi częściowo recesywnemu genotyp A1A1 A1A2 dostosowanie 1 1‐hs 0 < h < 1 – miara stopnia dominacji p h = ½ ‐ kodominacja, dostosowanie heterozygot idealnie pośrednie p spq 21 sq A2A2 1‐s spqh1 2q q 0 gdy q 0 2 1 2 pqhs sq 1 s = 0.5 0.8 s = 0.1 0.6 p 0.4 s = 0.02 0.2 0 0 100 200 300 liczba pokoleń 400 500 Dominacja w zależności od h h = 0 A1 dominujący, A2 recesywny h = 1 A1 recesywny, A2 dominujący w 0 < h < 1 częściowa dominacja h = 1/2 kodominacja =addytywność częściowa dominacja (A1) w addytywność w naddominacja h <0 naddominacja dominacja (A1) w h > 1 subdominacja, poddominacja Naddominacja (przewaga heterozygot) genotyp dostosowanie A1A1 1 ‐ s1 A1A2 1 A2A2 1 ‐ s2 s1 i s2 > 0 1 0.8 s1 = s2 – symetryczna naddominacja p pq s1 p s2 q p 1 s1 p 2 s2 q 2 p 0 gdy p s2 s1 s2 stabilny polimorfizm 0.6 s1 = s2 = 0.5 0.4 s1 = s2 = 0.1 0.2 0 0 50 100 liczba pokoleń 150 200 Dobór faworyzujący heterozygoty (równoważący) Allel A – normalna hemoglobina Allel S – hemoglobina sierpowata, podstawienie 1 zasady w łańcuchu beta hemoglobiny powoduje zmianę jednego aminokwasu Homozygoty SS giną w młodym wieku Hetrozygoty AS cierpią na anemię, lecz wykazują wyższą odporność na malarię niż homozygoty AA –> mają najwyższe dostosowanie na obszarach gdzie malaria jest częsta dobrze udokumentowane przykłady doboru faworyzującego heterozygoty są nieliczne Prawdopodobnie inne formy doboru równoważącego decydują o utrzymywaniu zmienności Malaria %Hbs Subdominacja, poddominacja – dobór przeciw heterozygotom genotyp dostosowanie A1A1 1 + s1 A1A2 1 pqs1 p s2 q p 1 s1 p 2 s2 q 2 A2A2 1 + s2 s1 i s2 > 0 1.2 1 0.8 Równowaga nietrwała: s2 p s1 s2 Równowaga trwała: p = 0 lub q = 0 Przykład: rearanżacje chromosomowe, heterozygoty mają niższą płodność z powodu problemów z mejozą 0.6 p 0.4 0.2 0 0 10 20 30 40 50 liczba pokoleń ten dobór nie utrzymuje zmienności Zmiana częstości allelu pod działaniem doboru a dominacja gdy częstość allelu recesywnego niska będzie niewidoczny dla doboru, jego częstość będzie się zmieniała powoli niezależnie czy korzystny czy szkodliwy większość alleli „recesywnych” obniża dostosowanie heterozygot o 1‐2% dobór intensywniejszy na allel recesywny na chromosomie X – bo allel będzie zawsze widoczny dla doboru u samców Równowaga dobór-mutacje Frankham i in. 2010 Równowaga dobór-mutacje allel szkodliwy A2 powstaje w wyniku mutacji i jest usuwany przez dobór qmut 1 q u 0 jaka jest częstość równowagowa A2? spq 2 s (1 q)q 2 qsel 0 2 2 1 sq 1 sq działanie mutacji i doboru się równoważy gdy allel A2 całkowicie recesywny qˆ : qmut qsel 0 s (1 q)q 2 1 q u 1 sq 2 u suq sq 2 q2 u s1 u q u s 2 u 1 gdy allel A2 letalny (s = 1) to qˆ u w populacji może się utrzymywać znaczna liczba mało szkodliwych mutacji (s << 1) Równowaga dobór-mutacje arbitralna dominacja genotyp dostosowanie A1A1 1 A1A2 1‐hs qmut 1 q u qsel psel qsel pqsh1 2q sq 1 2 pqhs sq 2 A2A2 1‐s s>0 qmut u gdy q ≈ 0 qsel qhs qmut qsel 0 u qhs u q hs równowagowa częstość allelu jest równa tempu mutacji podzielonemu przez współczynnik doboru przeciw allelowi w heterozygocie Choroby genetyczne człowieka Dziedziczenie Częstość równowagowa Autosomalne recesywny u/s częściowa dominacja u/hs dominujący u/s Sprzężone z płcią recesywny 3u/s Choroba Autosomalne dominujące Achondroplazja Retinoblastoma Pląsawica Huntingtona Autosomalne recesywne Albinizm Skóra pergaminowa Fenyloketonuria Mukowiscydoza Choroba Tay‐Sachsa Sprzężone z płcią recesywne Hemofilia Dystrofia Duchenne Częstość alelu w populacji 5 x 10‐5 5 x 10‐5 5 x 10‐4 3 x 10‐3 2 x 10‐3 7 x 10‐3 2.5 x 10‐3 1 x 10‐3 1 x 10‐4 2 x 10‐4 Szacowanie tempa mutacji z równowagi mutacje-dobór hemofilia powodowana jest przez recesywny allel sprzężony z płcią przeżywalność mężczyzn z hemofilią 0.25 ‐> s = 0.75 częstość hemofilii u mężczyzn na podstawie danych z duńskich szpitali q = 10.5 x 10‐5 3u s sqˆ u 3 qˆ u = 0.75 x 10.5 x 10‐5/3 ≈ 3 x 10‐5 to jest częstość mutacji na locus Dobór a powstawanie klin częstość allelu AdhF gdy dostosowanie genotypów zmienia się zgodnie z gradientem środowiskowym mogą powstawać kliny częstość alleli Adh u Drosophila melanogaster szerokość geograficzna Berry i Kreitman 1993 kliny mogą powstawać też w wyniku innych procesów argumentem za rolą doboru jest powtarzalność klin w różnych miejscach gdzie warunki środowiskowe zmieniają się podobnie – w Adh u Drosophila podobny wzorzec w USA i w Australii Inne formy doboru zróżnicowany efekt allelu u płci – możliwy stabilny polimorfizm gen na chromosomie X – allel recesywny zawsze będzie widoczny dla doboru u samców, bo mają tylko jeden X antagonistyczna plejotropia – allel korzystny w młodym wieku może być szkodliwy w starszym dobór zależny od zagęszczenia – allel może być korzystny gdy zagęszczenie populacji niskie, szkodliwy gdy wysokie dobór wpływający na płodność częsta forma doboru, nawet gdy jeden z genotypów bezpłodny częstości genotypów przy niezachodzących pokoleniach będą zawsze w równowadze H‐W dobór zmienny w czasie i w przestrzeni Dobór równoważący ogólne pojęcie określające takie formy doboru, które powodują utrzymywanie trwałego polimorfizmu dobór faworyzujący heterozygoty utrzymuje zmienność, lecz niewiele jest dobrych przykładów takiego doboru dobór zmienny w czasie, gdy spełnione są dodatkowe warunki dobór zmienny w przestrzeni, gdy spełnione są dodatkowe warunki dobór negatywnie zależny od częstości – rzadkie allele mają przewagę selekcyjną – dostosowanie allelu jest negatywnie skorelowane z jego częstością Dobór negatywnie zależny od częstości Dobór negatywnie zależny od częstości, dostosowanie allelu spada wraz ze wzrostem jego częstości – w ten sposób będzie utrzymywać się polimorfizm ryba Peridossus microlepis z jeziora Tanganika dobór apostatyczny – drapieżniki uczą się rozpoznawać najczęstsze formy ofiar mimikra Batesa – upodabnianie się nieszkodliwych gatunków do trujących modeli Futuyma 2009 Locus samoniezgodności u roślin Locus samoniezgodności u roślin zapobiega samozapłodnieniu nawet w małych populacjach wysoka zmienność linie alleliczne utrzymywane przez długi czas, bo gdy allel jest rzadki zyskuje przewagę selekcyjną i nie ginie w wyniku działania dryfu – polimorfizm transgatunkowy Częstość genotypu gospodarza Dobór zależny od częstości może działać na skutek koewolucji gospodarza i pasożyta g G oporny na P g oporny na p G P Częstość genotypu pasożyta P Dobór zależny od częstości utrzymuje zmienność genów zaangażowanych w odpowiedź immunologiczną Geny MHC wiążą z dużą specyficznością antygeny pasożytów, umożliwiając odpowiedź immunologiczną Najbardziej zmienne geny człowieka, w MHC I nawet ponad 1000 alleli Mutacje Zmienność genetyczna powstaje w wyniku mutacji Mutacje punktowe tranzycje i transwersje synonimowe i niesynonimowe insercje i delecje – mutacje przesunięcia ramki odczytu, dodanie lub usunięcie jednostek powtarzalnych, np. w mikrosatelitach Duplikacje tandemowe Konwersja genów Futuyma 2009 Mutacje chromosomowe poliploidyzacja inwersje: paracentryczne (supresory rekombinacji) i pericentryczne wzajemne translokacje fuzje i dysocjacje powodują zmiany liczby chromosomów Futuyma 2009 Ruchome elementy genetyczne Retroelementy retrotranspozony (LTR) retropozony (bez LTR) Transpozony DNA replikatywne – przenoszą się przez kopie niereplikatywne – przenoszą się przez wycinanie i wstawianie Powodują liczne mutacje przesunięcie ramki odczytu zaburzenia ekspresji genów rearanżacje genomu – miejsca rekombinacji przetworzone pseudogeny Futuyma 2009 Tempo mutacji mierzy się mutacjami ponownymi na jednostkę czasu można mierzyć tempo mutacji fenotypowych od metody wykrywania mutacji zależy jaką ich część zidentyfikujemy metody molekularne pozwalają na bezpośrednie wykrywanie mutacji w DNA Futuyma 2009 Szacowanie tempa mutacji Bezpośrednie liczenie w szczepach laboratoryjnych (mutation accumulation lines) Analiza rodowodów Metody pośrednie Zakładamy że mutacje są neutralne i ich tempo na rok lub pokolenie to u Znamy czas dywergencji 2 gatunków w latach lub pokoleniach t Znamy dywergencję sekwencji między gatunkami D D = 2tu, a więc u = D/2t Z porównań człowiek‐ szympans tempo mutacji 1.2 x 10‐9 / pozycję nukleotydową / rok albo 2.5 x 10‐8 / pokolenie, średnie tempo mutacji dla różnych ssaków nieco wyższe, A więc w każdym diploidalnym genomie człowieka (6 x 109 pz) byłoby 240 nowych, unikatowych mutacji, w populacji ludzkiej ponad bilion nowych mutacji w każdym pokoleniu – każda możliwa nieletalna mutacja pojawia się w każdym pokoleniu! Resekwencjonowanie genomów „z pokolenia na pokolenie” – tempo mutacji oszacowane na 1‐1.3 x 10‐8 /pozycję/ pokolenie – 60‐80 nowych mutacji na diploidalny genom Oszacowania tempa mutacji Futuyma 2009 Choć tempo mutacji na pozycję nukleotydową jest niskie, tempo w jakim wytwarzają zmienność w skali całego genomu jest znaczne Barton i in. 2007 Oszacowania tempa mutacji Losowość mutacji mutacje są losowe pod względem miejsca i czasu wystąpienia ale różne typy mutacji pojawiają się z różnym tempem, np. tranzycje częstsze niż transwersje ale regiony genomu różnią się znacznie tempem, czyli prawdopodobieństwem wystąpienia mutacji: mikrosatelity, minisatelity TCATGTACGTTGATATATATATATATATGTCCTGATGTTA preferencyjna metylacja cytozyny w ssaczych sekwencjach CpG prowadzi często do tranzycji C‐>T Losowość mutacji mutacje są losowe pod względem adaptacyjnym środowisko nie indukuje powstania „potrzebnych” mutacji – doświadczenia Ledebergów Futuyma 2009 Rozkład efektów mutacji Frankham i in. 2010 kontrowersja Hipotetyczny rozkład efektów mutacji w kodujących regionach genomu Porównanie żywotności much homo‐i heterozygotycznych pod względem drugiego chromosomu (ok. 1/5 genomu) D. melanogaster efekt mutacji recesywnych Losy mutacji w populacjach allel A1 mutuje do allelu A2 z prawdopodobieństwem u brak mutacji wstecznych (A2‐>A1) nie działa dryf genetyczny ani dobór p1 = p0(1 ‐ u), p2 = p1(1 ‐ u) = po(1 ‐ u)2 ‐> pt = pt‐1(1 ‐ u) = po(1 ‐ u)t ile czasu potrzeba żeby częstość allelu A1 spadła o połowę wyłącznie w wyniku mutacji? x 1 x e u = 10‐5 ½ p0 = po(1 ‐ u)t ln e x x ln½ = tln(1 ‐ u) t = t1/2 = ln½/ln(1 ‐ u) ≈ 0.693/u dla u = 10‐5 t1/2 ≈ 69.3 tys. pokoleń mutacje zmieniają częstość allelu bardzo wolno jeżeli prawdopodobieństwo mutacji jest niskie to często możemy zaniedbać mutacje wsteczne Prawdopodobieństwo utraty nowopowstałego allelu neutralnego populacja o wielkości N, 2N kopii genów nowopowstały w wyniku mutacji allel ma częstość 1/(2N) allel jest neutralny Pr że zostanie wylosowany w jednej próbie = 1/(2N) Pr że nie zostanie wylosowany w jednej próbie = 1 – 1/(2N) mamy 2N prób bo wielkość populacji pozostaje stała z pokolenia na pokolenie dlatego Pr że allel nie zostanie wylosowany = nie przejdzie do następnego pokolenia = (1 – 1/(2N))2N ≈ e‐(2N/2N) = e‐1 ≈ 0.368 1 x e x większość nowopowstałych alleli szybko znika z populacji Prawdopodobieństwo utrwalenia nowopowstałego allelu neutralnego populacja o wielkości N, 2N kopii genów nowopowstały w wyniku mutacji allel ma częstość 1/(2N) allel jest neutralny każda obecna w populacji kopia genu ma jednakową szansę utrwalenia w populacji = kiedyś w przyszłości w populacji będą jedynie potomkowie tej kopii genu jeżeli w populacji jest i kopii allelu A1, to prawdopodobieństwo utrwalenia się tego allelu = i/2N = częstości allelu, bo utrwalenie się allelu nastąpi w wyniku utrwalenia się którejkolwiek z i kopii jeżeli allel powstał w wyniku jednej mutacji, jego częstość wynosi 1/(2N) = prawdopodobieństwo utrwalenia Heterozygotyczność i model nieskończonej liczby alleli (Infinite Allele Model, IAM) – każda mutacja w populacji daje nowy allel przy IAM każda homozygota ma allele które są identyczne przez pochodzenie (IBD, wywodzą się od jednej kopii genu, która kiedyś zmutowała) ‐> każda homozygota jest autozygotyczna osobnik w pokoleniu t + 1 może być homozygotyczny na jeden z dwu wykluczających się sposobów: 1) obie jego kopie genu pochodzą z tej samej kopii w pokoleniu t i żadna z nich nie zmutowała, albo 2) jego kopie pochodzą z dwu różnych kopii genu w pokoleniu t, które były autozygotyczne (miały ten sam stan alleliczny) i żadna z nich nie zmutowała t t + 1 t t + 1 1) 2) Pr= 1 1 u 2 2N Ft‐1 1 2 Pr= 1 Ft 1 1 u 2N Wsobność (Inbred) genotyp rodzica to 12 – zerujemy F w tym pokoleniu, więc 1 i 2 nie są IBD, nie ma dla nas znaczenia ich stan alleliczny możliwe genotypy dziecka i ich prawdopodobieństwa: 11 – ¼ autozygotczny Rodzic – pokolenie 0 12 – ¼ 21 – ¼ allozygotyczny 22 – ¼ autozygotyczny Pautozygotyczności = ¼ + ¼ = ½ Pallozygotyczności = ¼ + ¼ = ½ Dziecko – pokolenie 1 F = Pautozygotyczności = ½ genotyp autozygotyczny musi być homozygotyczny, allozygotyczny może być homo‐ lub heterozygotyczny (ignorujemy mutacje i rekombinację) F można definiować jako prawdopodobieństwo lub jako korelacje łączących się gamet, korelacja może być ujemna Heterozygotyczność i Pr autozygotyczności bez mutacji = Pr homozygotyczności przy IAM w równowadze Ft = Ft–1 = Feq 1 1 2 2 Ft 1 u 1 Ft 1 1 u 2N 2N 1 1 2 2 Feq 1 u Feq 1 u 1 2N 2N 2 2 1 u 1 u Feq 2 N 2 N 11 u 2 2 N 2 N 11 u 2 2N Feq 2N ignorujemy składniki z u2 bo są bardzo małe 1 2u 1 2u 1 2 N 2 N 4 Nu 1 2u 4 Nu 2u 1 4 Nu 1 Heterozygotyczność (H) = 1 – homozygotyczność H eq 1 Feq 1 1 4 Nu 4 Nu 1 4 Nu 1 1 = 4Nu to populacyjne tempo mutacji, bardzo ważny parametr określający oczekiwane zasoby zmienności neutralnej w populacji Heterozygotyczność i zasoby zmienności neutralnej w populacji zależą od tempa mutacji oraz od wielkości populacji w populacji odbiegającej od założeń modelu Wrighta‐Fishera Ne ≠ N w takiej populacji = 4Neu loci o różnym tempie mutacji neutralnych będą miały różną oczekiwaną heterozygotyczność jest to rodzaj równowagi, w której średnia heterozygotyczność się nie zmienia ale zmieniają się allele, tzn. w różnych momentach różne allele będą miały najwyższe częstości okazuje się że istnieje również równowagowy rozkład częstości alleli = spektrum częstości alleli; najczęstszy allel będzie miał częstość p1, kolejny p2 itd.; w miarę jak populacja będzie ewoluowała pod wpływem dryfu i mutacji te częstości pozostaną takie same lecz będą się zmieniały allele, tzn. po pewnym czasie zamiast allelu A1 najczęstszym allelem w populacji będzie Ax itd. Formuła Ewensa i test Ewensa-Wattersona Ewens (1972)pokazał, że w równowadze przy IAM i neutralności oczekiwana (średnia) liczba różnych alleli w próbie wynosi: 2N n 1 1 2 2 N 1 i 0 i przy niskich wartościach w populacji będzie mało zmienności oczekiwana liczba alleli = 4 = 2 = 1 = 0.25 wielkość próby Formuła Ewensa i test Ewensa-Wattersona znając n i 2N można obliczyć a z niej homozygotyczność równowagową oczekiwaną dla IAM mając n różnych alleli w próbie 2N kopii genów i znając ich częstości n można obliczyć oczekiwaną homozygotyczność próby Fexp pi2 i porównać ją statystycznie z oczekiwaną i 1 homozygotycznością równowagowej populacji przy neutralności Feq – test Ewensa‐Wattersona rozkład Feq uzyskuje się przez symulację komputerową, która generuje dużą liczbę prób o wielkości 2N i liczbie alleli n przy założeniach: neutralności, IAM i równowagi dryf‐mutacje, oblicza homozygotyczność oczekiwaną dla każdej próby i porównuje wartości Fexp otrzymaną z prawdziwych danych z takim rozkładem celem określenia istotności statystycznej Formuła Ewensa i test Ewensa-Wattersona brak neutralności – różne formy doboru brak równowagi między dryfem i mutacjami, np. niedawna ekspansja demograficzna, wąskie gardło populacyjne częstość allelu oczekiwaną homozygotyczność dla danej liczby alleli można interpretować jako kształt rozkładu częstości alleli Fexp > Feq – rozkład częstości alleli bardziej skośny – nadmiar rzadkich alleli, np. dobór oczyszczający Fexp < Feq – rozkład częstości alleli bardziej wyrównany, nadmiar alleli o pośrednich częstościach np. dobór zależny od częstości test E‐W mierzy odchylenia od oczekiwanego rozkładu częstości alleli ale nie mówi o ich przyczynach, mogą nimi być: Rozkład częstości alleli oczekiwanie neutralne równowagowe allele posegregowane od najczęstszego do najrzadszego Formuła Ewensa i test Ewensa-Wattersona rozkład częstości alleli dla 12 allozymów w populacji E. coli zgodny z oczekiwaniami neutralnymi Whittam i in. 1983 oczekiwaną homozygotyczność Fexp można obliczyć i stosować dla organizmów o dowolnej ploidalności – miara kształtu rozkładu częstości alleli a nie rzeczywista homozygotyczność Tempo ewolucji neutralnej w każdym pokoleniu pojawia się 2Nu mutacji neutralnych Pr utrwalenia nowopowstałego allelu neutralnego = jego początkowej częstości =1/(2N) tempo zastępowania się mutacji neutralnych w populacji: 2Neu x 1/(2Ne) = u tempo zastępowania się mutacji neutralnych w populacji jest równe tempu mutacji neutralnych i nie zależy od wielkości populacji czas utrwalenia allelu, który się w końcu utrwali zależy od wielkości populacji i wynosi średnio 4Ne w małych populacjach będzie niewiele alleli a utrwalanie będzie zachodziło szybko ‐> mała zmienność w dużych populacjach będzie dryfowało wiele alleli a utrwalanie będzie zachodziło powoli ‐> duża zmienność brak tak wyraźnego związku heterozygotyczności z wielkością populacji, jaki przewidywałaby teoria neutralna Dryf genetyczny i dyfuzja matematyczny opis dryfu opiera się na modelach dyfuzji cząsteczek gazu – analizujemy dużą liczbę populacji, których częstości alleli zmieniają się analogicznie do zmiany położenia cząsteczek gazu w przestrzeni 1 p ln 1 p t ( p ) 4 N średni czas utrwalenia allelu 1 p p ln p t p 4 N średni czas utraty allelu 0 1 p t ( p) pt1 ( p ) (1 p)t0 ( p ) średni czas zachowania polimorfizmu dla nowopowstałego allelu (p = 1/(2N)): śr. czas utrwalenia = 4N pokoleń, a prawdopodobieństwo utrwalenia tylko 1/(2N)) 1 x ex śr. czas utraty 2ln(2N) ln e x x a prawdopodobieństwo utraty aż 1 ‐ 1/(2N) Tempo ewolucji neutralnej w każdym pokoleniu pojawia się 2Nu mutacji neutralnych Pr utrwalenia nowopowstałego allelu neutralnego = jego początkowej częstości =1/(2N) tempo zastępowania się mutacji neutralnych w populacji: 2Neu x 1/(2Ne) = u tempo zastępowania się mutacji neutralnych w populacji jest równe tempu mutacji neutralnych i nie zależy od wielkości populacji czas utrwalenia allelu, który się w końcu utrwali zależy od wielkości populacji i wynosi średnio 4Ne w małych populacjach będzie niewiele alleli a utrwalanie będzie zachodziło szybko ‐> mała zmienność w dużych populacjach będzie dryfowało wiele alleli a utrwalanie będzie zachodziło powoli ‐> duża zmienność brak tak wyraźnego związku heterozygotyczności z wielkością populacji, jaki przewidywałaby teoria neutralna Teoria neutralna Jeżeli duża część podstawień aminokwasów w białkach jest neutralnych, to w populacjach może utrzymywać się znaczny polimorfizm Jest to polimorfizm przejściowy, częstości alleli zmieniają się w wyniku dryfu, jedne allele giną inne rosną w częstość Poziom zmienności w populacji będzie determinowany wartością – więcej zmienności będzie w większych populacjach lub w loci o wyższym tempie mutacji Tempo ewolucji neutralnej będzie równe tempu mutacji i nie będzie zależało od wielkości populacji Futuyma 2009 Konsekwencje teorii neutralnej t.n. nie zakłada że większość mutacji w ogóle jest neutralnych lecz jedynie że większość mutacji obserwowanych w populacjach jest neutralnych, wyraźnie szkodliwe mutacje będą szybko usuwane przez dobór ‐> nie zaobserwujemy ich w próbach z populacji na los większości mutacji nie powinien wpływać dobór naturalny lecz historia populacji – demografia, przepływ genów – markery neutralne do wnioskowania o historii populacji, gatunków i pokrewieństwie osobników ponieważ tempo ewolucji neutralnej zależy tylko od tempa mutacji, zmiany powinny się gromadzić liniowo w czasie ‐> powinien istnieć zegar molekularny ponieważ poziom zmienności determinowany jest przez parametr = 4Nu, to zakładając że tempo mutacji konkretnych genów nie różni się bardzo, powinien istnieć wyraźny związek między heterozygotycznością a efektywną wielkością populacji Teoria neutralna a rzeczywistość obserwowana i oczekiwana zależność heterozygotyczności allozymów od Ne zależność dużo słabsza niż oczekiwana zegar molekularny tyka w latach kalendarzowych a nie w pokoleniach brak efektu czasu generacji w białkach teoria neutralna generuje przewidywania, które łatwo testować, a ewentualne odchylenia od oczekiwań pozwalają zrozumieć procesy warunkujące zmienność Frankham i in. 2010 Dobór w skończonych populacjach Analizując modele doboru zakładaliśmy że populacja jest nieskończenie duża Wzajemne oddziaływanie dryfu i doboru jest bardziej złożone niż mutacji i dryfu, bo siła doboru zmienia się w zależności od częstości allelu Korzystny allel powstały w wyniku mutacji będzie na początku rzadki – istnieje duża szansa że zniknie z populacji z przyczyn losowych – dryf Gdy allel A1 jest korzystny, jego przewaga selekcyjna wynosi s (s > 0), oraz efekt allelu jest addytywny (dostosowania: A1A1 = 1 + 2s, A1A2 =1+ s, A2A2 = 1) to Pr utrwalenia allelu w zależności od jego częstości wynosi: 1 e 4 Nsp Prutrwalenia _ A1 p 1 e 4 Ns wyprowadzenie trudne, wykorzystuje model dyfuzji Dobór w skończonych populacjach gdy allel nowopowstały jego częstość p = 1/(2N), 1 4 Ns 2N 1 x ex 1 e 1 1 2 s 1 1 e 2s Prutrwalenia _ A1 4 Ns 4 Ns 4 Ns e 4 Ns 0 1 e 1 e 1 e 2N Pr_utrwalenia_A1(1/(2N)) = 2s, czyli Pr utrwalenia allelu korzystnego jest równe dwukrotności przewagi selekcyjnej jaką ten allel daje w heterozygotach również allel szkodliwy może się utrwalić w skończonej populacji, za taki można uznać A2 z poprzedniego slajdu, wtedy 2 s 1 e 4 Ns 1 q Pr_ utrwalenia _ A 2 q 1 P_ utrwalenia _ A1 1 q 1 1 e 4 Ns 1 e 4 Ns 1 e 4 Ns 1 q e 4 Ns e 4 Nsq 1 e 4 Nsq 1 4 Ns 4 Ns 4 Ns 1 e 4 Ns e e 1 e 1 e 4 Ns 1 q e 4 Ns e 4 Nsq 1 e 4 Ns e 4 Ns gdy allel szkodliwy nowopowstały (q = 1/(2N) i s << 1 2s 1 Pr_ utrwalenia _ A2 4 Ns 2N e 1 gdy 4Ns>>1 Pr utrwalenia allelu szkodliwego = 0 gdy 4Ns ≤ 1 Pr utrwalenia allelu szkodliwego może być znaczne i zbliżać się do neutralnego Wielkość populacji a efektywność doboru w małych populacjach dobór działa mniej efektywnie bo nad doborem może przeważać dryf dryf przeważa gdy 1/(2N) > 2s: Pr utrwalenia allelu w wyniku dryfu jest większe niż w wyniku doboru, gdzie s – przewaga selekcyjna allelu w heterozygocie efektywność doboru – stosunek Pr utrwalenia korzystnego allelu o przewadze selekcyjnej s w populacji o Ne do Pr utrwalenia w populacji nieskończonej (takiej w której nie działa dryf) dla mutacji korzystnych tempo podstawień zależy od wielkości populacji k = 2Nu∙2s = 4Nus, a więc przy stałym u i s w większych populacjach ewolucja adaptacyjna będzie zachodzić szybciej ponadto w małych populacjach jest mniej istniejącej zmienności Frankham i in. 2010 (standing genetic variation) oraz powstaje mniej mutacji ‐> tempo adaptacji będzie obniżone Teoria mutacji prawie neutralnych zakłada że większość mutacji segregujących w populacjach jest minimalnie szkodliwych, s ~ 1/(2Ne) minimalnie szkodliwe mutacje mogą ulec utrwaleniu w wyniku dryfu To, czy mutacja będzie zachowywać się jak neutralna czy jak szkodliwa, zależy od wielkości Ne i od s teoria prawie neutralna wyjaśnia trzy obserwacje, których nie wyjaśnia teoria neutralna: tempo substytucji aminokwasów niższe niż nukleotydów brak efektu generacji w genach kodujących białka lecz silny w niekodującym DNA niewielkie zróżnicowanie heterozygotyczności między grupami o dużym zróżnicowaniu Ne s < 0 – allel szkodliwy s >0 – allel korzystny Mutacje i dryf w sekwencjach DNA tempo mutacji na miejsce nukleotydowe jest zwykle niskie, rzędu 10‐8 – 10‐9 na pokolenie nawet jeśli mutacje są neutralne, to w próbie sekwencji z tego samego locus pobranych z populacji naturalnej, większość pozycji nukleotydowych będzie niezmiennych ponieważ mutacje są rzadkie i mogą wystąpić w wielu miejscach (genomy maja 106 – 1010 pz), to nowe mutacje będą występować prawie zawsze w miejscach, które wcześniej nie mutowały – model nieskończonej liczby miejsc (Infinite Sites Model, ISM) – miejsce zmienne zawiera w populacji tylko dwa różne nukleotydy, dane empiryczne wskazują że prawie zawsze tak jest różnorodność nukleotydów można interpretować jako heterozygotyczność na pozycję nukleotydową, jest prawie zawsze << 1 i wtedy: H 1 = 4Nu 1 Koalescencja na dryf genetyczny możemy spojrzeć „wstecz” wychodzimy od próby kopii genów ze współczesnej populacji co możemy powiedzieć o historii populacji, która doprowadziła do takiej próby? liczba przodków osobnika rośnie gdy cofamy się w czasie (2 rodziców, 4 dziadków, 8 pradziadków...) gdy wykluczymy rekombinację każda kopia genu ma dokładnie 1 przodka w poprzednim pokoleniu Felsenstein www dwie różne kopie genu mogły mieć jednego przodka w poprzednim pokoleniu ‐> koalescencja liczba przodków próby kopii genów ze współczesnej populacji spada gdy cofamy się w przeszłość Koalescencja śledzimy jedynie przeszłość naszej próby ‐> wydajność, bo ignorujemy linie, które nie zostawiły potomków interesuje nas genealogia próby genealogii nie znamy i nie możemy poznać możemy o niej wnioskować na podstawie zmienności sekwencji chcemy dowiedzieć się od czego zależy kształt i długość genealogii chcemy wykorzystać genealogię do wnioskowania o przeszłości populacji i szacowania różnych parametrów jak np. Ne Kuhner www Koalescencja współczesne sekwencje (kopie genów) próba zawsze ma jakąś genealogię, nawet gdy wszystkie sekwencje są identyczne 0 proces rozgałęziania (zbiegania się) linii T4 t1 jest niezależny od ich stanu allelicznego ‐> podczas symulacji można T3 t2 rozdzielić genealogie i mutacje koalescencje nie znamy wartości t0, t1 itd., T2 ale możemy o nich wnioskować t3 z rozmieszczenia mutacji liczba mutacji w genealogii MRCA zależy od jej całkowitej długości ostatni wspólny przodek i tempa mutacji Tc = 4 x t1 + 3 x (t2 – t1) + 2 x (t3 – t2) = 4T4 + 3T3 + 2T2 Ti – długość odcinka czasu w którym jest i linii = czas potrzebny do redukcji liczby linii z i do i – 1 oczekiwana liczba mutacji w genealogii = uTc Koalescencja oczekiwany czas koalescencji w próbie n kopii genów stała wielkość populacji 2N kopii genów, zgodna z modelem Wrighta‐ Fishera zaczynamy od 2 kopii genów – mają dwu różnych przodków w poprzednim pokoleniu = brak koalescencji z prawdopodobieństwem 1 2N 1 (Pr): 1 2N 2N ‐> druga kopia genu ma 2N możliwych przodków, ale tylko 2N – 1 z nich jest innych od przodka kopii pierwszej Pr że trzecia kopia nie ma wspólnego przodka z pierwszą ani drugą: 2N 2 2N Pr że wszystkie trzy miały różnych przodków w poprzednim pokoleniu: 2N 1 2N 2 2N 2N Koalescencja oczekiwany czas koalescencji w próbie n kopii genów generalizując do n kopii genów, Pr, że wszystkie miały różnych przodków w poprzednim pokoleniu = że nie doszło do koalescencji (Prbrak_koalescencji): 1 2 n 1 2 N 1 2 N 2 2 N n 1 1 2 2 2 N N N 2N 2N 2N Pr że do koalescencji doszło = 1‐Prbrak_koalescencji = 1 2 n 1 nn 1 = 1 1 2N 4N 2N 2N ignorujemy wyrażenia 1/N2 i mniejsze 1 2 3 m mm 1 2 Można zinterpretować koalescencję jako „sukces” Jeżeli Pr sukcesu w każdym pokoleniu jest takie samo, to rozkład prawdopodobieństwa czasu do pierwszego sukcesu (pierwszej koalescencji) jest rozkładem geometrycznym Rozkład geometryczny Pr {X = i} X, zmienna losowa przyjmująca wartości 1, 2, 3... rozkład geometryczny opisuje czas do pierwszego sukcesu w serii prób, gdy Pr sukcesu w każdej próbie wynosi p, a Pr porażki q = 1‐ p Pr{X = i} = Pr sukcesu w i‐tej próbie Pr{X = i} = qi‐1p średnia (wartość oczekiwana) E{i} = 1/p wariancja Var{i} = q/p2 i Koalescencja średni czas do najbliższej koalescencji (średni czas oczekiwania) gdy mamy n linii, to z rozkładu geometrycznego 1/Prkoalescencji ETn Tn 4N nn 1 ta zależność obowiązuje dla dowolnych n > 1 i << 2N (próba kopii genów musi być znacznie mniejsza od wielkości populacji), czyli n 4N ponieważ Tc iTi to ETi Ti i i 1 i2 n n 1 1 1 1 Tc iTi 4 N i 4 N 4N i 2 i 2 i i 1 i 2 i 1 i 1 i n n w modelu nieskończonej liczby miejsc (ISM), każda mutacja w populacji produkuje miejsce zmienne, bo każda pozycja nukleotydowa może zmutować tylko raz, dlatego liczba miejsc zmiennych = liczbie mutacji w genealogii, a całkowita oczekiwana S uTc liczba mutacji w genealogii = uTc, czyli Koalescencja współczesne sekwencje (kopie genów) próba zawsze ma jakąś genealogię, nawet gdy wszystkie sekwencje są identyczne 0 proces rozgałęzniania (zbiegania się) linii T4 t1 jest niezależny od ich stanu allelicznego ‐> można rozdzielić genealogie i mutacje T3 t2 nie znamy wartości t0, t1 itd., ale możemy o nich wnioskować koalescencje T2 z rozmieszczenia mutacji t3 liczba mutacji w genealogii zależy od jej całkowitej długości MRCA i tempa mutacji ostatni wspólny przodek Tc = 4 x t1 + 3 x (t2 – t1) + 2 x (t3 – t2)= 4T4+3T3+2T2 Ti – długość odcinka czasu w którym jest i linii = czas potrzebny do redukcji liczby linii z i do i – 1 oczekiwana liczba mutacji w genealogii = uTc Koalescencja liczbę miejsc zmiennych w próbie n sekwencji możemy wykorzystać do obliczenia iloczynu wielkości populacji i tempa mutacji, parametru n n 1 populacyjnego tempa mutacji 1 1 S uTc 4uN i2 i 1 S 4 Nu ˆ n 1 1 i 1 i 4 Nu i 1 i czas do wspólnego przodka (MRCA) – „wysokość” genealogii TMRCA n 1 1 1 T i 4N 4N i i2 i 2 i i 1 i 2 i 1 n n 1 1 1 1 1 1 1 1 4 N 1 4 N 1 n 1 n 1 n 2 2 3 3 n dla realistycznych n TMRCA = 4N, a więc równy czasowi utrwalenia nowopowstałej mutacji neutralnej Tempo koalescencji tempo koalescencji jest odwrotnością czasu oczekiwania na koalescencję ETi Ti 4N i i 1 1 i i 1 tempo_koalescencji Ti 4N zależy wprost proporcjonalnie od aktualnej liczby linii i odwrotnie proporcjonalnie od wielkości populacji w miarę jak cofamy się w czasie tempo koalescencji spada T4 = N/3, T2 = 2N, TMRCA ≈ 4N T2 ≈ ½ TMRCA czyli połowa całego czasu schodzi na oczekiwanie na koalescencję dwu ostatnich linii MRCA ostatni wspólny przodek i=4 T4 i=3 T3 i=2 T2 Skalowanie czasu koalescencji jeżeli uznamy, że jedna jednostka czasu ma długość 2N pokoleń, to średnia wysokość genealogii, czyli TMRCA wyniesie TMRCA 1 21 n wtedy koalescencje następują w ułamkach jednostek – koalescencja w czasie ciągłym, prawdopodobieństwo koalescencji będzie opisane rozkładem wykładniczym, ciągłą wersją rozkładu geometrycznego „znika” zależność od wielkości populacji aby skonstruować losową genealogię (bez mutacji), wystarczy znać aktualną liczbę linii – liczbę sekwencji w próbie aby „nałożyć” mutacje na genealogię wystarczy znać populacyjne tempo mutacji , które można obliczyć na podstawie zmienności w próbie sekwencji Do czego się przydaje koalescencja? okazuje się, że można wyprodukować symulowane dane dla bardzo złożonych scenariuszy, policzyć statystyki z wysymulowanych danych i prawdziwych danych i je porównać ponieważ dla symulowanych danych znamy proces, który je wytworzył, to znaczy że ten proces produkuje taki rozkład statystyki czyli jeżeli wartość statystyki obliczona z naszych danych mieści się w zakresie (np. 95%) wartości z symulacji to symulowany proces mógł doprowadzić do powstania takich danych Do czego się przydaje koalescencja? jeżeli wiemy że badana populacja/populacje ewoluowały mniej więcej zgodnie z określonym modelem to możemy wnioskować o wartościach różnych parametrów charakteryzujących populację/populacje: czas dywergencji historia demograficzna – historyczne zmiany wielkości populacji, wielkość populacji ancestralnej przepływ genów między populacjami – jego zakres, kierunek i czas tempo rekombinacji Koalescencja to proces stochastyczny Dryf genetyczny działa na różne neutralne części genomu średnio tak samo Różne części genomu u osobników rozmnażających się płciowo mają różne historie Genealogie różnych genów z tej samej populacji będą się bardzo różnić z powodów losowych Dlatego, ponieważ zazwyczaj interesują nas parametry dla populacji a nie poszczególnych genów, lepiej dodać więcej genów niż więcej osobników Test Tajimy Czy nasza próba sekwencji DNA mogła powstać jako wynik procesu zbliżonego do neutralnej koalescencji w populacji Wrighta‐Fishera? Test Tajimy test analogiczny do testu Ewensa‐Wattersona, ale stosowany dla sekwencji DNA mając sekwencje DNA możemy ocenić zarówno częstości alleli, jak i w jakim stopniu poszczególne allele różnią się od siebie przy neutralności i w równowadze między mutacjami i dryfem S S S n 1 1 i 1 i L S – liczba miejsc zmiennych L – długość sekwencji n – liczba sekwencji w próbie – różnorodność nukleotydów L S liczymy na całą sekwencję, wtedy definiujemy d = – S , w równowadze d = 0 d > 0 gdy S, nadmiar alleli o pośrednich częstościach d < 0 gdy S, nadmiar rzadkich alleli S n 1 1 i 1 i gdy allel (wariant) jest rzadki, to w niewielkim stopniu wpływa na ale znacznie wpływa na S, bo każde miejsce zmienne które pojawia się w populacji jest liczone tak samo niezależnie, czy występuje tylko w jednej sekwencji, czy w wielu Test Tajimy L = 100, S = 5, = 0.0067 na całą dł. sekwencji: S = 1.54 = 0.67 d = 0.67 ‐ 1.54 = ‐0.87 nadmiar rzadkich alleli? L = 100, S = 5, = 0.0238 na całą dł. sekwencji: S = 1.54 = 2.38 d = 2.38 ‐ 1.54 = 0.84 nadmiar częstych alleli? czy można powiedzieć że w którymś z przypadków D jest istotnie różne od zera? Test Tajimy statystyka D Tajimy, to normalizowane d D d Vard Ponieważ rozkład D jest skomplikowany i trudno uzyskać analitycznie jego wariancję, do testowania istotności wykorzystuje się zazwyczaj symulacje koalescentowe dla obserwowanej wartości i liczby sekwencji w próbie n wygeneruj 1000+ prób opartych o neutralną koalescencję na podstawie wartości D z 1000+ skonstruuj przedział ufności dla D istotność statystyczną D otrzymanej z próby oceń na podstawie porównania z granicami przedziału ufności Test Tajimy D=‐1.91 P<0.05 nadmiar rzadkich alleli D=1.85 P>0.05 brak istotnych odstępstw od oczekiwań przy neutralności i równowadze, ale rozkład częstości podejrzanie wyrównany istotny wynik testu Tajimy wskazuje na odstępstwa od modelu neutralnego, lecz nie muszą one wynikać z działania doboru, a mogą być wynikiem np. zmian demograficznych ekspansja demograficzna – nadmiar rzadkich alleli długotrwały spadek wielkości populacji – nadmiar częstych alleli Określanie istotności testu Tajimy symulacjami koalescentowymi co musimy wiedzieć? jaka jest wielkość próby? = ile sekwencji zbadaliśmy? jaka jest wartość ? – możemy ją obliczyć z liczby miejsc segregujących S lub z różnorodności nukleotydów co musimy zrobić? skonstruować genealogię nałożyć na nią mutacje z genealogii z mutacjami odczytać sekwencję każdej z n kopii genów policzyć statystykę D Tajimy cały proces powtórzyć 1000+ razy zobaczyć gdzie w tym rozkładzie statystyki D mieści się ta otrzymana z prawdziwych danych podjąć decyzję czy nasza wartość D jest istotnie różna od 0 Określanie istotności testu Tajimy symulacjami koalescentowymi co musimy wiedzieć? jaka jest wielkość próby? = ile sekwencji zbadaliśmy? jaka jest wartość ? – możemy ją obliczyć z liczby miejsc segregujących S lub z różnorodności nukleotydów co musimy zrobić? skonstruować genealogię nałożyć na nią mutację z genealogii z mutacjami odczytać sekwencję każdej z n kopii genów policzyć statystyke D Tajimy cały proces powtórzyć 1000+ razy zobaczyć gdzie w tym rozkładzie statystyki D mieści się ta otrzymana z prawdziwych danych podjąć decyzję czy nasza wartość D jest istotnie różna od 0 Jak wysymulować genealogię? 1. ustaw i = n (w tym przypadku i = 6) 2. wylosuj liczbę z rozkładu wykładniczego o parametrze i(i‐1)/2; to będzie czas koalescencji Ti 3. wybierz losowo jedną parę linii, która ulegnie koalescencji, od tego momentu ta para linii będzie reprezentowana przez jedną linię ancestralną 4. ustaw i=i‐1 5. jeżeli i=1 zakończ, jeżeli nie – idź do punktu 2 W ten sposób dostaliśmy genealogię próby 6 kopii genów teraz możemy na gałęzie tej genealogii nałożyć mutacje, o tym, ile ich będzie decyduje długość genealogii (którą znamy, iTi) oraz parametr T6 T5 T4 T3 T2 Jak wysymulować genealogię? Liczbę mutacji w historii genealogii otrzymujemy losując wartość (liczba całkowita) z rozkładu Poissona warunkowanego długością genealogii i parametrem Otrzymaną liczbę mutacji, np. 4, umieszczamy losowo na genealogii, czyli prawdopodobieństwo, że mutacja zajdzie w historii określonej linii jest proporcjonalna do długości tej linii T6 T5 T4 T3 T2 0100 0000 0000 0001 0000 1010 Jak z genealogii odczytać sekwencje? Ponieważ obowiązuje model nieskończonej liczby miejsc to: Liczba miejsc zmiennych jest równa liczbie mutacji w próbie Liczba potomków danej mutacji zależy od miejsca genealogii, w której mutacja zaszła Interesują nas tylko miejsca zmienne (S=4) Ponieważ w każdym miejscu zmiennym są tylko 2 różne nukleotydy, możemy użyć notacji 0/1 MRCA ma sekwencję 0000 Śledzimy historię mutacji w genealogii, kiedy się pojawiają, ilu mają potomków – to wystarczy by wygenerować sekwencje miejsc zmiennych 6 współczesnych kopii genów T6 0100 0000 0000 0000 1010 0100 0000 1000 0000 0000 0000 1000 T5 T4 T3 T2 0000 0000 0000 Symulacje genealogii koalescentowych Mardulyn i in. 2010 Struktura populacji (sub)populacja – grupa osobników żyjących w takiej odległości od siebie że potencjalnie mogą się skojarzyć z dowolnym innym osobnikiem w grupie gatunek może być podzielony na częściowo lub całkowicie izolowane (sub)populacje, terminy populacja i subpopulacja będą używane w zależności od kontekstu można sobie wyobrazić kontinuum struktury populacji silna struktura brak struktury Frankham i in. 2010 Struktura genetyczna populacji Prawa Lewa Koty = bariera dla dyspersji A1A1 A2A2 Hartl i Clark 2007 myszy nie wychodzą ze stodoły w populacji po lewej wszystkie A1A1, po prawej wszystkie A2A2 na środku drapieżne i żarłoczne koty łapią każdą mysz rozstawiamy pułapki i łapiemy myszy nie wiedząc co się dzieje w stodole co otrzymamy a czego oczekujemy? Struktura genetyczna populacji liczba myszy łapanych z lewej i prawej strony jest zbliżona ‐> w naszej próbie pA1 ≈ qA2 ≈ 0.5 gdyby kojarzenie w stodole było losowe to oczekiwane częstości genotypów: A1A1 = ¼; A1A2 = ½; A2A2 = ¼ ale obserwowane: A1A1 = ½; A1A2 = 0; A2A2 = ½ subpopulacje różniły się częstościami alleli kojarzenie w całej populacji nie było losowe efekt: całkowity brak heterozygot przykład ekstremalny, ale dobrze oddający wpływ struktury populacji na częstości genotypów pozorny niedobór heterozygot wynikający ze struktury populacji znany jest jako efekt Wahlunda Efekt Wahlunda populacja podzielona na k subpopulacji o równej liczebności, neutralny locus z dwoma allelami A1 i A2, w obrębie subpopulacji kojarzenie losowe średnie obserwowane częstości genotypów: A1A1 A1A2 A2A2 P 1 pi2 k H 1 2 pi qi k p Q 1 pi k 1 qi2 k A2 q 1 qi k średnie częstości alleli: A1 oczekiwane częstości genotypów ze średnich częstości alleli to: 2 p , 2 pq, q 2 jaka jest różnica między obserwowaną heterozygotycznością w całej populacji a oczekiwaną na podstawie średnich częstości alleli? od czego ta różnica zależy? Efekt Wahlunda 1 1 2 2 2 2 2 q q q q q 2 i i k k 1 k q qi k i 1 k 1 1 1 2 2 2 2 q q q q q q q k q 2 2 i k i k i i k k k 2 2 q kq 1 1 i 1 2 2 2 q q q q q q Var q 2 i i i k k różnica między obserwowaną i oczekiwaną częstością homozygot jest równa wariancji częstości alleli między subpopulacjami – wariancja zawsze 0, więc zawsze będzie nadmiar homozygot, chyba że identyczne częstości alleli we wszystkich subpopulacjach obserwowane częstości genotypów można zapisać: 2 Qq 2 P p Vq H 2 pq 2Vq 2 Q q Vq a więc przy zróżnicowaniu częstości alleli zawsze będzie pozorny niedobór heterozygot Heterozygotyczność na różnych poziomach HI – obserwowana heterozygotyczność w subpopulacjach (z policzenia genotypów) HS – oczekiwana heterozygotyczność w subpopulacjach (obliczona z częstości alleli) HS 2 pi qi k HT – oczekiwana heterozygotyczność w całej populacji obliczona na podstawie średniej częstości alleli w populacji H T 2 pq Statystyki F FIS – spadek heterozygotyczności w wyniku nielosowych kojarzeń w subpopulacjach HI HS HI FIS 1 HS HS FST – spadek heterozygotyczności w wyniku podziału na subpopulacje (istnienia struktury genetycznej prowadzi do nielosowych kojarzeń na poziomie całej populacji) H H HS FST 1 S T HT HT FIT – łączny spadek heterozygotyczności wywołany nielosowymi kojarzeniami w subpopulacjach i między subpopulacjacmi H I HT H I FIT 1 HT HT Statystyki F A. Populacje z takimi samymi częstościami alleli, w jednej kojarzenie losowe, w drugiej kojarzenia częściowo wsobne Genotypy Populacja A1A1 A1A2 A2A2 Częstości alleli F He (=2pq) 1 0.25 0.5 0.25 p = 0.5 q = 0.5 0 0.5 2 0.4 0.2 0.4 p = 0.5 q = 0.5 0.6 0.5 Łącznie HI = 0.35 FST = 0 FIS = 0.3 FIT = 0.3 p = 0.5 q = 0.5 HS = 0.5 HT = 0.5 Wsobność (inbred) allele (kopie genu) w osobniku mogą być allozygotyczne z prawdopodobieństwem 1 – F, albo autozygotyczne z F dla allozygotycznych proporcje genotypów zgodne z oczekiwaniami H‐W dla autozygotycznych tylko homozygoty – ich częstości zgodne z częstościami alleli częstości genotypów przy wsobności: A1A1: p2(1 –F) + pF = p2 + pqF A1A2: 2pq(1 – F) = 2pq ‐2pqF = q2 + pqF A2A2: q2(1‐F) + pF wsobność nie zmienia częstości alleli w populacji lecz zmienia częstości genotypów Statystyki F B. Populacje z różnymi częstościami alleli, w obu kojarzenie losowe Genotypy Populacja A1A1 A1A2 A2A2 Częstości alleli F He (=2pq) 1 0.25 0.5 0.25 p = 0.5 q = 0.5 0 0.5 2 0.04 0.32 0.64 p = 0.2 q = 0.8 0 0.32 Łącznie HI = 0.41 FST = 0.099 FIS = 0 FIT = 0.099 p = 0.35 q = 0.65 HS = 0.41 HT = 0.455 Statystyki F C. Populacje z różnymi częstościami alleli, w jednej kojarzenie losowe, w drugiej kojarzenia częściowo wsobne Genotypy Populacja A1A1 A1A2 A2A2 Częstości alleli F He (=2pq) 1 0.25 0.5 0.25 p = 0.5 q = 0.5 0 0.5 2 0.14 0.13 0.74 p = 0.2 q = 0.8 0.6 0.32 Łącznie HI = 0.31 FST = 0.099 FIS = 0.244 FIT = 0.319 p = 0.35 q = 0.65 HS = 0.41 HT = 0.455 1 FIT Statystyki F 1 FST 1 FIS HI 1 FIT HT HS 1 FST HT HI 1 FIS HS HS HI HI HT H S HT bo z przykładu C: FST = 0.099 FIS = 0.244 FIT = 0.319 1 – FIT = 0.681 1 – FST = 0.901 1 – FIS = 0.756 0.901 x 0.756 = 0.681 FST jako wariancja częstości alleli H T 2 pq H S H T 2Vq z efektu Wahlunda, całkowita homozygotyczność wzrasta o 2Vq o tyle samo spada heterozygotyczność H T H S H T H T 2Vq Vq FST HT HT pq FST to standaryzowana wariancja częstości alleli między populacjami Tę właściwość wykorzystuje się przy szacowaniu wartości FST – jedno z podejść jest analogiczne do analizy wariancji Efekt Wahlunda 1 1 2 2 2 2 2 q q q q q 2 i i k k 1 k q qi k i 1 k 1 1 1 2 2 2 2 q q q q q q q k q 2 2 i k i k i i k k k 2 2 q kq 1 1 i 1 2 2 2 q q q q q q Var q 2 i i i k k różnica między obserwowaną i oczekiwaną częstością homozygot jest równa wariancji częstości alleli między subpopulacjami – wariancja zawsze 0, więc zawsze będzie nadmiar homozygot, chyba że wariancja = 0, gdy identyczne częstości alleli we wszystkich subpopulacjach obserwowane częstości genotypów można zapisać: 2 Qq 2 P p Vq H 2 pq 2Vq 2 Q q Vq a więc przy zróżnicowaniu częstości alleli zawsze będzie pozorny niedobór heterozygot Struktura populacji a wsobność w pewnym sensie istnienie struktury populacji powoduje wzrost wsobności w całej populacji, bo osobniki w subpopulacjach są ze sobą bliżej spokrewnione niż średnio w całej populacji jednak gdy kojarzenia w subpopulacjach będą losowe nie będzie odstępstw od częstości genotypów oczekiwanych z prawa Hardy’ego‐ Weinberga w subpopulacjach efekt wsobności widać gdy porównujemy średnią heterozygotyczność w subpopulacjach do oczekiwań opartych na średniej dla całej populacji można powiedzieć że FST jest międzypopulacyjnym współczynnikiem wsobności w tym przypadku subpopulacje będą odpowiednikiem osobników przy wsobności wywołanej kojarzeniem w pokrewieństwie FIT to całkowity współczynnik wsobności biorący pod uwagę wsobność w wyniku kojarzeń krewniaczych w populacjach i wynikającą z podziału populacji na subpopulacje Hierarchiczna struktura populacji Linanthus parryae na pustyni Mohave częstości allelu recesywnego obliczone z częstości niebieskich kwiatów (homozygoty recesywne) w 30 (sub)populacjach trzy regiony 0.032 0.000 0.010 0.002 0.068 0.007 0.000 0.573 0.657 0.008 0.0000.000 0.000 0.000 0.504 0.302 0.005 0.000 0.004 0.000 0.717 0.339 Zachód 0.009 0.005 0.126 Środek 0.000 0.106 0.224 0.411 0.014 Wschód dane z Wrighta (1943) statystyki F można rozszerzyć na większą liczbę poziomów: w (sub)populacjach, między (sub)populacjami, między regionami, całość Hierarchiczna struktura populacji Subpopulacje Regiony Region q H Zachód 0.573 0.717 0.504 0.657 0.302 0.339 0.4893 0.4058 0.5000 0.4507 0.4216 0.4482 9x0.000 0.032 0.007 0.008 0.005 0.009 0.005 0.010 0.068 0.002 0.004 0.126 0.106 0.224 0.411 0.014 Środek Wschód Średnia H Całość średnie q H 0.5153 0.4995 0.0000 0.0620 0.0139 0.0159 0.0100 0.0178 0.0100 0.0198 0.1268 0.0040 0.0080 0.2202 0.0138 0.0272 0.1895 0.3476 0.4842 0.0276 0.1888 0.3062 HS = 0.1424 HR = 0.1589 średnie q H 0.1374 0.2371 HT = 0.2371 Hierarchiczna struktura populacji Zakładamy losowe kojarzenie w populacji (FIS = 0) HS średnia oczekiwana heterozygotyczność w (sub)populacjach HR średnia oczekiwana heterozygotyczność obliczona na podstawie średnich częstości alleli w regionach HT średnia oczekiwana heterozygotyczność obliczona na podstawie częstości alleli na całym obszarze HR HS HT H S HT H R Statystyki F: FSR HR ; FRT HT ; FST To podejście można rozszerzyć na dowolną liczbę poziomów hierarchii HT Estymatory FST istnieje kilka podejść do szacowania wartości FST z danych molekularnych gdy więcej niż 2 allele w locus (np. mikrosatelity, sekwencje DNA), popularnym estymatorem jest GST, które jednak jest wrażliwe na poziom zmienności i przy wielu allelach oraz wysokiej heterozygotyczności w populacjach (mikrosatelity) może znacznie zaniżać zróżnicowanie G’ST – standaryzowany współczynnik GST – procent maksymalnego zróżnicowania możliwego przy obserwowanych częstościach alleli – pozwala porównywać markery o różnym poziomie zmienności Analiza Wariancji Molekularnej (AMOVA) – rodzaj hierearchicznej analizy statystyk F, pozwala określić jaki procent zmienności wyjaśniany jest przez poszczególne poziomy hierarchii Tempo wzrostu FST a wielkość populacji jeżeli brak przepływu genów między subpopulacjami, ich zróżnicowanie genetyczne będzie wzrastać w wyniku działania dryfu wzrost zróżnicowania będzie szybszy w mniejszych populacjach wzrostowi zróżnicowania będą przeciwdziałać migracje (przepływ genów) Frankham i in. 2010 Dryf powoduje różnicowanie populacji Różnicowanie Podział populacji Eksperyment Teoria Frankham i in. 2010 Migracje ogólny model wpływu migracji na skład genetyczny populacji w przypadku neutralnych loci dryf genetyczny prowadzi do różnicowania genetycznego populacji a migracje (przepływ genów) działają w przeciwnym kierunku efektywna migracja – gdy migrant pozostawi swoje geny w populacji kojarząc się z rezydentami, przepływ genów jest wynikiem efektywnej migracji, a nie jedynie przemieszczania się osobników rozróżnienie między migracjami a dyspersją Modele migracji wpływ migracji na strukturę genetyczną zależy od rodzaju struktury populacji wyspowy kontynent‐ wyspy 2‐wymiarowy stepping‐stone 1‐wymiarowy stepping‐stone metapopulacja FST a Nm w modelu wyspowym Pr autozygotyczności bez migracji = Pr homozygotyczności przy IAM w równowadze Ft = Ft–1 = FST 1 1 2 2 Ft 1 m 1 Ft 1 1 m 2N 2N 1 1 2 2 FST 1 m FST 1 m 1 2N 2N FST 2 2 1 m 1 m 2 N 2 N 11 m 2 2 N 2 N 11 m 2 2N FST 2N 1 2m 1 2m 1 2 N 2 N 4 Nm 1 2m 4 Nm 2m 1 4 Nm 1 ignorujemy składniki z m2 bo są bardzo małe wyprowadzenie analogiczne dla równowagi dryf‐mutacje ale efekt biologiczny inny bo tempo migracji zwykle rzędy wielkości wyższe od tempa mutacji Nm – efektywna liczba migrantów (osobników migrujących) na pokolenie Przy założeniu modelu wyspowego znając FST można obliczyć równowagową liczbę migrantów na pokolenie Zróżnicowanie genetyczne a przepływ genów „niezależnie od wielkości populacji wystarczy 1 migrant na pokolenie by populacje nie różnicowały się pod wpływem dryfu”... co to znaczy? Frankham i in. 2010 Izolacja przez odległość Jeżeli przepływ genów spada wraz z odległością, zróżnicowanie będzie wzrastało wraz z odległością Gdy odległość geograficzna sama w sobie jest główną barierą otrzymamy izolację przez odległość Frankham i in. 2010 Gdy niedawna ekspansja zależności może nie być bo populacje „nie zdążyły” się zróżnicować Równowaga dobór-migracje dobór usuwa allel z populacji a migracja cały czas go wprowadza Frankham i in. 2010 12 sq 1 q 1 2 1 qdobór 2 sq 2 sq 0 qmigracja mqm q 0 1 sq q qdobór qmigracje równanie kwadratowe, 2 2 1 1 1 1 q 2 sq 2 sq mqm q 2 sq qm 2 s mqm rozwiązujemy względem q 2m s 2m s 2 8smqm qeq 2s Równowaga dobór-migracje mysz Chaetodipus intermedius Hoekstra i in. 2010 Przyporządkowanie osobników do populacji częstości alleli w badanych loci w interesujących nas populacjach są znane tych częstości alleli używamy do obliczenia prawdopodobieństw wstępowania danego genotypu w danej populacji, dla locus k Pk.l = p2i.l prawdopodobieństwo że homozygota AiAi pochodzi z populacji l Pk.l = 2pi.lpj.l prawdopodobieństwo że heterozygota AiAj pochodzi z populacji l pi.l częstość allelu i w populacji l zakładając że badane loci nie są sprzężone prawdopodobieństwo że osobnik pochodzi z populacji l uzyskujemy mnożąc prawdopodobieństwa dla wszystkich m loci: m Pl Pk l k 1 Identyfikacja populacji zawody w łowieniu łososi na jeziorze Saimaa zwycięska ryba była podejrzanie duża 7 loci mikrosatelitarnych sprawdzono czy ryba mogła pochodzić z jeziora Saimaa, przeprowadzono analizy też innych anadromicznych populacji wykluczono że łosoś pochodził. z J. Saimaa – okazało się że wędkarz kupił rybę w sklepie rybnym Primmer i in. 2000 Structure często trudno zdecydować ile odrębnych genetycznie populacji występuje na danym obszarze K to założona liczba różnych genetycznie grup algorytm szacuje częstości alleli w wielu loci charakterystyczne dla każdej z K grup, i jednocześnie szacuje dla każdego osobnika jaki procent jego genomu należy do każdej z K grup (populacji) sprawdzamy różne wartości K, oceniając statystycznie dopasowanie modelu do danych w ten sposób można nie tylko określić liczbę populacji, zaklasyfikować osobniki do populacji, ale też zidentyfikować potomków migrantów czy mieszańce międzygatunkowe Lecis i in. 2006 Koalescencja a pomiar przepływu genów Pomiar długoterminowego przepływu genów, nie zakładający równowagi dryf‐migrację można uzyskać stosując techniki oparte na teorii koalescencji ‐ MIGRATE Cechy ilościowe większość cech wpływających na dostosowanie organizmu ma rozkład ciągły zbliżony do normalnego rozkład ciągły może być wynikiem: warunkowania cechy wieloma genami – cechy wielogenowe (poligenowe) dużej liczby alleli w jednym locus wpływu środowiska na wykształcenie cechy interesuje nas badanie zmienności genetycznej cech ilościowych – nie wszystkie geny warunkujące wykształcenie cech wielogenowych wykazują zmienność – np. często geny związane z rozwojem embrionalnym cechy – takie geny, mimo że warunkują cechę nie wpływają na jej zmienność Cechy ilościowe rozkład cechy warunkowanej genetycznie będzie ciągły gdy: wiele alleli w genie cechę warunkuje wiele genów na wielkość cechy wpływa środowisko a b c d e f g Wielogenowość a rozkład ciągły 2 geny A i B z dwoma allelami każdy (A, a; B, b), losowe kojarzenie, każdy allel oznaczany duża literą ma taki sam efekt – dodaje 1 jednostkę koloru Felsenstein www Wielogenowość a rozkład ciągły Nawet przy 2 genach, dwu allelach, symetrycznych efektach i addytywności mamy 5 klas fenotypowych i rozkład przypominający normalny Felsenstein www Rozkłady cech ilościowych Rozkłady cech ilościowych w populacjach są zazwyczaj zbliżone do rozkładu normalnego Rodzaje cech ilościowych ciągłe: wzrost, waga, mleczność kategoryczne: liczba jaj w zniesieniu, całożyciowa liczba potomstwa jeżeli kategorii jest dużo, z praktycznego punktu widzenia rozróżnienie między cechami ciągłymi i kategorycznymi staje się nieistotne – linie papilarne u człowieka dychotomiczne cecha występuje lub nie, lecz na prawdopodobieństwo (ryzyko) wpływa wiele genów; sama cecha w populacji nie ma rozkładu normalnego lecz czynniki ryzyka bada się metodami genetyki ilościowej próg Futuyma (2008) Jak oddzielić zmienność genetyczną od środowiskowej? jeżeli na wykształcenie cechy wpływa środowisko, nawet cecha bez zmienności genetycznej może mieć rozkład ciągły dwie odmiany tytoniu, całkowicie wsobne, różniące się długością korony kwiatu w każdej odmianie wszystkie rośliny identyczne genetycznie – tylko zmienność środowiskowa F1 – wszystkie identyczne genetycznie – tylko zmienność środowiskowa F2 i F3 – zmienność genetyczna i środowiskowa Porównując rozkład cechy w takim układzie można określić jaka część zmienności jest warunkowana genetycznie a jaka środowiskowo Frankham i in. 2010 Analiza cech ilościowych na podstawie fenotypu cechy ilościowej nie da się wnioskować o fenotypie bo: różne genotypy mogą dać taki sam fenotyp w różnych warunkach środowiskowych ten sam genotyp może dać różne fenotypy liczba genów wpływających na wykształcenie danej cechy ilościowej jest zazwyczaj nieznana, czasem można ją szacować i z tych oszacowań wynika że jest znaczna nawet gdyby podstawy genetyczne cechy ilościowej były znane, analizowanie ich metodami genetyki mendlowskiej byłoby bardzo trudne dlatego do analizy stosuje się metodologię statystyczną, która nie wymaga znajomości podstaw genetycznych cechy Statystyka dla cech ilościowych parametry a ich oszacowania (estymaty) 2 n 2 wariancja ( , Var, V): miara zmienności xi x cechy – rozrzutu wartości wokół średniej Var x i 1 0 ≤ Var < ∞ odchylenie standardowe (, SD) – pierwiastek z wariancji, ma jednostkę taką SD x Var x samą jak mierzona cecha; 0 ≤ SD < ∞ kowariancja (Cov): miara stopnia w jakim Cov x, y xy x y wartości dwu cech zmieniają się razem; wartość zależy od skali pomiaru; –∞ < Cov < ∞ Cov < 0 – gdy wartość jednej cechy maleje, drugiej rośnie Cov > 0 – gdy wartość jednej cechy rośnie, drugiej też rośnie korelacja (r, Corr): kowariancja standaryzowana przez wariancje cech, pozwala porównywać siłę związku statystycznego między cechami Cov x, y mierzonymi na różnych skalach; ‐1 < r < 1 r Var x Var y Statystyka dla cech ilościowych współczynnik nachylenia osi regresji, Cov x, y b określa jak wartości x przewidują wartości y, Var x lecz nie określa jak dużo jest rozrzutu wokół linii równanie regresji: y = a + bx b = 1 r = 1 a = 0 b < 1 r < 1 a > 0 b = 0 r = 0 a > 0 a a perfekcyjna zależność wyraźna zależność x i y x i y brak zależności x i y Komponenty zmienności fenotypowej na wykształcenie cechy fenotypowej (P) wpływają zarówno genotyp (G), jak i środowisko (E): P = G + E całkowitą wariancję fenotypową cechy (VP) można podzielić na dwa komponenty: genetyczny (VG) i środowiskowy (VE): VP = VG + V E + 2CovGE, gdy to samo środowisko CovGE=0 przykład z długością korony kwiatu tytoniu VP1 48 VP 2 32 VF 1 46 VF 2 130.5 VP1 VP 2 VF 1 48 32 46 42 3 3 VG VE VE VF 2 VG VF 2 VE 130.5 42 88.5 VG 68%VP Frankham i in. 2010 Komponenty zmienności genetycznej wariancję genetyczną można dalej podzielić na trzy komponenty: addytywną (VA) – wynikającą ze średniego (w danej populacji, przy danych częstościach alleli w populacji) efektu alleli, które ma osobnik dominacji (VD) – wynikającą z interakcji między allelami w tym sam locus epistazy (interakcji) (VI) – wynikającą z interakcji między allelami w różnych loci efekty dominacji i epistazy nie dziedziczą się przy rozmnażaniu płciowym, ponieważ allele w locus przekazywane są przez osobnika potomstwu pojedynczo a rekombinacja rozbija sprzężenia między allelami w różnych loci dziedziczy się jedynie efekt addytywny – średni efekt jaki dany allel wywiera na wykształcenie cechy w populacji charakteryzującej się określonymi częstościami alleli VG = VA + VD + VI udział zmienności addytywnej w całkowitej zmienności fenotypowej to odziedziczalność w wąskim sensie (h2): odziedziczalność w szerokim sensie H2 = VG/VP h2 VA VP Szacowanie odziedziczalności z regresji rodzice-potomstwo h2 można oszacować z regresji średniej wartości cechy u potomstwa na: średnią wartość cechy obojga rodziców: h2 = b wartość cechy jednego z rodziców (zazwyczaj ojca – eliminacja efektów matczynych): h2 = 2b korelacji wartości cechy między rodzeństwem, półrodzeństwem itd. h2 = 1 0 < h2 < 1 h2 = 0 Odpowiedź na dobór w warunkach hodowlanych możemy wybierać osobniki do rozrodu na podstawie wartości interesującej nas cechy S – różnica selekcyjna: różnica między średnią wartością cechy w całej populacji osobniki Pokolenie rodziców wybrane a średnią osobników wybranych do rozrodu do rozrodu R – odpowiedź na dobór S przesunięcie się średniej w potomstwie w stosunku do Pokolenie dzieci średniej z całej populacji w poprzednim pokoleniu R h S 2 jeżeli cecha odpowiada na dobór to jest odziedziczalna R Odziedziczalność różnych cech odziedziczalność nie jest stała, może zmieniać się z pokolenia na pokolenie, gdy zmieniają się częstości alleli lub zmienność środowiska mówienie o odziedziczalności ma sens w konkretnej populacji zazwyczaj cechy morfologiczne mają wysoką odziedziczalność a cechy wpływające na dostosowanie niską Cechy związane z dostosowaniem Człowiek, zwierzęta domowe i laboratoryne Zwierzęta (bez Drosophila) Drosophila Rośliny h2 (%) Inne cechy w tym Rozmiary morfologiczne 11 50 48 Cechy historii życiowych Zachowanie Cechy fizjologiczne Cechy morfologiczne 26 30 33 46 12 18 ‐ 43 32 23‐39 Odziedziczalność różnych cech Dobór sztuczny dobór można prowadzić na większość cech ilościowych, ale nie wszystkie prowadząc dobór sztuczny możemy selekcjonować dowolną cechę, dobór naturalny selekcjonuje dostosowanie odpowiedź selekcyjną uzyskuje się przez długi czas sukces eksperymentów odwracających kierunek doboru wskazuje że zmienność mimo doboru Dobór na zawartość oleju utrzymuje się długo w ziarnach kukurydzy gdy zaprzestaniemy doboru wartość cechy często zmienia się w kierunku wartości wyjściowych – antagonizm dobór naturalny‐ dobór sztuczny Moose i in. 2004 Brak reakcji na zaprzestanie doboru po zaprzestaniu doboru na szybkość lotu u Drosophila po >20 pokoleniach bez doboru szybkość nie spadła możliwe wyjaśnienia w wyniku doboru wyczerpanie zmienności (w tym przypadku można wykluczyć) cecha nie wpływa na dostosowanie – koszt jest znikomy Weber 1996 Odpowiedź na dobór siła i szybkość odpowiedzi na dobór zależy od addytywnej wariancji genetycznej w populacji – analogia z jednogenowymi modelami doboru adaptacja ze zmienności istniejącej w populacji (standing genetic variation) jest szybsza ponieważ liczba genów warunkujących cechy ilościowe jest znaczna, a mutacje mogą zachodzić w nich wszystkich (duży cel mutacyjny), to nowopowstające mutacje mogą mieć znaczenie w ewolucji cech ilościowych pod wpływem doboru niezerowa odziedziczalność większości cech wskazuje że dobór nie wyczerpuje w populacjach zmienności addytywnej cech ilościowych Wpływ mutacji na zmienność cech ilościowych Granice doboru odpowiedź na dobór kierunkowy maleje i w końcu zanika bo: wyczerpie się zmienność dobór naturalny przeciwdziała doborowi sztucznemu Odpowiedź na dobór i granice doboru u myszy Cecha Masa (szczep 1) Masa (szczep 2) Tempo wzrostu Liczebność miotu Kierunek doboru w górę w dół w górę w dół w górę w dół w górę w dół Całkowita odpowiedź 3.4P 5.6P 3.9P 3.6P 2.0P 4.5P 1.2P 0.5P Czas do połowy całkowitej odpowiedzi 0.6Ne 0.6Ne 0.2Ne 0.4Ne 0.3Ne 0.5Ne 0.5Ne 0.5Ne P – fenotypowe odchylenie standardowe w populacji wyjściowej Norma reakcji zespół fenotypów w zależności od środowiska genotyp1 genotyp2 brak interakcji genotyp‐ środowisko genotyp1 genotyp2 interakcja genotyp‐ środowisko Frankham i in. 2010 Korelacja genetyczna i skorelowana odpowiedź korelacje między cechami to korelacje fenotypowe – mogą wynikać z: korelacji środowiskowych korelacji genetycznych korelacje genetyczne mogą wynikać z: nierównowagi sprzężeń plejotropii – wpływu genu na więcej niż jedną cechę korelacje genetyczne mogą ewoluować wpływ korelacji genetycznych na ewolucje cech może być złożony Futuyma 2008 Liczba genów wpływających na cechy ilościowe i rozkład ich efektów mimo że na cechę ilościową często wpływa wiele genów, ich efekty rzadko są takie same często obok kilku genów o dużym efekcie występuje wiele genów o niewielkich efektach (rozkład wykładniczy) Mapowanie cech ilościowych - QTL Chcemy zidentyfikować loci odpowiedzialne za zmienność cechy ilościowej – loci cech ilościowych (Quantitative Trait Loci, QTL) Musimy dysponować gęstą mapą genetyczną, najczęściej opartą na mikrosatelitach Barton i in. 2007 Prowadzimy dobór na określoną cechę i sprawdzamy jak na wartość cechy wpływają określone fragmenty chromosomów Mapowanie cech ilościowych - QTL kształt skrzydła u Drosophila Barton i in. 2007 Mapowanie cech ilościowych - QTL Analiza QTL ma liczne ograniczenia nie wykrywa loci o małych efektach zawyża efekty loci o dużych efektach ma ograniczoną rozdzielczość ok. 20 cM ~ 20 mln bp, samo tempo rekombinacji stanowi ograniczenie, w znalezionym regionie może być wiele genów Badanie korelacji między cechą a markerami genetycznymi w populacji może pomóc ustalić architekturę genetyczną złożonych cech – badania asocjacyjne w populacjach mapowanie nierównowagi sprzężeń (linkage disequilibrium mapping) badania asocjacyjne w skali całego genomu (genome‐wide association studies) Genetyka populacyjna człowieka Ile zmienności występuje w gatunku Homo sapiens? Jak bardzo ludzie różnią się genetycznie? Jak ta zmienność jest rozmieszczona geograficznie? Jak się ma zmienność genetyczna do zmienności fenotypowej? Jak zmienność wpływa na zapadalność na choroby, reakcje na leki? Modele ewolucji człowieka współczesnego Stoneking 2008 u człowieka i najbliższych krewnych na chromosomie X (Kaessmann i in. 2001) z 50 niekodujących fragmentów autosomalnych (Yu i in. 2004) człowiek 0.0007 0.0009 szympans 0.0021 0.0013 b.d. 0.0008 goryl 0.0014 0.0016 orangutan 0.0024 b.d. bonobo Zmienność u człowieka najniższa wśród dużych małp, średnie z porównania całych genomów ok. 0.0008 Największa zmienność w Afryce Różnice sekwencji między dwoma losowo wybranymi Afrykańczykami Khoisa z Namibii są większe niż między mieszkańcami Europy i Azji wschodniej Różnice genetyczne między populacjami afrykańskimi są większe niż średnie różnice między Afrykańczykami a mieszkańcami Eurazji Allele znajdowane poza Afryką są zazwyczaj podzbiorem tych znajdowanych w Afryce Allele specyficzne dla kontynentów są w ogóle rzadkie, lecz zdecydowanie najczęstsze w Afryce Zróżnicowanie międzypopulacyjne Barbujani & Colonna 2010 FST 0.05 – 0.15 w zależności od źródła (różne populacje, różne markery genetyczne) FST u szympansa 0.32, u goryla 0.38 mimo ich znacznie mniejszego zasięgu geograficznego Niskie zróżnicowanie międzypopulacyjne człowieka Zróżnicowanie międzypopulacyjne Badamy populacje autochtoniczne, tradycyjne, a nie np. populacje z wielkich miast zachodu Zróżnicowanie genetyczne między populacjami ludzkimi wzrasta wraz z odległością geograficzną (mierzoną według prawdopodobnych dróg migracji) – odległość geograficzna wyjaśnia ¾ zróżnicowania genetycznego Zmienność genetyczna spada wraz ze wzrostem odległości populacji od Afryki Również zmienność morfologiczna (np. cechy kraniometryczne) spada wraz ze wzrostem odległości populacji od Afryki Nierównowaga sprzężeń w genomie wzrasta wraz z odległością od Afryki Nierównowaga sprzężeń wzrasta wraz z odległością od Afryki Novembre & Ramachandran 2011 Pokrewieństwa ludzkich mtDNA van Oven & Kayser 2009 Mitochondrialna Ewa Czas koalescencji ludzkiego mtDNA to ok. 150 ‐ 200 tys. lat Mitochondrialna Ewa – jedna kobieta z wielu, które żyły wtedy w populacji ludzkiej (mtDNA MRCA) Również nierekombinującą część chromosomu Y można wyprowadzić od jednego mężczyzny który żył w Afryce 60 – 90 tys. lat temu Czas koalescencji będzie różny dla różnych genów jądrowych, zazwyczaj dłuższy niż dla mtDNA i chromosomu Y Nie ma sensu mówić o Adamie i Ewie dla genomu jądrowego Out-of-Africa Współczesne populacje ludzkie na całym świecie wywodzą się z Afryki Migracja miała miejsce <100 tys. lat temu, prawdopodobnie 40 – 70 tys. lat temu Ne grupy emigrantów 60 – 1200 Migracje człowieka Migracje człowieka Novembre & Ramachandran 2011 Migracje człowieka Stoneking 2011 Hybrydyzacja z neandertalczykami i Devisowianami – ślady w populacjach pozaafrykańskich, < 5% genomu Historia migracji populacji ludzkich zapisana w genach bakterii Moodley i in. 2009 Statystyczna ocena modeli ewolucji człowieka 3 scenariusze A. Zastąpienie B. Asymilacja C. Multiregionalny Dla każdego scenariusza testowano różne modele demograficzne Fagundes i in. 2007 Ewolucja różnorodności genetycznej >60 kya >60 kya 60 kya 40 kya Współcześnie zróżnicowanie między kontynentami nie przekracza 10% 30 kya Barbujani & Colonna 2010 Genetycznie wyróżnialne populacje ludzkie Duża liczba markerów, ludzi, populacji Różne badania pokazują różne grupowanie – co wynika z ogólnie niewielkiego zróżnicowania Metody filogenetyczne, Structure i metody analizy wielowymiarowej 938 ludzi, 51 populacji, 650 000 SNP Li i in. 2008 Zróżnicowanie genetyczne w Afryce Zróżnicowanie genetyczne w Afryce bardzo duże, lecz także dużo admiksji spowodowanej migracjami w obrębie kontynentu Dane oparte na zmienności > 1300 mikrosatelitów Tishkoff i in. 2009 Zróżnicowanie genetyczne w Europie 500 tys. SNP Novembre i in. 2008 Zróżnicowanie między Europejczykami ma komponent geograficzny ale pierwsze dwie główne składowe (PC) wyjaśniają jedynie 0.45% zmienności International HapMap Project http://hapmap.ncbi.nlm.nih.gov/ www.1000genomes.org