wyklad_10_i_11_strategie_analizy_genomow 2016

advertisement
Mapowanie fizyczne genomów
-konstrukcja map wyskalowanych w jednostkach fizycznych
-najdokładniejszą mapą fizyczną genomu, o
największej rozdzielczości jest sekwencja
nukleotydowa
-mapowanie fizyczne genomu to zadanie genomiki
strukturalnej
Strategie tworzenia map fizycznych o wysokiej
rozdzielczości – sekwencjonowania genomów
1. Strategia hierarchiczna
2. Strategia przypadkowej fragmentacji genomu tzw. „shotgun”
Wspólną cechą obu strategii jest dekonstrukcja genomu a
następnie jego rekonstrukcja
Strategia hierarchiczna
1.
podzielenie genomu na
„mniejsze” (rzędu
dziesiątków lub setek
tysięcy pz) części i
sklonowanie do
odpowiednich wektorów –
biblioteka genomowa)
2.
poukładanie klonów
biblioteki w ciągi (kontigi)
nachodzących na siebie
fragmentów genomu w
sposób który
odzwierciedla taki sam
liniowy porządek jaki
występuje w genomie
(chromosomie) z którego te
fragmenty DNA powstały
3.
Wybór minimalnego
zestawu fragmentów i ich
sekwencjonowanie
Biblioteki genomowe (banki DNA) - zbiór klonów
pokrywających cały genom
•zwykle wstawki DNA w klonach biblioteki są duże
•Zbiór ten musi być uporządkowany tak aby sklonowane fragmenty
odzwierciedlały naturalny porządek DNA badanego organizmu
•Uporządkowanie klonów biblioteki genomowej jest istotą
strategii hierarchicznej
•Jest możliwe dzięki ustaleniu pozycji charakterystycznych
sekwencji w genomie za pomocą technik molekularnych (inżynierii
genetycznej)
Zanim skonstruujemy bibliotekę genomową
powinniśmy ustalić:
•Ile musi być takich klonów w naszej bibliotece?
•Czym strawić genomowe DNA aby uzyskać fragmenty o dużej
wielkości?
•W jakim wektorze je sklonować?
1. Ile musi być klonów w bibliotece genomowej? czyli:
Stopień pokrycia genomu przez bibliotekę
Liczbę potrzebnych klonów łatwo obliczyć:
•zależy to od wielkości genomu
•wielkości fragmentów na które został podzielony (czyli de facto
wielkości wstawki zrekombinowanych wektorów).
Np. dla genomu 2,8 x 106 pz, przy średniej wielkości wstawki
20 kpz potrzeba klonów n = 140
Uwaga!!! n w praktyce musi być większe bo klony się
powtarzają, wykluczają.
Dla 95% prawdopodobieństwa pokrycia przez bibliotekę całego genomu
potrzeba 3x większego nadmiaru sklonowanych fragmentów genomu
względem wielkości genomu, a dla 99% 5x większego nadmiaru
sklonowanych fragmentów DNA - reprezentatywna biblioteka genomowa
Reprezentatywna biblioteka genomowa musi zawierać
nadmiar fragmentów genomu (3-5 krotny) w postaci
zrekombinowanych klonów np. plazmidowych w stosunku do
wielkości genomu
2. Wybór enzymu do klonowania
Liczba potrzebnych klonów zależy to od wielkości wstawki i wielkości
genomu
Zasada jest prosta: im większa wstawka tym mniej
klonów do uporządkowania
Organizm
wielkość
genomu
enzym
czwórkowy
(n/256)
enzym
szóstkowy
(n/4096)
enzym
ósemkowy
(n/~65 kpz)
E. coli
4,7 x 106
18 tys
1 tys
72
drożdże`
1,35 x 107
52 tys
3 tys
206
człowiek
3,0 x 109
ok. 1 mln
683 tys
420
Miejsca rozpoznawane przez enzymy rzadkotnące np. ósemkowe są
rozmieszczone w genomach bardzo nierównomiernie
•Jeśli wymagane są fragmenty o bardziej wyrównanej wielkości stosuje
się tzw. trawienie częściowe lub ograniczone enzymem
czwórkowym lub szóstkowym
Zaleta: trawienie jest losowe – żadna część genomu nie jest pominięta,
klony będą się częściowo nakładały (zachodziły) na siebie
3. Wybór wektora do tworzenia biblioteki
Biblioteki na bazie faga  i biblioteki kosmidowe:
Max wielkość wstawki do 25 kpz, w kosmidach 35-45 kpz.
Zalety biblioteki fagowej:
•
Łatwość przechowywania - długi okres przetrwania fagów
•
Dobry screening – mniejsze tło hybrydyzacji łysinkowej niż kolonijnej
•
Dobra reprezentatywność sekwencji genomowych: w bibliotece jest
większość sekwencji genomu, z którego ją otrzymano
Wady:
Mogą zdarzyć się delecje lub rearanżacje w przypadku genomów bogatych
w sekwencje powtórzone.
Biblioteka w YAC-ach
Standardowa wielkość insertu to 600 kpz
Wady:
•Trudna manipulacja i utrzymanie w całości np. przy transformacji
(cząsteczki liniowe)
•10-60% klonów zawiera sekwencje chimerycznego DNA, czyli odcinki DNA z
różnych obszarów genomu (nienatywny układ fragmentów)
•Niestabilność klonów, które wykazują tendencje do wewnętrznych delecji
•Trudność rozdzielenia wektorów YAC od chromosomu gospodarza, nawet
wtedy gdy ilość DNA jest duża, bo struktura YAC jest podobna do struktury
chromosomów drożdży
Biblioteki w wektorze pochodnym bakteriofaga P1
•oparte na wersjach delecyjnych genomu faga P1 (podobnie do faga ).
•pojemność zależy od wielkości delecji i miejsca w główce faga
•P1 ma większy niż  genom co pozwala klonować większe fragmenty DNA ok.
100 kpz
•Wektor P1 zawiera miejsce pac
(odpowiednik cos faga ), które jest
niezbędne do upakowania in vitro
zrekombinowanych cząsteczek DNA w główki
faga.
•Miejsce pac jest rozpoznawane przez enzym
pakazę
•Dwa miejsce loxP, rozpoznawaną przez
fagową rekombinazę cre
• dzieki temu systemowi upakowany w
główkę zrekombinowany liniowy DNA po
wprowadzeniu do specjalnych komórek E.
coli jest „przekształcany” w kolisty plazmid,
oporny na kanamycynę, który utrzymuje
się w bakterii w małej liczbie kopii
Schemat klonowania w wektorze P1
1. Trawienie wektora. 2. Ligacja. 3. Pakowanie z użyciem ekstraktów pakujących
Zrekombinowany DNA w postaci konkatemerów jest rozszczepiany w miejscu pac przez enzym
pakazę obecną w tzw. ekstrakcie pakującym
b) Pakaza w połączeniu z ekstraktem pakującym wprowadza DNA do główki faga zaczynając od
miejsca pac i pakując tak długo aż napełni całą główkę. Główki łączą się z ogonkami. Powstałe fagi
mogą wstrzyknąć DNA do komórek E. coli cre+. Rekombinaza Cre działa w miejscach loxP
tworząc kolisty plazmid, który może być amplifikowany przez indukcję litycznego operonu P1
System klonowania PAC – P1-derived artificial chromosome
połączenie wektora P1 i plazmidu F, zachowuje pewne cechy wektora
fagowego P1 (miejsca loxP), ale zamiast systemu pakowania w główki
zrekombinowane PAC-i są wprowadzane przez elektroporację do komórek E.
coli cre+. Rekombinaza Cre działa w miejscach loxP tworząc kolisty plazmid,
który może być amplifikowany przez indukcję litycznego operonu P1
Zakres wielkości wstawek w PAC: 100-300 kpz,
F ori
elektroporacja
Sztuczny chromosom bakteryjny – BAC (Bacterial
Artificial Chromosome)
•Bakteryjny system klonowania oparty na
niskokopijnym plazmidzie E. coli – plazmidzie F
•Łatwy w manipulacji
•Zapewnia dużą stabilność sklonowanego DNA
•Niechimeryczny
•Wysoka wydajność transformacji
Sztuczny chromosom bakteryjny BAC
(Shizuya i in. 1992)
•Wektory BAC skonstruowano, aby
uniknąć problemów związanych ze
stosowaniem wektorów YAC.
•Do wektorów BAC można
wprowadzić insert o długości około
100-500 kpz.
•W porównaniu do wektorów YAC,
wektory BAC są bardziej stabilne,
łatwiej się nimi transformuje
komórki E. coli, łatwiej je namnażać
i izolować z komórek bakteryjnych.
Dysponując biblioteką musimy zestawić sklonowane fragmenty DNA w takim
samym liniowym porządku, w jakim znajdowały się na chromosomie, z którego
zostały otrzymane.
Kontig – seria zachodzących fragmentów, które
wspólnie pokrywają jakiś region chromosomu, cały
chromosom lub cały genom
Biblioteka genomowa – bardzo specyficzne „puzzle”
Sprowadza się to do wyszukiwania w klonach biblioteki wspólnych
molekularnych elementów pasujących do siebie.
Ponieważ sklonowanych fragmentów DNA w bibliotece zwykle jest dużo,
metoda ich układania czyli znajdowania pokrywających się odcinków
powinna być szybka i wydajna
1. Tworzenie kontigu klonów przez spacery po chromosomie
(chromosome walking)
Wady metody spacerów po chromosomie:
•Pracochłonność i czasochłonność,
•Źle spisuje się jeśli DNA jest bogate w sekwencje powtarzające się – prowadzi wtedy do
uzyskania błędnych wyników
2. Tworzenie kontigu klonów przez mapowanie restrykcyjne - metoda
„odcisku palca” enzymów restrykcyjnych (restriction enzymes
fingerprinting)
Mapowanie restrykcyjne – polega na trawieniu poszczególnych klonów
biblioteki DNA enzymem (najczęściej szóstkowym) i porównywanie
wzorów trawienia
Mapa kontigów powstaje z i nakładających się klonów, o podobnych wzorach
restrykcyjnych
Metoda „odcisku
palca” enzymów
restrykcyjnych
(restriction
enzymes
fingerprinting)
Nakładające się
klony identyfikuje
się na podstawie
identyczności co
najmniej 5
kolejnych miejsc
trawienia –
„podobnych
odcisków palców”
poszczególnych
klonów
Skalę mapowania restrykcyjnego ograniczają rozmiary
fragmentów klonów biblioteki
•Mapy restrykcyjne tworzy się łatwo kiedy jest mało miejsc
restrykcyjnych, czyli dla stosunkowo krótkich fragmentów DNA (nie
więcej niż 50 – 100 kpz)
•Kiedy rośnie liczba miejsc rośnie liczba fragmentów do analizy, granicę
stanowi moment kiedy jest tak dużo pojedynczych fragmentów że
zaczynają się one ze sobą zlewać
•Mapowanie restrykcyjne jest pracochłonne – manipulacje dużymi
ilościami klonów (mimo automatyzacji i użycia komputerów do analizy
odcisków)
3. Tworzenie kontigu klonów przez mapowanie
tzw. etykietek sekwencyjnych (znaczników
sekwencyjnych) typu STS i EST
Wykorzystanie etykietek STS i EST jest jedną z
najlepszych technik tworzenia kontigu klonów
bibliotek genomowych
Etykietki typu STS (STS – sequence
tagged sites) - miejsca znaczone
sekwencyjnie (czyli miejsca, których
sekwencję DNA znamy i możemy dla
tego miejsca zaprojektować startery
do reakcji PCR)
•STS – to krótka, znana sekwencja
genomu (100-500 pz), łatwa do
rozpoznania (np. możliwa do powielenie w
reakcji PCR)
•pojawiająca się w genomie tylko jeden
raz – unikalna (nie powinna być
zlokalizowana w obrębie sekwencji
powtarzających się lub zawierać sekwencji
powtórzonych !!!)
•STS – mogą pochodzić np. z losowego
sekwencjonowania końcówek wstawek
biblioteki genomowej DNA
Tworzenie kontigu polega na sprawdzaniu poprzez reakcję PCR- bo łatwo ją
zautomatyzować), które fragmenty (klony biblioteki) zawierają daną
etykietkę sekwencyjną - STS.
Fragmenty zawierające to samo STS muszą na siebie zachodzić
Mapowanie EST (expressed sequence tag) – etykietki
ekspresyjne (sekwencyjne znaczniki ekspresji)
•specyficzny rodzaj STS-ów stosowany głównie w analizie genomów
eukariotycznych
•są to krótkie sekwencje uzyskiwane przez analizę klonów cDNA –
powstałego w wyniku odwrotnej transkrypcji preparatów mRNA
Zaletą używania EST-ów (poza takimi samymi jakie pełnią STS w
tworzeniu kontigu) jest to, że wykazują bezpośredni związek z
genami ulegającymi ekspresji w genomie, ponieważ pochodzą z
mRNA
Kiedy już poukładamy bibliotekę w kontigi….
Czy trzeba sekwencjonować wszystkie fragmenty DNA
biblioteki genomowej?
chromosom
kontigi klonów
biblioteki
uzyskane
sekwencje
Zalety i wady strategii hierarchicznej
chromosom
kontigi klonów
biblioteki
uzyskane
sekwencje
Zalety
1. Łatwość wypełniania przerw w ciągłej sekwencji
2. Łatwiejsze składanie uzyskanych sekwencji szczególnie w przypadku
złożonych genomów bogatych w sekwencje powtórzone
Wady
1. Konieczność konstrukcji i układania klonów biblioteki
2. Czasochłonność
Strategia przypadkowej fragmentacji genomu „shotgun”
1. nie wymaga tworzenia bibliotek i kontigów klonów
Metoda szybsza (szybciej uzyskujemy sekwencję genomu), uznawana
(niesłusznie!!!) za przydatną do sekwencjonowania jedynie małych genomów
Izolacja DNA
Przypadkowa fragmentacja genomu
(trawienie lub
sonikacja)
Elektroforeza w żelu agarozowym i
izolacja fragmentów DNA określonej
wielkości (zwykle małe do 10 kpz,
najczęściej jeszcze mniejsze 1.6-2.0
kpz
Klonowanie w uniwersalne wektory
(pUC) niekoniecznie
(nieobligatoryjne w metodach
sekwencjonowania NGS)
Sekwencjonowanie ogromnej ilości
klonów z użyciem uniwersalnych
starterów wektora (suma
uzyskanych sekwencji shotgun musi co najmniej 6-8
krotnie pokrywać wielkość
genomu) (w metodach NGS
wiele więcej!!!)
Składanie kontigów sekwencji i
wypełnianie przerw
Zalety:
1. Szybko uzyskujemy „prawie”
pełną sekwencję genomu
2. Małe przerwy w ciągłej
sekwencji można wypełniać
stosując np. technikę
wędrówki starterów
WADY :
1.
trzeba przeanalizować
ogromną ilość klonów (duży
ciężar badań przeniesiony
na analizy
bioinformatyczne)
2.
problemem jest zamykaniem
dużych przerw w sekwencji
3.
problemem dla shot-gun są
genomy bogate w sekwencje
powtórzone
Problemem dla „shotgun” są genomy bogate w sekwencje powtórzone
Która strategia jest lepsza?
Ukierunkowana strategia „shotgun”
Strategia ukierunkowanego shotgun:
•Większość sekwencji uzyskuje się na drodze sekwencjonowania klonów
„biblioteki” o średniej wielkości wstawek ok. 2 kpz (80-90% sekwencji
genomu)
•Pozostałe sekwencje pochodzą z odczytania sekwencji klonów drugiej
„biblioteki” o średniej wielkości wstawek rzędu 10 kpz lub więcej (10-20%
sekwencji genomu).
•Biblioteka z dłuższymi wstawkami nie jest układana w kontigi.
Zalety:
•Zastosowanie dwóch „bibliotek” daje lepsze pokrycie genomu
•Biblioteka dużych klonów zapobiega błędom wynikającym z
powtórzeń w genomie
•Ułatwia składanie sekwencji zwłaszcza obejmujących repetytywne DNA
Download