Sekwencjonowanie DNA

advertisement
12/28/2016
F:
PROBLEM: SEKWENCJONOWANIE DNA
METODA: ALGORYTMY GRAFOWE
I.
II.
III.
IV.
V.
Grafy i genetyka
Sekwencjonowanie DNA
Macierze DNA
Sekwencjonowanie przez hybrydyzacje DNA
Sekwencjonowanie i identyfikacja białka
Grafy
D. Makowiec: F: sekwencjonowanie DNA
2
Dwie konfiguracje z czterema konikami
szachowymi na szachownicy 3x3.
Czy można, korzystając z dozwolonych
ruchów dla konika szachowego, konfigurację
(a) przekształcić na konfigurację (b)?
odpowiedź jest NIE
Grafy reprezentujące sytuację z
szachownicy. Dowolny konik może
poruszać się jedynie zgodnie z
zaznaczonymi krawędziami.
1
12/28/2016
Grafy
D. Makowiec: F: sekwencjonowanie DNA
3
Inna szachownica:
2
6
4
7
9
11
Dostępne ruchy to
za mało, by ocenić
czy konie mogą tu
przeskoczyć przez
siebie, zmienić
kolejność
„Inteligentna”
reprezentacja
możliwych
operacji pozwala
to ocenić- tak tu
konie mogą
zmienić względem
siebie kolejność.
Grafy
Obsesja Eulera (1735r) :
Problem mostów
Królewca:
czy można tak
zaplanować spacer po
mieście, aby przejść po
każdym moście i to
tylko raz?
D. Makowiec: F: sekwencjonowanie DNA
4
1
4
22
3
Mapa miasta  graf G(V, E ):
wierzchołki V: „suchy” ląd,
krawędzie E: mosty
1
2
4
3
2
12/28/2016
Grafy
5
D. Makowiec: F: sekwencjonowanie DNA
Cykl Eulera
Czy ten graf
ma cykl
Eulera?
4
1
2
3
Odpowiedzi
Eulera:
9
Tw 1:
Skończony graf spójny, w którym każdy
wierzchołek ma stopień parzysty, ma cykl
Eulera
8
7
11
10
Tw 2:
Skończony graf spójny, mający
dokładnie dwa wierzchołki stopnia
nieparzystego, ma drogę Eulera
12
Grafy
Algorytm Fleury’ego :
Input
zbiór wierzchołków V (G)
5
6
D. Makowiec: F: sekwencjonowanie DNA
6
O(|E|)
i krawędzi skierowanych E(G) grafu G
Output cykl (droga) S Eulera
1
Wybierz dowolny wierzchołek nieparzystego
stopnia, jeśli istnieje. W przeciwnym wypadku
wybierz dowolny v.
S=v.
2
Jeśli z v nie wychodzi żadna krawędź,
zatrzymaj się.
3
Jeśli z v wychodzi dokładnie jedna krawędź e
do w, to dołącz w do drogi S= S+w,
popraw V= V-{v}, E= E-{e}
i przejdź do 5.
Jeśli została więcej niż jedna krawędź, to
wybierz taką e z v do w, po usunięciu której
graf pozostaje spójny.
Dołącz w do drogi, S= S+w,
popraw E= E-{e}
przyjmij v = w
4
5
Cykl Eulera w powyższym grafie:
1,2,3,4,5,6,3,7,2,9,11,8,7,12,11,10,
9,1
Wróć do 2.
3
12/28/2016
Grafy
D. Makowiec: F: sekwencjonowanie DNA
7
Graf skierowany spójny ma cykl Eulera wtedy i
tylko wtedy , gdy
in_deg(v)= out_deg(v) dla każdego
wierzchołka v grafu.
Graf skierowany spójny ma drogę Eulera wtedy i tylko wtedy, gdy
• tylko jeden wierzchołek ma własność out_deg(v) - in_deg (v) =1 ;
• tylko jeden wierzchołek ma własność in_deg(v) - out_deg (v) =1 ;
• pozostałe wierzchołki mają stopnie in_ i out_ równe.
Grafy
D. Makowiec: F: sekwencjonowanie DNA
8
Artur Cayley ( ok.1850)
Cn H 2 n  2
Struktura połączeń w
tych związkach to
drzewo – graf spójny i
acykliczny
drzewo
swobodne
4
12/28/2016
Grafy
D. Makowiec: F: sekwencjonowanie DNA
9
D. Makowiec: F: sekwencjonowanie DNA
10
Propozycja gry
Sir Williama Hamiltona (1857r.)
Grafy
Propozycja gry
Sir Williama Hamiltona
Problem NP-zupełny
5
12/28/2016
Grafy
D. Makowiec: F: sekwencjonowanie DNA
11
Cykl Eulera
Dla danego grafu G=(V(G) , E(G) )
skonstruować cykl zbudowany ze
wszystkich krawędzi, przy czym każda
krawędź jest wykorzystana dokładnie
raz.
Cykl
Hamiltona
Dla danego grafu
G=(V(G) , E(G) )
skonstruować cykl ,
który odwiedza
wszystkie wierzchołki
dokładnie raz
Mamy efektywny
algorytm Fleury ‘ego
konstrukcji
cyklu/drogi
Problem NP-zupełny
Jeśli w grafie G=G(V,E) bez pętli i krawędzi
wielokrotnych jest odpowiednio dużo krawędzi, na
przykład jeden z poniższych warunków jest spełniony :
(1) |E| ≥ ½ (n-1) *(n-2) +2 , gdzie n=|V|
(2) deg(v) ≥ n/2 , gdzie n=|V|
(3) deg(v) + deg(w) ≥ n dla każdej pary
niepołączonych krawędzią wierzchołków,
to graf ma cykl Hamiltona
Grafy
D. Makowiec: F: sekwencjonowanie DNA
12
Graf z wagami G=G(V,E, w)
Rozwiązanie, w miarę efektywne, algorytmem Dijkstry.
6
12/28/2016
Grafy i genetyka
D. Makowiec: F: sekwencjonowanie DNA
Genialna obserwacja Seymoura Benzera (1950)
dowodząca, że struktura genu jest liniowa
13
Watson i Crick
odkryli strukturę
podwójnej helisy
DNA w 1953
• Normalny wirus T4 zabija pewną bakterię
• Ale, jeśli T4 jest zmutowane (ważna część genu jest skasowana),
to wirus traci moc zabijania bakterii.
• Przypuśćmy, że bakteria jest zarażona dwoma takimi różnymi
mutantami .
• Czy taki atak bakteria przeżyje czy nie?
• Dziwne- para różnych zmutowanych wirusów może zabić bakterie
mimo, że każdy mutant z osobna nie zabija.
Jak to można wytłumaczyć?
https://www.dnalc.org/view/15881-Defining-the-gene.html
D. Makowiec: F: sekwencjonowanie DNA
14
7
12/28/2016
Grafy i genetyka
D. Makowiec: F: sekwencjonowanie DNA
15
Jeśli geny są liniowa strukturą , czyli
to
Grafy i genetyka
tak powinien wyglądać graf przeżywania
D. Makowiec: F: sekwencjonowanie DNA
16
Jeśli geny mają rozgałęzienie
czyli :
to
tak powinien wyglądać graf przeżywania
8
12/28/2016
Grafy i genetyka
D. Makowiec: F: sekwencjonowanie DNA
17
Dwie hipotetyczne
struktury
organizacyjne
genu:
a) organizacja
liniowa
b) organizacja z
rozgałęzieniami
Która prawdziwa?
Rozstrzyga eksperyment
Grafy i genetyka
W
M1
M2
M3
D. Makowiec: F: sekwencjonowanie DNA
18
Mutacje M1 i M2
pokrywają się
9
12/28/2016
Grafy i genetyka
Graf interwałowy
D. Makowiec: F: sekwencjonowanie DNA
19
Delecje i ich interwały
Przykład grafu
interwałowego
Przykład grafu
nieinterwałowego
Graf interwałowy
Niemożliwe jest
ułożenie delecji tak, aby
spełnione były relacje
grafu.
D. Makowiec: F: sekwencjonowanie DNA
20
• Graf uporządkowania w czasie zestawu czynności.
• Węzły grafu to czynności.
• Krawędzie określają która operacja z którą jest realizowana
równolegle.
• Kolorowanie grafu– każde dwa sąsiadujące wierzchołki mają różne
kolory, przy czym ilość użytych kolorów jest minimalna.
10
12/28/2016
Sekwencjonowanie DNA
D. Makowiec: F: sekwencjonowanie DNA
21
D. Makowiec: F: sekwencjonowanie DNA
22
Masz wiele egzemplarzy tej samej
gazety pociętych na miliony części.
Każdy egzemplarz jest pocięty inaczej.
Znaczna część kawałków się pogubiła.
Znaczna część jest pochlapana
atramentem.
Potrafisz odczytać oryginalną
zawartość?
Eksperyment Sangera:
Czytaj kawałki 500-700
nukleotydów jednocześnie
http://www.cs.unc.edu/~prins/Classes/555/
11
12/28/2016
Metoda Sangera: czytanie DNA
D. Makowiec: F: sekwencjonowanie DNA
23
Sekwencjonowanie DNA
D. Makowiec: F: sekwencjonowanie DNA
24
II etap:
poskładać
zsekwencjonowane
fragmenty
DNA
start
Graf zupełny skierowany
z wagami
wyznaczonymi przez POKRYCIE
etykiet wierzchołków:
w(i,j) = rozmiar wspólnego
przyrostka (suffix) i
oraz przedrostka (prefix) j
Problem najkrótszego
wspólnego łańcucha staje
się problemem
komiwojażera w tym grafie
12
12/28/2016
Sekwencjonowanie DNA
D. Makowiec: F: sekwencjonowanie DNA
25
POKRYCIE etykiet wierzchołków k oraz j to rozmiar najdłuższego
wspólnego przyrostka (suffix) k , który jest zgodny z przedrostkiem (prefix) j
Przykład:
etykieta wierzchołka k:
etykieta wierzchołka j:
ggcatcaaa
aaaggcatc
pokrycie (k,j) =3
Przykład:
Dane S = { ATC, CCA, CAG, TCC, AGT }
SSP
TSP
AGT
CCA
ATC
ATCCAGT
TCC
CAG
ATC
2
0
1
1
AGT
1
2
CCA
1
CAG
2
1
2
TCC
Powszechnie stosuje się strategie zachłanną. Uważa się, że strategia zachłanna ma tu gwarancję 2.
Zatem możemy oczekiwać , że rzeczywista długość superłańcucha w* jest
½ w ≤ w*≤w
Macierze DNA
D. Makowiec: F: sekwencjonowanie DNA
26
SequencingByHybridization : SBH
• 1988: pierwsze pomysły dla
macierzy DNA. Mało kto
wierzy w powodzenie
• 1991: technika syntezy
polimerów sterowana
światłem (light directed
polymer synthesis)
• 1994: pierwsza 64-kb
micromacierz DNA
First microarray
prototype (1989)
First commercial
DNA microarray
prototype
w/16,000
features (1994)
500,000 features
per chip (2002)
Chip DNA:
zestaw wszystkich sekwencji
nukleotydowych o zadanej długości
13
12/28/2016
Sekwencjonowanie przez hybrydyzacje DNA
D. Makowiec: F: sekwencjonowanie DNA
27
SBH
- jak to pracuje?
•
Umieść wszystkie możliwe próbki DNA o zadanej długości (lmery) na płaskiej powierzchni tak, aby każda próbka była w
innym , ale znanym miejscu. To nazywamy macierzą DNA
•
Zastosuj roztwór zawierający fluorescencyjnie oznaczone
nieznane DNA na przygotowana macierz.
•
Fragmenty DNA hybrydyzują z tymi próbkami, które są
komplementarne to jego podłańcuchów.
•
Korzystając ze detektora spektroskopowego, określ, do których
próbek DNA hybrydyzowało. Uzyskujesz l-merowe widmo
badanego DNA
•
Zastosuj algorytm kombinatoryczny aby zrekonstruować
sekwencje nukleotydów w nieznanym DNA.
Sekwencjonowanie przez hybrydyzacje DNA
D. Makowiec: F: sekwencjonowanie DNA
28
Sekwencjonowane DNA
przykleiło się do:
ATAG
AGGC
TAGG
SuperŁańcuch:
GGCA
GCAA
Sekwencjonowane DNA
to ciąg
komplementarny:
CAAA
Przykład uniwersalnej macierzy dla l-merów o długości l=4
14
12/28/2016
Sekwencjonowanie DNA przez hybrydyzacje
Def:
spectrum(s,l) - widmo
ujawnionych l-merów w
D. Makowiec: F: sekwencjonowanie DNA
sekwencji DNA s w reprezentacji l-merów, to
eksperymencie sekwencjonowania DNA
29
zbiór
UWAGA:
Różne sekwencje DNA mogą produkować to samo widmo!!
Spectrum( GTATCT ,2) = Spectrum( GTCTAT ,2) = {AT, CT, GT, TA, TC}
Sekwencjonowanie DNA przez hybrydyzacje
D. Makowiec: F: sekwencjonowanie DNA
30
Rozwiązanie problemu SBH jako
ścieżki Hamiltona w grafie
pokrywania się l-merów
Graf skierowany H
• o wierzchołkach etykietowanych l-merami
• o krawędziach jedynie wtedy, gdy pokrywanie wynosi l-1
Przykład:
S = { ATG AGG TGC TCC GTC GGT GCA CAG }
H
ATG
AGG
ATGC A G G T C C
TGC
TCC
GTC
GGT
GCA
CAG
Ścieżka odwiedziła każdy
wierzchołek tylko RAZ
15
12/28/2016
Sekwencjonowanie DNA przez hybrydyzacje
D. Makowiec: F: sekwencjonowanie DNA
31
Problem
niejednoznaczności
wyniku
S = { ATG TGG
TGC
GTG
GGC
GCA
GCG
CGT }
Graf pokryć:
H
Możliwość I:
H
Możliwość II:
ATGCGTGGCA
H
ATGGCGTGCA
Sekwencjonowanie DNA przez hybrydyzacje
D. Makowiec: F: sekwencjonowanie DNA
32
Rozwiązanie problemu SBH jako ścieżki
Eulera w grafie „(l-1) merów”
Graf skierowany
o wierzchołkach etykietowanych l-1 merami
o krawędziach jedynie wtedy, gdy odpowiedni l mer występuje w zbiorze widma
Przykład:
S = { ATG, TGG, TGC, GTG, GGC, GCA, GCG, CGT }
Wierzchołki: V = { AT, TG, GC, GG, GT, CA, CG }
GT
AT
Krawędzie:
E=S
CG
TG
GC
GG
CA
ścieżka przechodząca przez każdą krawędź i
to tylko raz
16
12/28/2016
Znajdź superłańcuch dla następujących 3-merów
D. Makowiec: F: sekwencjonowanie DNA
33
S1={ACA , ATC, ATG, CAT, GAT, TAC, TCT, TGA}
S2={GAT, ACC, TGA, TCT, ATC, ATG, CTA, TAC}
Sekwencjonowanie białka, identyfikacja białka
insulina
Algorytmika, wykład XIII
D. Makowiec: F: sekwencjonowanie DNA
34
[34]
17
12/28/2016
Sekwencjonowanie białka, identyfikacja białka
D. Makowiec: F: sekwencjonowanie DNA
35
Białka zbudowane są z 20 rodzajów aminokwasów. Aminokwasy poprzez złącza
peptydowe łącza się w długie łańcuchy o długościach od 100 do 1000 aminokwasów.
Białko może składać się z kilku łańcuchów peptydowych.
Algorytmika, wykład XIII
[35]
Sekwencjonowanie białka, identyfikacja białka
D. Makowiec: F: sekwencjonowanie DNA
36
1.Reakcje degradacji Edmana:
metoda chemicznego
odcinania pojedynczych
aminokwasów od końca łańcucha
2.Techniki spektrometrii mas:
poprzez fragmentacje peptydów , a
następnie pomiar masy uzyskanych
jonowych fragmentów
insulina
Algorytmika, wykład XIII
[36]
18
12/28/2016
Sekwencjonowanie białka identyfikacja białka
D. Makowiec: F: sekwencjonowanie DNA
37
A
Fragmenty peptydowe, które
otrzymał Sanger z insuliny
bydlęcej za pomocą różnych
metod.
Białko jest dzielone na dwie
części:
łańcuch A
i łańcuch B
w wyniku procesu trawienia
enzymatycznego.
B
Wyjaśnienie roli mostków dwusiarczkowych
łączących różne cysteiny
było wynikiem wieloletnich żmudnych prac
laboratoryjnych Sangera.
Algorytmika, wykład XIII
[37]
Sekwencjonowanie białka, identyfikacja białka
D. Makowiec: F: sekwencjonowanie DNA
38
2015-01-15
Algorytmika, wykład XIII
[38]
19
12/28/2016
Sekwencjonowanie białka, identyfikacja białka
Peptyd i jego sekwencja aminokwasowa P= p1p2…… pn
39
jest rozrywany.
fragment
N-terminalowy:
Pi= p1p2…… pi
•
•
•
D. Makowiec: F: sekwencjonowanie DNA
fragment
C-terminalowy:
P-i= pi+1…… pn
Peptydy rozrywają się wzdłuż wiązań peptydowych
Fragmenty zazwyczaj gubią chemiczne molekuły takie jak NH3 czy H2O
Oznaczenie: bi to jony powstałe z Pi, yi to jony powstałe z P-i
2015-01-15
Algorytmika, wykład XIII
[39]
Sekwencjonowanie białka, identyfikacja białka
D. Makowiec: F: sekwencjonowanie DNA
40
Peptyd GPFNA i jego:
N-terminalowe fragmenty: G, GP, GPF, GPFN
C-terminalowe fragmenty: PFNA, FNA, NA, A
Algorytmika, wykład XIII
[40]
20
12/28/2016
Sekwencjonowanie białka, identyfikacja białka
D. Makowiec: F: sekwencjonowanie DNA
41
Rozerwane fragmenty
są jonami.
Ich masa może być
pomniejszona o masę
wody lub amoniaku
Problem
sekwencjonowania
białka:
Zrekonstruować peptyd
w oparciu o zestaw
uzyskanych mas dla
fragmentów jonowych.
Algorytmika, wykład XIII
[41]
Sekwencjonowanie białka, identyfikacja białka
D. Makowiec: F: sekwencjonowanie DNA
42
Zliczanie pików
wspólnych dla
teorii ∆={…}
i eksperymentu S
Zestaw mas
wszystkich
możliwych
jonów
  {1 ,  2 ,....,  k }
Algorytmika, wykład XIII
[42]
21
12/28/2016
Sekwencjonowanie białka, identyfikacja białka
D. Makowiec: F: sekwencjonowanie DNA
43
2015-01-15
Algorytmika, wykład XIII
[43]
22
Download