12/28/2016 F: PROBLEM: SEKWENCJONOWANIE DNA METODA: ALGORYTMY GRAFOWE I. II. III. IV. V. Grafy i genetyka Sekwencjonowanie DNA Macierze DNA Sekwencjonowanie przez hybrydyzacje DNA Sekwencjonowanie i identyfikacja białka Grafy D. Makowiec: F: sekwencjonowanie DNA 2 Dwie konfiguracje z czterema konikami szachowymi na szachownicy 3x3. Czy można, korzystając z dozwolonych ruchów dla konika szachowego, konfigurację (a) przekształcić na konfigurację (b)? odpowiedź jest NIE Grafy reprezentujące sytuację z szachownicy. Dowolny konik może poruszać się jedynie zgodnie z zaznaczonymi krawędziami. 1 12/28/2016 Grafy D. Makowiec: F: sekwencjonowanie DNA 3 Inna szachownica: 2 6 4 7 9 11 Dostępne ruchy to za mało, by ocenić czy konie mogą tu przeskoczyć przez siebie, zmienić kolejność „Inteligentna” reprezentacja możliwych operacji pozwala to ocenić- tak tu konie mogą zmienić względem siebie kolejność. Grafy Obsesja Eulera (1735r) : Problem mostów Królewca: czy można tak zaplanować spacer po mieście, aby przejść po każdym moście i to tylko raz? D. Makowiec: F: sekwencjonowanie DNA 4 1 4 22 3 Mapa miasta graf G(V, E ): wierzchołki V: „suchy” ląd, krawędzie E: mosty 1 2 4 3 2 12/28/2016 Grafy 5 D. Makowiec: F: sekwencjonowanie DNA Cykl Eulera Czy ten graf ma cykl Eulera? 4 1 2 3 Odpowiedzi Eulera: 9 Tw 1: Skończony graf spójny, w którym każdy wierzchołek ma stopień parzysty, ma cykl Eulera 8 7 11 10 Tw 2: Skończony graf spójny, mający dokładnie dwa wierzchołki stopnia nieparzystego, ma drogę Eulera 12 Grafy Algorytm Fleury’ego : Input zbiór wierzchołków V (G) 5 6 D. Makowiec: F: sekwencjonowanie DNA 6 O(|E|) i krawędzi skierowanych E(G) grafu G Output cykl (droga) S Eulera 1 Wybierz dowolny wierzchołek nieparzystego stopnia, jeśli istnieje. W przeciwnym wypadku wybierz dowolny v. S=v. 2 Jeśli z v nie wychodzi żadna krawędź, zatrzymaj się. 3 Jeśli z v wychodzi dokładnie jedna krawędź e do w, to dołącz w do drogi S= S+w, popraw V= V-{v}, E= E-{e} i przejdź do 5. Jeśli została więcej niż jedna krawędź, to wybierz taką e z v do w, po usunięciu której graf pozostaje spójny. Dołącz w do drogi, S= S+w, popraw E= E-{e} przyjmij v = w 4 5 Cykl Eulera w powyższym grafie: 1,2,3,4,5,6,3,7,2,9,11,8,7,12,11,10, 9,1 Wróć do 2. 3 12/28/2016 Grafy D. Makowiec: F: sekwencjonowanie DNA 7 Graf skierowany spójny ma cykl Eulera wtedy i tylko wtedy , gdy in_deg(v)= out_deg(v) dla każdego wierzchołka v grafu. Graf skierowany spójny ma drogę Eulera wtedy i tylko wtedy, gdy • tylko jeden wierzchołek ma własność out_deg(v) - in_deg (v) =1 ; • tylko jeden wierzchołek ma własność in_deg(v) - out_deg (v) =1 ; • pozostałe wierzchołki mają stopnie in_ i out_ równe. Grafy D. Makowiec: F: sekwencjonowanie DNA 8 Artur Cayley ( ok.1850) Cn H 2 n 2 Struktura połączeń w tych związkach to drzewo – graf spójny i acykliczny drzewo swobodne 4 12/28/2016 Grafy D. Makowiec: F: sekwencjonowanie DNA 9 D. Makowiec: F: sekwencjonowanie DNA 10 Propozycja gry Sir Williama Hamiltona (1857r.) Grafy Propozycja gry Sir Williama Hamiltona Problem NP-zupełny 5 12/28/2016 Grafy D. Makowiec: F: sekwencjonowanie DNA 11 Cykl Eulera Dla danego grafu G=(V(G) , E(G) ) skonstruować cykl zbudowany ze wszystkich krawędzi, przy czym każda krawędź jest wykorzystana dokładnie raz. Cykl Hamiltona Dla danego grafu G=(V(G) , E(G) ) skonstruować cykl , który odwiedza wszystkie wierzchołki dokładnie raz Mamy efektywny algorytm Fleury ‘ego konstrukcji cyklu/drogi Problem NP-zupełny Jeśli w grafie G=G(V,E) bez pętli i krawędzi wielokrotnych jest odpowiednio dużo krawędzi, na przykład jeden z poniższych warunków jest spełniony : (1) |E| ≥ ½ (n-1) *(n-2) +2 , gdzie n=|V| (2) deg(v) ≥ n/2 , gdzie n=|V| (3) deg(v) + deg(w) ≥ n dla każdej pary niepołączonych krawędzią wierzchołków, to graf ma cykl Hamiltona Grafy D. Makowiec: F: sekwencjonowanie DNA 12 Graf z wagami G=G(V,E, w) Rozwiązanie, w miarę efektywne, algorytmem Dijkstry. 6 12/28/2016 Grafy i genetyka D. Makowiec: F: sekwencjonowanie DNA Genialna obserwacja Seymoura Benzera (1950) dowodząca, że struktura genu jest liniowa 13 Watson i Crick odkryli strukturę podwójnej helisy DNA w 1953 • Normalny wirus T4 zabija pewną bakterię • Ale, jeśli T4 jest zmutowane (ważna część genu jest skasowana), to wirus traci moc zabijania bakterii. • Przypuśćmy, że bakteria jest zarażona dwoma takimi różnymi mutantami . • Czy taki atak bakteria przeżyje czy nie? • Dziwne- para różnych zmutowanych wirusów może zabić bakterie mimo, że każdy mutant z osobna nie zabija. Jak to można wytłumaczyć? https://www.dnalc.org/view/15881-Defining-the-gene.html D. Makowiec: F: sekwencjonowanie DNA 14 7 12/28/2016 Grafy i genetyka D. Makowiec: F: sekwencjonowanie DNA 15 Jeśli geny są liniowa strukturą , czyli to Grafy i genetyka tak powinien wyglądać graf przeżywania D. Makowiec: F: sekwencjonowanie DNA 16 Jeśli geny mają rozgałęzienie czyli : to tak powinien wyglądać graf przeżywania 8 12/28/2016 Grafy i genetyka D. Makowiec: F: sekwencjonowanie DNA 17 Dwie hipotetyczne struktury organizacyjne genu: a) organizacja liniowa b) organizacja z rozgałęzieniami Która prawdziwa? Rozstrzyga eksperyment Grafy i genetyka W M1 M2 M3 D. Makowiec: F: sekwencjonowanie DNA 18 Mutacje M1 i M2 pokrywają się 9 12/28/2016 Grafy i genetyka Graf interwałowy D. Makowiec: F: sekwencjonowanie DNA 19 Delecje i ich interwały Przykład grafu interwałowego Przykład grafu nieinterwałowego Graf interwałowy Niemożliwe jest ułożenie delecji tak, aby spełnione były relacje grafu. D. Makowiec: F: sekwencjonowanie DNA 20 • Graf uporządkowania w czasie zestawu czynności. • Węzły grafu to czynności. • Krawędzie określają która operacja z którą jest realizowana równolegle. • Kolorowanie grafu– każde dwa sąsiadujące wierzchołki mają różne kolory, przy czym ilość użytych kolorów jest minimalna. 10 12/28/2016 Sekwencjonowanie DNA D. Makowiec: F: sekwencjonowanie DNA 21 D. Makowiec: F: sekwencjonowanie DNA 22 Masz wiele egzemplarzy tej samej gazety pociętych na miliony części. Każdy egzemplarz jest pocięty inaczej. Znaczna część kawałków się pogubiła. Znaczna część jest pochlapana atramentem. Potrafisz odczytać oryginalną zawartość? Eksperyment Sangera: Czytaj kawałki 500-700 nukleotydów jednocześnie http://www.cs.unc.edu/~prins/Classes/555/ 11 12/28/2016 Metoda Sangera: czytanie DNA D. Makowiec: F: sekwencjonowanie DNA 23 Sekwencjonowanie DNA D. Makowiec: F: sekwencjonowanie DNA 24 II etap: poskładać zsekwencjonowane fragmenty DNA start Graf zupełny skierowany z wagami wyznaczonymi przez POKRYCIE etykiet wierzchołków: w(i,j) = rozmiar wspólnego przyrostka (suffix) i oraz przedrostka (prefix) j Problem najkrótszego wspólnego łańcucha staje się problemem komiwojażera w tym grafie 12 12/28/2016 Sekwencjonowanie DNA D. Makowiec: F: sekwencjonowanie DNA 25 POKRYCIE etykiet wierzchołków k oraz j to rozmiar najdłuższego wspólnego przyrostka (suffix) k , który jest zgodny z przedrostkiem (prefix) j Przykład: etykieta wierzchołka k: etykieta wierzchołka j: ggcatcaaa aaaggcatc pokrycie (k,j) =3 Przykład: Dane S = { ATC, CCA, CAG, TCC, AGT } SSP TSP AGT CCA ATC ATCCAGT TCC CAG ATC 2 0 1 1 AGT 1 2 CCA 1 CAG 2 1 2 TCC Powszechnie stosuje się strategie zachłanną. Uważa się, że strategia zachłanna ma tu gwarancję 2. Zatem możemy oczekiwać , że rzeczywista długość superłańcucha w* jest ½ w ≤ w*≤w Macierze DNA D. Makowiec: F: sekwencjonowanie DNA 26 SequencingByHybridization : SBH • 1988: pierwsze pomysły dla macierzy DNA. Mało kto wierzy w powodzenie • 1991: technika syntezy polimerów sterowana światłem (light directed polymer synthesis) • 1994: pierwsza 64-kb micromacierz DNA First microarray prototype (1989) First commercial DNA microarray prototype w/16,000 features (1994) 500,000 features per chip (2002) Chip DNA: zestaw wszystkich sekwencji nukleotydowych o zadanej długości 13 12/28/2016 Sekwencjonowanie przez hybrydyzacje DNA D. Makowiec: F: sekwencjonowanie DNA 27 SBH - jak to pracuje? • Umieść wszystkie możliwe próbki DNA o zadanej długości (lmery) na płaskiej powierzchni tak, aby każda próbka była w innym , ale znanym miejscu. To nazywamy macierzą DNA • Zastosuj roztwór zawierający fluorescencyjnie oznaczone nieznane DNA na przygotowana macierz. • Fragmenty DNA hybrydyzują z tymi próbkami, które są komplementarne to jego podłańcuchów. • Korzystając ze detektora spektroskopowego, określ, do których próbek DNA hybrydyzowało. Uzyskujesz l-merowe widmo badanego DNA • Zastosuj algorytm kombinatoryczny aby zrekonstruować sekwencje nukleotydów w nieznanym DNA. Sekwencjonowanie przez hybrydyzacje DNA D. Makowiec: F: sekwencjonowanie DNA 28 Sekwencjonowane DNA przykleiło się do: ATAG AGGC TAGG SuperŁańcuch: GGCA GCAA Sekwencjonowane DNA to ciąg komplementarny: CAAA Przykład uniwersalnej macierzy dla l-merów o długości l=4 14 12/28/2016 Sekwencjonowanie DNA przez hybrydyzacje Def: spectrum(s,l) - widmo ujawnionych l-merów w D. Makowiec: F: sekwencjonowanie DNA sekwencji DNA s w reprezentacji l-merów, to eksperymencie sekwencjonowania DNA 29 zbiór UWAGA: Różne sekwencje DNA mogą produkować to samo widmo!! Spectrum( GTATCT ,2) = Spectrum( GTCTAT ,2) = {AT, CT, GT, TA, TC} Sekwencjonowanie DNA przez hybrydyzacje D. Makowiec: F: sekwencjonowanie DNA 30 Rozwiązanie problemu SBH jako ścieżki Hamiltona w grafie pokrywania się l-merów Graf skierowany H • o wierzchołkach etykietowanych l-merami • o krawędziach jedynie wtedy, gdy pokrywanie wynosi l-1 Przykład: S = { ATG AGG TGC TCC GTC GGT GCA CAG } H ATG AGG ATGC A G G T C C TGC TCC GTC GGT GCA CAG Ścieżka odwiedziła każdy wierzchołek tylko RAZ 15 12/28/2016 Sekwencjonowanie DNA przez hybrydyzacje D. Makowiec: F: sekwencjonowanie DNA 31 Problem niejednoznaczności wyniku S = { ATG TGG TGC GTG GGC GCA GCG CGT } Graf pokryć: H Możliwość I: H Możliwość II: ATGCGTGGCA H ATGGCGTGCA Sekwencjonowanie DNA przez hybrydyzacje D. Makowiec: F: sekwencjonowanie DNA 32 Rozwiązanie problemu SBH jako ścieżki Eulera w grafie „(l-1) merów” Graf skierowany o wierzchołkach etykietowanych l-1 merami o krawędziach jedynie wtedy, gdy odpowiedni l mer występuje w zbiorze widma Przykład: S = { ATG, TGG, TGC, GTG, GGC, GCA, GCG, CGT } Wierzchołki: V = { AT, TG, GC, GG, GT, CA, CG } GT AT Krawędzie: E=S CG TG GC GG CA ścieżka przechodząca przez każdą krawędź i to tylko raz 16 12/28/2016 Znajdź superłańcuch dla następujących 3-merów D. Makowiec: F: sekwencjonowanie DNA 33 S1={ACA , ATC, ATG, CAT, GAT, TAC, TCT, TGA} S2={GAT, ACC, TGA, TCT, ATC, ATG, CTA, TAC} Sekwencjonowanie białka, identyfikacja białka insulina Algorytmika, wykład XIII D. Makowiec: F: sekwencjonowanie DNA 34 [34] 17 12/28/2016 Sekwencjonowanie białka, identyfikacja białka D. Makowiec: F: sekwencjonowanie DNA 35 Białka zbudowane są z 20 rodzajów aminokwasów. Aminokwasy poprzez złącza peptydowe łącza się w długie łańcuchy o długościach od 100 do 1000 aminokwasów. Białko może składać się z kilku łańcuchów peptydowych. Algorytmika, wykład XIII [35] Sekwencjonowanie białka, identyfikacja białka D. Makowiec: F: sekwencjonowanie DNA 36 1.Reakcje degradacji Edmana: metoda chemicznego odcinania pojedynczych aminokwasów od końca łańcucha 2.Techniki spektrometrii mas: poprzez fragmentacje peptydów , a następnie pomiar masy uzyskanych jonowych fragmentów insulina Algorytmika, wykład XIII [36] 18 12/28/2016 Sekwencjonowanie białka identyfikacja białka D. Makowiec: F: sekwencjonowanie DNA 37 A Fragmenty peptydowe, które otrzymał Sanger z insuliny bydlęcej za pomocą różnych metod. Białko jest dzielone na dwie części: łańcuch A i łańcuch B w wyniku procesu trawienia enzymatycznego. B Wyjaśnienie roli mostków dwusiarczkowych łączących różne cysteiny było wynikiem wieloletnich żmudnych prac laboratoryjnych Sangera. Algorytmika, wykład XIII [37] Sekwencjonowanie białka, identyfikacja białka D. Makowiec: F: sekwencjonowanie DNA 38 2015-01-15 Algorytmika, wykład XIII [38] 19 12/28/2016 Sekwencjonowanie białka, identyfikacja białka Peptyd i jego sekwencja aminokwasowa P= p1p2…… pn 39 jest rozrywany. fragment N-terminalowy: Pi= p1p2…… pi • • • D. Makowiec: F: sekwencjonowanie DNA fragment C-terminalowy: P-i= pi+1…… pn Peptydy rozrywają się wzdłuż wiązań peptydowych Fragmenty zazwyczaj gubią chemiczne molekuły takie jak NH3 czy H2O Oznaczenie: bi to jony powstałe z Pi, yi to jony powstałe z P-i 2015-01-15 Algorytmika, wykład XIII [39] Sekwencjonowanie białka, identyfikacja białka D. Makowiec: F: sekwencjonowanie DNA 40 Peptyd GPFNA i jego: N-terminalowe fragmenty: G, GP, GPF, GPFN C-terminalowe fragmenty: PFNA, FNA, NA, A Algorytmika, wykład XIII [40] 20 12/28/2016 Sekwencjonowanie białka, identyfikacja białka D. Makowiec: F: sekwencjonowanie DNA 41 Rozerwane fragmenty są jonami. Ich masa może być pomniejszona o masę wody lub amoniaku Problem sekwencjonowania białka: Zrekonstruować peptyd w oparciu o zestaw uzyskanych mas dla fragmentów jonowych. Algorytmika, wykład XIII [41] Sekwencjonowanie białka, identyfikacja białka D. Makowiec: F: sekwencjonowanie DNA 42 Zliczanie pików wspólnych dla teorii ∆={…} i eksperymentu S Zestaw mas wszystkich możliwych jonów {1 , 2 ,...., k } Algorytmika, wykład XIII [42] 21 12/28/2016 Sekwencjonowanie białka, identyfikacja białka D. Makowiec: F: sekwencjonowanie DNA 43 2015-01-15 Algorytmika, wykład XIII [43] 22