ALEKSANDRA ŚWIERCZ Plan wykładów Wprowadzenie do różnych metod sekwencjonowania Resekwencjonowanie – mapowanie do genomu referencyjnego Sekwencjonowanie de novo – asemblacja Różnica w ekspresji genów, alternatywny splicing Różnice między genomami – CNV, SNP Analiza krótkich miRNA Wizualizacja danych, Short Read Archive A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2 Sposoby zaliczenia Wykład: ◦ Kolokwium zaliczeniowe – max 5 punktów ◦ Prezentacja – max 2 punkty ◦ Obecność na wykładach – max 1 punkt Zaliczenie od 3 punktów (ocena 3.0) Laboratoria: ◦ Kilka zadań zaliczeniowych, do oddawania razem ze sprawozdaniem A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 3 Sekwencjonowanie DNA/RNA BLACK BOX A. Świercz AAATGCCTGCCCTGAAGGCCTGCGTA GTTTTGGGAGAAGACCCACGGATA AAGGTGTAGCCCCGTAGC GGGGGGTATTATTTATTTTATACCCAC ………….. ACAGGAUCGUUGGAUGGTGGGA …………. Sekwencjonowanie polega na odczytaniu sekwencji liter DNA/RNA badanego fragmentu genomu ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 4 Sekwencjonowanie DNA/RNA Sanger SBH BLACK BOX A. Świercz AAATGCCTGCCCTGAAGGCCTGCGTA GTTTTGGGAGAAGACCCACGGATA AAGGTGTAGCCCCGTAGC GGGGGGTATTATTTATTTTATACCCAC ………….. ACAGGAUCGUUGGAUGGTGGGA …………. ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 5 Sekwencjonowanie DNA/RNA Sanger SBH Roche/454 BLACK BOX AAATGCCTGCCCTGAAGGCCTGCGTA GTTTTGGGAGAAGACCCACGGATA AAGGTGTAGCCCCGTAGC GGGGGGTATTATTTATTTTATACCCAC ………….. ACAGGAUCGUUGGAUGGTGGGA …………. Illumina Applied Biosystems SOLID Ion Torrent Complete Genomics Pacific Biosystems Heilcos Heliscope A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 6 Pacific Biosystems Długie odczyty 20 000 bp Sanger Ion Torrent Roche/454 SBH Pojedyncza sekwencja Illumina Dużo powtórzeń DNA Applied Biosystems SOLID Complete Genomics Heilcos Heliscope Krótkie odczyty 20 bp A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 7 Metoda Sangera – elektroforeza żelu A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 8 Sekwencjonowanie przez hybrydyzację (SBH) 1. Część eksperymentalna - przeprowadzenie eksperymentu biochemicznego, w czasie którego znalezione zostaną wszystkie fragmenty badanego łańcucha DNA o określonej z góry długości 2. Część obliczeniowa – odtworzenie badanej sekwencji DNA poprzez poskładanie krótkich fragmentów w dłuższy łańcuch. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 9 SBH – część eksperymentalna 1. Przygotowanie sekwencji DNA: ◦ ◦ ◦ ◦ 2. Cięcie sekwencji metodą shotgun Tylko jedna nić Namnażanie wielu kopii Nałożenie koloru fluorescencyjnego Przygotowanie chipu/mikromacierzy –płytki na której znajdują się różne oligonukleotydy, np. wszystkie oligonukleotydy o długości 8 A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 10 SBH – eksperyment hybrydyzacji 1. Przygotowanie chipu DNA A AC ACG ACGT Round 1 ACGT ACGT A Round 2 A. Świercz ACGT A C ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH ACGT A C G A C G T 11 A CGT Round 3 A C G T ... and so on ... DNA chip AAAA 0,4mm Full library of tetranucleotides 0,4mm 25m site per probe 44 – 0.0016 cm2 48 – 0.4096 cm2 410 – 6.5536 cm2 AAAA AACA AAGA AAAC AACC AAGC AAAT AACG AAGG AAAT AACT AAGT ACAA ACCA A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 12 2. Reakcja hybrydyzacji DNA chip A. Świercz TCCACTG... Wiele znakowanych kopii badanej sekwencji DNA ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 13 A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 14 A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 15 A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 16 2. Reakcja hybrydyzacji DNA chip TCCACTG... Wiele znakowanych kopii badanej sekwencji DNA 3. Wynik odczytu Fluorescencyjny chip DNA . . . . . . . spectrum Spektrum – zbiór oligonukleotydów komplementarnych do fragmentu badanej sekwencji DNA A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 17 Reakcja hybrydyzacji pomiędzy sondą o znanej sekwencji (l-mer) i nieznaną sekwencją o długości n (n-mer): n-mer - . . . A A C T A G A C C T . . . l-mer - GAT CTA Sekwencja komplementarna do sondy istnieje w targecie A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 18 Sekwencjonowanie DNA bez błędów Sekwencja oryginalna: AACTAGACCT Spektrum = {AAC,ACT,CTA,TAG,AGA,GAC,ACC,CCT} (Dwa możliwe rozwiązania : AACTAGACCT, AACCTAGACT) Lysov (1988) Graf oparty o l-mery (graph H) AAC ACT CTA CCT TAG ACC GAC AGA Znalezienie ścieżki Hamiltona – NP-trudne A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 20 Pevzner (1989) AAC AA AC Graf oparty na (l-1)-merach (graf G): AA AC CT TA CC AG GA Znalezienie ścieżki Eulera – rozwiązywalne w czasie wielomianowym o Problem równoważności o Problem unikalności A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 21 Błędy w eksperymencie SBH 1. Błędy pozytywne – nadmiar w spektrum a. W czasie eksperymentu hybrydyzacji niekomplementarne oligonukleotydy (mające nie wszystkie zasady komplementarne) przyłączają się do badanego łańcucha DNA. W konsekwencji odczytu obrazu fluorescencyjnego, błędny oligonukleotyd zostaje włączony do spektrum. b. Obraz fluorescencyjny chipu może być zanieczyszczony i omyłkowo oligonukleotyd może zostać włączony do spektrum A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 23 Błędy w eksperymencie SBH 2. Błędy negatywne – braki w spektrum a. Oligonukleotyd pojawia się w sekwencji oryginalnej więcej niż jeden raz. Ponieważ spektrum nie jest multizbiorem, tylko jedno wystąpienie każdego elementu jest możliwe b. Nie wszystkie zasady z komplementarnego oligonukleotydu przyłączyły się do świecącego łańcucha DNA, stąd też sygnał na chipie jest słabo widoczny i oligonukleotyd nie zostanie odczytany. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 24 J. Błażewicz, P. Formanowicz, M. Kasprzak, W.T. Markiewicz, J. Węglarz DNA Sequencing with positive and negative errors, Journal of Computational Biology 6, No. 1, 1999. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 25 Sekwencjonowanie DNA w przypadku błędów pozytywnych i negatywnych Sformułowanie jako wariant problemu komiwojażera z nagrodami: Mając pełny graf G=(V,A), V=spektrum, z nagrodą za odwiedzenie każdego wierzchołka równą 1 oraz łukami z kosztami równymi liczbie nakładających się etykiet wierzchołków (oligonukleotydów), znajdź ścieżkę z maksymalnym zyskiem i kosztem nie większym niż n-l. [J.Błażewicz, P.Formanowicz, M.Kasprzak, W.T.Markiewicz, J.Węglarz,1999] A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 26 Przykład CTTACTACG – sekwencja oryginalna spektrum – {CTT, TAC, ACT, CTA, ACG, GCG} Długość sekwencji n=9 Długość oligonukleotydów =3 GCG – błędy pozytywne TTA, TAC – błędy negatywne CTT – początkowy oligonukleotyd A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 27 CTT CTT TAC GCG ACG ACT TAC GCG ACG ACT CTA CTA koszt= 1, np. T(AC)T Dwa rozwiązania optymalne koszt= 2, np. AC(T)AC A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 28 Złożoność problemu SBH Problem sekwencjonowania SBH w przypadku gdy nie ma błędów w spektrum jest problemem łatwym obliczeniowo (należy do klasy P). Problem SBH w przypadku z błędami pozytywnymi albo negatywnymi, albo błędami obu typów jest problemem trudnym obliczeniowo (należy do klasy silnie NP-trudnej) A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 29 Przykłady modyfikacji klasycznego podejścia o Biblioteki izotermiczne – w celu zmniejszenia liczby błędów eksperymentalnych zamiast bibliotek oligonukleotydów o równej długości wprowadzono pojęcie bibliotek izotermicznych, czyli oligonukleotydów o zbliżonej temperaturze topnienia dupleksów. A,T- mniej stabilne, mają niższą temperaturę niż G,C ex. t(ACGTC) = 2+4+4+2+4 = 16 o „Sondy z dziurami” – tzw. gapped probes. Wprowadzono pojęcie uniwersalnych nukleotydów, które przyłączają się do dowolnego nukleotydu w łańcuchu DNA. Sondy na chipie są kombinacją zwykłych i uniwersalnych nukleotydów, dzięki czemu można wydłużyć długość oligonukleotydów nie zwiększając liczności biblioteki A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 30 Wybrana literatura dla problemu SBH J.Błażewicz, P.Formanowicz, M.Kasprzak, W.T.Markiewicz, J.Węglarz, „DNA sequencing with positive and negative errors”, Journal of Computational Biology 6, 1999, pp.113-123. F.P. Preparata, A.M. Frieze, and E. Upfal. On the power of universal bases in sequencing by hybridization. In Proc. 3rd Ann. Int. Conf. Comput. Mol. Biol., pages 295–301, 1999. J.Błażewicz, P.Formanowicz, M.Kasprzak, W.T.Markiewicz, J.Węglarz, „Tabu search for DNA sequencing with false negatives and false positivies”, European Journal of Operational Research 125, 2000, pp. 257-265. V.T. Phan and S. Skiena. Dealing with errors in interactive sequencing by hybridization. Bioinformatics, 17:862–870, 2001. J. Błażewicz, P. Formanowicz, F. Guinand, M. Kasprzak, "A heuristic managing errors for DNA sequencing„, Bioinformatics 18, 2002, pp. 652-660. J-H. Zhang, L-Y. Wu, and X-S. Zhang. Reconstruction of DNA sequencing by hybridization. Bioinformatics, 19:14–21, 2003. S.A. Heath, F.P. Preparata, and J. Young. Sequencing by hybridization by cooperating direct and reverse spectra. J. Comput. Biol., 10:499–508, 2003. E. Halperin, S. Halperin, T. Hartman, and R. Shamir. Handling long targets and errors in sequencing by hybridization. J. Comput. Biol., 10:483–497, 2003 J. Błażewicz, F. Glover, M. Kasprzak, "DNA sequencing - tabu and scatter search combined„ INFORMS Journal on Computing 16, 2004, pp. 232-240 F.P. Preparata and J.S. Oliver. DNA sequencing by hybridization using semi-degenerate bases. J. Comput. Biol., 11(4):753–765, 2004. J. Błażewicz, P. Formanowicz, M. Kasprzak, W. T. Markiewicz, A. Świercz, ”Tabu search algorithm for DNA sequencing by hybridization with isothermic libraries” Computational Biology and Chemistry 28, 2004, pp. 11-19. T.A. Endo. Probabilistic nucleotide assembling method for sequencing by hybridization. Bioinformatics, 20:2181–2188, 2004. J. Błażewicz, C. Oğuz, A. Świercz, J. Węglarz, "DNA sequencing by hybridization via genetic search”, Operations Research 54, 2006, pp.1185-1192. J. Błażewicz, F. Glover, M. Kasprzak, W.T. Markiewicz, C. Oğuz, D. Rebholz-Schuhmann, A. Świercz "Dealing with repetitions in sequencing by hybridization”, Computational Biology and Chemistry 30, 2006, pp 313-320. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 31 Illumina A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 32 Illumina Flow cell A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 33 A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 34 A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 35 A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 36 A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 37 Podział flowcell A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 38 Whiteford N et al. Bioinformatics 2009;25:2194-2199 A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 39 A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 40 A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 41 W których klastrach odczyty przechodzą filtr jakości? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 42 Wiele próbek na jednej linii - multiplexing A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 43 Odczyty sparowane A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 44 Porównanie sekwenatorów Illuminy A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 45 Pyrosequencing 454 Life Sciences A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 46 Przygotowanie biblioteki DNA A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 47 Sekwencjonowanie ... A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 48 Flowgram – wyjście dla każdej studzienki A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 49 Format danych z sekwenatora A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 50 Tabela kodów ASCII A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 51 Jakość – Phred quality score 2 -> ASCII code 50 qual = ASCII code – 33 = 17 A. Świercz Phred quality score Prawdopodobieńst wo błędu Perror 3 1 na 2 50% 5 1 na 3 32% 10 1 na 10 10% 20 1 na 100 1% 30 1 na 1000 0.1% 40 1 na 10000 0.01% ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 52 Rozkład jakości dla każdego nukleotydu A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 53 A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 54 Obrazki, slajdy… www.illumina.com www.454.com I inne strony związane z sekwenatorami Informatics on High Throughput Sequencing Data (2013) @ www.bioinformatics.ca A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 55