Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing Wykład 6 Część 1 – NGS - wstęp Dr Wioleta Drobik-Czwarno Sekwencjonowanie DNA metodą terminacji łańcucha (metoda Sangera) Projekt sekwencjonowania ludzkiego genomu • Oszacowany koszt otrzymania pierwszej sekwencji referencyjnej ludzkiego genomu: 10 lat, ~ 3 mld $ • Obecnie (resekwencjonowanie): 1-2 dni, ~1000 $ Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing • Zminiaturyzowana technologia, która pozwala na znaczne obniżenie kosztów oraz zwiększenie przepustowości. Polega na masowym, równoległym sekwencjonowaniu pofragmentowanej matrycy DNA. • Sekwencjonowane są często całe genomy, a efektem jest bardzo dużo krótkich odczytów (ang. reads) • Gwałtowny rozwój technologii wymusił rozwój nowych algorytmów oraz formatów plików Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing Źródło: Illumina Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing • Obecnie olbrzymie ilości danych z sekwencjonowania można uzyskać stosunkowo szybko i tanio. Gdzie jest problem? ▫ Wymagająca analiza = pracownicy + moc obliczeniowa ▫ Koszt składowania danych Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing • Obecnie wykorzystywane do sekwencjonowania m.in. ▫ całych genomów (WGS, ang. whole genome sequencing), ▫ exonów (WES, ang. whole exome sequencing)) ▫ transkryptomów (RNAseq, ang. High-throughput RNA sequencing ) • Dla WGS wyróżniamy również: ▫ Sekwencjonowanie de novo – dla dotychczas niezsekwencjonowanego gatunku bądź gdy genom referencyjny jest złej jakości. Konieczne są długie odczyty. ▫ Resekwencjonowanie – dostępna jest sekwencja referencyjna, przeprowadzane jest mapowanie do genomu referencyjnego Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing Sekwencjonowanie genomów Interakcje białko – RNA (CLIP-seq) Badanie metylacji DNA Sekwencjonowanie transkryptomów (RNA-Seq) Metagenomika Interakcje białko –DNA (ChIP-seq) Słownik NGS • Biblioteka – kolekcja zsekwencjonowanych fragmentów (odczytów) DNA/RNA. • Odczyty sparowane (ang. paired reads) – Szczególnie przydatne do mapowania fragmentów genomu z sekwencjami powtórzonymi Źrodło: Illumina Słownik NGS • Adaptery – krótkie sekwencje dodawane na końcu sekwencjonowanych fragmentów. Bardzo często usuwane są już przez sekwenator, jednak niekiedy trzeba usuwać je samodzielnie. • Pokrycie – liczba zmapowanych odczytów, przypadających na daną pozycję w sekwencji referencyjnej Pokrycie = 4 Odczyty Sekwencja referencyjna Pokrycie = 2 Najpopularniejsze platformy • • • • • Illumina Ion Torrent Pacific Biosciences Roche SOLID http://dnatech.genomecenter.ucdavis.edu Asemblacja de novo • Polega na zsekwencjonowaniu nowego genomu lub transkryptomu (brak sekwencji referencyjnej) • Odczyty powinny być: ▫ Długie ▫ Sparowane (paired-end) ▫ Nakładać się na siebie • Analiza bioinformatyczna obejmuje: ▫ Składanie genomu (ang. assembly) ▫ Adnotacje genomu Czym jest adnotacja genomu • Polega na fizycznym zmapowaniu genów występujących w genomie Mapowanie do genomu referencyjnego Genom referencyjny zazwyczaj posiada już adnotacje Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing Nature Reviews Genetics 15, 662–676 (2014) Etapy analizy NGS • Kontrola jakości surowych danych (format fastq) ▫ Jakość odczytów, jakość par zasad w odczytach • Mapowanie do genomu referencyjnego: ▫ Indeksowanie genomu referencyjnego ▫ Mapowanie – format fastq > SAM ▫ Zmiana formatu SAM na BAM • Obróbka pliku BAM: sortowanie, indeksowanie, formatowanie • Wykrywanie wariantów (generujemy plik VCF): ▫ SNP – polimorfizm pojedynczego nukleotydu ▫ INDEL – krótkie delecje i insercje ▫ Warianty strukturalne (np. CNV) • Dalsze kroki zależnie od celu analizy Najpopularniejsze programy do analizy danych NGS • • • • • • • • • Bwa – mapowanie do genomu referencyjnego GATK – SNP and INDEL calling Samtools – manipulowanie plikami w formacie SAM i BAM Samtools mpileup – wykrywanie wariantów Bcftools – SNP and INDEL calling Vcftools – manipulowanie plikami w formacie VCF Picard – manipulowanie plikami w formacie SAM i BAM FASTQC – kontrola jakości dla plików w formacie fastq Przeglądarki genomowe: ▫ GenomeBrowse Golden Helix ▫ IGV (Integrated Genomic Viewer) Gdzie szukać informacji?