Sekwencjonowanie Nowej Generacji

advertisement
Sekwencjonowanie Nowej
Generacji
ang. Next Generation Sequencing
Wykład 6
Część 1 – NGS - wstęp
Dr Wioleta Drobik-Czwarno
Sekwencjonowanie DNA metodą terminacji
łańcucha (metoda Sangera)
Projekt sekwencjonowania ludzkiego genomu
• Oszacowany koszt otrzymania pierwszej sekwencji
referencyjnej ludzkiego genomu: 10 lat, ~ 3 mld $
• Obecnie (resekwencjonowanie): 1-2 dni, ~1000 $
Sekwencjonowanie Nowej Generacji
ang. Next Generation Sequencing
• Zminiaturyzowana technologia, która pozwala na znaczne
obniżenie kosztów oraz zwiększenie przepustowości. Polega
na masowym, równoległym sekwencjonowaniu
pofragmentowanej matrycy DNA.
• Sekwencjonowane są często całe genomy, a efektem jest
bardzo dużo krótkich odczytów (ang. reads)
• Gwałtowny rozwój technologii wymusił rozwój nowych
algorytmów oraz formatów plików
Sekwencjonowanie Nowej Generacji
ang. Next Generation Sequencing
Źródło: Illumina
Sekwencjonowanie Nowej Generacji
ang. Next Generation Sequencing
• Obecnie olbrzymie ilości danych z sekwencjonowania można
uzyskać stosunkowo szybko i tanio. Gdzie jest problem?
▫ Wymagająca analiza = pracownicy + moc obliczeniowa
▫ Koszt składowania danych
Sekwencjonowanie Nowej Generacji
ang. Next Generation Sequencing
• Obecnie wykorzystywane do sekwencjonowania m.in.
▫ całych genomów (WGS, ang. whole genome sequencing),
▫ exonów (WES, ang. whole exome sequencing))
▫ transkryptomów (RNAseq, ang. High-throughput RNA sequencing )
• Dla WGS wyróżniamy również:
▫ Sekwencjonowanie de novo – dla dotychczas
niezsekwencjonowanego gatunku bądź gdy genom referencyjny
jest złej jakości. Konieczne są długie odczyty.
▫ Resekwencjonowanie – dostępna jest sekwencja referencyjna,
przeprowadzane jest mapowanie do genomu referencyjnego
Sekwencjonowanie Nowej Generacji
ang. Next Generation Sequencing
Sekwencjonowanie
genomów
Interakcje białko –
RNA (CLIP-seq)
Badanie metylacji
DNA
Sekwencjonowanie
transkryptomów
(RNA-Seq)
Metagenomika
Interakcje
białko –DNA
(ChIP-seq)
Słownik NGS
• Biblioteka – kolekcja zsekwencjonowanych fragmentów (odczytów)
DNA/RNA.
• Odczyty sparowane (ang. paired reads) – Szczególnie przydatne do
mapowania fragmentów genomu z sekwencjami powtórzonymi
Źrodło: Illumina
Słownik NGS
• Adaptery – krótkie sekwencje dodawane na końcu sekwencjonowanych
fragmentów. Bardzo często usuwane są już przez sekwenator, jednak
niekiedy trzeba usuwać je samodzielnie.
• Pokrycie – liczba zmapowanych odczytów, przypadających na daną
pozycję w sekwencji referencyjnej
Pokrycie = 4
Odczyty
Sekwencja referencyjna
Pokrycie = 2
Najpopularniejsze platformy
•
•
•
•
•
Illumina
Ion Torrent
Pacific Biosciences
Roche
SOLID
http://dnatech.genomecenter.ucdavis.edu
Asemblacja de novo
• Polega na zsekwencjonowaniu
nowego genomu lub transkryptomu
(brak sekwencji referencyjnej)
• Odczyty powinny być:
▫ Długie
▫ Sparowane (paired-end)
▫ Nakładać się na siebie
• Analiza bioinformatyczna obejmuje:
▫ Składanie genomu (ang. assembly)
▫ Adnotacje genomu
Czym jest adnotacja genomu
• Polega na fizycznym zmapowaniu genów występujących w
genomie
Mapowanie do genomu referencyjnego
Genom referencyjny
zazwyczaj posiada już
adnotacje
Sekwencjonowanie Nowej Generacji
ang. Next Generation Sequencing
Nature Reviews Genetics 15, 662–676 (2014)
Etapy analizy NGS
• Kontrola jakości surowych danych (format fastq)
▫ Jakość odczytów, jakość par zasad w odczytach
• Mapowanie do genomu referencyjnego:
▫ Indeksowanie genomu referencyjnego
▫ Mapowanie – format fastq > SAM
▫ Zmiana formatu SAM na BAM
• Obróbka pliku BAM: sortowanie, indeksowanie, formatowanie
• Wykrywanie wariantów (generujemy plik VCF):
▫ SNP – polimorfizm pojedynczego nukleotydu
▫ INDEL – krótkie delecje i insercje
▫ Warianty strukturalne (np. CNV)
• Dalsze kroki zależnie od celu analizy
Najpopularniejsze programy do analizy
danych NGS
•
•
•
•
•
•
•
•
•
Bwa – mapowanie do genomu referencyjnego
GATK – SNP and INDEL calling
Samtools – manipulowanie plikami w formacie SAM i BAM
Samtools mpileup – wykrywanie wariantów
Bcftools – SNP and INDEL calling
Vcftools – manipulowanie plikami w formacie VCF
Picard – manipulowanie plikami w formacie SAM i BAM
FASTQC – kontrola jakości dla plików w formacie fastq
Przeglądarki genomowe:
▫ GenomeBrowse Golden Helix
▫ IGV (Integrated Genomic Viewer)
Gdzie szukać informacji?
Download