http://theta.edu.pl/ Analiza genomowych sekwencji DNA bioinformatyczne etapy przetwarzania danych na klastrze obliczeniowym M. Mielczarek, M. Frąszczak, T. Suchocki, J. Szyda Zapis sekwencji DNA Analiza genomowych sekwencji DNA Pozyskanie danych Bioinformatyczny ciąg analityczny Analiza wyników 3 / 13 Analiza genomowych sekwencji DNA Pozyskanie danych Bioinformatyczny ciąg analityczny 2 670 139 648 zasad • 187 zwierząt • 1 genom - do 73 GB (dane po kompresji) Analiza wyników 100 zasad Analiza genomowych sekwencji DNA Pozyskanie danych Bioinformatyczny ciąg analityczny Kontrola jakości Przyrównanie do genomu referencyjnego Detekcja polimorfizmów genetycznych Analiza wyników 5 / 13 Analiza genomowych sekwencji DNA Pozyskanie danych Kontrola jakości Bioinformatyczny ciąg analityczny Analiza wyników 6 / 13 Analiza genomowych sekwencji DNA Pozyskanie danych Przyrównanie do genomu referencyjnego Bioinformatyczny ciąg analityczny ACTGGTGGGAA GGTGGGAAAAA TGGGAAAAAATT GAAAAAATTTCA GGGACTGATTCC GACTGATTCCGA AAAGGGAACCT GGGAACCTTTCT GAACCTTTCTTT CCTTTCTTTGGA AGAGAGATTTGC GAGAACCTTTCT Analiza wyników …ACTGGTGGGGAAAAATTTCAAAAGGGAACCTTTCTTTGGAGCGGGACTGATTCCGAGAGAGA… Genom referencyjny Analiza genomowych sekwencji DNA Pozyskanie danych Przyrównanie do genomu referencyjnego Bioinformatyczny ciąg analityczny ACTGGTGGGAA GGTGGGAAAAA TGGGAAAAAATT GAAAAAATTTCA GGGACTGATTCC GACTGATTCCGA AAAGGGAACCT GGGAACCTTTCT GAACCTTTCTTT CCTTTCTTTGGA AGAGAGATTTGC GAGAACCTTTCT Analiza wyników AAAGGGAACCT ACTGGTGGGAA GGTGGGAAAAA GGGAACCTTTCC TGGGAAAAAATT GAACCTTTCCTT GGGACTACTGAT AGAGAGAT GAAAAAATTTCA CCTTTCCTTGGA GACTACTGATTC GAGA …ACTGGTGGGGAAAAATTTCAAAAGGGAACCTTTCTTTGGAGCGGGACTGATTCCGAGAGAGA… Genom referencyjny Analiza genomowych sekwencji DNA Pozyskanie danych Detekcja polimorfizmów genetycznych Bioinformatyczny ciąg analityczny Analiza wyników SNP InDel AAAGGGAACCT ACTGGTGGGAA GGTGGGAAAAA GGGAACCTTTCC TGGGAAAAAATT GAACCTTTCCTT GGGACTTCTGAT AGAGAGAT GAAAAAATTTCA CCTTTCCTTGGA GACTTCTGATTC GAGA …ACTGGTGGGGAAAAATTTCAAAAGGGAACCTTTCTTTGGAGCGGGACTGATTCCGAGAGAGA… Genom referencyjny Liczba SNP 7 000 000 6 000 000 liczba SNP 5 000 000 4 000 000 3 000 000 2 000 000 • • • min: max: sd: 5 7 2 063 811 6 117 976 663 223 0.08% genomu 0.23% genomu 1 000 000 0 1 3 9 11 13 15 17 19 21 23 25 27 29 31 Numer zwierzęcia Analiza genomowych sekwencji DNA Pozyskanie danych Bioinformatyczny ciąg analityczny Analiza wyników • Położenie polimorfizmu • Polimorfizm synonimiczny ? Przykład: • 32 krowy • zapalenie wymienia ACTGGTGGGAA ACTGATGGGAA 11 / 13 Dlaczego superkomputer? • przechowywanie danych surowe dane 6,1 TB pliki po przyrównaniu 4,9 TB pliki po detekcji polimorfizmów 44,8 GB • przetwarzanie danych przyrównanie; 8 rdzeni; 25 GB próba paralelizacja - przyspieszenie obliczeń czas analiz dla wszystkich prób + dane dodatkowe ~ 19 GB max 24 rdzenie tygodnie ? 12 / 13 Take home message W praktyce przetwarzanie i przechowywanie danych biologicznych nie byłoby możliwe bez komputerów o dużej mocy obliczeniowej i o dużych zasobach pamięci dyskowej - Dziękuję za uwagę! - 13 / 13