Analiza genomowych sekwencji DNA pochodzących z

advertisement
http://theta.edu.pl/
Analiza genomowych sekwencji DNA bioinformatyczne etapy przetwarzania
danych na klastrze obliczeniowym
M. Mielczarek, M. Frąszczak, T. Suchocki, J. Szyda
Zapis sekwencji DNA
Analiza genomowych sekwencji DNA
Pozyskanie danych
Bioinformatyczny
ciąg analityczny
Analiza wyników
3 / 13
Analiza genomowych sekwencji DNA
Pozyskanie danych
Bioinformatyczny
ciąg analityczny
2 670 139 648 zasad
• 187 zwierząt
• 1 genom - do 73 GB
(dane po kompresji)
Analiza wyników
100 zasad
Analiza genomowych sekwencji DNA
Pozyskanie danych
Bioinformatyczny
ciąg analityczny
Kontrola jakości
Przyrównanie do genomu referencyjnego
Detekcja polimorfizmów genetycznych
Analiza wyników
5 / 13
Analiza genomowych sekwencji DNA
Pozyskanie danych
Kontrola jakości
Bioinformatyczny
ciąg analityczny
Analiza wyników
6 / 13
Analiza genomowych sekwencji DNA
Pozyskanie danych
Przyrównanie do genomu referencyjnego
Bioinformatyczny
ciąg analityczny
ACTGGTGGGAA
GGTGGGAAAAA
TGGGAAAAAATT
GAAAAAATTTCA
GGGACTGATTCC
GACTGATTCCGA
AAAGGGAACCT
GGGAACCTTTCT
GAACCTTTCTTT
CCTTTCTTTGGA
AGAGAGATTTGC
GAGAACCTTTCT
Analiza wyników
…ACTGGTGGGGAAAAATTTCAAAAGGGAACCTTTCTTTGGAGCGGGACTGATTCCGAGAGAGA…
Genom referencyjny
Analiza genomowych sekwencji DNA
Pozyskanie danych
Przyrównanie do genomu referencyjnego
Bioinformatyczny
ciąg analityczny
ACTGGTGGGAA
GGTGGGAAAAA
TGGGAAAAAATT
GAAAAAATTTCA
GGGACTGATTCC
GACTGATTCCGA
AAAGGGAACCT
GGGAACCTTTCT
GAACCTTTCTTT
CCTTTCTTTGGA
AGAGAGATTTGC
GAGAACCTTTCT
Analiza wyników
AAAGGGAACCT
ACTGGTGGGAA
GGTGGGAAAAA
GGGAACCTTTCC
TGGGAAAAAATT
GAACCTTTCCTT
GGGACTACTGAT
AGAGAGAT
GAAAAAATTTCA
CCTTTCCTTGGA
GACTACTGATTC
GAGA
…ACTGGTGGGGAAAAATTTCAAAAGGGAACCTTTCTTTGGAGCGGGACTGATTCCGAGAGAGA…
Genom referencyjny
Analiza genomowych sekwencji DNA
Pozyskanie danych
Detekcja polimorfizmów genetycznych
Bioinformatyczny
ciąg analityczny
Analiza wyników
SNP
InDel
AAAGGGAACCT
ACTGGTGGGAA
GGTGGGAAAAA
GGGAACCTTTCC
TGGGAAAAAATT
GAACCTTTCCTT
GGGACTTCTGAT
AGAGAGAT
GAAAAAATTTCA
CCTTTCCTTGGA
GACTTCTGATTC
GAGA
…ACTGGTGGGGAAAAATTTCAAAAGGGAACCTTTCTTTGGAGCGGGACTGATTCCGAGAGAGA…
Genom referencyjny
Liczba SNP
7 000 000
6 000 000
liczba SNP
5 000 000
4 000 000
3 000 000
2 000 000
•
•
•
min:
max:
sd:
5
7
2 063 811
6 117 976
663 223
 0.08% genomu
 0.23% genomu
1 000 000
0
1
3
9
11 13 15 17 19 21 23 25 27 29 31
Numer zwierzęcia
Analiza genomowych sekwencji DNA
Pozyskanie danych
Bioinformatyczny
ciąg analityczny
Analiza wyników
• Położenie polimorfizmu
• Polimorfizm synonimiczny ?
Przykład:
• 32 krowy
• zapalenie wymienia

ACTGGTGGGAA

ACTGATGGGAA
11 / 13
Dlaczego superkomputer?
• przechowywanie danych
surowe
dane
6,1 TB
pliki po
przyrównaniu
4,9 TB
pliki po detekcji
polimorfizmów
44,8 GB
• przetwarzanie danych
przyrównanie; 8 rdzeni; 25 GB próba
paralelizacja - przyspieszenie obliczeń
czas analiz dla wszystkich prób
+ dane dodatkowe
 ~ 19 GB
 max 24 rdzenie
 tygodnie ?
12 / 13
Take home message
W praktyce przetwarzanie i przechowywanie danych
biologicznych nie byłoby możliwe bez komputerów o dużej
mocy obliczeniowej i o dużych zasobach pamięci dyskowej
- Dziękuję za uwagę! -
13 / 13
Download