PODSTAWY BIOINFORMATYKI ORGANIZACJA ZAJĘĆ BIOINFORMATYKA PRZETWARZANIE I ANALIZA DANYCH Organizacja zajęć • dr Magda Mielczarek Kontakt Katedra Genetyki, pokój nr 14 [email protected] [email protected] tel: 71-320-57-51 Slajdy Zadania theta.edu.pl KONSULTACJE: Czwartek 9:30 – 11:30 Magda Mielczarek Podstawy Bioinformatyki 2 Organizacja zajęć 1. Organizacja zajęć; Bioinformatyka; Przetwarzanie i analiza danych 2. Biologiczne bazy danych 3. Przyrównanie sekwencji 4. Filogenetyka (kartkówka /odpytywanie) 5. Prezentacje artykułów naukowych. Dyskusja 6. Dane NGS; elementy programowania w różnych językach 7. Kolokwium (bez możliwości poprawy) Magda Mielczarek Podstawy Bioinformatyki 3 Zasady zaliczenia • Obecność • Kolokwium (praktyczne, z wykorzystaniem komputera) • Prezentacja • Listy zadań • Aktywność Magda Mielczarek Podstawy Bioinformatyki 4 Polecane: Magda Mielczarek Podstawy Bioinformatyki 5 Czym jest bioinformatyka? Magda Mielczarek Podstawy Bioinformatyki 6 Bioinformatyka „Bioinformatyka jest interdyscyplinarną dziedziną nauki obejmującą wykorzystanie metod obliczeniowych do badania danych biologicznych” Higgs P., Attwood T., „Bioinformatyka i ewolucja molekularna” • Bioinformatyka a biologia obliczeniowa Magda Mielczarek Podstawy Bioinformatyki 7 Bioinformatyka Interdyscyplinarność : • biologia (molekularna) – dane biologiczne, biotechnologiczne dane dotyczące kwasów nukleinowych, białek, lipidów, węglowodanów i innych makrocząsteczek • Informatyka i matematyka - narzędzia, metody i obliczenia komputerowe nauki i techniki komputerowe, matematyka stosowana, statystyka, teoria prawdopodobieństwa Magda Mielczarek Podstawy Bioinformatyki 8 Cele bioinformatyki • Organizacja i zarządzanie informacjami o danych biologicznych w formie skomputeryzowanych zapisów BAZY DANYCH • Analiza danych tworzenie NARZĘDZI (programów, metod, algorytmów) systemy operacyjne (Unix, Linux) języki programowania (C, C++, PERL, Python, Ruby, JAVA, R, FORTRAN, itd.) Magda Mielczarek Podstawy Bioinformatyki 9 PRZYKŁAD ANALIZY ANALIZA GENOMOWYCH SEKWENCJI DNA BIOINFORMATYCZNE ETAPY PRZETWARZANIA DANYCH NA KLASTRZE OBLICZENIOWYM Magda Mielczarek Podstawy Bioinformatyki 10 Zapis sekwencji DNA Analiza genomowych sekwencji DNA Pozyskanie danych Bioinformatyczny ciąg analityczny Analiza wyników Magda Mielczarek Podstawy Bioinformatyki 12 Analiza genomowych sekwencji DNA Pozyskanie danych Bioinformatyczny ciąg analityczny 2 670 139 648 zasad • 187 zwierząt • 1 genom - do 73 GB (dane po kompresji) Analiza wyników 100 zasad Analiza genomowych sekwencji DNA Pozyskanie danych Bioinformatyczny ciąg analityczny Kontrola jakości Przyrównanie do genomu referencyjnego Detekcja polimorfizmów genetycznych Analiza wyników Magda Mielczarek Podstawy Bioinformatyki 14 Analiza genomowych sekwencji DNA Pozyskanie danych Kontrola jakości Bioinformatyczny ciąg analityczny Analiza wyników Magda Mielczarek Podstawy Bioinformatyki 15 Analiza genomowych sekwencji DNA Pozyskanie danych Przyrównanie do genomu referencyjnego Bioinformatyczny ciąg analityczny ACTGGTGGGAA GGTGGGAAAAA TGGGAAAAAATT GAAAAAATTTCA GGGACTGATTCC GACTGATTCCGA AAAGGGAACCT GGGAACCTTTCT GAACCTTTCTTT CCTTTCTTTGGA AGAGAGATTTGC GAGAACCTTTCT Analiza wyników …ACTGGTGGGGAAAAATTTCAAAAGGGAACCTTTCTTTGGAGCGGGACTGATTCCGAGAGAGA… Genom referencyjny Analiza genomowych sekwencji DNA Pozyskanie danych Przyrównanie do genomu referencyjnego Bioinformatyczny ciąg analityczny ACTGGTGGGAA GGTGGGAAAAA TGGGAAAAAATT GAAAAAATTTCA GGGACTGATTCC GACTGATTCCGA AAAGGGAACCT GGGAACCTTTCT GAACCTTTCTTT CCTTTCTTTGGA AGAGAGATTTGC GAGAACCTTTCT Analiza wyników AAAGGGAACCT ACTGGTGGGAA GGTGGGAAAAA GGGAACCTTTCC TGGGAAAAAATT GAACCTTTCCTT GGGACTACTGAT AGAGAGAT GAAAAAATTTCA CCTTTCCTTGGA GACTACTGATTC GAGA …ACTGGTGGGGAAAAATTTCAAAAGGGAACCTTTCTTTGGAGCGGGACTGATTCCGAGAGAGA… Genom referencyjny Analiza genomowych sekwencji DNA Pozyskanie danych Detekcja polimorfizmów genetycznych Bioinformatyczny ciąg analityczny Analiza wyników SNP InDel AAAGGGAACCT ACTGGTGGGAA GGTGGGAAAAA GGGAACCTTTCC TGGGAAAAAATT GAACCTTTCCTT GGGACTTCTGAT AGAGAGAT GAAAAAATTTCA CCTTTCCTTGGA GACTTCTGATTC GAGA …ACTGGTGGGGAAAAATTTCAAAAGGGAACCTTTCTTTGGAGCGGGACTGATTCCGAGAGAGA… Genom referencyjny Liczba SNP 7 000 000 6 000 000 liczba SNP 5 000 000 4 000 000 3 000 000 2 000 000 • • • min: max: sd: 5 7 2 063 811 6 117 976 663 223 0.08% genomu 0.23% genomu 1 000 000 0 1 Magda Mielczarek 3 9 11 13 15 17 19 21 23 25 27 29 31 Numer zwierzęcia Podstawy Bioinformatyki 19 Analiza genomowych sekwencji DNA Pozyskanie danych Bioinformatyczny ciąg analityczny Analiza wyników Magda Mielczarek • Położenie polimorfizmu • Polimorfizm synonimiczny ? Przykład: • 32 krowy • zapalenie wymienia ACTGGTGGGAA ACTGATGGGAA 20 Dlaczego superkomputer? • przechowywanie danych surowe dane 6,1 TB pliki po przyrównaniu 4,9 TB pliki po detekcji polimorfizmów 44,8 GB • przetwarzanie danych przyrównanie; 8 rdzeni; 25 GB próba paralelizacja - przyspieszenie obliczeń czas analiz dla wszystkich prób Magda Mielczarek Podstawy Bioinformatyki + dane dodatkowe ~ 19 GB max 24 rdzenie tygodnie ? 21 Poznańskie Centrum SuperkomputerowoSieciowe W praktyce przetwarzanie i przechowywanie danych biologicznych nie byłoby możliwe bez komputerów o dużej mocy obliczeniowej i o dużych zasobach pamięci dyskowej Magda Mielczarek Podstawy Bioinformatyki 22 InfoPlus - I. Makałowska Komputery w biologii molekularnej czyli bioinformatyka https://www.youtube.com/watch?v=isTSsVHAZG8 Lista zadań http://theta.edu.pl/teaching/podstawy-bioinformatyki/ Magda Mielczarek Podstawy Bioinformatyki 23