Podstawy bioinformatyki - Bazy danych

advertisement
PODSTAWY BIOINFORMATYKI
ORGANIZACJA ZAJĘĆ
BIOINFORMATYKA
PRZETWARZANIE I ANALIZA DANYCH
Organizacja zajęć
• dr Magda Mielczarek
Kontakt
Katedra Genetyki, pokój nr 14
[email protected]
[email protected]
tel: 71-320-57-51
Slajdy
Zadania
theta.edu.pl
KONSULTACJE: Czwartek 9:30 – 11:30
Magda Mielczarek
Podstawy Bioinformatyki
2
Organizacja zajęć
1. Organizacja zajęć; Bioinformatyka; Przetwarzanie i
analiza danych
2. Biologiczne bazy danych
3. Przyrównanie sekwencji
4. Filogenetyka (kartkówka /odpytywanie)
5. Prezentacje artykułów naukowych. Dyskusja
6. Dane NGS; elementy programowania w różnych
językach
7. Kolokwium (bez możliwości poprawy)
Magda Mielczarek
Podstawy Bioinformatyki
3
Zasady zaliczenia
• Obecność
• Kolokwium (praktyczne, z wykorzystaniem komputera)
• Prezentacja
• Listy zadań
• Aktywność
Magda Mielczarek
Podstawy Bioinformatyki
4
Polecane:
Magda Mielczarek
Podstawy Bioinformatyki
5
Czym jest bioinformatyka?
Magda Mielczarek
Podstawy Bioinformatyki
6
Bioinformatyka
„Bioinformatyka jest interdyscyplinarną dziedziną nauki
obejmującą wykorzystanie metod obliczeniowych do
badania danych biologicznych”
Higgs P., Attwood T., „Bioinformatyka i
ewolucja molekularna”
• Bioinformatyka a biologia obliczeniowa
Magda Mielczarek
Podstawy Bioinformatyki
7
Bioinformatyka
Interdyscyplinarność :
• biologia (molekularna) – dane biologiczne, biotechnologiczne
 dane dotyczące kwasów nukleinowych, białek, lipidów,
węglowodanów i innych makrocząsteczek
• Informatyka i matematyka - narzędzia, metody i obliczenia
komputerowe
 nauki i techniki komputerowe, matematyka stosowana,
statystyka, teoria prawdopodobieństwa
Magda Mielczarek
Podstawy Bioinformatyki
8
Cele bioinformatyki
• Organizacja i zarządzanie informacjami o danych biologicznych
w formie skomputeryzowanych zapisów  BAZY DANYCH
• Analiza danych
 tworzenie NARZĘDZI (programów, metod, algorytmów)
 systemy operacyjne (Unix, Linux)
 języki programowania (C, C++, PERL, Python, Ruby, JAVA,
R, FORTRAN, itd.)
Magda Mielczarek
Podstawy Bioinformatyki
9
PRZYKŁAD ANALIZY
ANALIZA GENOMOWYCH SEKWENCJI DNA BIOINFORMATYCZNE ETAPY PRZETWARZANIA
DANYCH NA KLASTRZE OBLICZENIOWYM
Magda Mielczarek
Podstawy Bioinformatyki
10
Zapis sekwencji DNA
Analiza genomowych sekwencji DNA
Pozyskanie danych
Bioinformatyczny
ciąg analityczny
Analiza wyników
Magda Mielczarek
Podstawy Bioinformatyki
12
Analiza genomowych sekwencji DNA
Pozyskanie danych
Bioinformatyczny
ciąg analityczny
2 670 139 648 zasad
• 187 zwierząt
• 1 genom - do 73 GB
(dane po kompresji)
Analiza wyników
100 zasad
Analiza genomowych sekwencji DNA
Pozyskanie danych
Bioinformatyczny
ciąg analityczny
Kontrola jakości
Przyrównanie do genomu referencyjnego
Detekcja polimorfizmów genetycznych
Analiza wyników
Magda Mielczarek
Podstawy Bioinformatyki
14
Analiza genomowych sekwencji DNA
Pozyskanie danych
Kontrola jakości
Bioinformatyczny
ciąg analityczny
Analiza wyników
Magda Mielczarek
Podstawy Bioinformatyki
15
Analiza genomowych sekwencji DNA
Pozyskanie danych
Przyrównanie do genomu referencyjnego
Bioinformatyczny
ciąg analityczny
ACTGGTGGGAA
GGTGGGAAAAA
TGGGAAAAAATT
GAAAAAATTTCA
GGGACTGATTCC
GACTGATTCCGA
AAAGGGAACCT
GGGAACCTTTCT
GAACCTTTCTTT
CCTTTCTTTGGA
AGAGAGATTTGC
GAGAACCTTTCT
Analiza wyników
…ACTGGTGGGGAAAAATTTCAAAAGGGAACCTTTCTTTGGAGCGGGACTGATTCCGAGAGAGA…
Genom referencyjny
Analiza genomowych sekwencji DNA
Pozyskanie danych
Przyrównanie do genomu referencyjnego
Bioinformatyczny
ciąg analityczny
ACTGGTGGGAA
GGTGGGAAAAA
TGGGAAAAAATT
GAAAAAATTTCA
GGGACTGATTCC
GACTGATTCCGA
AAAGGGAACCT
GGGAACCTTTCT
GAACCTTTCTTT
CCTTTCTTTGGA
AGAGAGATTTGC
GAGAACCTTTCT
Analiza wyników
AAAGGGAACCT
ACTGGTGGGAA
GGTGGGAAAAA
GGGAACCTTTCC
TGGGAAAAAATT
GAACCTTTCCTT
GGGACTACTGAT
AGAGAGAT
GAAAAAATTTCA
CCTTTCCTTGGA
GACTACTGATTC
GAGA
…ACTGGTGGGGAAAAATTTCAAAAGGGAACCTTTCTTTGGAGCGGGACTGATTCCGAGAGAGA…
Genom referencyjny
Analiza genomowych sekwencji DNA
Pozyskanie danych
Detekcja polimorfizmów genetycznych
Bioinformatyczny
ciąg analityczny
Analiza wyników
SNP
InDel
AAAGGGAACCT
ACTGGTGGGAA
GGTGGGAAAAA
GGGAACCTTTCC
TGGGAAAAAATT
GAACCTTTCCTT
GGGACTTCTGAT
AGAGAGAT
GAAAAAATTTCA
CCTTTCCTTGGA
GACTTCTGATTC
GAGA
…ACTGGTGGGGAAAAATTTCAAAAGGGAACCTTTCTTTGGAGCGGGACTGATTCCGAGAGAGA…
Genom referencyjny
Liczba SNP
7 000 000
6 000 000
liczba SNP
5 000 000
4 000 000
3 000 000
2 000 000
•
•
•
min:
max:
sd:
5
7
2 063 811
6 117 976
663 223
 0.08% genomu
 0.23% genomu
1 000 000
0
1
Magda Mielczarek
3
9
11 13 15 17 19 21 23 25 27 29 31
Numer zwierzęcia
Podstawy Bioinformatyki
19
Analiza genomowych sekwencji DNA
Pozyskanie danych
Bioinformatyczny
ciąg analityczny
Analiza wyników
Magda Mielczarek
• Położenie polimorfizmu
• Polimorfizm synonimiczny ?
Przykład:
• 32 krowy
• zapalenie wymienia

ACTGGTGGGAA

ACTGATGGGAA
20
Dlaczego superkomputer?
• przechowywanie danych
surowe
dane
6,1 TB
pliki po
przyrównaniu
4,9 TB
pliki po detekcji
polimorfizmów
44,8 GB
• przetwarzanie danych
przyrównanie; 8 rdzeni; 25 GB próba
paralelizacja - przyspieszenie obliczeń
czas analiz dla wszystkich prób
Magda Mielczarek
Podstawy Bioinformatyki
+ dane dodatkowe
 ~ 19 GB
 max 24 rdzenie
 tygodnie ?
21
Poznańskie Centrum SuperkomputerowoSieciowe
W praktyce przetwarzanie i przechowywanie danych
biologicznych nie byłoby możliwe bez komputerów o dużej
mocy obliczeniowej i o dużych zasobach pamięci dyskowej
Magda Mielczarek
Podstawy Bioinformatyki
22
InfoPlus - I. Makałowska
Komputery w biologii molekularnej czyli bioinformatyka
https://www.youtube.com/watch?v=isTSsVHAZG8
Lista zadań
http://theta.edu.pl/teaching/podstawy-bioinformatyki/
Magda Mielczarek
Podstawy Bioinformatyki
23
Download