BIOINFORMATYKA edycja 2016 / 2017 wykład 1 Zadania bioinformatyki dr Jacek Śmietański [email protected] http://jaceksmietanski.net Bioinformatyka w praktyce IIMK UJ | Bioinformatyka, wykład 1 | slajd 2 Jacek Śmietański, Kraków 2016 Główne obszary zastosowań Medycyna np. medycyna personalizowana Farmaceutyka np. projektowanie leków Kryminalistyka np. identyfikacja sprawców Sądownictwo np. ustalanie ojcostwa Rolnictwo np. tworzenie nowych odmian Archeologia np. badania paleontologiczne Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 3 Jacek Śmietański, Kraków 2016 Zagadnienia powiązane Zarządzanie dużą ilością danych (Big Data) Eksploracja danych (Data Mining) Uczenie maszynowe (Machine Learning) Teoria grafów (Graph Theory) Problemy optymalizacyjne Algorytmika Programowanie Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 4 Jacek Śmietański, Kraków 2016 Bioinformatyka wśród innych nauk Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 5 Jacek Śmietański, Kraków 2016 Czym zajmuje się bioinformatyka? Intuicja: wykorzystanie komputerów w badaniach biologicznych. Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 6 Jacek Śmietański, Kraków 2016 Różne ujęcia Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 7 Jacek Śmietański, Kraków 2016 Formalna definicja NIH (Narodowego Instytutu Zdrowia, USA) „Research, development, or application of computational tools and approaches for expanding the use of biological, medical, behavioral or health data, including those to acquire, store, organize, archive, analyze, or visualize such data.” Definicja bardzo obszerna (obejmuje praktycznie wszystkie nauki o życiu). Nie jest to jedyna istniejąca definicja. Nie ma jednoznacznego, precyzyjnego określenia zakresu bioinformatyki. Pamiętajmy też, że jest to nauka bardzo dynamicznie się rozwijająca, co za tym idzie, zakres badań też może się zmieniać. Wielu badaczy, mówiąc o bioinformatyce, ma na myśli głównie aspekty związane z biologią na poziomie molekularnym (DNA, RNA, białko). Osobiście uznaję definicję NIH, ale ten przedmiot koncentrował się będzie wyłącznie na aspektach molekularnych. Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 8 Jacek Śmietański, Kraków 2016 Bioinformatyka a biologia obliczeniowa Często pojęcia te są utożsamiane ze sobą. Z kolei źródła dokonujące rozróżnienia często robią to w zgoła odmienny sposób. Np. wg „Harper's Illustrated Biochemistry”: „Bioinformatyka to zbieranie i wykorzystywanie istniejących danych, natomiast istotą biologii obliczeniowej jest wykorzystanie mocy obliczeniowej w eksperymentach biologicznych.” W podręczniku Xionga: „Bioinformatyka różni się od powiązanej z nią dziedziny zwanej biologią obliczeniową, gdyż ogranicza się do analizy sekwencji, struktury oraz funkcji genów i genomów oraz odpowiadających im produktów ekspresji. Dlatego często określa się ją mianem molekularnej biologii obliczeniowej. Biologia obliczeniowa natomiast obejmuje wszystkie obszary biologii, które wymagają obliczeń. Na przykład w modelowaniu matematycznym ekosystemów i dynamiki populacji, w zastosowaniu teorii gier do analiz behawioralnych i rekonstrukcjach filogenetycznych wykorzystujących dane kopalne stosuje się narzędzia obliczeniowe, które nie muszą mieć związku z makrocząsteczkami biologicznymi”. Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 9 Jacek Śmietański, Kraków 2016 Bioinformatyka a biologia obliczeniowa (2) Biologia obliczeniowa Przetwarzanie danych wcale nie musi być trudne pojęciowo i algorytmicznie skomplikowane – wymaga jednak wykonania wielu obliczeń (dlatego przymiotnik „obliczeniowa”). Zajęcie mało twórcze, wręcz mechaniczne. Bioinformatyka Wykorzystuje często zaawansowane techniki i algorytmy opracowane w ramach rozwoju informatyki. W wielu zadaniach wymaga indywidualnego podejścia do problemu i dedykowanych algorytmów. Jeszcze jedna opinia: „biologia obliczeniowa zajmuje się poznaniem tego co jest, natomiast bioinformatyka – tworzeniem tego, czego jeszcze nie ma” W temacie istoty bioinformatyki polecam też wykład prof Jacka Błażewicza pt. „Bioinformatyka i jej perspektywy”: http://www2.cs.put.poznan.pl/wp-content/uploads/2011/11/wyklad_inauguracyjny_2011.pdf Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 10 Jacek Śmietański, Kraków 2016 Rozpoznawanie obrazów? a) b) c) obraz medyczny na poziomie tkankowym (tu: tomografia) obraz medyczny na poziomie komórkowym (mikroskopowy) obraz biologiczny (mikroskopowy) Zgodnie definicją NIH – tak, to wchodzi w zakres bioinformatyki. Ale wielu bioinformatyków nie uwzględnia tego obszaru. Na tym wykładzie zagadnienia związane z analizą obrazów zostaną* pominięte. * Do analizy obrazów wrócimy na chwilę podczas omawiania metod analizy mikromacierzy, są to jednak stosunkowo proste zagadnienia (w porównaniu z przykładami powyżej), a z drugiej strony nie będziemy wnikali w szczegóły stosowanych tam algorytmów. Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 11 Jacek Śmietański, Kraków 2016 Rozwój bioinformatyki (1) 1859 – Charles Darwin Podstawy teorii ewolucji: publikacja pracy „O powstawaniu gatunków drogą naturalnego doboru czyli o utrzymywaniu się doskonalszych ras w walce o byt” („On the Origin of Species by Means of Natural Selection, or the Preservation of Favoured Races in the Struggle for Life”) Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 12 Jacek Śmietański, Kraków 2016 Rozwój bioinformatyki (2) 1865 – Mendel eksperymentując z grochem, wykazuje, że cechy dziedziczą się w odrębnych jednostkach; 1869 – Meischer wyizolował DNA; 1895 – Rőntgen okrywa promienie X; 1902 – Sutton proponuje chromosomową teorię dziedziczności; 1911 – Morgan z współpracownikami stabilizuje tą teorię, badając muszkę owocówkę; 1943 – Astbury obserwuje wzór DNA przy użyciu promieni X; 1944 - Avery, MacLeod i McCarty wykazują, że DNA przenosi cechy dziedziczne (nie białka!) Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 13 Jacek Śmietański, Kraków 2016 Rozwój bioinformatyki (3) 1951 - Pauling and Corey przewidują strukturę II-rzędową białek (α-helisę i β-kartkę) (Proc. Natl. Acad. Sci. USA, 27: 205-211, 1951; Proc. Natl. Acad. Sci. USA, 37: 729-740, 1951); 1953 – Watson i Crick proponują model podwójnej helisy DNA, bazując na badaniach krystalograficznych Franklin i Wilkins (Nature, 171: 737-738, 1953); 1955 – Sanger przedstawia pierwszą sekwencję białkową (insulina bydlęca); 1955 – Kornberg izoluje enzym polimerazę DNA; 1958 – powstaje pierwszy układ scalony w korporacji Texas Instruments; Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 14 Jacek Śmietański, Kraków 2016 Rozwój bioinformatyki (4) • 1959 - Perutz i Kendrew otrzymują pierwszą strukturę krystalograficzną białka (hemoglobina i mioglobina); • 1961 – Brenner, Jacob i Meselson odkrywają mRNA przekazujące informację z DNA jądra do cytoplazmy; • 1965 – Dayhoff – atlas sekwencji i struktur białkowych; • 1965 – Nirenberg, Khorana, Ochoa i inni łamią kod genetyczny; • 1970 – powstaje algorytm do porównywania sekwencji (Needleman-Wunsch); • 1972 – Berg ze współpracownikami tworzą pierwszą rekombinowaną molekułę DNA; • 1973 – Cohen odkrywa klonowanie DNA; • 1975 – Sanger i inni (Maxam, Gilbert) opracowują metody sekwencjonowania; Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 15 Jacek Śmietański, Kraków 2016 Rozwój bioinformatyki (5) 1977 - pierwsza kompletna sekwencja genu (bakteriofag FX174) – 5386 zasad; 1981 – algorytm Smith-Waterman; 1981 – IBM wprowadza komputer osobisty na rynek; 1982 – powstaje baza danych GenBank; 1982 – zsekwencjonowano genom faga lambda; 1983 – algorytm poszukiwania sekwencji (WilburLipman); 1983 – Mullins odkrywa reakcję PCR; 1985 - Lipman i Pearson odkrywają algorytm FASTP; 1986 – utworzenie bazy SWISS-PROT; 1986 – ogłoszono The Human Genome Initiative; 1988 – Lipman i Pearson – algorytm FASTA; Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 16 Jacek Śmietański, Kraków 2016 Rozwój bioinformatyki (6) 1988 – powstaje National Center for Biotechnology Information (NCBI) 1990 – powstaje program BLAST; 1990 – oficjalnie startuje Human Genome Project; 1991 – instytut badawczy CERN w Genewie zapowiada powstanie protokołów, które utworzą sieć World Wide Web (Berners-Lee); 1991 - opisano utworzenie i użycie sekwencji EST; 1992 - The Institute for Genomic Research (TIGR) utworzony przez Ventra w Rockville; 1994 – EMBL European Bioinformatics Institute, Hinxton, UK; Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 17 Jacek Śmietański, Kraków 2016 Rozwój bioinformatyki (7) 1995 – pierwszy genom bakteryjny (Haemophilus influenzea) zostaje zsekwencjonowany (1.8 Mb); 1996 – Affymetrix produkuje pierwszą komercyjną mikromacierz DNA; 1996 – zsekwencjonowanie genomu drożdży (pierwszy kompletny genom eukariotyczny); 1997 – opublikowano algorytm PSI-BLAST; 1997 – genom E.coli zsekwencjonowany (4,6 Mb); 1998 – genom C. elegans zsekwencjonowany (pierwszy kompletny genom organizmu wielokomórkowego, 97 Mb); 1998 - Venter zakłada Celera w Rockville; 1998 - The Swiss Institute of Bioinformatics powstaje w Genewie; Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 18 Jacek Śmietański, Kraków 2016 Rozwój bioinformatyki (8) 1999 – pierwszy kompletny chromosom ludzki (HGP); 2000 – genom Drosophila melanogaster kompletny; 2000 – chromosom 21 kompletny; 2001 – opublikowanie sekwencji genomu ludzkiego (3,000 Mb); 2003 – genom ludzki kompletny; 2007 – Human Metabolome Project 2008 – startuje European Genotype Archive 2010 – mapa ekspresji genów ludzkich 2012 – 1000 Genomes Project 2014 – startuje Elixir … Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 19 Jacek Śmietański, Kraków 2016 Układ okresowy bioinformatyki (rozwój oprogramowania) Układ przedstawia narzędzia bioinformatyczne pogrupowane wg klucza tematycznego. Warto zajrzeć na stronę źródłową, gdzie jest symulacja dynamiki rozwoju tych narzędzi oraz szereg dodatkowych informacji. http://elements.eaglegenomics.com Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 20 Jacek Śmietański, Kraków 2016 Bioinformatyka II UJ: organizacja przedmiotu Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 21 Jacek Śmietański, Kraków 2016 Harmonogram wykładów 1. (5.10) Wprowadzenie do bioinformatyki 2. (19.10) Bioinformatyczne bazy danych 3. (2.11) Globalne dopasowanie par sekwencji 4. (9.11) Lokalne dopasowanie par sekwencji, istotność statystyczna 5. (16.11) Przeszukiwanie baz sekwencyjnych (BLAST), dopasowania wielosekwencyjne 6. (23.11) Analizy filogenetyczne 7. (30.11) Sekwencjonowanie DNA, składanie genów i genomów 8. (7.12) RNA 9. (14.12) Transkryptomika; eksperymenty mikromacierzowe 10. (21.12) Aminokwasy i białka, struktury drugorzędowe 11. (4.01) Przewidywanie struktur przestrzennych białek 12. (11.01) Przewidywanie interakcji, dokowanie, modelowanie sieci 13. (18.01) Projektowanie leków i medycyna personalizowana 14. (25.01) Uczenie maszynowe w bioinformatyce, CUDA Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 22 Jacek Śmietański, Kraków 2016 Zasady zaliczenia 50+ pkt laboratoria 50 pkt projekt Laboratoria: • na każdym spotkaniu można otrzymać max 4 pkt • specyfikacja w materiałach do poszczególnych laboratoriów Projekt: • temat wybieramy z listy udostępnionej przez wykładowcę • implementacja: python 3 (algorytm, testy, dokumentacja) • publiczne repozytorium na githubie (uaktualniane na bieżąco) • obowiązkowe konsultacje w trakcie realizacji • obrona w sesji na prawach egzaminu Szczegółowe zasady na stronie przedmiotu. Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 23 Jacek Śmietański, Kraków 2016 PTBI Polskie Towarzystwo Bioinformatyczne http://ptbi.org.pl Konferencje: • BIT (Bioinformatics in Torun), czerwiec • Sympozjum PTBI, wrzesień Konkurs prac magisterskich. i Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 24 Jacek Śmietański, Kraków 2016 Literatura uzupełniająca w języku polskim W języku polskim wydane zostały zaledwie trzy książki. Wszystkie dosyć dawno i wszystkie raczej dla biologów niż informatyków: 1. Jin Xiong, Podstawy bioinformatyki (2011) 2. Paul G. Higgs, Teresa K. Attwood, Bioinformatyka i ewolucja molekularna (2008) 3. A. D. Baxevanis, B. F. F. Ouellette, Bioinformatyka: podręcznik do analizy genów i białek (2005) Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 25 Jacek Śmietański, Kraków 2016 Poziomy rozważań i centralny dogmat Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 26 Jacek Śmietański, Kraków 2016 Poziomy organizacji (szczegółowość reprezentacji) Gatunek Populacja Organizm Tkanka Narząd Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 27 Jacek Śmietański, Kraków 2016 Poziomy organizacji (2) Komórka Szlak metaboliczny Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 28 Jacek Śmietański, Kraków 2016 Poziomy organizacji (3) Interakcja Cząsteczka Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 29 Jacek Śmietański, Kraków 2016 Genom Materiał genetyczny organizmu, zbudowany z DNA. Praktycznie każda komórka posiada pełną kopię swojego genomu. U organizmów wyższych, genom znajduje się w jądrze komórkowym, upakowany w zestawie chromosomów (liczba chromosomów jest stała dla każdego gatunku; u człowieka są to 23 pary). Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 30 Jacek Śmietański, Kraków 2016 Hierarchiczna organizacja chromosomów Upakowanie i lokalizacja w odrębnej przestrzeni komórkowej (jądro) zapewnia ochronę przechowywanej w DNA informacji. Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 31 Jacek Śmietański, Kraków 2016 Obszary zainteresowań na poziomie molekularnym * Źródło: http://www.whatisepigenetics.com/wp-content/uploads/2013/07/ncrna.jpg Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 32 Jacek Śmietański, Kraków 2016 Omy i omiki Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 33 Jacek Śmietański, Kraków 2016 Centralny dogmat biologii molekularnej Wskazuje kierunki przepływu informacji biologicznej. Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 34 Jacek Śmietański, Kraków 2016 Przestrzeń Komórka roślinna (powyżej) I zwierzęca (po prawej) Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 35 Jacek Śmietański, Kraków 2016 Odrobina biologii Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 36 Jacek Śmietański, Kraków 2016 Kwasy nukleinowe (DNA i RNA) - budowa Źródło: http://www.chemorganiczna.com/content/view/141/13/ Chemicznie DNA od RNA odróżnia budowa rdzenia cukrowego oraz rodzaje zasad (azotowych). Obrazowo: każda cząsteczka jest „nitką” (rdzeń cukrowo-fosforanowy), na którą nawleczone są koraliki czterech różnych rodzajów (zasady azotowe). Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 37 Jacek Śmietański, Kraków 2016 Zasady azotowe Zasady purynowe: adenina (A), guanina (G) Zasady pirymidynowe: cytozyna (C), tymina (T), uracyl (U) Źródło: http://www.chemorganiczna.com/content/view/141/13/ Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 38 Jacek Śmietański, Kraków 2016 DNA - kwas deoksyrybonukleinowy Pojedynczy element nici: deoksyryboza + fosforan + zasada azotowa (A,T,G,C) DNA tworzy strukturę helisy, złożoną z dwóch komplementarnych do siebie nici. Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 39 Jacek Śmietański, Kraków 2016 DNA – zasada komplementarności A–T G–C Każdej zasadzie na jednej nici odpowiada komplementarna jej zasada na drugiej nici. Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 40 Jacek Śmietański, Kraków 2016 Replikacja Tworzenie kopii nici DNA (podczas podziału komórki). Proces bardzo dokładny. Źródło grafiki: http://pl.wikipedia.org/wiki/Replikacja_DNA Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 41 Jacek Śmietański, Kraków 2016 Transkrypcja Synteza RNA na matrycy DNA (zachowana jest zasada komplementarności) A–U C–G G–C T–A W RNA zamiast tyminy (T) jest uracyl (U). Zakres błędów: 1 pomyłka na 104 – 105 nukleotydów. Dlaczego proces ten może być mniej dokładny niż replikacja? Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 42 Jacek Śmietański, Kraków 2016 RNA Zasady azotowe wchodzące w skład nici RNA: A (adenina) G (guanina) C (cytozyna) U (uracyl) Źródło grafiki: http://bioinfo.mol.uj.edu.pl/articles/Pawlica06 Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 43 Jacek Śmietański, Kraków 2016 Rodzaje RNA mRNA matrycowy (informacyjny), nośnik przepisanej z DNA informacji o sekwencji aminokwasów w białku. Ma cechy umożliwiające przyłączanie się do rybosomów i udział w syntezie białka. Wielkość zależna od wielkości kodowanego polipeptytdu. Zróżnicowana trwałość, raczej mało stabilny ncRNA biorą udział w wielu procesach komórkowych, jak: regulacja transkrypcji, replikacji DNA, obróbki i modyfikacji innych cząsteczek RNA (transkryptów), np.: - rRNA (rybosomowy, tworzy (wraz z białkami) rybosomy. Jeden z rRNA jest katalizatorem tworzenia wiązania peptydowego (rybozymem). Różne rodzaje i wielkość (120-4700 zasad). rRNA eukariontów i prokariontów zasadniczo się różnią. Długożyjący (stabilny). - tRNA (transportujący, mały (65-110 nt), przenosi zaktywowane aminokwasy do rybosomu) - snRNA (małe jądrowe RNA) biorą udział w usuwaniu intronów i łączeniu egzonów; - miRNA (mikro RNA) hamują translację; siRNA (małe interferencyjne RNA) ułatwiają degradację mRNA; … Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 44 Jacek Śmietański, Kraków 2016 Dojrzewanie mRNA Proces usuwania intronów (fragmentów niekodujących) z pierwotnego transkryptu. Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 45 Jacek Śmietański, Kraków 2016 Translacja Synteza białka na matrycy dojrzałego mRNA. Źródło: http://library.thinkquest.org/C004535/media/translation.gif Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 46 Jacek Śmietański, Kraków 2016 Kod genetyczny Każda trójka zasad koduje jeden określony aminokwas lub sygnał zakończenia translacji. Ile jest różnych kodonów? Źródło grafiki: http://upload.wikimedia.org/wikipedia/commons/d/d4/RNA-codons.png Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 47 Jacek Śmietański, Kraków 2016 Kod genetyczny (2) Zastanów się: Jakie konsekwencje niesie za sobą redundancja kodu genetycznego? Źródło: http://en.wikipedia.org/wiki/File:GeneticCode21-version-2.svg Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 48 Jacek Śmietański, Kraków 2016 Aminokwasy – elementy budulcowe białek Ogólna budowa aminokwasów: Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 49 Jacek Śmietański, Kraków 2016 Aminokwasy białkowe i Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 50 Jacek Śmietański, Kraków 2016 Właściwości aminokwasów Np. wielkość, ładunek, hydrofobowość, aromatyczność, ... Powyższe właściwości można zilustrować na diagramie Venna Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 51 Jacek Śmietański, Kraków 2016 Białka C-terminus N-terminus H3N+-Gly-Ile-Val-Cys-Glu-Gln-..........-Thr-Leu-His-Lys-Asn-COOPodstawowa jednostka budulcowa i funkcjonalna organizmu. Ciąg aminokwasów połączonych wiązaniami peptydowymi. Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 52 Jacek Śmietański, Kraków 2016 Struktury białek Poziomy przestrzennej organizacji białek: I rzędowa – liniowa sekwencja aminokwasów II rzędowa – opisuje lokalne pofałdowanie (α-helisy, β-kartki) III rzędowa – struktura 3D pojedynczego łańcucha IV rzędowa – struktura 3D całego białka (połączone wszystkie łańcuchy) Zwijanie białka (film): http://www.youtube.com/watch?v=fvBO3TqJ6FE Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 53 Jacek Śmietański, Kraków 2016 Struktura 2-rzędowa α-helisy β-kartki zwroty Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 54 Jacek Śmietański, Kraków 2016 Centralny dogmat bioinformatyki DNA RNA Białko Sekwencja Struktura Funkcja Informacja genetyczna Funkcja biochemiczna Struktura molekularna Fenotyp Fenotyp (objawy) MVHLTPEEKT AVNALWGKVN VDAVGGEALG RLLVVYPWTQ RFFESFGDLS SPDAVMGNPK VKAHGKKVLG AFSDGLAHLD NLKGTFSQLS ELHCDKLHVD PENFRLLGNV LVCVLARNFG KEFTPQMQAA YQKVVAGVAN ALAHKYH Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 55 Jacek Śmietański, Kraków 2016 Wykraczając poza pojedynczy organizm Przepływ informacji na poziomie całej populacji w szerokiej przestrzeni czasowej Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 56 Jacek Śmietański, Kraków 2016 Kilka istotnych faktów • Informacja genetyczna jest redundantna różne geny mogą kodować to samo białko • Informacja strukturalna jest redundantna różne białka mogą mieć tą samą funkcję • Jeden gen może mieć wiele funkcji • Geny są jednowymiarowe, ale ich funkcja zależy od struktury trójwymiarowej kodowanego białka Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 57 Jacek Śmietański, Kraków 2016 Najważniejsze zadania bioinformatyki Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 58 Jacek Śmietański, Kraków 2016 Przeszłość – teraźniejszość - przyszłość „Tak jak wiek XIX był wiekiem węgla, pary i mechaniki, a wiek XX: wiekiem atomu i fizyki, tak wszystko wskazuje na to, że wiek XXI będzie wiekiem biologii i informatyki” (Prof. Jacek Błażewicz) Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 59 Jacek Śmietański, Kraków 2016 Genomika – przykładowe zadania / zastosowania • Sekwencjonowanie DNA i RNA • Mapowanie genomów • Analiza i porównywanie sekwencji • Zarządzanie dużymi bazami danych (np. GenBank, EMBL, DDBJ) • Algorytmy i miary podobieństwa (BLAST itp.) • Biologia ewolucyjna Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 60 Jacek Śmietański, Kraków 2016 Genomika (2) Przykład: Etapy analizy genomowego DNA Źródło: Biotechnologia, 3(70):2005, 24 Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 61 Jacek Śmietański, Kraków 2016 Transkryptomika – przykładowe zadania / zastosowania • Sekwencjonowanie transkryptomów (projekty EST) • Analiza mikromacierzy • Poznawanie funkcji genów • Badanie interakcji RNA-białko • Rola RNA różnych typów Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 62 Jacek Śmietański, Kraków 2016 Proteomika – przykładowe zadania / zastosowania • Klasyfikacja białek • Przewidywanie struktury białek • Przewidywanie funkcji białek • Poszukiwanie miejsc wiążących • Modelowanie molekularne • Projektowanie leków (CADD) Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 63 Jacek Śmietański, Kraków 2016 Metabolomika – przykładowe zadania / zastosowania czyli biologia systemów: • Modelowanie interakcji w złożonych systemach biologicznych (szlaki metaboliczne); • Wizualizacja, grafy, sieci zależności Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 64 Jacek Śmietański, Kraków 2016 Inne klasyfikacje genomika funkcjonalna (część transkryptomiki; badanie funkcji genów) bioinformatyka strukturalna (analiza struktur i interakcji: RNA, białka, kompleksy) Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 65 Jacek Śmietański, Kraków 2016 Narzędzia programistyczne (biblioteki Bio*) Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 66 Jacek Śmietański, Kraków 2016 Biblioteki dedykowane bioinformatykom Biopython http://biopython.org BioJava http://biojava.org BioPerl http://www.bioperl.org BioRuby http://bioruby.open-bio.org/ Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 67 Jacek Śmietański, Kraków 2016 Inne popularne narzędzia / języki R http://www.r-project.org/ MatLab http://www.mathworks.com/products/matlab/ Narzędzia do modelowania molekularnego np. gromos: http://www.gromos.net/ Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 68 Jacek Śmietański, Kraków 2016 Wstęp do bioinformatyki - podsumowanie wykładu 1. Nie ma jednoznacznej definicja bioinformatyki; niektórzy ograniczają ją jedynie do problemów związanych z biologią molekularną. My przyjmiemy jednak szeroką definicję zaproponowaną przez NIH. Bioinformatyka Biologia obliczeniowa 2. Przetwarzanie informacji biologicznej odbywa się na różnych poziomach organizacji, poczynając od gatunków i populacji przez osobniki, tkanki i narządy, komórki, szlaki metaboliczne i oddziałujące ze sobą pary, na pojedynczych cząsteczkach (DNA, RNA lub białek) kończąc. Istnieje wiele określeń uściślających konkretny obszar zainteresowań: genomika, proteomika, metabolomika, itp. 3. Centralny dogmat biologii molekularnej opisuje kierunek przepływu informacji biologicznej: DNA -> RNA -> białko. W DNA przechowywana jest informacja genetyczna i w tej formie przekazywana jest komórkom potomnym. RNA pełni funkcję pośrednika (mRNA) i regulatora metabolizmu (inne rodzaje RNA). Białka są podstawowymi cząsteczkami decydującymi o budowie i funkcjonowaniu komórki (a zatem i całego organizmu). 4. Z powyższego dogmatu wynika podstawowa dla bioinformatyka zależność: sekwencja -> struktura -> funkcja. Przyjmuje się, że funkcja danego białka zależy od jego struktury przestrzennej, a ta z kolei od sekwencji nukleotydów w kodującym je genie. 5. Przepisanie informacji z RNA na białko następuje za pośrednictwem kodu genetycznego, w którym każdej trójce nukleotydów (kodon) odpowiada jeden aminokwas; istnieją także kodony „stop” przerywające translację. Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 69 Jacek Śmietański, Kraków 2016 Podsumowanie (2) 6. Zadania bioinformatyki można (w pewnym uproszczeniu) pogrupować w obszary takie jak: genomika (analiza genów, czyli DNA), transkryptomika (analiza transktyptu, czyli RNA), proteomika (analiza białek), metabolobika (analiza szlaków metabolicznych). Wśród innych podziałów częstym określeniem jest też genomika funkcjonalna (koncentrująca się na funkcji genów), bioinformatyka strukturalna (np. przewidywanie struktur) czy biologia systemów (tworzenie i analiza rozbudowanych sieci interakcji). 7. Bioinformatyka, poza walorami poznawczymi i naukowymi, ma również ogromne zastosowanie praktyczne, np. w medycynie (prognozowanie ryzyka, indywidualne planowanie terapii), farmacji (projektowanie nowych leków), kryminalistyce, sądownictwie czy rolnictwie. 8. Dla kilku popularnych języków programowania stworzone zostały dedykowane biblioteki zawierające liczne funkcje przydatne w pracy bioinformatyka. Aktualnie najbardziej popularnym (aktywnie rozwijanym) narzędziem jest Biopython. W pracy bioinformatyka przydać się może równiez język R, pakiet MatLab czy dedykowane specjalistyczne środowiska (np. do modelowania molekularnego). Instytut Informatyki UJ | Bioinformatyka, wykład 1 | slajd 70 Jacek Śmietański, Kraków 2016 Źródło: http://www.sciencecartoonsplus.com