Spis treści 1.Wstęp teoretyczny do przedmiotu bioinformatyka 2.Zadania z podstaw informatyki i obsługi komputera 3.Zadania z podstaw korzystania z Internetu 4.Korzystanie z biologicznych baz danych 5.Analiza sekwencji białkowych i nukleotydowych 6.Elementy filogenetyki molekularnej 7.Elementy modelowania molekularnego i wizualizacji biomolekuł 8.Przydatne linki Wstęp teoretyczny Bioinformatyka - dyscyplina nauk biologicznych wywodząca się z biotechnologii (genetyki), zajmująca się stosowaniem narzędzi matematycznych i informatycznych do rozwiązywania problemów biologii (głównie biologii molekularnej) i zagadnień biotechnologicznych. Podstawowymi poddziedzinami bioinformatyki są: genomika, proteomika, transkryptomika i metabolomika. in vivo – badania przyżyciowe; mało możliwości manipulacji in situ – w tkance; ograniczone możliwości manipulacji in vitro – w szkle; największe „naturalne” możliwości manipulacji in silico – w komputerze; możliwość analizowania wszelkich, nawet pozornie niemożliwych układów Bioinformatyczne bazy danych : •BAZA DANYCH jest to uporządkowany zbiór danych o określonej strukturze, który zarządzany jest przez system DBMS. •DBSM - DataBase Management System NCBI – National Center for Biotechnology Information EBI – European Bioinformatics Institute RCSB PDB – Research Collaboratory for Structural Bioinformatics ExPASy – Expert Protein Analysis System Proteomics Server Pfam – Protein family (obecnie pod Sanger Institute) HGP – The Human Genome Project Podstawowe elementy komputera Komputer - urządzenie elektroniczne służące do przetwarzania wszelkich informacji, które da się zapisać w formie ciągu cyfr, albo sygnału ciągłego. Większość współczesnych komputerów opartych jest na tzw. architekturze von Neumanna (od nazwiska Johna von Neumanna), tj. składa się z trzech podstawowych elementów: •procesora - podzielonego na część arytmetyczno-logiczną czyli układu, który faktycznie wykonuje wszystkie konieczne obliczenia oraz część sterującą •pamięci RAM - (od ang. Random Access Memory) czyli układy scalone, które przechowują program i dane (umożliwia to m.in. samomodyfikację programu) oraz bieżące wyniki obliczeń procesora i stale, na bieżąco wymienia dane z procesorem •urządzeń wejścia/wyjścia - które służą do komunikacji komputera z otoczeniem. Przykładowe zadanie: Bez użycia myszki wklej do bieżącego dokumentu grafikę z poprzednich zajęć (tekst w czerwonej ramce ). Rozciągnąć obrazek na całą szerokość strony i podpisać go zmieniając rozmiar czcionki. Zapisać dokument i zamknąć. Opisać jak wykonano ćwiczenie bez użycia myszki. Powyższy obrazek opisuje niezapomniane wakacje w Gambii, które zmieniają życie wczasowiczów. Odpowiedź: Posługując się klawiszami alt+tab przechodzimy do menu folderów, następnie strzałkami przechodzimy na folder tekst1.gif i za pomocą Entera otwieramy go. Następnie w pliku Word za pomocą klawisza alt weszliśmy do meni i posługując się strzałkami wybraliśmy opcję wstaw obraz z pliku (wybierając plik tekst1.gif). Następnie wstawiony obrazek zaznaczyliśmy klawiszami Shift+strzałka i za pomocą klawisza menu podręczne zmieniliśmy rozmiar naszego obrazu. Pod obrazem opisałam go, a następnie tekst sformatowałam: Shift+strzałka – zaznaczanie tekstu Carl+B – pogrubienie tekstu Carl+i – kursywa. Za pomocą alta i strzałek przeszłam do format, a następnie czcionka, by zmienić czcionkę tekstu. Zadanie 1. Wykorzystać tekst z przykładowego zadania: a)czy w każdym wersie jest tyle samo znaków b)która z nich jest najdłuższa, a która najkrótsza c)czy wszystkie sekwencje w pozycji 7 mają ten sam znak d)który znak występuję najczęściej w pozycji 7 i jaki jest jego udział wyrażony w procentach e)czy fragmenty sekwencji pozycja 5 +- 3 we wszystkich wersjach są podobne (zastosować czcionkę Curier New, a następnie za pomocą alt i myszki możemy zaznaczyć interesującą nas kolumnę) Podstaw korzystania z Internetu Internet - „międzysieć” ogólnoświatowa sieć komputerowa, czyli grupa komputerów lub innych urządzeń połączonych ze sobą w celu wymiany danych lub współdzielenia różnych zasobów. Sieć komputerowa i serwer - Sieć globalna, sieć rozległa (Wide Area Network, WAN) - sieć komputerowa zasięgiem obejmująca duży obszar geograficzny (np. cały kraj); najpopularniejszą siecią rozległą jest internet. Zazwyczaj składa się z wielu połączonych sieci lokalnych. Sieć lokalna (Local Area Network, LAN) IP (Internet Protocol )– wewnątrzsieciowy protokół transmisji danych w formie pakietów. TCP/IP (Transmission Control Protocol / Internet Protocol) Adres IP - unikalna nazwa każdego urządzenia w sieci opartej na protokole TCP/IP wyrażona czterema oktetami oddzielonymi kropkami: Oktet w praktyce oznacza 8 bitów, czyli 1 bajt i odpowiada jednej z cyfr od 0 do 255 najmniej rozległa postać sieci komputerowej obejmująca często kilka komputerów w jednym budynku. Serwer - program (potocznie również komputer, na którym zainstalowany jest program) umożliwiający udostępnianie lub wymianę danych między komputerami połączonymi w sieć komputerową. Serwis internetowy, witryna (website) - serwis informacyjny umieszczony w sieci; najczęściej wirtualny, interaktywny odpowiednik czasopisma, gazety, książki Strona internetowa - cyfrowy dokument kodowany w jednym z języków programistycznych zapewniających hipertekstowość (np. html, xml, php, flash itp. ); kod interpretowany jest przez przeglądarkę internetową i wyświetlany w postaci odpowiednio sformatowanego tekstu; serwis internetowy składa się z serii połączonych tematycznie i fizycznie (hiperłączami) stron internetowych; odpowiednik kartki lub akapitu w książce, gazecie http (Hypertext Transfer Protocol - protokół przesyłania dokumentów hypertekstowych) to protokół sieci WWW. Za pomocą protokołu HTTP przesyła się żądania udostępnienia dokumentów WWW i informacje o kliknięciu odnośnika oraz informacje z formularzy. Zadaniem stron WWW jest publikowanie informacji - natomiast protokół HTTP właśnie to umożliwia. ftp (File Transfer Protocol) - protokół, który umożliwia przesyłanie plików z i na serwer poprzez sieć TCP/IP. WWW (World Wide Web) - (w skrócie określany jako WWW lub Web) jest hipertekstowym, multimedialnym, sieciowym (TCP/IP) systemem informacyjnym opartym na publicznie dostępnych, otwartych standardach IETF i W3C. Pierwotnym i w chwili obecnej nadal podstawowym zadaniem WWW jest publikowanie informacji. Zadanie przykładowe: Wybrany tekst zapisać w pliku tekstowym nie sformatowanym definicję bioinformatyki zapisać plik i zmienić mu rozszerzenie na HTML, otworzyć za pomocą domyślnej przeglądarki internetowej. Do edycji kodu HTML służy edytor tekstu (najlepiej niesformatowanego), do oglądania sformatowanego tekstu, wyniku służy przeglądarka. Przeglądarka jest to program służący do przeglądania stron internetowych, umie zinterpretować język w jakim jest napisana strona umie zinterpretować kod do konkretnego efektu. Znaczniki < > <b> text </b> b – bold, wytłuść <u> podkreślenie <i> kursywa <p> akapit <u><b><i>...<i><b><u> <center> wyśrodkowanie <h1> nagłówek <h2, 3, 4> nagłówki, podpunkty <br /> nowa linijka (enter), zamykane przy ich otwarciu <img src=” „/> rysunek, obrazek <a href=’’ ‘’> tekst linku <a/> link Zadanie 1 Jaki jest adres IP komputera, na którym zainstalowany jest serwis internetowy. Następnie wkleić ten adres w postaci cyferek w pasku adresu przeglądarki internetowej i sprawdzić czy otwiera się prawidłowa strona. Porównać i opisać strukturę strony WWW i IP strony. Zadanie 2 Określ jakie jest IP twojego serwera mailowego, jakich używa protokołów, w jakim kraju zarejestrowana jest domena twojego serwera mailowego. Korzystanie z biologicznych baz danych Tabela - jest podstawowym obiektem bazy danych stanowiąca zbiór informacji przedstawiona zwykle jako układ poziomych wierszy (rekordów) i kolumn (pól). Kwerenda to obiekt bazy danych zawierających grupę rekordów po selekcji. Jest to żądanie okazania określonego zbioru danych. Kwerenda jest narzędziem, która zbiera dane z różnych tabel aby odpowiedzieć na pytanie zadane przez użytkownika. Jest podstawowym narzędziem analizy w bazie danych. Formularz - jest to obiekt w którym umieszczamy formanty umożliwiające wprowadzanie, wyświetlanie i edycję danych. Raporty - zawierają dane z tabel lub kwerend uporządkowane w żądany przez użytkownika sposób. Rekord - zestaw informacji o pojedynczym elemencie tabeli bazy danych. W rekordzie powinno znaleźć się pole, które umożliwia jednoznacznie zidentyfikowanie rekordu, czyli klucz. Klucz - atrubut nałożony na pole, zwykle w celu uniknięcia duplikowania się wartości. Kluczem identyfikującym może być kilka pól. Cele i powody gromadzenia danych biologicznych fizycznie wszystkie dane znajdują się w jednym miejscu logiczne i uporządkowane gromadzenie danych według zaprojektowanego schematu łatwy dostęp do uporządkowanych i etykietowanych danych cyfrowe formaty danych dają wiele możliwości analitycznych: swobodne przekonwertowywanie między formatami szybka i 100% skuteczna analiza porównawcza dowolnej ilości danych praktycznie brak błędów precyzyjne selekcjonowanie interesujących nas informacji Zadanie przykładowe: Wybrać konkretne białko w konkretnym organizmie (lub gen), przeszukać bazy danych za pomocą najbardziej ogólnego sformułowania dotyczącego tego białka i zapisać ilość rekordów. LOCUS AAT36651 105 aa linear PRI 31-MAY-2004 DEFINITION hemoglobin beta [Homo sapiens]. ACCESSION AAT36651 VERSION AAT36651.1 GI:47679341 DBSOURCE accession AY605052.1 KEYWORDS . SOURCE Homo sapiens (human) ORGANISM Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini; Catarrhini; Hominidae; Homo. REFERENCE 1 (residues 1 to 105) AUTHORS Atalay,E.O., Elam,D., Nechtman,J., Kutlar,A. and Kutlar,F. TITLE Hemoglobin G-Coushatta: A beta chain variant found in a Turkish family JOURNAL Unpublished REFERENCE 2 (residues 1 to 105) AUTHORS Atalay,E.O., Elam,D., Nechtman,J., Kutlar,A. and Kutlar,F. TITLE Direct Submission JOURNAL Submitted (23-APR-2004) Medicine/Hematology-Oncology/Hemoglobin DNA Laboratory, Medical College of Georgia, 15th Street, Laney Walker Blv. AC-1000, Augusta, GA 30912, USA FEATURES Location/Qualifiers source 1..105 /organism="Homo sapiens" /db_xref="taxon:9606" /chromosome="11" /map="11p15.5" /tissue_type="blood" Protein 1..>105 /product="hemoglobin beta" CDS 1..105 /gene="HBB" /allele="HBB-G-Coushatta" /coded_by="join(AY605052.1:7..98,AY605052.1:229..>451)" ORIGIN 1 mvhltpeeks avtalwgkvn vdavggealg rllvvypwtq rffesfgdls tpdavmgnpk 61 vkahgkkvlg afsdglahld nlkgtfatls elhcdklhvd penfr Zadanie 1 Based on the results obtained in your search on “All databases” (Entrez), please answer: a. What is your selected organism? (Click on the taxonomy link.) b. Can you find its scientific and common name? (Click on the taxonomy link.) c. Is there a complete genome sequence for the selected organism? (Click on genomes.) d. Has any population level/evolutionary study been performed on the organism? (Click on PopSet.) [Patricia Escobar-Paramo Nov. 2004]. Analiza sekwencji białkowych i nukleotydowych (analiza pojedynczej sekwencji; analiza porównawcza dwóch sekwencji - pairwise alignment; analiza porównawcza wielu sekwencji – multiple alignment). Dopasowanie sekwencji : •Dopasowanie/porównywanie •Uliniowienie •Alignment W bioinformatyce, uliniawianie sekwencji to sposób porównywania sekwencji pierwszorzędowej DNA, RNA bądź białek w celu identyfikacji regionów podobnych, które mogą być wynikiem funkcjonalnych, strukturalnych bądź ewolucyjnych związków pomiędzy sekwencjami. Uliniowione sekwencje rezyduów nukleotydów bądź aminokwasów zwykle są przedstawiane jako wiersze macierzy. Pomiędzy znaki wstawiane są przerwy w taki sposób, aby zapewnić jak największą zgodność porównywanych sekwencji. Jeśli dwie uliniawiane sekwencje pochodzą od wspólnego przodka niezgodności mogą być interpretowane jako mutacje punktowe, natomiast przerwy jako mutacje insercji bądź delecji w jednej z sekwencji, natomiast poziom podobieństwa sekwencji świadczy o tym, jak bardzo konserwatywne są porównywane sekwencje bądź domeny. Małe zmiany w danym rejonie mogą świadczyć o wysokiej wadze danej domeny dla zachowania funkcji białka (mogą to być również zmiany aminokwasów na inne o podobnych właściwościach biochemicznych). Alignment Ułożenie dwóch sekwencji biopolimerów (DNA, RNA lub białka) w celu zidentyfikowania regionów podobieństwa istotnego ze względów ewolucyjnych, strukturalnych lub funkcjonalnych (procedura oraz jej efekt). •dwie sekwencje - pairwise alignment •wiele sekwencji - multiple sequence alignment Metody dopasowania •dopasowanie par sekwencji (pairwise alignment) –Macierz punktowe - dot matrix, dotplot –Programowanie dynamiczne (DP) –Metody słów (k - tuple methods) - szybkie metody stosowane przy przeszukiwaniu baz danych sekwencji z wykorzystaniem programów FASTA i BLAST •dopasowanie wielu sekwencji (multiple alignment) Zadanie przykładowe: Wyszukać sekwencje homologiczne za pomocą BLAST do podanej sekwencji >gi|47679341|gb|AAT36651.1| hemoglobin beta [Homo sapiens] MVHLTPEEKSAVTALWGKVNVDAVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLG AFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFR Rozwiązanie: Znalezione sekwencje 7,156,232, dopasowane 5108, wszystkie bazy danych 2,468,578,431. Długość sekwencji 105 aa. Najlepiej dopasowana sekwencja hemoglobin beta Homo sapiens S=216, prawdopodobieństwo, że podobieństwo tej sekwencji do naszej jest przypadkowe (E)=3,6e-55. najsłabiej dopasowana Hemoglobin subunit beta S=206, E=5e-52, macierz substytucji: BLOSUM62, kara za przerwy 11, 1, liczba sekwencji: 7156232, wielkość okna: 10, wielkość liter 3. Zadanie 1 Mając sekwencję: >z907770 mlqtglakfgshfteaevqqlvnstdvdkngfidygefnvfaqnltieei kgiknifanlkddnsgtitypdlrssmnqygdpdhsvmsniisevdtdrd gklkydeflttsleqnkmhqedmllkafkhfdkdhntfinldesetglil dksaddiraaytfarelgrgqlgvtyivkdksngeffacksisqrklrht eeredvrreiqimrhltsqpnlvnikggfedkesvhlvmelctageafdr iikrghyseraaadifagivnvvdfchlsgvmhrklkpenflflnkheds lmkttdfgvsvfikqgriyteivgssyyvapevlqrsygqeldmwsagvi myillcgippfwaetergiaeailkgdldyqgepwpgisnsakpllrrml eddpskrltaaqmlphpwi Scharakteryzuj ją, używając: dot-plot, multiple alignment, blast Zadanie 2 Mając dwie sekwencje, porównaj je za pomocą matryc PAM i BLOSUM >gi|160797|gb|AAA29796.1| hemoglobin MHSSIVLATVLFVAIASASKTRELCMKSLEHAKVGTSKEAKQDGIDLYKHMFEHYPAMKKYFKHRENYTP ADVQKDPFFIKQGQNILLACHVLCATYDDRETFDAYVGELMARHERDHVKVPNDVWNHFWEHFIEFLGSK TTLDEPTKHAWQEIGKEFSHEISHHGRHSVRDHCMNSLEYIAIGDKEHQKQNGIDLYKHMFEHYPHMRKA FKGRENFTKEDVQKDAFFVNKDTRFCWPFVCCDSSYDDEPTFDYFVDALMDRHIKDDIHLPQEQWHEFWK LFAEYLNEKSHQHLTEAEKHAWSTIGEDFAHEADKHAKAEKDHHEGEHKEEHH >gi|125661837|gb|ABN49927.1| hemoglobin [Myrica gale] MSTVEGREFSEDQEALVVKSWTVMKLNAGELALKFFLKIFEIAPTAQKLFSYLKDSNVPLERNSKLKSHA TNVFMMTCESAVQLRKAGKVTVTESSLKRIGDVHFKLQVVDEHYEVTRFALLETIKEAVPEMWSPEMKNA WGEAYDQLVSAIKTEMKPPS Elementy filogenetyki molekularnej Filogenetyka molekularna to nauka badająca genetyczne podobieństwa i zależności ewolucyjne pomiędzy organizmami, lub pojedynczymi genami. Zależności te prezentowane są najczęściej przy pomocy drzewa filogenetycznego. Zadanie 1 Genetare the nucleotide sequence alignment and answer the following questions: What are each of these polymorphisms called in the context of phylogenetic analysis? Which one of them is used in parsimony analysis and which one is used in maximum likelihood analysis? In your opinion, is this a good gene for phylogenetic inference? Give a brief explanation of your reasoning [Patricia Escobar-Paramo Nov. 2004]. Elementy modelowania molekularnego i wizualizacji biomolekuł Modelowanie molekularne Grafika wektorowa (obiektowa) Opisanie obrazu za pomocą prostych figur geometrycznych - prymitywów; polega na generowaniu obrazu na podstawie jego matematycznego opisu, który określa pozycję, długość i kierunek prowadzonych linii. Obrazy wektorowe są kolekcjami wektorów, a nie punktów, jak w wypadku grafiki rastrowej. Tworzenie modeli Symulacje Grafika rastrowa Metoda tworzenia grafiki komputerowej traktująca obraz jako zbiór bardzo małych niezależnych od siebie punktów tej samej wielkości (pikseli) ułożonych równo w wierszach i kolumnach. Rastrem nazywa się siatkę takich punktów. Pliki rastrowe nazywa się również Budowanie modelu Przewidywanie struktur plikami bitmapowymi. Typowe formaty plików rastrowych to BMP, TIFF, GIF i JPEG. Rendering Przewidywanie Dynamika molekularna Jest to generowanie obrazu z modelu zapisanego w pliku cyfrowym. OpenGL, Direct3D (DirectX) Wizualizacja są to biblioteki programistyczne składające się z zestawów funkcji instalowanych na odpowiednich platformach systemowych służące do obsługi grafiki (lub głównie grafiki). Ray tracing (śledzenia promienia) – jedna z technik renderingu. Rodzaje modeli i modelowania 1. Modelowanie obiektu 2. Modelowanie otoczenia 3. Modelowanie zjawiska RasWin służy do wizualizacji związków chemicznych. Po otworzeniu odpowiedniego pliku zawierającego interesującą nas cząsteczkę, używając tego programu, możemy przedstawić ją w różnych formach przestrzennych, zaznaczyć interesujące nas atomy, grupy atomów, wiązania wodorowe, mostki siarczkowe, bądź konkretne części charakterystyczne dla oglądanych związków chemicznych (mogą to być związki organiczne, białka a nawet RNA lub DNA). Program ten nie posiada w swojej pamięci struktur związków chemicznych, służy on do odtwarzania gotowych modeli przestrzennych cząsteczek, więc aby był on w pełni użyteczny, należy dysponować biblioteką danych dla interesujących nas związków. W internecie znajdują się gotowe pliki z danymi do tego programu pod następującymi adresami: http://www.sci.ouc.bc.ca/chem/molecule/molecule.html (adres bazy gdzie znajduje się ponad 1250 związków uszeregowanych w kategorie tematyczne np. alkany, aromatyczne, leki, witaminy itp). http://mc2.cchem.berkeley.edu/Smells/ (można tu znaleźć ciekawe związki zapachowe). http://www.nyu.edu/pages/mathmol/library/. http://www.rcsb.org/pdb/ (baza danych: Protein Data Bank) [www.biogeo.uw.edu.pl/]. Zadanie 1 Wybrane białko otwórz za pomocą programu RasWin. Przedstaw je w różnych formach przestrzennych, zaznaczyć wybrane atomy, grupy atomów, wiązania wodorowe, mostki siarczkowe, bądź konkretne części charakterystyczne dla oglądanych związków chemicznych. Przydatne linki NCBI – GenBank EBI – EMBL DDBJ – DDBJ (http://www.ncbi.nlm.nih.gov/Genbank/index.html) (http://www.ebi.ac.uk/embl/) (http://www.ddbj.nig.ac.jp/index-e.html)