Konspekt projektu naszego z bioinformatyki

advertisement
Spis treści
1.Wstęp teoretyczny do przedmiotu bioinformatyka
2.Zadania z podstaw informatyki i obsługi komputera
3.Zadania z podstaw korzystania z Internetu
4.Korzystanie z biologicznych baz danych
5.Analiza sekwencji białkowych i nukleotydowych
6.Elementy filogenetyki molekularnej
7.Elementy modelowania molekularnego i wizualizacji biomolekuł
8.Przydatne linki
Wstęp teoretyczny
Bioinformatyka - dyscyplina nauk biologicznych wywodząca się z biotechnologii
(genetyki), zajmująca się stosowaniem narzędzi matematycznych i informatycznych do
rozwiązywania problemów biologii (głównie biologii molekularnej) i zagadnień
biotechnologicznych. Podstawowymi poddziedzinami bioinformatyki są: genomika,
proteomika, transkryptomika i metabolomika.
in vivo – badania przyżyciowe; mało możliwości manipulacji
in situ – w tkance; ograniczone możliwości manipulacji
in vitro – w szkle; największe „naturalne” możliwości manipulacji
in silico – w komputerze; możliwość analizowania wszelkich,
nawet pozornie niemożliwych układów
Bioinformatyczne bazy danych :
•BAZA DANYCH jest to uporządkowany zbiór danych o określonej strukturze, który
zarządzany jest przez system DBMS.
•DBSM - DataBase Management System
NCBI – National Center for Biotechnology Information
EBI – European Bioinformatics Institute
RCSB PDB – Research Collaboratory for Structural Bioinformatics
ExPASy – Expert Protein Analysis System Proteomics Server
Pfam – Protein family (obecnie pod Sanger Institute)
HGP – The Human Genome Project
Podstawowe elementy komputera
Komputer - urządzenie elektroniczne służące do przetwarzania wszelkich informacji, które
da się zapisać w formie ciągu cyfr, albo sygnału ciągłego.
Większość współczesnych komputerów opartych jest na tzw. architekturze von Neumanna
(od nazwiska Johna von Neumanna), tj. składa się z trzech podstawowych elementów:
•procesora
- podzielonego na część arytmetyczno-logiczną czyli układu, który faktycznie
wykonuje wszystkie konieczne obliczenia oraz część sterującą
•pamięci RAM - (od ang. Random Access Memory) czyli układy scalone, które
przechowują program i dane (umożliwia to m.in. samomodyfikację programu) oraz
bieżące wyniki obliczeń procesora i stale, na bieżąco wymienia dane z procesorem
•urządzeń wejścia/wyjścia - które służą do komunikacji komputera z otoczeniem.
Przykładowe zadanie:
Bez użycia myszki wklej do bieżącego dokumentu grafikę z poprzednich zajęć (tekst w
czerwonej ramce ). Rozciągnąć obrazek na całą szerokość strony i podpisać go zmieniając
rozmiar czcionki. Zapisać dokument i zamknąć. Opisać jak wykonano ćwiczenie bez użycia
myszki.
Powyższy obrazek opisuje niezapomniane wakacje w Gambii, które zmieniają życie
wczasowiczów.
Odpowiedź:
Posługując się klawiszami alt+tab przechodzimy do menu folderów, następnie strzałkami
przechodzimy na folder tekst1.gif i za pomocą Entera otwieramy go. Następnie w pliku Word
za pomocą klawisza alt weszliśmy do meni i posługując się strzałkami wybraliśmy opcję
wstaw obraz z pliku (wybierając plik tekst1.gif). Następnie wstawiony obrazek
zaznaczyliśmy klawiszami Shift+strzałka i za pomocą klawisza menu podręczne zmieniliśmy
rozmiar naszego obrazu. Pod obrazem opisałam go, a następnie tekst sformatowałam:
Shift+strzałka – zaznaczanie tekstu
Carl+B – pogrubienie tekstu
Carl+i – kursywa.
Za pomocą alta i strzałek przeszłam do format, a następnie czcionka, by zmienić czcionkę
tekstu.
Zadanie 1.
Wykorzystać tekst z przykładowego zadania:
a)czy w każdym wersie jest tyle samo znaków
b)która z nich jest najdłuższa, a która najkrótsza
c)czy wszystkie sekwencje w pozycji 7 mają ten sam znak
d)który znak występuję najczęściej w pozycji 7 i jaki jest jego udział wyrażony w
procentach
e)czy fragmenty sekwencji pozycja 5 +- 3 we wszystkich wersjach są podobne
(zastosować czcionkę Curier New, a następnie za pomocą alt i myszki możemy zaznaczyć
interesującą nas kolumnę)
Podstaw korzystania z Internetu
Internet - „międzysieć” ogólnoświatowa sieć komputerowa, czyli grupa komputerów lub
innych urządzeń połączonych ze sobą w celu wymiany danych lub
współdzielenia różnych zasobów.
Sieć komputerowa i serwer - Sieć globalna, sieć rozległa (Wide Area Network, WAN) - sieć
komputerowa zasięgiem obejmująca duży obszar geograficzny (np. cały kraj);
najpopularniejszą siecią rozległą jest internet. Zazwyczaj składa się z wielu połączonych sieci
lokalnych.
Sieć lokalna (Local Area Network, LAN)
IP (Internet Protocol )– wewnątrzsieciowy protokół transmisji danych w formie pakietów.
TCP/IP (Transmission Control Protocol / Internet Protocol)
Adres IP - unikalna nazwa każdego urządzenia w sieci opartej na protokole TCP/IP
wyrażona czterema oktetami oddzielonymi kropkami:
Oktet w praktyce oznacza 8 bitów, czyli 1 bajt i odpowiada jednej z cyfr od 0 do 255
najmniej rozległa postać sieci komputerowej obejmująca często kilka komputerów w jednym
budynku.
Serwer - program (potocznie również komputer, na którym zainstalowany jest program)
umożliwiający udostępnianie lub wymianę danych między komputerami połączonymi w sieć
komputerową.
Serwis internetowy, witryna (website) - serwis informacyjny umieszczony w sieci;
najczęściej wirtualny, interaktywny odpowiednik czasopisma, gazety, książki
Strona internetowa - cyfrowy dokument kodowany w jednym z języków programistycznych
zapewniających hipertekstowość (np. html, xml, php, flash itp. ); kod interpretowany jest
przez przeglądarkę internetową i wyświetlany w postaci odpowiednio sformatowanego
tekstu; serwis internetowy składa się z serii połączonych tematycznie i fizycznie
(hiperłączami) stron internetowych;
odpowiednik kartki lub akapitu w książce, gazecie
http (Hypertext Transfer Protocol - protokół przesyłania dokumentów hypertekstowych)
to protokół sieci WWW. Za pomocą protokołu HTTP przesyła się żądania udostępnienia
dokumentów WWW i informacje o kliknięciu odnośnika oraz informacje z formularzy.
Zadaniem stron WWW jest publikowanie informacji - natomiast protokół HTTP właśnie to
umożliwia.
ftp (File Transfer Protocol) - protokół, który umożliwia przesyłanie plików z i na serwer
poprzez sieć TCP/IP.
WWW (World Wide Web) - (w skrócie określany jako WWW lub Web) jest hipertekstowym,
multimedialnym, sieciowym (TCP/IP) systemem informacyjnym opartym na publicznie
dostępnych, otwartych standardach IETF i W3C. Pierwotnym i w chwili obecnej nadal
podstawowym zadaniem WWW jest publikowanie informacji.
Zadanie przykładowe:
Wybrany tekst zapisać w pliku tekstowym nie sformatowanym definicję
bioinformatyki zapisać plik i zmienić mu rozszerzenie na HTML, otworzyć za pomocą
domyślnej przeglądarki internetowej.
Do edycji kodu HTML służy edytor tekstu (najlepiej niesformatowanego), do oglądania
sformatowanego tekstu, wyniku służy przeglądarka.
Przeglądarka jest to program służący do przeglądania stron internetowych, umie
zinterpretować język w jakim jest napisana strona umie zinterpretować kod do konkretnego
efektu.
Znaczniki < >
<b> text </b> b –
bold, wytłuść
<u> podkreślenie
<i>
kursywa
<p> akapit
<u><b><i>...<i><b><u>
<center>
wyśrodkowanie
<h1> nagłówek
<h2, 3, 4>
nagłówki, podpunkty
<br /> nowa linijka (enter), zamykane przy ich otwarciu
<img src=” „/>
rysunek, obrazek
<a href=’’ ‘’>
tekst linku <a/> link
Zadanie 1
Jaki jest adres IP komputera, na którym zainstalowany jest serwis internetowy. Następnie
wkleić ten adres w postaci cyferek w pasku adresu przeglądarki internetowej i sprawdzić czy
otwiera się prawidłowa strona. Porównać i opisać strukturę strony WWW i IP strony.
Zadanie 2
Określ jakie jest IP twojego serwera mailowego, jakich używa protokołów, w jakim kraju
zarejestrowana jest domena twojego serwera mailowego.
Korzystanie z biologicznych baz danych
Tabela - jest podstawowym obiektem bazy danych stanowiąca zbiór informacji
przedstawiona zwykle jako układ poziomych wierszy (rekordów) i kolumn (pól).
Kwerenda to obiekt bazy danych zawierających grupę rekordów po selekcji. Jest to żądanie
okazania określonego zbioru danych. Kwerenda jest narzędziem, która zbiera dane z różnych
tabel aby odpowiedzieć na pytanie zadane przez użytkownika. Jest podstawowym narzędziem
analizy w bazie danych.
Formularz - jest to obiekt w którym umieszczamy formanty umożliwiające wprowadzanie,
wyświetlanie i edycję danych.
Raporty - zawierają dane z tabel lub kwerend uporządkowane w żądany przez użytkownika
sposób.
Rekord - zestaw informacji o pojedynczym elemencie tabeli bazy danych. W rekordzie
powinno znaleźć się pole, które umożliwia jednoznacznie zidentyfikowanie rekordu, czyli
klucz.
Klucz - atrubut nałożony na pole, zwykle w celu uniknięcia duplikowania się wartości.
Kluczem identyfikującym może być kilka pól.
Cele i powody gromadzenia danych biologicznych
fizycznie wszystkie dane znajdują się w jednym miejscu
 logiczne i uporządkowane gromadzenie danych według zaprojektowanego schematu
 łatwy dostęp do uporządkowanych i etykietowanych danych
 cyfrowe formaty danych dają wiele możliwości analitycznych:
swobodne przekonwertowywanie między formatami
szybka i 100% skuteczna analiza porównawcza dowolnej ilości danych
praktycznie brak błędów
 precyzyjne selekcjonowanie interesujących nas informacji
Zadanie przykładowe:
Wybrać konkretne białko w konkretnym organizmie (lub gen), przeszukać bazy danych za
pomocą najbardziej ogólnego sformułowania dotyczącego tego białka i zapisać ilość
rekordów.
LOCUS
AAT36651
105 aa
linear PRI 31-MAY-2004
DEFINITION hemoglobin beta [Homo sapiens].
ACCESSION AAT36651
VERSION AAT36651.1 GI:47679341
DBSOURCE accession AY605052.1
KEYWORDS .
SOURCE
Homo sapiens (human)
ORGANISM Homo sapiens
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
Catarrhini; Hominidae; Homo.
REFERENCE 1 (residues 1 to 105)
AUTHORS Atalay,E.O., Elam,D., Nechtman,J., Kutlar,A. and Kutlar,F.
TITLE Hemoglobin G-Coushatta: A beta chain variant found in a Turkish
family
JOURNAL Unpublished
REFERENCE 2 (residues 1 to 105)
AUTHORS Atalay,E.O., Elam,D., Nechtman,J., Kutlar,A. and Kutlar,F.
TITLE Direct Submission
JOURNAL Submitted (23-APR-2004) Medicine/Hematology-Oncology/Hemoglobin DNA
Laboratory, Medical College of Georgia, 15th Street, Laney Walker
Blv. AC-1000, Augusta, GA 30912, USA
FEATURES
Location/Qualifiers
source
1..105
/organism="Homo sapiens"
/db_xref="taxon:9606"
/chromosome="11"
/map="11p15.5"
/tissue_type="blood"
Protein
1..>105
/product="hemoglobin beta"
CDS
1..105
/gene="HBB"
/allele="HBB-G-Coushatta"
/coded_by="join(AY605052.1:7..98,AY605052.1:229..>451)"
ORIGIN
1 mvhltpeeks avtalwgkvn vdavggealg rllvvypwtq rffesfgdls tpdavmgnpk
61 vkahgkkvlg afsdglahld nlkgtfatls elhcdklhvd penfr
Zadanie 1
Based on the results obtained in your search on “All databases” (Entrez), please answer:
a. What is your selected organism? (Click on the taxonomy link.)
b. Can you find its scientific and common name? (Click on the taxonomy link.)
c. Is there a complete genome sequence for the selected organism? (Click on genomes.)
d. Has any population level/evolutionary study been performed on the organism? (Click on
PopSet.) [Patricia Escobar-Paramo Nov. 2004].
Analiza sekwencji białkowych i nukleotydowych (analiza pojedynczej sekwencji; analiza
porównawcza dwóch sekwencji - pairwise alignment; analiza porównawcza wielu sekwencji
– multiple alignment).
Dopasowanie sekwencji :
•Dopasowanie/porównywanie
•Uliniowienie
•Alignment
W bioinformatyce, uliniawianie sekwencji to sposób porównywania sekwencji
pierwszorzędowej DNA, RNA bądź białek w celu identyfikacji regionów podobnych, które
mogą być wynikiem funkcjonalnych, strukturalnych bądź ewolucyjnych związków pomiędzy
sekwencjami. Uliniowione sekwencje rezyduów nukleotydów bądź aminokwasów zwykle są
przedstawiane jako wiersze macierzy. Pomiędzy znaki wstawiane są przerwy w taki sposób,
aby zapewnić jak największą zgodność porównywanych sekwencji. Jeśli dwie uliniawiane
sekwencje pochodzą od wspólnego przodka niezgodności mogą być interpretowane jako
mutacje punktowe, natomiast przerwy jako mutacje insercji bądź delecji w jednej z
sekwencji, natomiast poziom podobieństwa sekwencji świadczy o tym, jak bardzo
konserwatywne są porównywane sekwencje bądź domeny. Małe zmiany w danym rejonie
mogą świadczyć o wysokiej wadze danej domeny dla zachowania funkcji białka (mogą to być
również zmiany aminokwasów na inne o podobnych właściwościach biochemicznych).
Alignment
Ułożenie dwóch sekwencji biopolimerów (DNA, RNA lub białka) w celu zidentyfikowania
regionów podobieństwa istotnego ze względów ewolucyjnych, strukturalnych lub
funkcjonalnych (procedura oraz jej efekt).
•dwie sekwencje - pairwise alignment
•wiele sekwencji - multiple sequence alignment
Metody dopasowania
•dopasowanie par sekwencji (pairwise alignment)
–Macierz punktowe - dot matrix, dotplot
–Programowanie dynamiczne (DP)
–Metody słów (k - tuple methods) - szybkie metody stosowane przy
przeszukiwaniu baz danych sekwencji z wykorzystaniem programów FASTA i
BLAST
•dopasowanie wielu sekwencji (multiple alignment)
Zadanie przykładowe:
Wyszukać sekwencje homologiczne za pomocą BLAST do podanej sekwencji
>gi|47679341|gb|AAT36651.1| hemoglobin beta [Homo sapiens]
MVHLTPEEKSAVTALWGKVNVDAVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLG
AFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFR
Rozwiązanie:
Znalezione sekwencje 7,156,232, dopasowane 5108, wszystkie bazy danych 2,468,578,431.
Długość sekwencji 105 aa. Najlepiej dopasowana sekwencja hemoglobin beta Homo sapiens
S=216, prawdopodobieństwo, że podobieństwo tej sekwencji do naszej jest przypadkowe
(E)=3,6e-55. najsłabiej dopasowana Hemoglobin subunit beta S=206, E=5e-52, macierz
substytucji: BLOSUM62, kara za przerwy 11, 1, liczba sekwencji: 7156232, wielkość okna:
10, wielkość liter 3.
Zadanie 1
Mając sekwencję:
>z907770
mlqtglakfgshfteaevqqlvnstdvdkngfidygefnvfaqnltieei
kgiknifanlkddnsgtitypdlrssmnqygdpdhsvmsniisevdtdrd
gklkydeflttsleqnkmhqedmllkafkhfdkdhntfinldesetglil
dksaddiraaytfarelgrgqlgvtyivkdksngeffacksisqrklrht
eeredvrreiqimrhltsqpnlvnikggfedkesvhlvmelctageafdr
iikrghyseraaadifagivnvvdfchlsgvmhrklkpenflflnkheds
lmkttdfgvsvfikqgriyteivgssyyvapevlqrsygqeldmwsagvi
myillcgippfwaetergiaeailkgdldyqgepwpgisnsakpllrrml
eddpskrltaaqmlphpwi
Scharakteryzuj ją, używając: dot-plot, multiple alignment, blast
Zadanie 2
Mając dwie sekwencje, porównaj je za pomocą matryc PAM i BLOSUM
>gi|160797|gb|AAA29796.1| hemoglobin
MHSSIVLATVLFVAIASASKTRELCMKSLEHAKVGTSKEAKQDGIDLYKHMFEHYPAMKKYFKHRENYTP
ADVQKDPFFIKQGQNILLACHVLCATYDDRETFDAYVGELMARHERDHVKVPNDVWNHFWEHFIEFLGSK
TTLDEPTKHAWQEIGKEFSHEISHHGRHSVRDHCMNSLEYIAIGDKEHQKQNGIDLYKHMFEHYPHMRKA
FKGRENFTKEDVQKDAFFVNKDTRFCWPFVCCDSSYDDEPTFDYFVDALMDRHIKDDIHLPQEQWHEFWK
LFAEYLNEKSHQHLTEAEKHAWSTIGEDFAHEADKHAKAEKDHHEGEHKEEHH
>gi|125661837|gb|ABN49927.1| hemoglobin [Myrica gale]
MSTVEGREFSEDQEALVVKSWTVMKLNAGELALKFFLKIFEIAPTAQKLFSYLKDSNVPLERNSKLKSHA
TNVFMMTCESAVQLRKAGKVTVTESSLKRIGDVHFKLQVVDEHYEVTRFALLETIKEAVPEMWSPEMKNA
WGEAYDQLVSAIKTEMKPPS
Elementy filogenetyki molekularnej
Filogenetyka molekularna to nauka badająca genetyczne podobieństwa i zależności
ewolucyjne pomiędzy organizmami, lub pojedynczymi genami. Zależności te prezentowane
są najczęściej przy pomocy drzewa filogenetycznego.
Zadanie 1
Genetare the nucleotide sequence alignment and answer the following questions:
What are each of these polymorphisms called in the context of phylogenetic analysis? Which
one of them is used in parsimony analysis and which one is used in maximum likelihood
analysis? In your opinion, is this a good gene for phylogenetic inference? Give a brief
explanation of your reasoning [Patricia Escobar-Paramo Nov. 2004].
Elementy modelowania molekularnego i wizualizacji biomolekuł
Modelowanie molekularne
Grafika wektorowa (obiektowa)
Opisanie obrazu za pomocą prostych figur geometrycznych - prymitywów; polega na
generowaniu obrazu na podstawie jego matematycznego opisu, który określa pozycję,
długość i kierunek prowadzonych linii. Obrazy wektorowe są kolekcjami wektorów, a nie
punktów,
jak w wypadku
grafiki rastrowej.
Tworzenie
modeli
Symulacje
Grafika rastrowa
Metoda tworzenia grafiki komputerowej traktująca obraz jako zbiór bardzo małych
niezależnych od siebie punktów tej samej wielkości (pikseli) ułożonych równo w wierszach i
kolumnach.
Rastrem nazywa
się siatkę takich punktów. Pliki rastrowe nazywa się również
Budowanie
modelu
Przewidywanie
struktur
plikami bitmapowymi. Typowe formaty plików rastrowych
to BMP, TIFF, GIF
i JPEG.
Rendering
Przewidywanie
Dynamika molekularna
Jest to generowanie obrazu z modelu zapisanego w pliku cyfrowym.
OpenGL, Direct3D (DirectX)
Wizualizacja
są to biblioteki
programistyczne składające się z zestawów funkcji instalowanych na
odpowiednich platformach systemowych służące do obsługi grafiki (lub głównie grafiki).
Ray tracing (śledzenia promienia) – jedna z technik renderingu.
Rodzaje modeli i modelowania
1. Modelowanie obiektu
2. Modelowanie otoczenia
3. Modelowanie zjawiska
RasWin służy do wizualizacji związków chemicznych. Po otworzeniu odpowiedniego pliku
zawierającego interesującą nas cząsteczkę, używając tego programu, możemy przedstawić ją
w różnych formach przestrzennych, zaznaczyć interesujące nas atomy, grupy atomów,
wiązania wodorowe, mostki siarczkowe, bądź konkretne części charakterystyczne dla
oglądanych związków chemicznych (mogą to być związki organiczne, białka a nawet RNA
lub DNA). Program ten nie posiada w swojej pamięci struktur związków chemicznych, służy
on do odtwarzania gotowych modeli przestrzennych cząsteczek, więc aby był on w pełni
użyteczny, należy dysponować biblioteką danych dla interesujących nas związków. W
internecie znajdują się gotowe pliki z danymi do tego programu pod następującymi adresami:
http://www.sci.ouc.bc.ca/chem/molecule/molecule.html (adres bazy gdzie znajduje się ponad
1250 związków uszeregowanych w kategorie tematyczne np. alkany, aromatyczne, leki,
witaminy itp).
http://mc2.cchem.berkeley.edu/Smells/ (można tu znaleźć ciekawe związki zapachowe).
http://www.nyu.edu/pages/mathmol/library/.
http://www.rcsb.org/pdb/ (baza danych: Protein Data Bank)
[www.biogeo.uw.edu.pl/].
Zadanie 1
Wybrane białko otwórz za pomocą programu RasWin. Przedstaw je w różnych formach
przestrzennych, zaznaczyć wybrane atomy, grupy atomów, wiązania wodorowe, mostki
siarczkowe, bądź konkretne części charakterystyczne dla oglądanych związków
chemicznych.
Przydatne linki
NCBI – GenBank
EBI – EMBL
DDBJ – DDBJ
(http://www.ncbi.nlm.nih.gov/Genbank/index.html)
(http://www.ebi.ac.uk/embl/)
(http://www.ddbj.nig.ac.jp/index-e.html)
Download