Wykład monograficzny Bioinformatyka Bioinformatyka (wykład monograficzny) wykład 3. E. Banachowicz Zakład Biofizyki Molekularnej IF UAM http://www.amu.edu.pl/~ewas http://www.amu.edu.pl/~ewas Rodzaje Mutacji • zmienność sekwencji (sequence variation) – mutacje – polimorfizm • mutacje - zmiany i zmiany odpowiedzialne za choroby • polimorfizm - zmiany nie wywołujące chorób, zmiany spotykane w częściej niż w 1% populacji J.T. den Dunnen, S.E. Antonarakis: Hum Genet 109(1): 121-124, 2001 Wykład 3, 2006 1 Wykład monograficzny Bioinformatyka Rodzaje mutacji • chromosomowa - aberracja chromosomowa to zmiana liczby lub struktury chromosomów. • genomowa - utrata lub pojawienie się dodatkowych pojedynczych chromosomów, lub zwielokrotnieniu całego genomu (poliploidalność) • genowa - zmiana dziedziczna zachodząca w genie, na poziomie kwasu dezoksyrybonukleinowego DNA Poziomy mutacji Opis zmian powinien być dokonywany na najbardziej podstawowym poziomie. Np. w przypadku DNA na sekwencji genomowej lub cDNA Zmiany opisuje się względem sekwencji pierwotnej zdeponowanej w bazie danych: GenBank, EMBL, DDJB, SWISS-Prot. Poziomy: •DNA •RNA •Białko. Wykład 3, 2006 2 Wykład monograficzny Bioinformatyka Mutacje DNA - substytucja Poziom DNA • Substytucja (zamiana) oznaczana przez „>” – 76A > C nukleotyd 76A zamieniony na C – 88+1G > T (IVS2 +1G > T) G zamieniony na T w +1 intronu 2, pozycja 88-89 w odniesieniu do cDNA (+1 : ATG kodon inicjujący translacje, -1: brak zasady 0) Mutacje DNA - delecja Poziom DNA • Delecja (deletion) „del” za nukleotydem oznaczającym delecje – 76_78del (76_78delACT) oznacza usunięcieACT zmiejsca 76 to 78 – – 82_83del (82_83delTG) oznacza usunięcie TG z sekwencji ACTTTGTGCC (G jest 82 nukleotydem) wynik: ACTTTGCC Wykład 3, 2006 3 Wykład monograficzny Bioinformatyka Mutacje DNA - insercja Poziom DNA • Insercja (insertions) „ins” między nukleotydami, oznaczającymi miejsce wstawienia. (uwaga: czasami dodaje się "^"- np. 83^84insTG) – 76_77insT oznacza wstawienie T między nukleotydami 76 a 77 – 83_84insTG oznacza wstawienie TG dosekwencji powtórzeń tandemu TG ACTTTGTGCC (G jest 83 nukleotydem) ACTTTGTGTGCC. Mutacje DNA - insercja/delecja Poziom DNA • insertion/deletions (indels) delecja, po której następuje insercja – 112_117delinsTG •112_117delAGGTCAinsTG •112_117>TG oznacza zastąpienie nukleotydów 112 to 117 (AGGTCA) przez TG Wykład 3, 2006 4 Wykład monograficzny Bioinformatyka Mutacje DNA - powtórzenia Poziom DNA • powtórzenia krótkiej sekwencji (variability of short sequence repeats), np..: ACTGTGTGCC (A jest 1991 nukleotydem) 1993(TG)3-6 –sekwencja zawierająca od miejsca 1993 TGdwunukleotyd, który powtarza się w populacji 3-6 razy • duplikacje (duplications) oznaczane przez „dup” ponukleotydzie oznaczajacym miejsce duplikacji –77_79dupCTG nukleotydy 77 do 79 są powielone – 82_83dupTG (short tandem repeats lub single nucleotide stretches) insercja TG do sekwencji powtórzeń tandemu TG ACTTTGTGCC (A jest 76 nukleotydem) ACTTTGTGTGCC (lub 83_84insTG) Mutacje DNA - inwersja Poziom DNA • Inwersja (inversions) oznaczana „inv” za nukleotydem oznaczającym miejsce rozpoczęcia inwersji. - obrócenie sekwencji o 180o –203_506inv ( 203_506inv304) znacza, że 304 nukleotydy od 203 do 506 zostały odwrócone Wykład 3, 2006 5 Wykład monograficzny Bioinformatyka Mutacje DNA - inne Poziom DNA • translokacja • zmienność w obrębie różnych alleli (choroby recesywne): – [zmiany w 1] + [zmiany w 2] • zmienność w obrębie tego samego allela – [zmiana 1;2;3] Allel jest to jedna z wersji genu w określonym locus na danym chromosomie homologicznym. Mutacje białka - substytucja Poziom białka (pierwotnie opisane przez zmiany na poziomie DNA) • substytucja (zamiana, mutacje punktowe) – „cicha” zamiana nukleotydów nie powodująca zmian w sekwencji aminokwasowej – błędna (missense) W26C zamiana 26-tego tryptofanu na cysteine – nonsensowna (nonsense) W26X zamiana 26-tego tryptofanu na kodon STOP – początkowa metionina (initiating Methionine M1) (M1 V) - niepoprawnie p.? lub p.0 - nie powstaje żadne białko Wykład 3, 2006 6 Wykład monograficzny Bioinformatyka Mutacje białka - delecja Poziom białka • delecja oznaczana przez „del” – K29del w sekwencji CKMGHQQQCC (C jest 28 ak) (usunięcie 29 lizyny) CMGHQQQCC – Q35del w sekwencji CKMGHQQQCC (C jest 28 ak) CKMGHQQCC – C28_M30del usunięcie 3 aminokwasów od Cysteiny 28 do Metioniny 30 Mutacje białka - duplikacja Poziom białka • duplikacja oznaczana przez „dup” – G31_Q22dup w sekwencji CKMGHQQQCC (C jest 28 ak) (duplikacja od G31 doQ33) CKMGHQGHQQQCC – H34_Q35dup duplikacja insercji (tandem HQ) CKMGHQHQCC (C jest 28 ak) CKMGHQHQHQCC (lub Q35_C36insHQ) Wykład 3, 2006 7 Wykład monograficzny Bioinformatyka Mutacje białka - insercja Poziom białka • insercja oznaczana przez „ins” (uwaga czasami używany jest separator „^”: Q83^C84insQ) – K29_M29insQSK wstawienie sekwencji QSK między Lyzynę 29 (K) and Metioninę 30 (M) CKMGHQQQCC CKQSKMGHQQQCC – Q35_C36insQ CKMGHQQQCC CKMGHQQQQCC (a duplicating insertion: Q35dup) Mutacje białka - insercja/delecja Poziom białka • insertion/deletions (indels) delecja trójki nukleotydów, po której nastapiła insercja inne trójki: – C28_K29delinsW delecja dwóch trójek nukleotydów kodujących Cysteine 28 i Lysine 29, zastąpionych kodonem tryptofanu – C28delinsWV usunięcie trójki nukleotydów kodujących cysteinę i wstawieniekodonów for Tryptofanu (W) i waliny (V) Wykład 3, 2006 8 Wykład monograficzny Bioinformatyka Mutacje białka - przesunięcie ramki Poziom białka • frame shifting mutations – R97fsX121 (lub R97fs) przesunięcie ramki odczytu, zmieniające argininę (R97) w pierrwszy amiokwas nowej ramki zakończonej po 23 aminokwasach (X121) Kod genetyczny Wykład 3, 2006 9 Wykład monograficzny Bioinformatyka Bazy danych Niesekwencyjne BazyDanych • • • • bibliograficzne kliniczne genomowe (?) ścieżek metabolicznych (metabolic pathways) • struktur molekularnych Większość jest „kroslinkowanych”i dostepnych za pomocą zwykłych przeglądarek Wykład 3, 2006 10 Wykład monograficzny Bioinformatyka Bibliograficzne bazy danych • PubMed (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PubM ed) • Bookshelf (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Books) • PubCrawler (http://pubcrawler.gen.tcd.ie/) (Scirus, SCOPUS) Kliniczne BazyDanych • OMIM http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM • HGMD http://www.hgmd.cf.ac.uk/ Human Gene Mutation Database • Bazy związane z pojedyńczymi chorobami: – CFTR: http://www.hgmd.cf.ac.uk/ – (LensGDDB) Human Lens Genetic Disease Database http://ken.mitton.com/ern/lensbase.html itd.. Wykład 3, 2006 11 Wykład monograficzny Bioinformatyka Genomowe BazyDanych • GDB - human genom project http://www.gdb.org/ • HGV - Human Variation Genome Society http://www.hgvs.org/ („nie-ludzkie”bazy) • • • • MGI Mause Genom Informatics FlyBase ACeDB idt Bazy sekwencji genów Gene Sequence Database • The International Nucleotide Sequence Database Collaboration: – GenBank (USA) http://www.ncbi.nlm.nih.gov/Genbank/index.html – EMBL (Europa) http://www.ebi.ac.uk/ – DDBJ (Japonia) http://www.ddbj.nig.ac.jp/ – Wykład 3, 2006 12 Wykład monograficzny Bioinformatyka Międzynarodowa baza sekwencji zawiera 100 giga-zasad Bazy Sekwencji Białkowych • SwissProt - Protein knowledgebase (http://www.expasy.ch/) • TrEMBL - Computer-annotated supplement to Swiss-Prot -bezpośrednie tłumaczenieformatu z EMBL na SwissProt • PIR -Protein Information Resorce (http://pir.georgetown.edu/) Wykład 3, 2006 13 Wykład monograficzny Bioinformatyka Strona Białek: ExPASy • strona domowa SwissProt i TrEMBL • zbiór narzędzi bioinformatycznych • jedna z pierwszych stron bioinformatycznych http://www.expasy.ch/ Wykład 3, 2006 14 Wykład monograficzny Bioinformatyka Baza Struktutr Białkowych • Protein DataBank http://pdbbeta.rcsb.org/pdb/Welcome.do http://pdb.rcsb.org/pdb/Welcome.do http://pdb.rcsb.org/pdb/ Wykład 3, 2006 15 Wykład monograficzny Bioinformatyka Następny wykład • „anatomia” plików z danymi • wyszukiwanie, pobieranie i porównywanie sekwencji • sposoby porównywania sekwencji KONIEC Wykład 3, 2006 16