wyklad 3

advertisement
Wykład monograficzny Bioinformatyka
Bioinformatyka
(wykład monograficzny) wykład 3.
E. Banachowicz
Zakład Biofizyki Molekularnej
IF UAM
http://www.amu.edu.pl/~ewas
http://www.amu.edu.pl/~ewas
Rodzaje Mutacji
• zmienność sekwencji (sequence variation)
– mutacje
– polimorfizm
• mutacje - zmiany i zmiany odpowiedzialne za
choroby
• polimorfizm - zmiany nie wywołujące chorób,
zmiany spotykane w częściej niż w 1% populacji
J.T. den Dunnen, S.E. Antonarakis: Hum Genet 109(1): 121-124, 2001
Wykład 3, 2006
1
Wykład monograficzny Bioinformatyka
Rodzaje mutacji
• chromosomowa - aberracja chromosomowa to
zmiana liczby lub struktury chromosomów.
• genomowa - utrata lub pojawienie się
dodatkowych pojedynczych chromosomów, lub
zwielokrotnieniu całego genomu (poliploidalność)
• genowa - zmiana dziedziczna zachodząca w genie,
na poziomie kwasu dezoksyrybonukleinowego
DNA
Poziomy mutacji
Opis zmian powinien być dokonywany na najbardziej
podstawowym poziomie. Np. w przypadku DNA na sekwencji
genomowej lub cDNA
Zmiany opisuje się względem sekwencji pierwotnej
zdeponowanej w bazie danych: GenBank, EMBL, DDJB,
SWISS-Prot.
Poziomy:
•DNA
•RNA
•Białko.
Wykład 3, 2006
2
Wykład monograficzny Bioinformatyka
Mutacje DNA - substytucja
Poziom DNA
• Substytucja (zamiana) oznaczana przez „>”
– 76A > C nukleotyd 76A zamieniony na C
– 88+1G > T (IVS2 +1G > T) G zamieniony na T
w +1 intronu 2, pozycja 88-89 w odniesieniu do
cDNA (+1 : ATG kodon inicjujący translacje, -1:
brak zasady 0)
Mutacje DNA - delecja
Poziom DNA
• Delecja (deletion) „del” za nukleotydem
oznaczającym delecje
– 76_78del (76_78delACT) oznacza usunięcieACT
zmiejsca 76 to 78
–
– 82_83del (82_83delTG) oznacza usunięcie TG z
sekwencji
ACTTTGTGCC (G jest 82 nukleotydem) wynik:
ACTTTGCC
Wykład 3, 2006
3
Wykład monograficzny Bioinformatyka
Mutacje DNA - insercja
Poziom DNA
• Insercja (insertions) „ins” między nukleotydami,
oznaczającymi miejsce wstawienia. (uwaga: czasami
dodaje się "^"- np. 83^84insTG)
– 76_77insT oznacza wstawienie T między nukleotydami
76 a 77
– 83_84insTG oznacza wstawienie TG dosekwencji
powtórzeń tandemu TG
ACTTTGTGCC (G jest 83 nukleotydem)
ACTTTGTGTGCC.
Mutacje DNA - insercja/delecja
Poziom DNA
• insertion/deletions (indels) delecja, po której
następuje insercja
– 112_117delinsTG
•112_117delAGGTCAinsTG
•112_117>TG
oznacza zastąpienie nukleotydów 112 to 117 (AGGTCA)
przez TG
Wykład 3, 2006
4
Wykład monograficzny Bioinformatyka
Mutacje DNA - powtórzenia
Poziom DNA
• powtórzenia krótkiej sekwencji (variability of
short sequence repeats), np..:
ACTGTGTGCC (A jest 1991 nukleotydem)
1993(TG)3-6
–sekwencja zawierająca od miejsca 1993 TGdwunukleotyd, który powtarza się w populacji 3-6 razy
• duplikacje (duplications) oznaczane przez „dup”
ponukleotydzie oznaczajacym miejsce duplikacji
–77_79dupCTG nukleotydy 77 do 79 są powielone
– 82_83dupTG (short tandem repeats lub single
nucleotide stretches) insercja TG do sekwencji powtórzeń
tandemu TG
ACTTTGTGCC (A jest 76 nukleotydem)
ACTTTGTGTGCC (lub 83_84insTG)
Mutacje DNA - inwersja
Poziom DNA
• Inwersja (inversions) oznaczana „inv” za
nukleotydem oznaczającym miejsce
rozpoczęcia inwersji. - obrócenie sekwencji o
180o
–203_506inv ( 203_506inv304) znacza, że 304
nukleotydy od 203 do 506 zostały odwrócone
Wykład 3, 2006
5
Wykład monograficzny Bioinformatyka
Mutacje DNA - inne
Poziom DNA
• translokacja
• zmienność w obrębie różnych alleli
(choroby recesywne):
– [zmiany w 1] + [zmiany w 2]
• zmienność w obrębie tego samego allela
– [zmiana 1;2;3]
Allel jest to jedna z wersji genu w określonym locus na danym chromosomie
homologicznym.
Mutacje białka - substytucja
Poziom białka (pierwotnie opisane przez zmiany na poziomie
DNA)
• substytucja (zamiana, mutacje punktowe)
– „cicha” zamiana nukleotydów nie powodująca zmian
w sekwencji aminokwasowej
– błędna (missense)
W26C zamiana 26-tego tryptofanu na cysteine
– nonsensowna (nonsense)
W26X zamiana 26-tego tryptofanu na kodon STOP
– początkowa metionina (initiating Methionine M1)
(M1 V) - niepoprawnie
p.? lub p.0 - nie powstaje żadne białko
Wykład 3, 2006
6
Wykład monograficzny Bioinformatyka
Mutacje białka - delecja
Poziom białka
• delecja oznaczana przez „del”
– K29del w sekwencji
CKMGHQQQCC (C jest 28 ak) (usunięcie 29 lizyny)
CMGHQQQCC
– Q35del w sekwencji
CKMGHQQQCC (C jest 28 ak)
CKMGHQQCC
– C28_M30del usunięcie 3 aminokwasów od
Cysteiny 28 do Metioniny 30
Mutacje białka - duplikacja
Poziom białka
• duplikacja oznaczana przez „dup”
– G31_Q22dup w sekwencji
CKMGHQQQCC (C jest 28 ak) (duplikacja od G31 doQ33)
CKMGHQGHQQQCC
– H34_Q35dup duplikacja insercji (tandem HQ)
CKMGHQHQCC (C jest 28 ak)
CKMGHQHQHQCC (lub Q35_C36insHQ)
Wykład 3, 2006
7
Wykład monograficzny Bioinformatyka
Mutacje białka - insercja
Poziom białka
• insercja oznaczana przez „ins” (uwaga czasami
używany jest separator „^”: Q83^C84insQ)
– K29_M29insQSK wstawienie sekwencji QSK
między Lyzynę 29 (K) and Metioninę 30 (M)
CKMGHQQQCC
CKQSKMGHQQQCC
– Q35_C36insQ
CKMGHQQQCC
CKMGHQQQQCC (a duplicating insertion: Q35dup)
Mutacje białka - insercja/delecja
Poziom białka
• insertion/deletions (indels) delecja trójki
nukleotydów, po której nastapiła insercja inne
trójki:
– C28_K29delinsW delecja dwóch trójek nukleotydów
kodujących Cysteine 28 i Lysine 29, zastąpionych
kodonem tryptofanu
– C28delinsWV usunięcie trójki nukleotydów
kodujących cysteinę i wstawieniekodonów for
Tryptofanu (W) i waliny (V)
Wykład 3, 2006
8
Wykład monograficzny Bioinformatyka
Mutacje białka - przesunięcie
ramki
Poziom białka
• frame shifting mutations
– R97fsX121 (lub R97fs)
przesunięcie ramki odczytu, zmieniające
argininę (R97) w pierrwszy amiokwas nowej
ramki zakończonej po 23 aminokwasach
(X121)
Kod genetyczny
Wykład 3, 2006
9
Wykład monograficzny Bioinformatyka
Bazy danych
Niesekwencyjne BazyDanych
•
•
•
•
bibliograficzne
kliniczne
genomowe (?)
ścieżek metabolicznych (metabolic
pathways)
• struktur molekularnych
Większość jest „kroslinkowanych”i
dostepnych za pomocą zwykłych przeglądarek
Wykład 3, 2006
10
Wykład monograficzny Bioinformatyka
Bibliograficzne bazy danych
• PubMed
(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PubM
ed)
• Bookshelf
(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Books)
• PubCrawler
(http://pubcrawler.gen.tcd.ie/)
(Scirus, SCOPUS)
Kliniczne BazyDanych
• OMIM
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM
• HGMD http://www.hgmd.cf.ac.uk/
Human Gene Mutation Database
• Bazy związane z pojedyńczymi
chorobami:
– CFTR: http://www.hgmd.cf.ac.uk/
– (LensGDDB) Human Lens Genetic Disease Database
http://ken.mitton.com/ern/lensbase.html
itd..
Wykład 3, 2006
11
Wykład monograficzny Bioinformatyka
Genomowe BazyDanych
•
GDB - human genom project
http://www.gdb.org/
•
HGV - Human Variation Genome
Society
http://www.hgvs.org/
(„nie-ludzkie”bazy)
•
•
•
•
MGI Mause Genom Informatics
FlyBase
ACeDB
idt
Bazy sekwencji genów
Gene Sequence Database
• The International Nucleotide Sequence
Database Collaboration:
– GenBank (USA)
http://www.ncbi.nlm.nih.gov/Genbank/index.html
– EMBL (Europa) http://www.ebi.ac.uk/
– DDBJ (Japonia) http://www.ddbj.nig.ac.jp/
–
Wykład 3, 2006
12
Wykład monograficzny Bioinformatyka
Międzynarodowa baza sekwencji
zawiera 100 giga-zasad
Bazy Sekwencji Białkowych
• SwissProt - Protein knowledgebase
(http://www.expasy.ch/)
• TrEMBL - Computer-annotated
supplement to Swiss-Prot -bezpośrednie
tłumaczenieformatu z EMBL na
SwissProt
• PIR -Protein Information Resorce
(http://pir.georgetown.edu/)
Wykład 3, 2006
13
Wykład monograficzny Bioinformatyka
Strona Białek: ExPASy
• strona domowa SwissProt i TrEMBL
• zbiór narzędzi bioinformatycznych
• jedna z pierwszych stron
bioinformatycznych
http://www.expasy.ch/
Wykład 3, 2006
14
Wykład monograficzny Bioinformatyka
Baza Struktutr Białkowych
• Protein DataBank
http://pdbbeta.rcsb.org/pdb/Welcome.do
http://pdb.rcsb.org/pdb/Welcome.do
http://pdb.rcsb.org/pdb/
Wykład 3, 2006
15
Wykład monograficzny Bioinformatyka
Następny wykład
• „anatomia” plików z danymi
• wyszukiwanie, pobieranie i porównywanie
sekwencji
• sposoby porównywania sekwencji
KONIEC
Wykład 3, 2006
16
Download