Model Organizacji danych

advertisement
Bioinformatyka
Wykład 2 (12.X.2010)
I r. studiów magisterskich, biologia (SGGW)
Krzysztof Pawłowski
…tydzień temu…
Co to jest bioinformatyka
„ Sekwencjonowanie genomów – „historia”
„ Metagenomika
„
Wykład 2 – spis treści
Bioinformatyka w genomice
„ „Gen” ???
„ Biologiczne bazy danych – historia
„ Biologiczne bazy danych
– „najważniejsze”
„ Sekwencyjne bazy danych
– formaty plików
„
Bioinformatyka w genomice
Bazy danych
„ Składanie genomu
„ Identyfikacja obiektów w genomie
(geny kodujące białka, geny miRNA,
motywy i regiony regulatorowe,...)
„ Porównywanie genomów
„ Przewidywanie funkcji genów
i in. obiektów genomicznych
„
Rozwój technik sekwencjonowania
Gene definitions…
„
„
„
„
„
„
„
1860s–1900s: Gene as a discrete unit of heredity
1910s: Gene as a distinct locus
1940s: Gene as a blueprint for a protein
1950s: Gene as a physical molecule
1960s: Gene as transcribed code
1970s–1980s: Gene as open reading frame (ORF)
sequence pattern
1990s–2000s: Annotated genomic entity, enumerated in
the databanks
What is a gene, post-ENCODE?
Gerstein et al., Genome Res. 2007 17: 669-681
The gene is a union of genomic sequences
encoding a coherent set of potentially
overlapping functional products.
1. A gene is a genomic sequence (DNA or RNA) directly encoding
functional product molecules, either RNA or protein.
„ 2. In the case that there are several functional products sharing
overlapping regions, one takes the union of all overlapping
genomic sequences coding for them.
„ 3. This union must be coherent—i.e., done separately for final
protein and RNA products—but does not require that all products
necessarily share a common subsequence.
„
Model Organizacji danych
Poziom badań
Zasoby
N=1230...
Pierwsze bazy białkowe
1951
Sanger i Tuppy – rozwój technik sekwencjonowania białek
1965-78
Margaret Dayhoff i współpr. – pierwsza baza danych o sekwencjach białek
Atlas of Protein Sequence and Structure; pogrupowanie białek w rodziny i
nadrodziny w oparciu o stopień podobieństwa; stworzenie macierzy (tablic)
PAM zawierających prawdopodobieństwa zmian jednego aminokwasu na
inny
1984
powstanie bazy danych PIR (Protein Information Resource)
Pierwsze bazy DNA
1977
Maxam i Gilbert oraz Sanger i współpr. – rozwój technik sekwencjonowania
kwasów nukleinowych; oprogramowanie (Staden)
1979
Walter Goad i współpr. z LANL – stworzenie prototypu GenBank-u, bazy
danych sekwencji nukleotydowych
1982
upublicznienie danych w GenBank-u
1980
powstanie obecnej bazy danych EMBL (European Molecular Biology
Laboratory) w Heidelbergu
1984
powstanie bazy danych DDBJ (DNA DataBank of Japan) w Mishima
Integracja baz
1987
2002
International Nucleotide Sequence
Database Collaboration
UniProtR – International Protein
Sequence Database
GenBank
NCBI
Bethesda
USA
EMBL
EBI
Hinxton
UK
DDBJ
Mishima
Japonia
TrEMBL
EBI
UK
PIR
GU
USA
SwissProt
SIB
Szwajcaria
Dalszy rozwój baz
1986
Powstanie białkowej bazy danych SWISS-PROT; Szwajcaria
1988
Utworzenie NCBI (National Center for Biotechnology Information)
przy NIH/NLM, USA
1991
Adams i współpr. - powstawanie bibliotek i baz cDNA i ESTs (expressed
sequence tags) – duże znaczenie dla badania genomów, określania
ekspresji genów w różnych warunkach i tkankach
1992
Założenie TIGR (The Institute for Genomic Research); Rockville; Maryland
1993
Cherry i Cartinhour – pierwsza baza genomowa: ACEDB (a Caenorhabditis
elegans database)
Rozwój metod do analiz sekwencji
Algorytm do porównywania i sekwencji białkowych:
Needleman i Wunsch - 1970
Powstanie i rozwój programów do uzyskiwania danych z baz:
ENTREZ (NCBI) - 1992
Powstanie i rozwój programów do analizy sekwencji:
GCG (Genetics Computer Group) - od lat 1980-tych
Szybkie przeszukiwanie sekwencyjne baz danych:
FASTA – 1985
BLAST - 1990
Zasoby pierwotne i wtórne
„
„
„
„
„
„
„
„
„
„
„
„
Pierwotne bazy danych
GenBank/EMBL/DDBJ
dbEST dbSTS dbSNP Trace
Wtórne bazy danych
Assembly Archive
CDD
EntrezGene
Genome Projects
HomoloGene
Map Viewer
RefSeq, SwissProt
UniSTS
Baza pierwotna
Baza wtórna
September 16, 2010: RefSeq Release 43
This release includes:
Number of taxids: 10854
Number of Accessions and total length per molecule type:
Genomic:
RNA:
Protein:
2.293.783
2.417.194
11.223.078
144.882.401.872
3.824.569.584
3.761.205.880
Białkowe bazy danych
SWISS-PROT, Szwajcaria
RefSeq Protein (NCBI), USA
UniProt = SwissProt + PIR + TrEMBL
Białkowe bazy danych
SWISS-PROT, Szwajcaria
RefSeq Protein (NCBI), USA
UniProt = SwissProt + PIR + TrEMBL
Białkowe bazy danych
PDB - The Protein Data Bank, USA - struktury trójwymiarowe
kwasów nukleinowych i białek
Genomowe bazy danych
NCBI Genomic Resources, USA
TIGR - The Institute for Genomic Research, USA
Ensembl Genome Browser (EBI & Sanger Institute)
Genome Browser at the University of California Santa Cruz (UCSC)
NCBI – Home Page
The GenBank flatfile (GBFF)
LOCUS
DEFINITION
HUMCFTRM
6129 bp
mRNA
linear
PRI 27-APR-1993
Human cystic fibrosis mRNA, encoding a presumed transmembrane
conductance regulator (CFTR).
ACCESSION
M28668
VERSION
M28668.1 GI:180331
KEYWORDS
cystic fibrosis; transmembrane conductance regulator.
SOURCE
Human, cDNA to mRNA.
ORGANISM Homo sapiens
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo.
REFERENCE
1 (bases 1 to 6129)
AUTHORS
Riordan,J.R., Rommens,J.M., Kerem,B., Alon,N., Rozmahel,R.,
Grzelczak,Z., Zielenski,J., Lok,S., Plavsic,N., Chou,J.-L.,
Drumm,M.L., Iannuzzi,M.C., Collins,F.S. and Tsui,L.-C.
TITLE
Identification of the cystic fibrosis gene: cloning and
characterization of complementary DNA
JOURNAL
Science 245 (4922), 1066-1073 (1989)
MEDLINE
89368940
PUBMED
2475911
COMMENT
A three base-pair deletion spanning positions 1654-1656 is observed
in cDNAs from cystic fibrosis patients.
FEATURES
Location/Qualifiers
source
1..6129
/organism="Homo sapiens"
/db_xref="taxon:9606"
CDS
133..4575
/note="cystic fibrosis transmembrane conductance
regulator"
/codon_start=1
/protein_id="AAA35680.1"
/db_xref="GI:180332"
/translation="MQRSPLEKASVVSKLFFSWTRPILRKGYRQRLELSDIYQIPSVD
SADNLSEKLEREWDRELASKKNPKLINALRRCFFWRFMFYGIFLYLGEVTKAVQPLLL
<sequence omitted>
VTYQIIRRTLKQAFADCTVILCEHRIEAMLECQQFLVIEENKVRQYDSIQKLLNERSL
FRQAISPSDRVKLFPHRNSSKCKSKPQIAALKEETEEEVQDTRL"
BASE COUNT
1886 a
1181 c
1330 g
1732 t
ORIGIN
1 aattggaagc aaatgacatc acagcaggtc agagaaaaag ggttgagcgg caggcaccca
61 gagtagtagg tctttggcat taggagcttg agcccagacg gccctagcag ggaccccagc
121 gcccgagaga ccatgcagag gtcgcctctg gaaaaggcca gcgttgtctc caaacttttt
<sequence omitted>
6061 taagaagact gcattatatt tattactgta agaaaatatc acttgtcaat aaaatccata
6121 catttgtgt
//
The Header
The feature table
The sequence
FASTA format
gi number
Accession number
Definition line
>gi|7144485|gb|AAC16332.2| Limulus polyphemus myosin III mRNA, complete cds
MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDKQANKKVALKIIGHIAENLLDIETEYRIY
KAVNGIQFFPEFRGAFFKRGERESDNEVWLGIEFLEEGTAADLLATHRRFGIHLKEDLIALIIKEVVRAV
QYLHENSIIHRDIRAANIMFSKEGYVKLIDFGLSASVKNTNGKAQSSVGSPYWMAPEVISCDCLQEPYNY
TCDVWSIGITAIELADTVPSLSDIHALRAMFRINRNPPPSVKRETRWSETLKDFISECLVKNPEYRPCIQ
Database Identifiers
EIPQHPFLAQVEGKEDQLRSELVDILKKNPGEKLRNKPYNVTFKNGHLKTISGQPHEKIYVDDLAFLDSP
gb GenBank
TEEVVLENLEQRYRKGEIYTFAGDVLLTLNPGKVLPLYGDQTAVKYCERGRSDNPPHVFAVADRAYQQML
emb
EMBL
HHKSPQAVILSGVSGSGKSFCTHQVIRHLAFLGAQNKEGMREKLEYLCPLLDTLGNAYTSTNPNSSHFVK
ILEVTFTKTGKITGAILFTFLLEARRLTDIPKGERNFHVFYYFYEGLRSEGRLKEFGLEEKNYRYLPELK
dbj DDBJ
SSNSPEYVKGYQQFLRALTSLAFTEEEIFAIQKVLAAILLLGETEIQNSAAFKLLGAESSELENTLTQDV
sp SWISS-PROT
NARDVYARAMYLRLFSWIVAVVNRQLSFSRLVFGDVYSVTVIDSPGFENGLHNSLHQLCANVISDNLQNY
pdbProtein Databank
IQQIIFFKELEEYGEEGVNVPFNLEGGVDHRTLVNKLMDSGQGLLTAISKATQYQRKGESGWMESLQEAD
SEELVEFSNVNGKPIVSVKHIFRKVSYDATDLVKKNVEDKTRALTSTMQRSCDPRIRAIFSSENPSPFLS
pir PIR
SPRRSSIQENMLLPERTVTDSLHSALSSVLNLASTEDPPHLILCMRPQKKELINDYDSKSVQIQLHALNV
ref RefSeq
LETILIRQFGFARRISFVDFLNRYQYLAFDFNENVELTKENCRLLLLRLKMDGWTLGKNKVFLKYYSEEY
LSRIYETHIKKIVKVQAIARKYFVKVRQSKTKPH
Problemy w bazach danych
zanieczyszczenie
sekwencjami
wektorów
wykorzystywanymi
do
klonowania, bakterii, rRNA, mtDNA i innymi przypadkowymi sekwencjami
poziom błędu sekwencji nukleotydowych: 1/10 000 (bardzo dobry), 1/100
(dla raz przeczytanych sekwencji w bazach EST, HTG)
poziom błędu sekwencji aminokwasowych: przesunięcie ramki odczytu
(frame-shift error) - 5-10% sekwencji; błędnie przetłumaczone na
białkowe sekwencje genów (np. błędne określenie eksonów - 10-15%):
utrata niektórych eksonów, przetłumaczenie sekwencji intronów
występowanie w bazach sekwencji identycznych jako różnych rekordów –
> tworzenie baz non-redundant
Problemy w bazach danych
przypisanie funkcji charakterystycznej dla jednej sekwencji do drugiej
sekwencji wykazującej homologię do pierwszej sekwencji
sekwencja A
funkcja 1
sekwencja B
błędne adnotacje z ”trzeciej i czwartej ręki”
sekwencja B
sekwencja C
funkcja 1
„Funkcja 1”
funkcja 1??
sekwencja C
BRAK HOMOLOGII
sekwencja A
funkcja 1
UniProt, GenBank, RefSeq
GenBank i RefSeq
GenBank
RefSeq,
SwissProt
Download