Bioinformatyka Wykład 2 (12.X.2010) I r. studiów magisterskich, biologia (SGGW) Krzysztof Pawłowski …tydzień temu… Co to jest bioinformatyka Sekwencjonowanie genomów – „historia” Metagenomika Wykład 2 – spis treści Bioinformatyka w genomice „Gen” ??? Biologiczne bazy danych – historia Biologiczne bazy danych – „najważniejsze” Sekwencyjne bazy danych – formaty plików Bioinformatyka w genomice Bazy danych Składanie genomu Identyfikacja obiektów w genomie (geny kodujące białka, geny miRNA, motywy i regiony regulatorowe,...) Porównywanie genomów Przewidywanie funkcji genów i in. obiektów genomicznych Rozwój technik sekwencjonowania Gene definitions… 1860s–1900s: Gene as a discrete unit of heredity 1910s: Gene as a distinct locus 1940s: Gene as a blueprint for a protein 1950s: Gene as a physical molecule 1960s: Gene as transcribed code 1970s–1980s: Gene as open reading frame (ORF) sequence pattern 1990s–2000s: Annotated genomic entity, enumerated in the databanks What is a gene, post-ENCODE? Gerstein et al., Genome Res. 2007 17: 669-681 The gene is a union of genomic sequences encoding a coherent set of potentially overlapping functional products. 1. A gene is a genomic sequence (DNA or RNA) directly encoding functional product molecules, either RNA or protein. 2. In the case that there are several functional products sharing overlapping regions, one takes the union of all overlapping genomic sequences coding for them. 3. This union must be coherent—i.e., done separately for final protein and RNA products—but does not require that all products necessarily share a common subsequence. Model Organizacji danych Poziom badań Zasoby N=1230... Pierwsze bazy białkowe 1951 Sanger i Tuppy – rozwój technik sekwencjonowania białek 1965-78 Margaret Dayhoff i współpr. – pierwsza baza danych o sekwencjach białek Atlas of Protein Sequence and Structure; pogrupowanie białek w rodziny i nadrodziny w oparciu o stopień podobieństwa; stworzenie macierzy (tablic) PAM zawierających prawdopodobieństwa zmian jednego aminokwasu na inny 1984 powstanie bazy danych PIR (Protein Information Resource) Pierwsze bazy DNA 1977 Maxam i Gilbert oraz Sanger i współpr. – rozwój technik sekwencjonowania kwasów nukleinowych; oprogramowanie (Staden) 1979 Walter Goad i współpr. z LANL – stworzenie prototypu GenBank-u, bazy danych sekwencji nukleotydowych 1982 upublicznienie danych w GenBank-u 1980 powstanie obecnej bazy danych EMBL (European Molecular Biology Laboratory) w Heidelbergu 1984 powstanie bazy danych DDBJ (DNA DataBank of Japan) w Mishima Integracja baz 1987 2002 International Nucleotide Sequence Database Collaboration UniProtR – International Protein Sequence Database GenBank NCBI Bethesda USA EMBL EBI Hinxton UK DDBJ Mishima Japonia TrEMBL EBI UK PIR GU USA SwissProt SIB Szwajcaria Dalszy rozwój baz 1986 Powstanie białkowej bazy danych SWISS-PROT; Szwajcaria 1988 Utworzenie NCBI (National Center for Biotechnology Information) przy NIH/NLM, USA 1991 Adams i współpr. - powstawanie bibliotek i baz cDNA i ESTs (expressed sequence tags) – duże znaczenie dla badania genomów, określania ekspresji genów w różnych warunkach i tkankach 1992 Założenie TIGR (The Institute for Genomic Research); Rockville; Maryland 1993 Cherry i Cartinhour – pierwsza baza genomowa: ACEDB (a Caenorhabditis elegans database) Rozwój metod do analiz sekwencji Algorytm do porównywania i sekwencji białkowych: Needleman i Wunsch - 1970 Powstanie i rozwój programów do uzyskiwania danych z baz: ENTREZ (NCBI) - 1992 Powstanie i rozwój programów do analizy sekwencji: GCG (Genetics Computer Group) - od lat 1980-tych Szybkie przeszukiwanie sekwencyjne baz danych: FASTA – 1985 BLAST - 1990 Zasoby pierwotne i wtórne Pierwotne bazy danych GenBank/EMBL/DDBJ dbEST dbSTS dbSNP Trace Wtórne bazy danych Assembly Archive CDD EntrezGene Genome Projects HomoloGene Map Viewer RefSeq, SwissProt UniSTS Baza pierwotna Baza wtórna September 16, 2010: RefSeq Release 43 This release includes: Number of taxids: 10854 Number of Accessions and total length per molecule type: Genomic: RNA: Protein: 2.293.783 2.417.194 11.223.078 144.882.401.872 3.824.569.584 3.761.205.880 Białkowe bazy danych SWISS-PROT, Szwajcaria RefSeq Protein (NCBI), USA UniProt = SwissProt + PIR + TrEMBL Białkowe bazy danych SWISS-PROT, Szwajcaria RefSeq Protein (NCBI), USA UniProt = SwissProt + PIR + TrEMBL Białkowe bazy danych PDB - The Protein Data Bank, USA - struktury trójwymiarowe kwasów nukleinowych i białek Genomowe bazy danych NCBI Genomic Resources, USA TIGR - The Institute for Genomic Research, USA Ensembl Genome Browser (EBI & Sanger Institute) Genome Browser at the University of California Santa Cruz (UCSC) NCBI – Home Page The GenBank flatfile (GBFF) LOCUS DEFINITION HUMCFTRM 6129 bp mRNA linear PRI 27-APR-1993 Human cystic fibrosis mRNA, encoding a presumed transmembrane conductance regulator (CFTR). ACCESSION M28668 VERSION M28668.1 GI:180331 KEYWORDS cystic fibrosis; transmembrane conductance regulator. SOURCE Human, cDNA to mRNA. ORGANISM Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. REFERENCE 1 (bases 1 to 6129) AUTHORS Riordan,J.R., Rommens,J.M., Kerem,B., Alon,N., Rozmahel,R., Grzelczak,Z., Zielenski,J., Lok,S., Plavsic,N., Chou,J.-L., Drumm,M.L., Iannuzzi,M.C., Collins,F.S. and Tsui,L.-C. TITLE Identification of the cystic fibrosis gene: cloning and characterization of complementary DNA JOURNAL Science 245 (4922), 1066-1073 (1989) MEDLINE 89368940 PUBMED 2475911 COMMENT A three base-pair deletion spanning positions 1654-1656 is observed in cDNAs from cystic fibrosis patients. FEATURES Location/Qualifiers source 1..6129 /organism="Homo sapiens" /db_xref="taxon:9606" CDS 133..4575 /note="cystic fibrosis transmembrane conductance regulator" /codon_start=1 /protein_id="AAA35680.1" /db_xref="GI:180332" /translation="MQRSPLEKASVVSKLFFSWTRPILRKGYRQRLELSDIYQIPSVD SADNLSEKLEREWDRELASKKNPKLINALRRCFFWRFMFYGIFLYLGEVTKAVQPLLL <sequence omitted> VTYQIIRRTLKQAFADCTVILCEHRIEAMLECQQFLVIEENKVRQYDSIQKLLNERSL FRQAISPSDRVKLFPHRNSSKCKSKPQIAALKEETEEEVQDTRL" BASE COUNT 1886 a 1181 c 1330 g 1732 t ORIGIN 1 aattggaagc aaatgacatc acagcaggtc agagaaaaag ggttgagcgg caggcaccca 61 gagtagtagg tctttggcat taggagcttg agcccagacg gccctagcag ggaccccagc 121 gcccgagaga ccatgcagag gtcgcctctg gaaaaggcca gcgttgtctc caaacttttt <sequence omitted> 6061 taagaagact gcattatatt tattactgta agaaaatatc acttgtcaat aaaatccata 6121 catttgtgt // The Header The feature table The sequence FASTA format gi number Accession number Definition line >gi|7144485|gb|AAC16332.2| Limulus polyphemus myosin III mRNA, complete cds MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDKQANKKVALKIIGHIAENLLDIETEYRIY KAVNGIQFFPEFRGAFFKRGERESDNEVWLGIEFLEEGTAADLLATHRRFGIHLKEDLIALIIKEVVRAV QYLHENSIIHRDIRAANIMFSKEGYVKLIDFGLSASVKNTNGKAQSSVGSPYWMAPEVISCDCLQEPYNY TCDVWSIGITAIELADTVPSLSDIHALRAMFRINRNPPPSVKRETRWSETLKDFISECLVKNPEYRPCIQ Database Identifiers EIPQHPFLAQVEGKEDQLRSELVDILKKNPGEKLRNKPYNVTFKNGHLKTISGQPHEKIYVDDLAFLDSP gb GenBank TEEVVLENLEQRYRKGEIYTFAGDVLLTLNPGKVLPLYGDQTAVKYCERGRSDNPPHVFAVADRAYQQML emb EMBL HHKSPQAVILSGVSGSGKSFCTHQVIRHLAFLGAQNKEGMREKLEYLCPLLDTLGNAYTSTNPNSSHFVK ILEVTFTKTGKITGAILFTFLLEARRLTDIPKGERNFHVFYYFYEGLRSEGRLKEFGLEEKNYRYLPELK dbj DDBJ SSNSPEYVKGYQQFLRALTSLAFTEEEIFAIQKVLAAILLLGETEIQNSAAFKLLGAESSELENTLTQDV sp SWISS-PROT NARDVYARAMYLRLFSWIVAVVNRQLSFSRLVFGDVYSVTVIDSPGFENGLHNSLHQLCANVISDNLQNY pdbProtein Databank IQQIIFFKELEEYGEEGVNVPFNLEGGVDHRTLVNKLMDSGQGLLTAISKATQYQRKGESGWMESLQEAD SEELVEFSNVNGKPIVSVKHIFRKVSYDATDLVKKNVEDKTRALTSTMQRSCDPRIRAIFSSENPSPFLS pir PIR SPRRSSIQENMLLPERTVTDSLHSALSSVLNLASTEDPPHLILCMRPQKKELINDYDSKSVQIQLHALNV ref RefSeq LETILIRQFGFARRISFVDFLNRYQYLAFDFNENVELTKENCRLLLLRLKMDGWTLGKNKVFLKYYSEEY LSRIYETHIKKIVKVQAIARKYFVKVRQSKTKPH Problemy w bazach danych zanieczyszczenie sekwencjami wektorów wykorzystywanymi do klonowania, bakterii, rRNA, mtDNA i innymi przypadkowymi sekwencjami poziom błędu sekwencji nukleotydowych: 1/10 000 (bardzo dobry), 1/100 (dla raz przeczytanych sekwencji w bazach EST, HTG) poziom błędu sekwencji aminokwasowych: przesunięcie ramki odczytu (frame-shift error) - 5-10% sekwencji; błędnie przetłumaczone na białkowe sekwencje genów (np. błędne określenie eksonów - 10-15%): utrata niektórych eksonów, przetłumaczenie sekwencji intronów występowanie w bazach sekwencji identycznych jako różnych rekordów – > tworzenie baz non-redundant Problemy w bazach danych przypisanie funkcji charakterystycznej dla jednej sekwencji do drugiej sekwencji wykazującej homologię do pierwszej sekwencji sekwencja A funkcja 1 sekwencja B błędne adnotacje z ”trzeciej i czwartej ręki” sekwencja B sekwencja C funkcja 1 „Funkcja 1” funkcja 1?? sekwencja C BRAK HOMOLOGII sekwencja A funkcja 1 UniProt, GenBank, RefSeq GenBank i RefSeq GenBank RefSeq, SwissProt