Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO Bogumil Konopka1, Jean-Christophe Nebel2, Malgorzata Kotulska1* Politechnika Wrocławska , Wydział Podstawowych Problemów Techniki, Instytut Inżynierii Biomedycznej i Pomiarowej 2 Kingston University, Faculty of Computing Information Systems and Mathematics, UK 1 Plan prezentacji • • • • Czym są programy MQA? Proponowany algorytm oceny jakości Relacja struktura3D/funkcja białek Walidacja narzędzia Slajd 2 Czym są programy MQA Model Quality Assessment - definicja problemu • Programy MQA szacują jakość modeli białek, których struktura nie jest znana. Obraz uzyskany w PyMOL Slajd 3 Określenie jakości modelu • Główne założenie: – Istnieje silny związek pomiędzy funkcją i strukturą białka STRUKTURA FUNKCJA Slajd 4 Określenie jakości modelu Sekwencja aminokwasowa Funkcja Slajd 5a Określenie jakości modelu Sekwencja aminokwasowa Funkcja Model 3D białka Slajd 5b Określenie jakości modelu Sekwencja aminokwasowa Funkcja Model 3D białka (L. Holm, C. Sander 1993) Białka podobne (poszukiwania w bazie danych) Funkcje białek (terminy GO) Slajd 5c Określenie jakości modelu Sekwencja aminokwasowa Funkcja (Nat. Genet.. May 2000;25(1):25-9) Gene Ontology Model 3D białka F F F (L. Holm, C. Sander 1993) F Białka podobne (poszukiwania w bazie danych) Funkcje białek (terminy GO) F F F FX Slajd 5d Określenie jakości modelu Sekwencja aminokwasowa Funkcja (Nat. Genet.. May 2000;25(1):25-9) Gene Ontology Model 3D białka ( J. Z. Wang,et. al 2007) F F F (L. Holm, C. Sander 1993) F Białka podobne (poszukiwania w bazie danych) Funkcje białek (terminy GO) F F F FX Slajd 5e Określenie jakości modelu Sekwencja aminokwasowa Funkcja (Nat. Genet.. May 2000;25(1):25-9) Gene Ontology Model 3D białka ( J. Z. Wang,et. al 2007) F F F (L. Holm, C. Sander 1993) F Białka podobne (poszukiwania w bazie danych) Funkcje białek (terminy GO) F F F FX Slajd 5f Określenie jakości modelu • Prawdziwy pozytywny – struktura jest podobna do modelu i ma funkcję zbliżoną do funkcji celu przewidywania • Fałszywy pozytywny – struktura jest podobna do modelu, lecz funkcja jest różna niż funkcja celu przewidywań Slajd 6 Określenie jakości modelu Podobieństwo funkcji > wartość progowa • Prawdziwy pozytywny – struktura jest podobna do modelu i ma funkcję zbliżoną do funkcji celu przewidywania • Fałszywy pozytywny – struktura jest podobna do modelu, lecz funkcja jest różna niż funkcja celu przewidywań Podobieństwo funkcji < wartość progowa Slajd 6 Określenie jakości modelu Sekwencja aminokwasowa Funkcja (Nat. Genet.. May 2000;25(1):25-9) Gene Ontology Model 3D białka ( J. Z. Wang,et. al 2007) F F F (L. Holm, C. Sander 1993) F Białka podobne (poszukiwania w bazie danych) Funkcje białek (terminy GO) F F F FX Slajd 5g Określenie jakości modelu Sekwencja aminokwasowa Funkcja (Nat. Genet.. May 2000;25(1):25-9) Gene Ontology Model 3D białka ( J. Z. Wang,et. al 2007) F F F (L. Holm, C. Sander 1993) F Białka podobne (poszukiwania w bazie danych) Funkcje białek (terminy GO) Krzywe dla wszystkich wartości progowych F F F FX Slajd 5h Określenie jakości modelu AUC calculated at different similarity tresholds 1 AUC 0.8 0.6 1py6a.pdb_pdb90 0.4 Pole pod krzywą jest miarą jakości badanego modelu 0.2 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Similarity treshold Slajd 7 GOBA – GeneOntology-Based Assessment Proponowane miary jakości • meta_AUC • meta_AUC_y – uwzględnia stopień podobieństwa strukturalnego poszczególnych sąsiadów strukturalnych • meta_AUC2 – uwzględnia ogólny poziom podobieństwa sąsiadów strukturalnych Slajd 8 GOBA – GeneOntology-Based Assessment Walidacja narzędzia – modele idealne • Cele CASP8 – 71 spośród 121 – znana funkcja • Zbadano idealne modele – struktury natywne Modele idealne - wyniki uzyskane przez struktury natywne 16 Czestotliwość 14 12 10 8 Meta_AUC 6 4 2 0 Less 0.421 0.489 0.558 0.627 0.696 0.765 0.834 0.903 More Przedziały meta_AUC Meta_AUCsr = 0.754 SD = 0.127 Slajd 9 Analiza związku struktura 3D/funkcja w białkach Relacja podobieństwa strukturalnego i funkcyjnego Podobieństwo semantyczne funkcji 1.2 1 0.8 0.6 0.4 0.2 0 0 10 20 30 40 Podobieństwo strukturalne DALI Z-Score 50 Pearson’s R = 0.597 Slajd 10 GOBA – GeneOntology-Based Assessment Walidacja narzędzia – predykcje CASP8 • Analizie poddano: – 13009 modeli* – 27 różnych celów (31) Punkt odniesienia – obiektywna miara jakości GDT_TS (A.Zemla, 2003) *Modele pobrano z http://predictioncenter.org/download_area/CASP8 Slajd 11 GOBA – GeneOntology-Based Assessment Walidacja narzędzia – predykcje CASP8 Walidacja aplikacji oraz miary "meta_AUC" 1.2 meta_AUC 1 0.8 0.6 meta_AUC 0.4 0.2 0 0 20 40 60 GDT_TS 80 100 120 Pearson ‘s R = 0.511 Slajd 12 GOBA – GeneOntology-Based Assessment Walidacja narzędzia – predykcje CASP8 • Korelacja stworzonych miar z GDT_TS, obliczona dla modeli poszczególnych celów meta_AUCy correlation distribution 12 14 10 12 Frequency Frequency meta_AUC correlations distribution 8 6 4 10 8 6 4 2 2 0 0 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 R Bins R Bins Rsr = 0.454 Rsr = 0.521 Slajd 13 GOBA – GeneOntology-Based Assessment Walidacja narzędzia – predykcje CASP8 meta_AUC2 correlations distribution 12 12 10 10 Frequency Frequency meta_AUC correlations distribution 8 6 4 8 6 4 2 2 0 0 -0.6 -0.4 -0.2 0 0.2 0.4 R Bins 0.6 0.8 1 Rsr = 0.454 -0.6 -0.4 -0.2 0 0.2 0.4 R Bins 0.6 0.8 1 Rsr = - 0.167 Slajd 14 Podsumowanie • Stworzono aplikację (GOBA) szacującą jakość modeli strukturalnych białek. • Narzędzie poprawnie rozpoznaje idealne modele: – Średni wynik 0.754 • Dla najlepszej testowanej miary uzyskano dodatnią korelację wyników z obiektywną miarą jakości - R = 0.51 • Dla badanej grupy białek, na podstawie podobieństwa funkcyjnego dwóch cząsteczek można wyznaczyć górną graniczną wartość ich podobieństwa strukturalnego. Slajd 15 Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO Bogumil Konopka1, Jean-Christophe Nebel2, Malgorzata Kotulska1* Politechnika Wrocławska , Wydział Podstawowych Problemów Techniki, Instytut Inżynierii Biomedycznej i Pomiarowej 1 Kingston University, Faculty of Computing Information Systems and Mathematics, UK 2 Slajdy dodatkowe Opracowane miary jakości meta_AUC 1 FP total 1 y= TP total x= meta_AUCy 1 FP total 1 y=Z sc∗ TP total meta_AUC2 x= AUC 2= AUC∗max Z max Z −median Z Analiza związku struktura 3D/funkcja w białkach Wpływ stopnia uszczegółowienia opisu funkcji białka na relację struktura/funkcja 1 1 0.8 0.8 Pearson's R Pearson's R Wpływ wielkości białka na związek struktura/funkcja 0.6 0.4 0.6 0.4 0.2 0.2 0 0 0 100 200 300 400 500 600 700 Długość łańcuch aminokwasowego 800 0 2 4 6 8 Liczba przypisanych terminów GO 10 Procedura oceny • DALI – Distance mAtrix aLIgnement • Obliczane są odległości między atomami Cα • Opierając się na odległościach można zindetyfikować: – Struktury drugorzędowe (SS) – Odziaływania pomiędzy SS • Metoda umożliwia wyszukiwanie podobjeństw między białkami, bezwzględu na skład aminokwasowy L.Holm , C. Sander, “Protein Structure Comparison by Alignment of Distance Matrices”, J.Mol.Biol 233 p.123-138 (1993) Procedura oceny • GO– Gene Ontology • Terminy GO: – Cellular Component – lokalizacja, – Biological Process – proces biologiczny , – Molecular Function – pełniona funkcja The Gene Ontology Consortium. Gene ontology: tool for the unification of biology. Nat. Genet.. May 2000;25(1):25-9. Procedura oceny Model 3D DALI Terminy GO sąsiadów strukturalnych Terminy GO celu Krzywe ROC