presentation

advertisement
Ocena jakości modeli
strukturalnych białek w
oparciu o podobieństwo
strukturalne i semantyczny
opis funkcji w ontologii GO
Bogumil Konopka1, Jean-Christophe Nebel2, Malgorzata Kotulska1*
Politechnika Wrocławska , Wydział Podstawowych Problemów Techniki,
Instytut Inżynierii Biomedycznej i Pomiarowej
2
Kingston University, Faculty of Computing Information Systems and Mathematics, UK
1
Plan prezentacji
•
•
•
•
Czym są programy MQA?
Proponowany algorytm oceny jakości
Relacja struktura3D/funkcja białek
Walidacja narzędzia
Slajd 2
Czym są programy MQA Model Quality Assessment
- definicja problemu
• Programy MQA szacują jakość modeli białek,
których struktura nie jest znana.
Obraz uzyskany w PyMOL
Slajd 3
Określenie jakości modelu
• Główne założenie:
– Istnieje silny związek pomiędzy funkcją i
strukturą białka
STRUKTURA
FUNKCJA
Slajd 4
Określenie jakości modelu
Sekwencja aminokwasowa
Funkcja
Slajd 5a
Określenie jakości modelu
Sekwencja aminokwasowa
Funkcja
Model
3D białka
Slajd 5b
Określenie jakości modelu
Sekwencja aminokwasowa
Funkcja
Model
3D białka
(L. Holm, C. Sander 1993)
Białka podobne
(poszukiwania w
bazie danych)
Funkcje białek
(terminy GO)
Slajd 5c
Określenie jakości modelu
Sekwencja aminokwasowa
Funkcja
(Nat. Genet.. May 2000;25(1):25-9)
Gene Ontology
Model
3D białka
F
F
F
(L. Holm, C. Sander 1993)
F
Białka podobne
(poszukiwania w
bazie danych)
Funkcje białek
(terminy GO)
F
F
F
FX
Slajd 5d
Określenie jakości modelu
Sekwencja aminokwasowa
Funkcja
(Nat. Genet.. May 2000;25(1):25-9)
Gene Ontology
Model
3D białka
( J. Z. Wang,et. al 2007)
F
F
F
(L. Holm, C. Sander 1993)
F
Białka podobne
(poszukiwania w
bazie danych)
Funkcje białek
(terminy GO)
F
F
F
FX
Slajd 5e
Określenie jakości modelu
Sekwencja aminokwasowa
Funkcja
(Nat. Genet.. May 2000;25(1):25-9)
Gene Ontology
Model
3D białka
( J. Z. Wang,et. al 2007)
F
F
F
(L. Holm, C. Sander 1993)
F
Białka podobne
(poszukiwania w
bazie danych)
Funkcje białek
(terminy GO)
F
F
F
FX
Slajd 5f
Określenie jakości modelu
•
Prawdziwy pozytywny –
struktura jest podobna
do modelu i ma funkcję
zbliżoną do funkcji celu
przewidywania
•
Fałszywy pozytywny –
struktura jest podobna
do modelu, lecz funkcja jest
różna niż funkcja celu
przewidywań
Slajd 6
Określenie jakości modelu
Podobieństwo funkcji > wartość progowa
•
Prawdziwy pozytywny –
struktura jest podobna
do modelu i ma funkcję
zbliżoną do funkcji celu
przewidywania
•
Fałszywy pozytywny –
struktura jest podobna
do modelu, lecz funkcja jest
różna niż funkcja celu
przewidywań
Podobieństwo funkcji < wartość progowa
Slajd 6
Określenie jakości modelu
Sekwencja aminokwasowa
Funkcja
(Nat. Genet.. May 2000;25(1):25-9)
Gene Ontology
Model
3D białka
( J. Z. Wang,et. al 2007)
F
F
F
(L. Holm, C. Sander 1993)
F
Białka podobne
(poszukiwania w
bazie danych)
Funkcje białek
(terminy GO)
F
F
F
FX
Slajd 5g
Określenie jakości modelu
Sekwencja aminokwasowa
Funkcja
(Nat. Genet.. May 2000;25(1):25-9)
Gene Ontology
Model
3D białka
( J. Z. Wang,et. al 2007)
F
F
F
(L. Holm, C. Sander 1993)
F
Białka podobne
(poszukiwania w
bazie danych)
Funkcje białek
(terminy GO)
Krzywe dla wszystkich
wartości progowych
F
F
F
FX
Slajd 5h
Określenie jakości modelu
AUC calculated at different similarity tresholds
1
AUC
0.8
0.6
1py6a.pdb_pdb90
0.4
Pole pod krzywą jest miarą jakości
badanego modelu
0.2
0
0
0.1
0.2
0.3 0.4
0.5
0.6
0.7
0.8
0.9
1
Similarity treshold
Slajd 7
GOBA – GeneOntology-Based Assessment
Proponowane miary jakości
• meta_AUC
• meta_AUC_y –
uwzględnia stopień
podobieństwa strukturalnego poszczególnych
sąsiadów strukturalnych
• meta_AUC2 –
uwzględnia ogólny poziom
podobieństwa sąsiadów strukturalnych
Slajd 8
GOBA – GeneOntology-Based Assessment
Walidacja narzędzia – modele idealne
• Cele CASP8
– 71 spośród 121 – znana funkcja
• Zbadano idealne modele – struktury natywne
Modele idealne - wyniki uzyskane przez struktury natywne
16
Czestotliwość
14
12
10
8
Meta_AUC
6
4
2
0
Less
0.421
0.489 0.558 0.627 0.696 0.765 0.834 0.903
More
Przedziały meta_AUC
Meta_AUCsr = 0.754
SD = 0.127
Slajd 9
Analiza związku struktura 3D/funkcja w
białkach
Relacja podobieństwa strukturalnego i funkcyjnego
Podobieństwo semantyczne funkcji
1.2
1
0.8
0.6
0.4
0.2
0
0
10
20
30
40
Podobieństwo strukturalne DALI Z-Score
50
Pearson’s R = 0.597
Slajd 10
GOBA – GeneOntology-Based Assessment
Walidacja narzędzia – predykcje CASP8
• Analizie poddano:
– 13009 modeli*
– 27 różnych celów (31)
Punkt odniesienia – obiektywna miara jakości GDT_TS
(A.Zemla, 2003)
*Modele pobrano z http://predictioncenter.org/download_area/CASP8
Slajd 11
GOBA – GeneOntology-Based Assessment
Walidacja narzędzia – predykcje CASP8
Walidacja aplikacji oraz miary "meta_AUC"
1.2
meta_AUC
1
0.8
0.6
meta_AUC
0.4
0.2
0
0
20
40
60
GDT_TS
80
100
120
Pearson ‘s R = 0.511
Slajd 12
GOBA – GeneOntology-Based Assessment
Walidacja narzędzia – predykcje CASP8
• Korelacja stworzonych miar z GDT_TS, obliczona dla modeli
poszczególnych celów
meta_AUCy correlation distribution
12
14
10
12
Frequency
Frequency
meta_AUC correlations distribution
8
6
4
10
8
6
4
2
2
0
0
-0.6 -0.4 -0.2
0
0.2
0.4
0.6
0.8
1
-0.6 -0.4 -0.2
0
0.2
0.4
0.6
0.8
1
R Bins
R Bins
Rsr = 0.454
Rsr = 0.521
Slajd 13
GOBA – GeneOntology-Based Assessment
Walidacja narzędzia – predykcje CASP8
meta_AUC2 correlations distribution
12
12
10
10
Frequency
Frequency
meta_AUC correlations distribution
8
6
4
8
6
4
2
2
0
0
-0.6 -0.4 -0.2
0
0.2
0.4
R Bins
0.6
0.8
1
Rsr = 0.454
-0.6
-0.4
-0.2
0
0.2
0.4
R Bins
0.6
0.8
1
Rsr = - 0.167
Slajd 14
Podsumowanie
• Stworzono aplikację (GOBA) szacującą jakość modeli
strukturalnych białek.
• Narzędzie poprawnie rozpoznaje idealne modele:
– Średni wynik 0.754
• Dla najlepszej testowanej miary uzyskano dodatnią korelację
wyników z obiektywną miarą jakości - R = 0.51
• Dla badanej grupy białek, na podstawie podobieństwa
funkcyjnego dwóch cząsteczek można wyznaczyć górną
graniczną wartość ich podobieństwa strukturalnego.
Slajd 15
Ocena jakości modeli
strukturalnych białek w
oparciu o podobieństwo
strukturalne i semantyczny
opis funkcji w ontologii GO
Bogumil Konopka1, Jean-Christophe Nebel2, Malgorzata Kotulska1*
Politechnika Wrocławska , Wydział Podstawowych Problemów Techniki,
Instytut Inżynierii Biomedycznej i Pomiarowej
1
Kingston University, Faculty of Computing Information Systems and Mathematics, UK
2
Slajdy dodatkowe
Opracowane miary jakości
meta_AUC
1
FP total
1
 y=
TP total
 x=
meta_AUCy
1
FP total
1
 y=Z sc∗
TP total
meta_AUC2
 x=
AUC 2=
AUC∗max Z
max Z −median Z
Analiza związku struktura 3D/funkcja w
białkach
Wpływ stopnia uszczegółowienia opisu funkcji
białka na relację struktura/funkcja
1
1
0.8
0.8
Pearson's R
Pearson's R
Wpływ wielkości białka na związek
struktura/funkcja
0.6
0.4
0.6
0.4
0.2
0.2
0
0
0
100
200
300
400
500
600
700
Długość łańcuch aminokwasowego
800
0
2
4
6
8
Liczba przypisanych terminów GO
10
Procedura oceny
• DALI – Distance mAtrix aLIgnement
• Obliczane są odległości między atomami Cα
• Opierając się na odległościach można
zindetyfikować:
– Struktury drugorzędowe (SS)
– Odziaływania pomiędzy SS
• Metoda umożliwia wyszukiwanie
podobjeństw między białkami,
bezwzględu na skład aminokwasowy
L.Holm , C. Sander, “Protein Structure Comparison by Alignment of Distance Matrices”,
J.Mol.Biol 233 p.123-138 (1993)
Procedura oceny
• GO– Gene Ontology
• Terminy GO:
– Cellular Component – lokalizacja,
– Biological Process – proces biologiczny ,
– Molecular Function – pełniona funkcja
The Gene Ontology Consortium. Gene ontology: tool for the unification of biology.
Nat. Genet.. May 2000;25(1):25-9.
Procedura oceny
Model 3D
DALI
Terminy GO
sąsiadów strukturalnych
Terminy GO
celu
Krzywe ROC
Download