Politechnika Śląska w Gliwicach Wydział Automatyki Elektroniki i Informatyki Instytut Elektroniki Zbigniew Krajewski Klasyfikacja Strukturalna Białek Za Pomocą Maszyn Wektorów Podpierających AUTOREFERAT ROZPRAWY DOKTORSKIEJ Promotor: Prof. dr hab. inż. Ewaryst Tkacz Gliwice 2011 1. Wstęp ..................................................................................................................................... 3 2 Wprowadzenie do bydowy strukturalnej białek ................................................................ 4 2.2 Struktura i właściwości aminokwasów......................................................................... 4 2.2.1 Właściwości aminokwasów..................................................................................... 5 2 Struktura białka ..............................................................Błąd! Nie zdefiniowano zakładki. 2.1 Wiązanie peptydowe. ..................................................................................................... 7 2.2 Kąty dwuścienne łańcucha białkowego ........................................................................ 7 2.3 Podział złożoności struktury białka.............................................................................. 7 2.4 Regularne struktury drugorzędowe ............................................................................. 8 2.4.1 Struktury helikalne. ................................................................................................ 8 2.4.2 Arkusz β ................................................................................................................... 8 2.5 Klasy strukturalne.......................................................................................................... 9 3 Metoda SVM .......................................................................................................................... 9 3.1 Metoda SVM dla danych liniowo separowalnych ....................................................... 9 3.2 Metoda SVM dla danych liniowo nieseparowalnych ................................................ 10 3.3 Wykorzystanie funkcji jądra....................................................................................... 10 3.4 Zalety metody SVM : ................................................................................................... 11 3.5 Wady metody SVM:..................................................................................................... 11 4 Cele i tezy pracy................................................................................................................... 12 4.1 Cele pracy...................................................................................................................... 12 4.2 Tezy pracy ..................................................................................................................... 12 4.3 Dobór danych................................................................................................................ 12 4.4 Ekstrakcja cech ............................................................................................................ 13 4.5 Selekcja cech ................................................................................................................. 13 5 Wybrane wyniki badań....................................................................................................... 15 5.1 Porównanie predykcji klas strukturalnych uzyskanych metodami minimalnoodległościowymi oraz metodą SVM z użyciem cech komponentów aminokwasów (AAC)................................................................................................................................... 15 5.2 Predykcja klas strukturalnych domen białkowych przy pomocy SVM dla rozszerzonych cech komponentów aminokwasów .......................................................... 16 5.2.1 Cecha reprezentująca długość łańcucha domeny białkowej ............................. 16 5.2.2 Wpływ cech reprezentujących efekt kolejności aminokwasów łańcucha domeny białkowej........................................................................................................... 16 5.4 Selekcja cech istotnych............................................................................................. 17 6 Wnioski końcowe pracy ..................................................Błąd! Nie zdefiniowano zakładki. 7 Literatura .........................................................................Błąd! Nie zdefiniowano zakładki. 2 1. Wstęp W nauce panuje przekonanie, że w szczególności DNA jak i RNA stanowią zmagazynowaną pełną informację o wszystkich procesach życiowych zachodzących w organizmach żywych. Zarówno ekspresja genów jak i jej regulacja ściśle zależą od sekwencji nukleotydów tworzących długą cząsteczkę polimeru występującego w komórkach organizmów żywych, w strukturze podwójnej, prawoskrętnej helisy DNA. W przeważającej części, aktywny DNA zorganizowany jest w krótkie fragmenty kodu zwane genami. W najbardziej rozpowszechnionym ujęciu, genem będziemy nazywać fragment DNA, który jest odpowiedzialny za kodowanie jednego łańcucha polipeptydu białkowego. Choć bardziej precyzyjna definicja genu określa go jako fragment DNA umożliwiający komórce wytworzenie dowolnego typu RNA (np. rRNA, tRNA,mRNA) to jednak w przeważającej mierze celem aktywności genów jest wytworzenie łańcucha polipeptydu funkcjonalnego białka. Można powiedzieć, że DNA stanowi zestaw instrukcji określających przede wszystkim sekwencję aminokwasów łańcucha białkowego, choć również : a) intensywność i czas jego wytwarzania, b) warunki, w jakich białko powinno być wytwarzane, c) przedział komórki, do jakiej białko będzie przesłane d) oraz informację w których tkankach i w jakiego typu komórkach białko ma powstawać. Zatem istnieje bezpośrednie powiązanie pomiędzy informacją zakodowana w DNA i sekwencją, a więc budową tworzonego łańcucha polipeptydu. Obserwujemy trzystopniowy system realizacji procesów życiowych związanych z rozwojem i funkcjonowaniem organizmów żywych. Stabilna struktura DNA zarządza procesami życiowymi za pośrednictwem fragmentów RNA, dedykowanych do wytworzenia odpowiednich rodzajów białek i to zwykle białka a nie DNA czy nawet RNA, posiadają właściwą funkcję wykonawczą. Odnosząc się do różnorakich funkcji białek należałoby, wspomnieć ich znane podstawowe funkcje [FunBia]: a) Funkcja transportu małych cząsteczek i jonów np. hemoglobina odpowiedzialna za przenoszenie tlenu krwinek czerwonych mioglobina odpowiedzialna za przenoszenie tlenu w mięśniach transferyna odpowiedzialna za transport atomów żelaza w osoczu krwi do tkanek b) Magazynowanie np. ferrytyna odpowiedzialna za przechowywanie jonów żelaza w wątrobie c) Wytwarzanie i przekazywanie impulsów nerwowych. Reakcja komórek nerwowych na określone bodźce odbywa się z udziałem białek receptorowych np. rodopsyna – światłoczuły barwnik występujący w komórkach pręcikowych siatkówki oka d) Katalizy enzymatycznej np. anhydraza węglanowa odpowiedzialna za katalizę uwodnienia dwutlenku węgla (CO2 + H2O → H2CO3 → H+ + HCO3 ), występuje m. in. w erytrocytach gdzie m. in. pomaga w wydalaniu tlenku węgla. e) Regulacja przenikalności błony komórkowej Rolą tych białek jest regulacja stężenia metabolitów wewnątrz komórki f) Funkcje ruchu uporządkowanego np. aktyna i miozyna wchodzące w skład mięśni. 3 g) Kontrola wzrostu i róznicowania Kontrola ekspresji genów i jej kolejności, które są podstawowymi warunkami wzrostu i różnicowania komórek. h) Funkcje immunologiczne. Białka używane przez system immunologiczny do identyfikacji i neutralizacji obcych ciał takich jak bakterie czy wirusy. i) Przyleganie komórek np. kadhedryny – ułatwiają przyleganie komórek tego samego rodzaju j) Budulcowe np.: kolagen – białko fibrylarne posiadające dużą odporność na rozciąganie nadające elastyczność m. in. tkance kostnej i mięśniowej. elastyna – białko fibrylarne występujące m. in. w ścięgnach, więzadłach, tkance płucnej oraz większych naczyniach krwionośnych. Po rozciągnięciu lub ściśnięciu charakteryzuje się właściwością odzyskiwania pierwotnego kształtu. k) Regulatorowe. Białka wykorzystywane do regulacji przebiegu procesów biochemicznych np. w hormonach takich jak insulina czy hormon wzrostu. Funkcje białek ściśle związane są z charakterystyczną dla danego białka strukturą trójwymiarową przybierającą, w przypadku różnych białek, często bardzo złożone i nieregularne formy. Z kolei ta swoista trójwymiarowa budowa białka jest ściśle uzależniona od sekwencji reszt aminokwasów wchodzących w jego skład. W związku z tym, przedmiotem analiz w wielu opracowaniach stała się predykcja i klasyfikacja trójwymiarowej struktury białka na podstawie jego sekwencji reszt aminokwasów. 2 Wprowadzenie do budowy strukturalnej białek 2.2 Struktura i właściwości aminokwasów Białko składa się z podjednostek, aminokwasów połączonych przy pomocy wiązania peptydowego. Aminokwasy białkowe natomiast to związki chemiczne, w których możemy wyszczególnić następujące składowe: atom węgla α (Cα), grupę aminową, grupę karboksylową i łańcuch boczny R (rys 1.1.1 a). CO2H H H N H2N C CO2H CH H2C CH2 CH2 R (a) (b) Rysunek 1.1.1 Wzory: ogólny α aminokwasów (a) oraz proliny (b) Pewien wyjątek stanowi prolina, która posiada drugorzędową grupę aminową, będącą częścią pierścienia (rys 1.1.1 b) [Shawn 2002; Hart 1999]. W białkach występujących w środowisku naturalnym znajdowanych jest ok. 140 różnych reszt aminokwasowych [Szymański 2007]. 4 Tylko 20 z nich kodowanych jest w DNA. Wyszczególnia się dodatkowe dwa rzadziej występujące aminokwasy kodowane w określonych warunkach za pomocą kodonów „stop” wstawiane do białek podczas procesu translacji mRNA (UGA –selenocysteina, UAG – pyrolizyna – rys.1.1.2) [Szymański 2007, Buxbaum 2007]. Inne rzadziej występujące aminokwasy powstają na skutek modyfikacji typowych aminokwasów już wbudowanych w strukturę białka np. hydroksylizyna czy hydroksyprolina [Solomon 2007]. W środowisku wodnym aminokwasy przyjmują postać jonów amfoterycznych tzw. struktury zwitterion [Hames 2002]. Grupa karboksylowa ulega dysocjacji uzyskując ładunek ujemny, natomiast do grupy aminowej, która uzyskuje ładunek dodatni, dołączany jest wodór [Voet 2004] (rys.1.1.3). Rysunek 1.1.3 Uogólniony model atomowy i wzór struktury zwitterion. 2.2.1 Właściwości aminokwasów Do najczęściej wyszczególnianych właściwości aminokwasów należą [Dasgupta AAI, Dasgupta AAII, Dasgupta PSI]: 1) Rozmiar i kształt Najczęściej dokonuje się podziału na małe (w tym bardzo małe) i pozostałe. Poszczególne reszty kwasowe określa się indywidualnie w zależności od długości łańcucha czy grubości cząsteczki. Do kategorii małych zalicza się cysteinę, treoninę, kwas asparaginowy, asparaginę, prolinę .W tym do bardzo małych zalicza się : glicynę, alaninę, serynę, cysteinę. Małe reszty aminokwasów pozwalają na większą elastyczność struktury białkowej, szczególnie przy przechodzeniu z jednej struktury drugorzędowej w drugą. 2) Ładunek Niektóre reszty aminokwasów obdarzone są ładunkiem. Reagują z innymi cząsteczkami spolaryzowanymi lub jonami obdarzonymi ładunkiem przeciwnym. Do grupy aminokwasów zasadowych, naładowanych dodatnio zaliczamy: lizynę, argininę, histydynę. Do grupy aminokwasów kwasowych naładowanych ujemnie zaliczamy: kwas asparaginowy, kwas glutaminowy. 5 3) Polarność Cząsteczki nie obdarzone ładunkiem i spolaryzowane posiadają w swoich łańcuchach bocznych tlen lub azot, często wiążą się z innymi cząsteczkami spolaryzowanymi np. cząsteczkami wody tworząc wiązania wodorowe. Do grupy aminokwasów polarnych możemy zaliczyć: tryptofan, tyrozynę, treoninę, cysteinę, serynę, asparaginę, glutaminę, histydynę, argininę, lizynę, kwas glutaminowy, kwas asparaginowy. 4) Hydrofobowość Reszty o długich łańcuchach węglowo-wodorowe lub tworzące grube węglowowodorowe cząsteczki stowarzyszają się ze sobą ze względu na oddziaływanie sił wiązań wodorowych pomiędzy cząsteczkami wody. Tworzące sieć wiązań wodorowych cząsteczki wody oraz spolaryzowane cząsteczki aminokwasów powodują wypychanie cząsteczek niespolaryzowanych z sieci cząsteczek spolaryzowanych skupiając je w jednym miejscu tworząc tzw. wiązania hydrofobowe [Trojanowski 1977]. W środowisku wodnym reszty hydrofobowe zajmują wewnętrzne struktury białka, na zewnątrz znajdują się cząsteczki hydrofilowe tzn. biorące udział w oddziaływaniu z siecią spolaryzowanych cząsteczek wody oraz innych części łańcucha białkowego. W środowisku gdzie otoczenie stanowią cząsteczki hydrofobowe jak lipydy w przypadku błony komórkowej reszty hydrofobowe znajdują się na zewnątrz struktury białkowej a reszty spolaryzowane znajdują się w jej środku. Spowodowane jest to oddziaływaniami między resztami spolaryzowanymi grupującymi je razem we wnętrzu struktury białka. Do grupy aminokwasów hydrofobowych zalicza się: glicynę, alaninę, cysteinę, treoninę, valinę, leucynę, izoleucynę, metioninę, fenyloalaninę, tryptofan, tyrozynę, histydynę, lizynę. 5) Aromatyczność Są to reszty zawierające w swojej strukturze pierścień aromatyczny. Zazwyczaj stanowią silnie hydrofobowe grube cząsteczki. W grupie aminokwasów aromatycznych znajdują się: fenyloalanina, tyrozyna, tryptofan oraz histydyna. 6) Alifatyczność Reszty alifatyczne stanowią zwykle dłuższe czy krótsze łańcuchy węglowo-wodorowe wykazujące cechy silnie hydrofobowe. Do grupy aminokwasów alifatycznych zaliczamy: leucynę, izoleucynę oraz walinę. Ich grupy boczne stanowią otwarte łańcuchy węglowe, są hydrofobowe i niepolarne. 6 2.1 Wiązanie peptydowe. Białka stanowią liniowe sekwencje aminokwasów połączone przy pomocy wiązań peptydowych [Hames 2002]. Są to wiązania kowalencyjne pomiędzy grupą aminową jednego aminokwasu i grupą karboksylową drugiego (rys. 1.2.1.1) H H H + H3N C + C + H3N C - O R1 H O O C O = + O R2 H3N C C R1 O N C H R2 C + H2O O- Rysunek 1.2.1.1 Tworzenie wiązania peptydowego Wiązania peptydowe są sztywne a grupy peptydowe posiadają charakter planarny, atomy O=C-N-H leżą w jednej płaszczyźnie (rys. 1.2.1.2). Swobodna rotacja zachodzi dla połączeń między grupami peptydowymi a węglem α, z którym połączona jest reszta aminokwasu (Cα-C , Cα-N). sztywne grupy peptydowe H H O Cα R1 C H O N Cα H R2 C H O N Cα H R3 C N Cα H R4 swobodna rotacja Rysunek 1.2.1.2 Łańcuch polipeptydu, połączonych reszt aminokwasów. Typowa konformacja tego wiązania to konfiguracja trans, w której atomy węgla Cα kolejnych reszt oraz atomy tlenu i azotu znajdują się po przeciwległych stronach wiązania peptydowego. Konfiguracja cis zachodzi niezwykle rzadko z uwagi na wzajemne przestrzenne oddziaływania reszt aminokwasów 2.2 Kąty dwuścienne łańcucha białkowego Konformację łańcucha białkowego, którego składową stanowią charakterystyczne sztywne grupy wiązania peptydowego, połączone do dwóch atomów węgla Cα kolejnych reszt aminokwasów, można opisać przy pomocy dwóch kątów dwuściennych Φ oraz Ψ [Voet 2004, Dasgupta PSI]. 2.3 Podział złożoności struktury białka Wzajemna relacja przestrzenna atomów białka rozpatrywana jest zwykle na czterech poziomach złożoności strukturalnej [Voet 2004, Dasgupta PSI, Dasgupta PSII]. Wyróżniamy strukturę pierwszo, drugo, trzecio i czwartorzędową. Struktura pierwszorzędowa określa sekwencję kolejno po sobie następujących reszt aminokwasów w porządku od przyłącza N do C. Struktura drugorzędowa to przestrzenny regularny układ łańcucha aminokwasów zlokalizowanych w pobliżu, wzdłuż sekwencji liniowej. Trójwymiarową strukturę całego 7 łańcucha polipeptydu określa struktura trzeciorzędowa. W skład wielu białek wchodzi więcej niż jeden łańcuch polipeptydu połączonych zwykle innymi wiązaniami niż kowalentne, bądź znacznie rzadziej przy pomocy mostków dwusiarczkowych. Przestrzenne rozmieszczenie tych jednostek określa czwartorzędowa struktura białka 2.4 Regularne struktury drugorzędowe Na drugorzędową strukturę białka składają się w przeważającym stopniu regularne, i powtarzające się motywy lokalnego rozmieszczenia aminokwasów takie jak helisy, wstęgi, arkusze, zwroty czy pętle. Helisy to skręcone dookoła węgla α, w określonym stałym stopniu, łańcuchy polipeptydu Helisę charakteryzuje więc pewna stała wartość kąta Φ i Ψ. Alternatywną wielkością, która może charakteryzować helisę jest ilość jednostek peptydu (reszt aminokwasów) przypadających na jeden obrót oznaczony przez – n oraz skok gwintu – p oznaczający długość jednego obrotu helisy wzdłuż jej osi pionowej . 2.4.1 Struktury helikalne. Często występującym motywem struktury drugorzędowej jest struktura prawoskrętnej αhelisy. Jest to jedyna struktura helikalna znajdująca się w zakresie wartości kątów torsyjnych Φ=-57° i Ψ=-47°. Wartość parametru n wynosi 3.6 reszt na obrót a skok p wynosi 5.4 Å. Wiązania stabilizujące α-helisę to wiązania wodorowe pomiędzy wiązaniem N-H grupy amidowej a wiązaniem C=O grupy karbonylowej n-4 reszty. Dodatkowo rdzeń α-helisy jest ciasno upakowany zwiększając stabilizację przez działanie sił van der Waalsa. Reszty skierowane są na zewnątrz nie powodując konfliktów przestrzennych między atomami [Voet 2004, Dasgupta PSII]. 2.4.2 Arkusz β Arkusz β posiada kąty dwuścienne w preferowanym obszarze diagramu Ramachandrana [Voet 2004, Dasgupta PSII]. Podobnie jak w przypadku α-helisy stabilizację struktury zapewniają wiązania wodorowe, jednak w przeciwieństwie do struktury α-helisy gdzie istniały wiązania pomiędzy sąsiadującymi segmentami polipeptydu w obrębie jednego łańcucha, tutaj występują raczej wiązania pomiędzy segmentami łańcuchów sąsiadujących. Arkusz β posiada dwa warianty struktury: równoległą i antyrównoległą. Równoległy arkusz β to struktura połączonych wiązaniami wodorowymi łańcuchów polipeptydu biegnących w tym samym kierunku. Antyrównoległy arkusz β to połączenie łańcuchów polipeptydu biegnących w przeciwnych kierunkach . Arkusz β jest bardzo często występującym motywem w białkach. Zawiera od 2 do aż 22 włókien polipeptydu, średnia wartość to połączonych 6 łańcuchów. Łańcuch polipeptydu w strukturze arkusza β zawiera do 15 reszt, średnio jego długość wynosi 6 reszt aminokwasów. Równoległy arkusz β zawierająca w swojej strukturze mniej niż 5 włókien polipeptydu występuje rzadko. Sugeruje to, że równoległy arkusz β jest mniej stabilny niż antyrównoległy, prawdopodobnie z powodu tego, że połączenia wodorowe w równoległym arkuszu β są nieco odkształcone w porównaniu z połączeniami w arkuszu antyrównoległym. Mieszane równoległe i antyrównoległe arkusze występują często jednak średnio tylko z ok. 20% udziałem arkusza równoległego. 8 2.5 Klasy strukturalne Chociaż trójwymiarowa struktura białek jest niezwykle złożona i nieregularna, jednak ich ogólny układ struktury jest zaskakująco prosty i regularny. Białka posiadają bardzo podobny bądź identyczny wzorzec trójwymiarowej struktury pomimo tego, że mogą posiadać różne sekwencje aminokwasów czy biochemiczne funkcje . Levit i Chothia wprowadzili koncepcję strukturalnej klasy opartej na obserwacji topologii łańcucha polipeptydu w 31 białkach globularnych. Wprowadzili cztery podstawowe klasy :α, β , α/β, α+β z przeważającym udziałem struktur odpowiednio: helisy α, arkusza β, występujących naprzemiennie struktur helisy α i arkusza β (w przeważającej mierze równoległe struktury β), rozdzielonych obszarów struktur α i β (w przeważającej mierze antyrównoległe struktury arkusza β) [Levitt 1976]. 3 Metoda SVM Metoda SVM (Metoda maszyn wektorów podpierających) jest jedną z technik uczenia maszynowego z nauczycielem wykorzystywana przede wszystkim jako metoda klasyfikacji i regresji. Z uwagi na swoje zalety bywa coraz częściej używana w miejsce starszych metod heurystycznych takich jak np. sieci neuronowe. Metoda SVM użyta jako klasyfikator pozwala na rozpoznanie klas danych po uprzednim poddaniu klasyfikatora procesowi uczenia z użyciem danych treningowych, dla których znana jest przynależność do poszczególnych klas. W swojej podstawowej formie SVM jest liniowym klasyfikatorem binarnym, który po rozszerzeniu o metodę miękkiego marginesu (tłum. autora, ang. soft margin) oraz metodę jądra pozwala na klasyfikację liniowo nieseparowalnych danych w rozszerzonej przestrzeni cech. Użycie funkcji decyzyjnych zwiększa możliwości klasyfikatorów SVM o możliwości rozpoznania wielu klas. Istotą metody SVM jest wyznaczenie minimalizującej błąd generalizacji . optymalnej hiperpłaszczyzny separującej, 3.1 Metoda SVM dla danych liniowo separowalnych Załóżmy, że posiadamy M przykładów treningowych w przestrzeni m wymiarowej xi (i = 1,...., M ) należących do dwóch możliwych klas oznaczonych jako yi = 1 to przykład należy do klasy pierwszej oraz yi = −1 przykład należy do klasy drugiej. Hiperpłaszyczyzna separująca może być określona wzorem D( x) = w x i + b Zakładamy, że dane są liniowo separowalne czyli spełniony jest warunek: T y i ( w T x i + b) ≥ 1 (2.3.1.3) Proces uczenia sprowadza się do minimalizacji funkcji celu Q( w ) = T przy ograniczeniu y i (w x i + b) ≥ 1 . 9 1 w 2 2 (2.3.1.8) 3.2 Metoda SVM dla danych liniowo nieseparowalnych W celu określenia klasyfikatora dla danych liniowo nieseparowalnych wproawdzono do równania (2.3.1.3) dodatkową dodatnią zmienną ξ i ≥ 0 tzw zmienną luźną (ang. slack variable). y i (w T x i + b) ≥ 1 − ξ i dla i = 1,..,M (2.3.2.1) Oznacza to, że dopuszcza się aby poza wektorami leżącymi na hiperpłaszczyźnie optymalnego marginesu znajdowały się przykłady danych uczących zwane ograniczonymi wektorami podpierającymi (ang. bounded support vectors). W celu regulacji wartości zmiennych ξ i , do funkcji celu wprowadza się człon karny w M postaci C ∑ ξ i , którego wpływ reguluje stała C (wzór 2.3.2.2) . i =1 Q ( w , b, ξ ) = 1 w 2 2 M + C∑ξi (2.3.2.2) i =1 T T Gdzie ξ = (ξ1 ,.., ξ M ) oraz podlega ograniczeniu yi ( (w xi + b) ≥ 1 − ξ i oraz ξi ≥ 0 dla i = 1,..,M. Stała C pozwala na kompromis pomiędzy maksymalizacją marginesu i minimalizacją błędu klasyfikacji danych treningowych. 3.3 Wykorzystanie funkcji jądra W przypadku danych liniowo nieseparowalnych pomimo wyznaczenia optymalnej hiperpłaszyzny separującej zdolność klasyfikatora do generalizacji może nie być wystarczająca. W celu zwiększenia złożoności zbioru funkcji separujących wykorzystuje się funkcje jądra [Abe 2005]. Są to funkcje pozwalające na mapowanie przestrzeni wejściowej do wielowymiarowej przestrzeni zwanej przestrzenia cech. Liniowa separacja następuje już w przestrzeni cech dla rozszerzonej wartości wymiaru VC. Dla nieliniowej funkcji wektorowej g(x) = ( g1 ( x),..., g l ( x)) mapującej m-wymiarowy wektor wejściowy x na l-wymiarową przestrzeń cech, funkcja decyzyjna będzie miała postać: T D ( x ) = w T g ( x) + b (2.3.3.1) gdzie w jest l-wymiarowym wektorem , b – parametrem progowym Zgodnie z twierdzeniem Mercera, jeśli symetryczna funkcja jądra K (x, x ′) spełnia warunek: M ∑ hi h j K (x i , x j ) ≥ 0 i , j =1 10 (2.3.3.2) dla każdego M , hi , x i gdzie hi przyjmuje wartości rzeczywiste to istnieje funkcja g(x) taka że K (x, x ′) = g T (x)g(x ′) (2.3.3.3) Zaletą funkcji jądra w powyższej postaci iloczynu skalarnego, jest możliwość stosowania jej zarówna w fazie uczenia jak i klasyfikacji, bez konieczności odwoływania się do często bardzo rozbudowanej i wielowymiarowej funkcji g(x) . 3.4 Zalety metody SVM : 1) Maksymalizacja zdolności do generalizacji. Podstawowa przewaga klasyfikatora SVM odnosząca się do teorii uczenia związana ze zdolnością do maksymalizacji marginesu separującego. W przypadku, gdy dane są liniowo separowalne oraz nawet przy niewielkiej ilości danych treningowych, klasyfikator SVM posiada dobre właściwości klasyfikacji nieznanych danych. 2) Brak minimów lokalnych. Zadanie minimalizacji sformułowane jest w przypadku klasyfikatora SVM jako problem programowania kwadratowego, w związku z tym posiada jedno dobrze określone minimum globalne. 3) Odporność na dane odstające od większości danych. Przy dużym C uzyskuje się lepszą skuteczność klasyfikacji danych treningowych przy założeniu małej ilości danych odstających. Gdy wartość wsp. C ustalana jest jako mała uzyskuje się zwykle gorszą jakość klasyfikacji danych treningowych, dopuszcza się natomiast istnienie odstających danych, które mogą być sklasyfikowane jako błędne. Zatem poprzez regulację wartości wsp. C można zminimalizować wpływ danych określanych jako odstające. 3.5 Wady metody SVM: 1) Konieczność rozszerzania do problemu wieloklasowego Ponieważ SVM jest klasyfikatorem binarnym, w przypadku danych należących do więcej niż dwóch klas istnieje konieczność zastosowania technik rozszerzających możliwości do klasyfikacji wieloklasowej przy użyciu rezultatów z odpowiednich klasyfikatorów binarnych. 2) Długi czas uczenia Ponieważ uczenie klasyfikatora SVM odbywa się poprzez rozwiązanie odpowiedniego problemu dualnego, liczba zmiennych programowania kwadratowego równa jest liczbie danych treningowych. Dla dużej ilości danych treningowych rozwiązanie staje się bardzo czasochłonne z uwagi na ograniczenia pamięci jak i szybkości procesora nawet dla aktualnych rozwiązań technologicznych. 3) Konieczność doboru parametrów Konieczność wyboru typu i parametrów jądra stwarza duże trudności związane z testowaniem i wyborem najlepszego typu jądra oraz jego parametrów. Chociaż typ jądra może być wybrany a priori na podstawie doświadczeń lub zaleceń związanych ze specyfiką danych lub odpowiednią złożonością funkcji jądra, to zestaw jego parametrów zwykle dobierany jest eksperymentalnie przy zastosowaniu czasochłonnych metod statystycznych. 11 4 Cele i tezy pracy 4.1 Cele pracy 1) Opracowanie metody SVM predykcji podstawowych klas strukturalnych domen białkowych przy wykorzystaniu cech kompozycji aminokwasów. 2) Opracowanie metod ekstrakcji cech odzwierciedlających długość sekwencji oraz efekt kolejności opartej o fizykochemiczne właściwości aminokwasów. 3) Opracowanie metody selekcji cech pozwalającej na wyszczególnienie cech istotnych. 4.2 Tezy pracy • Teza 1: Zastosowanie metody SVM pozwala na dokładniejszą predykcję klas strukturalnych niż wykorzystywane metody oparte na minimalnej odległości. • Teza 2: Ekstrakcja cechy długości sekwencji oraz cech opartych o efekt kolejności na bazie właściwości fizykochemicznych aminokwasów pozwala na podniesienie dokładności predykcji klas strukturalnych. • Teza 3: Selekcja cech istotnych pozwala na ograniczenie ilości i dobór odpowiednich cech bez straty dokładności klasyfikacji. 4.3 Dobór danych Wprowadzono szereg uproszczonych i różnych kryteriów przynależności do klasy opartych na procentowym udziale struktur α i β. Jednak dopiero wprowadzone przez Murzina nieco inne przybliżenie problemu dało podstawy do zunifikowania i sklasyfikowania znanych struktur domen białkowych w bazie SCOP (Structural Classification Of Protein) [Murzin 1995]. Murzin zaproponował aby podstawową jednostką klasyfikacji była domena a nie jak dotychczas cała struktura białka a klasyfikacja oparta została o tzw. ewolucyjne pokrewieństwo oraz o pewne zasady tworzenia struktur 3-D. Baza danych SCOP zawiera w sobie klasyfikację wszystkich aktualnie występujących w bazie PDB białek, oraz wiele publikowanych niedostępnych w bazie PDB [Hubbard 1998]. Baza SCOP dodatkowo posiada szczegółowy opis strukturalnej i tzw. ewolucyjnej zależności białek stanowiąc aktualnie najbardziej kompletną i wiarygodną bazę dla celów predykcji klas strukturalnych [Chou 1998]. Wcześniejsze implementacje wykorzystywały dane, których niewielka liczba jak i wysoka redundancja nie pozwalały na wiarygodne określenie uogólnionego modelu klasyfikacji oraz jego dokładności (tutaj rzędu 90%) [Chou 1995, Zhou 1998]. Bardziej wiarygodne rezultaty choć już nie tak dobre, zostały osiągnięte przy użyciu znacznie większej liczby danych z bazy SCOP. 12 4.4 Ekstrakcja cech Konwencjonalna kompozycja aminokwasów na podstawie, której dokonuje się klasyfikacji strukturalnej białek zawiera 20 komponentów, dyskretnych wartości, z których każda odzwierciedla częstotliwość występowania jednego z 20 aminokwasów w białkach [Chou 1995, Chou 1995a]. Kompozycja pseudo-aminokwasów pozwala na rozszerzenie wektora cech o wartości pozwalające na odzwierciedlenie efektu kolejności sekwencji [Chou 2001, Chou 2003a, Lin 2008, Zhang 2008, Chou 2009, Chou 2005, Chou 2004, Chou 2005a]. Koncepcja pseudoaminokwasów zakłada rozszerzenie konwencjonalnych komponentów do komponentów zawierających informację o kolejności aminokwasów odpowiednio co drugiego, co trzeciego itd. uwzględniając pewne zależności a więc i oddziaływania pomiędzy nimi na podstawie ich właściwości biochemicznych. Klasyfikacja na poszczególne klasy strukturalne odbywa się jedynie na podstawie udziału dwudziestu aminokwasów wchodzących w skład białka tj. członu AAC jak i korelacji pomiędzy cechami biochemicznymi oddalonych o pewną wartość aminokwasów. Mając do dyspozycji dużą bazę zawierającej domeny o różnych długościach łańcucha polipeptydu warto postawić pytanie o wpływ długości łańcucha na wynik klasyfikacji. W tym celu dodana została wartość 1/n cechy uwzględniającej długość domeny białkowej do członu AAC Ostatecznie badane cechy uzyskały kształt pokazany na rysunku 4.4.2. Rysunek 4.4.2 Układ zastosowanych cech: 1/n – cecha odzwierciedlająca długość sekwencji, AAC – cechy kompozycji aminokwasów (udziału reszt w łańcuchu polipeptydu), PSE- cechy związane z korelacją właściwości biochemicznych znajdujących się w sąsiedztwie co 1,2,3,4,... reszt 1/n jest 21 cechą rozkładu AAC, którą można zinterpretować jako 21 typ aminokwasu, którego częstość występowania jest odwrotnie proporcjonalna do długości łańcucha domeny białkowej. PSE to komponenty pseudo-aminokwasów, których udział w stosunku do pozostałych cech określa odpowiedni współczynnik wagowy. 4.5 Selekcja cech Zmniejszenie wymiaru danych wejściowych pozwala na zredukowanie zbioru cech do optymalnego podzbioru cech pozwalającego na uzyskanie najlepszej dokładności klasyfikatora i (lub) wyraźną poprawę jego możliwości obliczeniowych [Kohavi 1997]. Zbyt duży wymiar zmiennych może być przyczyną przeuczenia klasyfikatora przekładający się na wzrost wymiaru VC i na wzrost ryzyka gwarantowanego [Guyon 2002,Guyon 1992]. Ekstrakcja cech przy pomocy metody PCA szeroko stosowanej do wstępnej redukcji wymiaru zmiennych poprzez rzutowanie cech na składowe główne, gdzie nowe cechy są liniową kombinacją oryginalnych cech, powoduje utratę przejrzystej informacji dotyczącej nierzadko interesującego nas wpływu oryginalnych cech [Guyon 2002]. W takim przypadku 13 stosuje się selekcję cech, w celu określenia cech istotnych [Kohavi 1997]. Celem jest znalezienie cech, które wpływają na wynik klasyfikacji również w kontekście innych cech jak i eliminacja cech, które ze względu na występującą redundancję pozostają istotne, lecz nie są użyteczne [Guyon 2002]. Z uwagi na niewielką ilość cech w pracy wykorzystano metodę selekcji przy pomocy Crossvalidation danych treningowych oraz metodę rankingu na podstawie dokładności klasyfikacji wydzielonych danych walidacyjnych. Wybrano metodę eliminacji cech dla określonego wcześniej modelu klasyfikatora. Inną zastosowaną metodą jest metoda eliminacji cech przy pomocy klasyfikatora RFE-SVM. WEJŚCIE: 1) Zbiór cech uporządkowanych w rankingu R=[] 2) Wybrany zestaw wszystkich cech W=[1,...,m] 1) Trenuj klasyfikator SVM dla zestawu cech W. 2) Oblicz wagi rankingu cech c f dla zestawu cech W Sprawdzian krzyżowy Ocena na podstawie danych walidacyjnych RFE Wybierz cechę o najmniejszej wartości wagi c = arg min f c f 1) Dodaj cechę na początek rankingu R=[c,R] 2) Usuń cechę z zestawu cech W Nie W=[] WYJŚCIE : Lista wszystkich cech uporządkowanych w rankingu R Rysunek 4.5.1 Algorytm selekcji cech. 14 5 Wybrane wyniki badań 5.1 Porównanie predykcji klas strukturalnych uzyskanych metodami minimalnoodległościowymi oraz metodą SVM z użyciem cech komponentów aminokwasów (AAC) W celu porównania powyższych metod oraz zastosowanej metody SVM wykorzystano najnowsze dane bazy SCOP (wydanie 1.75). Wybrano 7702 domeny poniżej 30% podobieństwa sekwencji. Dokonano losowego podziału danych na treningowe i testowe w taki sposób, aby zarówno w danych treningowych jak i testowych wystąpił podobny rozkład długości jak i ilości domen w poszczególnych klasach. Przeprowadzono klasyfikację dla metod DH, DE, CC oraz SVM. Parametry modelu SVM dobrano według metody grid, za kryterium przyjęto współczynnik sprawności dla 10 krotnego sprawdzianu krzyżowego (cross validation – 10-CV). Uzyskano wartość dokładności współczynnika dla metody grid-CV równą 55% dla wartości C=216 i g=2-14 (rys. 5.1.1). Rysunek 5.1.1 Wykres konturowy uzyskany metodą grid, dla klasyfikatora SVM przy użyciu cech AAC Podczas wyboru modelu i treningu klasyfikatora SVM wykorzystano jedynie zbiór treningowy. Za najbardziej wiarygodną wartość predykcji klas nieznanych danych przy pomocy SVM należy przyjąć współczynnik dokładności klasyfikacji danych testowych tj. 56%. Dla porównania dla tych samych danych testowych uzyskano dokładność dla algorytmów DH, DE, CC odpowiednio 48%, 50%, 53%. Dla danych treningowych odpowiednio 46%, 49%, 56% oraz 60% dla klasyfikacji SVM. Metoda Dokładność (%) DH DE 48 CC 50 15 SVM 53 56 Tabela 5.1.1 Porównanie dokładności klasyfikacji przy pomocy metod minimalnej odległości oraz SVM. W tabeli podano współczynniki dokładności klasyfikacji dla danych testowych. 5.2 Predykcja klas strukturalnych domen białkowych przy pomocy SVM dla rozszerzonych cech komponentów aminokwasów Dobór metody i jej parametrów jest istotny dla dokładności klasyfikacji z punktu widzenia najbardziej odpowiedniego modelu separacji danych zapewniającego jak najlepszą zdolność do predykcji klas nieznanych danych. Jednak równie ważnym o ile nie najważniejszym elementem pozwalającym na uzyskanie klasyfikatora o jak największej dokładności, poza właściwym doborem przykładów uczących jak i testowych, jest dobór odpowiednich cech reprezentujących czynniki posiadające wpływ na dokładność klasyfikacji. 5.2.1 Cecha reprezentująca długość łańcucha domeny białkowej W niniejszej pracy przeprowadzono testy dla dodatkowej cechy reprezentującej długość łańcucha białkowego (1/n) oraz cech opartych o efekt kolejności sekwencji na bazie właściwości aminokwasów (PseAA). Rysunek 5.3.1.1 Wykres konturowy uzyskany metodą grid, dla klasyfikatora SVM przy użyciu cech AAC+1/n. 5.2.2 Wpływ cech reprezentujących efekt kolejności aminokwasów łańcucha domeny białkowej Najlepszą dokładność klasyfikacji dla dodatkowych cech PseAA uzyskano dla jednego z typów cech pseudo-aminokwasów wraz z uwzględnieniem cechy 1/n. 16 Rysunek 5.3.2.1 Wykres konturowy uzyskany metodą grid, dla klasyfikatora SVM przy użyciu cech PSE Typ3+1/n. Porównując jakość klasyfikacji dla danych testowych i różnych zestawów cech tj. AAC, AAC+1/n oraz PSE Typ3+1/n (PseAA) uzyskano dokładność odpowiednio 56%, 59% , 62%. Dla danych treningowych odpowiednio 60%, 62% oraz 67%. Najlepszą dokładność predykcji klas nieznanych danych określa współczynnik równy 62% dla danych testowych i zestawu cech PSE Typ3+1/n. (tab. 5.3.2.1) Zestaw Cech Dokładność (%) AAC 56 AAC+1/n Pse Typ3 +1/n 59 62 Tabela 5.3.2.1 Porównanie dokładności klasyfikacji SVM dla różnych zestawów cech. 5.3 Selekcja cech istotnych W celu eliminacji cech, które nie mają istotnego wpływu lub mają negatywny wpływ na dokładność klasyfikacji, przeprowadza się selekcję cech. Dzięki redukcji cech uzyskuje się redukcję ilości składowanych danych, lepszą wydajność przetwarzania oraz lepsze zrozumienie wpływu cech na dokładność klasyfikacji. Zgodnie z założeniami zastosowano trzy metody redukcji cech. 1) Nieliniową wieloklasową metodę RFE. 2) Metodę Cross Validation (CV). 3) Redukcję przy pomocy kryterium dokładności klasyfikacji wydzielonych danych walidacyjnych. 17 Cross Validation dla danych treningowych Met. CV Met. Valid Met. RFE 70,00 Dokładność% 65,00 60,00 55,00 50,00 45,00 40,00 35,00 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 105 110 30,00 L. cech Wykres 5.4.1 Wpływu selekcji cech na współczynnik sprawdzianu krzyżowego dla danych treningowych i jednego ze zbioru cech pseudo aminokwasów (PseAA). Metody: CV, Walidacyjna, RFE zostały opisane w punkcie 4.5. Redukcji poddano zestaw cech o uzyskanej najlepszej dokładności klasyfikacji (PseAA) oraz zastosowany klasyfikator SVM. Jako podstawowe kryterium przyjęto współczynnik dokładności CV dla danych treningowych. Najlepsze rezultaty uzyskano przy użyciu metody CV (wyk. 5.4.1 ). Najlepszą wartość współczynnika CV uzyskano dla 72 cech i wynosiła ona 63,87 % przy dokładność klasyfikacji dla danych testowych wynoszącej 62,07 % (tab. 5.4.1). Zakładając maksymalną redukcję cech przy nie mniejszej dokładności współczynnika CV niż przed redukcją, można dokonać eliminacji do 30 cech. Wartość współczynnika CV wynosi 62,57 % przy dokładności klasyfikacji dla danych testowych wynoszącej 61,79 %. Number of features Classification precision for test CV (%) for data (%) training data 111 63 62 72 64 62 30 63 62 Tabela 5.4.1 Dokładność klasyfikacji dla grup wyselekcjonowanych cech: wszystkich 111 cech, 72 cech o najlepszym wsp. CV oraz 30 cech o wsp. CV jak przed selekcją. 18 Literatura [Shawn 2002] Peptides and Proteins , Tutorial Chemistry Texts 15, Shawn Doonan , University of East London, Royal Society of Chemistry 2002. [Hart 1999] Chemia organiczna , Krótki kurs, Harold Hart, Leslie E. Craine, David J. Hart , Wydawnictwo Lekarskie PZWL 1999. [Szymański 2007] Postępy Biochemii, vol. 53, nr 4, 2007 (http://www.postepybiochemii.pl/vol53-4.htm), Maciej Szymański, Jan Barciszewski, Instytut Chemii Bioorganicznej Polskiej Akademii Nauk . [Buxbaum 2007] Fundamentals of Protein Structure and Functions, Engelbert Buxbaum, Springer 2007. [Solomon 2007] Biologia, wg VII wydania amerykańskiego, Eldra P.Solomon , Linda R. Berg, Diana W. Martin, MULTICO Oficyna Wydawnicza, Warszawa 2007. [Voet 2004] Biochemistry, Volume One, Biomolecules, Mechanisms of Enzyme Action, and Metabolism, 3rd Edition, Donald Voet , Judith G. Voet, Wiley 2004, John Wiley & Sons 2004. [Hames 2002] Biochemia, Krótkie wykłady, B.D. Hames , N.M. Hooper, Wydawnictwo Naukowe PWN, Warszawa 2007. [Ramachandran Plots] Ramachandran Plots. Amino Acid Configuration in Proteins, Brak autora, http://www.greeley.org/~hod/papers/Unsorted/Ramachandran.doc.pdf. [Abe 2005] Support Vector Machines for Pattern Classification, Shigeo Abe, Springer 2005. [Osuna 1997] Support Vector Machines Training and Applications , Edgar E. Osuna, Robert Freund and Federico Girosi, A.I. Memo No. 1602, C.B.C.L Paper No. 144, 1997. Applications [Vapnik 1995] The Nature of Statistical Learning Theory, Vladimir N. Vapnik, Second Edition, Springer 1995. [Fradkin 2005] Support Vector Machines for Classification, Dmitriy Fradkin , Ilya Muchnik,, IMACS Series in Discrete Mathematics and Theoretical Computer Science 2005. [Chang 2011] LIBSVM: a Library for Support Vector Machines , Chih-Chung Chang and Chih-Jen Lin, Department of Computer Science National Taiwan University, Taipei, Taiwan Email: [email protected]. [Guyon 2002] Gene Selection for Cancer Classification using Support Vector Machines, Isabelle Guyon, Jason Weston, Stephen Barnhill, Vladimir Vapnik, Machine Learning, 46, 389–422, 2002. [Zhou 2007] MSVM-RFE: extensions of SVM-RFE for multiclass gene selection on DNA microarray data, Xin Zhou, David P. Tuck, Department of Pathology, Yale University School of Medicine, New Haven, Connecticut 2007. [Guyon 2006] An Introduction to Feature Extraction, Feature Extraction. Foundations and Applications. Isabelle Guyon, Andre Elisseeff , Springer 2006. [Kohavi 1997] Wrappers for Feature Subset Selection, Ron Kohavi, George H. John , Artificial Intelligence, Volume 97, Issues 1-2, December 1997, Pages 273-324. [Guyon 1992] Structural Risk Minimization for Character Recognition, I. Guyon, V. Vapnik, B. Boser, L. Bottou, S.A. Solla, AT&T Bell Laboratories, Holmdel, USA 1992. [LeCun 1990] Optimal Brain Damage, Yann Le Cun, John S. Denker, Sara A. Solla, AT&T Bell Laboratories, Holmdel, N. Y. 1990. 19 [Lin 2008] Prediction of Subcellular Localization of Apoptosis Protein Using Chou’s Pseudo Amino Acid Composition, Hao Lin, Hao Wang , Hui Ding, Ying-Li Chen, Qian-Zhong Li. Acta Biotheoretica , Volume 57, Number 3, 321-330, [Shen 2006] Ensemble classifier for protein fold pattern recognition, Hong-Bin Shen, Kuo-Chen Chou. Bioinformatics (2006) 22 (14): 1717-1722. [Chou 2001] Prediction of Protein Cellular Attributes Using Pseudo-Amino Acid Composition, Kuo-Chen Chou. Proteins: Structure, Function, and Bioinformatics, Volume 43 Issue 3 pages 246-255, 2001. [Chou 2004] Predicting Subcellular Localization of Proteins by Hybridizing Functional Domain Composition and Pseudo-Amino Acid Composition, Kuo-Chen Chou, Yu-Dong Cai., Journal of Cellular Biochemistry (2004), Volume: 91, Issue: 6, Pages: 1197-1203. [Chou 2003] Prediction and Classification of Protein Subcellular Location-Sequence-Order Effect and Pseudo Amino Acid Composition, Kuo-Chen Chou, Yu-Dong Cai, Journal of Cellular Biochemistry (2003),Volume: 90, Issue: 6, Pages: 1250-1260. [Cai 2003a] Support Vector Machines for Predicting Membrane Protein Types by Using Functional Domain Composition, Yu-Dong Cai, Guo-Ping Zhou,y, Kuo-Chen Chou, Biophysical Journal, Volume 84, Issue 5, 3257-3263, 1 May 2003. [Chou 1999] Using Pair-Coupled Amino Acid Composition to Predict Protein Secondary Structure Content , Kuo-Chen Chou, Journal of Protein Chemistry Volume 18, Number 4, 473-480,. [Shen 2007] PseAAC: A flexible web server for generating various kinds of protein pseudo amino acid composition . Hong-Bin Shen a,b, Kuo-Chen Chou. Analytical Biochemistry 373 (2008) 386–388 [Chou 1995] A novel approach to predicting protein structural classes in a (20–1)-D amino acid composition space, Kuo-Chen Chou . Proteins. 1995 Apr;21(4):319-44. [Zerrin 2003] Computational Approaches to Protein Structure Prediction. Zerrin I. . Submitted to the Graduate School of Engineering and Natural Sciences in partial fulfillment of the requirements for the degree of Master of Science Sabancı University Spring 2003 [Chou 2005] Prediction of protease types in a hybridization space, Kuo-Chen Chou ,Yu-Dong Cai, Biochemical and Biophysical Research Communications 339 (2006) 1015–1020. [Chou 2004a] Using amphiphilic pseudo amino acid composition to predict enzyme subfamily classes, Kuo-Chen Chou, Bioinformatics (2005) 21 (1): 10-19. [Chou 2009] Pseudo Amino Acid Composition and its Applications in Bioinformatics, Proteomics and System Biology, Kuo-Chen Chou, Current Proteomics, 2009, 6, 262-274. [Chou 2005a] Progress in Protein Structural Class Prediction and its Impact to Bioinformatics and Proteomics, Current Protein and Peptide Science, Volume 6, Number 5, October 2005 , pp. 423-436(14), Kuo-Chen Chou. [Chou 1995a] Prediction of Protein Structural Classes. Kuo-Chen Chou, Chung-Ting Zhang, Critical Reviews in Biochemistry and Molecular Biology, 30(4);275-349 (1995). [Esmaeili 2009] Using the concept of Chou’s pseudo amino acid composition for risk type prediction of human papillomaviruses, Maryam Esmaeili, Journal of Theoretical Biology Volume 263, Issue 2, 21 March 2010, Pages 203-209, Hassan Mohabatkar , Sasan Mohsenzadeh. [Zhang 2008] Predicting Lipase Types by Improved Chou’s Pseudo-Amino Acid Composition, Protein and Peptide Letters (2008) Volume: 15, Issue: 10, Pages: 1132-1137 ,Guang-Ya Zhang, Hong-Chun Li, Jia-Qiang Gao, Bai-Shan Fang. [Chou 2003a] Predicting Protein Quaternary Structure by Pseudo AminoAcid Composition, Kuo-Chen Chou, Yu-Dong Cai. PROTEINS: Structure, Function, and Genetics 53:282–289 (2003) 20 [Jankowski 1999] Ontogeniczne sieci neuronowe w zastosowaniu do klasyfikacji danych medycznych, Norbert Jankowski. Praca doktorska pod kierunkiem prof. Włodzisława Ducha, Katedra Metod Komputerowych Uniwersytetu Mikołaja Kopernika, Torun´ 1999 [Stateczny 2002] Sztuczne Sieci Neuronowe w Rozpoznawaniu Obiektów Morskich, Andrzej Stateczny, Tomasz Praczyk.Gdańkie Towarzystwo Naukowe 2002 [Tanford 1962] Contribution of Hydrophobic Interactions to the Stability of the Globular Conformation of Proteins, Charles Tanford. J. Am. Chem. Soc., 1962, 84 (22), pp 4240–4247 [Hopp 1981] Prediction of protein antigenic determinants from amino acid sequences (hydrophilicity analysis/protein conformation) T.P. Hopp, K. R. Woods. Proc Natl Acad Sci U S A. 1981 Jun;78(6):3824-8. [Dasgupta AAI] Amino Acids I. Core Science - Biochemistry I, Lecture Series on BioChemistry I by Prof.S.Dasgupta, Dept of Chemistry, IIT Kharagpur. http://classle.net/bookpage/core-science-biochemistry-i . [Dasgupta AAII] Amino Acids II. Core Science - Biochemistry I, Lecture Series on BioChemistry I by Prof.S.Dasgupta, Dept of Chemistry, IIT Kharagpur. http://classle.net/bookpage/core-science-biochemistry-i . [Dasgupta PSI] Protein Structure I. Core Science - Biochemistry I, Lecture Series on BioChemistry I by Prof.S.Dasgupta, Dept of Chemistry, IIT Kharagpur. http://classle.net/bookpage/core-science-biochemistry-i . [Dasgupta PSII] Protein Structure II. Core Science - Biochemistry I, Lecture Series on BioChemistry I by Prof.S.Dasgupta, Dept of Chemistry, IIT Kharagpur. http://classle.net/bookpage/core-science-biochemistry-i . [Dasgupta PSIII] Protein Structure III. Core Science - Biochemistry I, Lecture Series on BioChemistry I by Prof.S.Dasgupta, Dept of Chemistry, IIT Kharagpur. http://classle.net/bookpage/core-science-biochemistry-i [Dasgupta PS4] Protein Structure 4. Core Science - Biochemistry I, Lecture Series on BioChemistry I by Prof.S.Dasgupta, Dept of Chemistry, IIT Kharagpur. http://classle.net/bookpage/core-science-biochemistry-i [Koolman 2005] Color Atlas of Biochemistry, J. Koolman K.H.Roehm. Second edition, revised and enlarged, Thieme Stuttgart – New York 2005 [HO 2003] Revisiting the Ramachandran plot: Hard-sphere repulsion, electrostatics, and H-bonding in the αhelix. BOSCO K. HO, ANNICK THOMAS, ROBERT BRASSEUR. Protein Sci. 2003 November; 12(11): 2508–2522 [Chou 2000] Prediction of Tight Turns and Their Types in Proteins, Kuo-Chen Chou. Analytical Biochemistry 286, 1–16 (2000) [Cai 2003] Prediction of β-turns with learning machines, Yu-Dong Cai, Xiao-Jun Liu, Yi-Xue Li, Xue-biao Xu, Kuo-Chen Chou. Peptides ,Volume 24, Issue 5, May 2003, Pages 665-669 [Chou 1997] Prediction of β-turns. Kuo-Chen Chou. The Journal of Peptide Research Volume 49, Issue 2, pages 120–144, February 1997. [Zhang 1996] Prediction of β-turns in Proteins by 1-4 and 2-3 Correlation Model, Chung-Ting Zhang, KuoChen Chou. John Wiley & Sons, Inc. Biopoly 41:673-702, 1997 [Chou 1997a] Prediction and Classification of α-Turn Types, Kuo-Chen Chou. John Wiley & Sons, Inc. Biopoly 42:837-853, 1997 . [Rajashankar 1996] π-Turns in proteins and peptides: Classification, conformation, occurrence, hydration and sequence K.R. RAJASHANKAR AND S. RAMAKUMAR. Protein Science (1996), 5:932-946. Cambridge University Press. Printed in the USA 21 [Chatterjee 2007] Expanding the polypeptide backbone: hydrogen-bonded conformations in hybrid polypeptides containing the higher homologues of α-amino acids, Sunanda Chatterjee, Rituparna Sinha Roy, P. Balaram. J. R. Soc. Interface 22 August 2007 vol. 4 no. 15 587-606 [Cai 2002] Support Vector Machine for predicting α-turn types, Yu-Dong Cai, Kai-Yan Feng, Yi-Xue Li , KuoChen Chou. Peptides 24 (2003) 629–630 [Reid 2000] Peptide and Protein Drug Analysis. Ronald Reid, James Swarbrick. Informa HealthCare; 1st edition (December 15, 1999) [Chothia 1997] PROTEIN FOLDS IN THE ALL-α AND ALL-β CLASSES, Cyrus Chothia, Tim Hubard, Steven Brenner, Hugh Barns, Alexey Murzin. Annu. Rev. Biophys. Biomol. Struct. 1997. 26:597–627 . [Branden 1999] Introduction to Protein Structure, Carl Branden, John Tooze. Second Edition, Published by Garland Publishing, Inc. 19 Union Square West, New York 1999. [Lesk 2001] Introduction to Protein Architecture: The Structural Biology of Proteins, Arthur M. Lesk. Oxford University Press, USA; 1 edition (2001). [Chou 1991] Energetic Approach to the Folding of α/β Barrels, Kuo-Chen Chou, Louis Carlacci. PROTEINS: Structure, Function and Genetics, 1991, 9, 280-295 . [Chothia 1990] THE CLASSIFICATION AND ORIGINS OF PROTEIN FOLDING PATTERNS. Cyrus Chothia, Alexei V. Finkelstein. Annu. Rev. Biochem. 1990. 59:1007-39 . [Chothia 1977] Structure of proteins: Packing of a-helices and pleated sheets, CYRUS CHOTHIA, MICHAEL LEVITT, DOUGLAS RICHARDSON. Proc. Nati. Acad. Sci. USA Vol. 74, No. 10, pp. 4130-4134, October 1977 Chemistry . [Chothia 1989] Polyhedra for helical proteins. Cyrus Chothia. Nature. Vol. 337 19 January 1989. [Murzin 1994] Principles Determining the Structure of β-Sheet Barrels in Proteins. Alex G. Murzin, Arthur M. Lesk, Cyrus Chothia. J. Mol. Biol. (1994) 236, 1369-1381. [Chothia 1984] PRINCIPLES THAT DETERMINE THE STRUCTURE OF PROTEINS. Cyrus Chothia. Ann. Rev. Biochem. 1984.53: 537-72. [Chothia 1981] Helix to Helix Packing in Proteins. CYRUS CHOTHIA, MICHAEL LEVITT,DOUGLAS WHAILDSON. ,J. Mol. Biol. (1981) 145, 215-250. [Janin 1980] Packing of α-Helices onto β-Pleated Sheets and the Anatomy of α/β Proteins JOEL JANIN , CYRUS CHOTHIA. .J. Mol. Biol. (1980) 143, 95-128. [Levitt 1976] Structural patterns in globular proteins. Michael Levitt, Cyrus Chothia. Nature, vol. 261, No. 5561, pp. 552-558, June 17, 1976. [Chothia 1982] Orthogonal Packing of, β-Pleated Sheets in Proteins, Cyrus Chothia, Joel Janin. Biochemistry 1982, 21, 3955-3965. [Wang 2005] Support Vector Machines: Theory and Applications, Lipo Wang. Springer 2005. [Burges 1998] A Tutorial on Support Vector Machines for Pattern Recognition, CHRISTOPHER J.C. BURGES. Data Mining and Knowledge Discovery, 2, 121–167 (1998). [Boser 1992] A Training Algorithm for Optimal Margin Classiers, Bernhard E. Boser, Isabelle M. Guyon, Vladimir N. Vapnik. COLT '92 Proceedings of the fifth annual workshop on Computational learning theory, New York, NY, USA ©1992.. 22 [Janeczek 2008] Analiza wiarygodności danych z wykorzystaniem maszyn wektorów podpierających SVM , Bartosz Janeczek. Praca dyplomowa magisterska, Politechnika Warszawska Wydział Elektroniki i Technik Informacyjnych, Instytut Informatyki. 2007/2008, Opiekun dr inż. Roman Podraza. [Aczel 2000] Statystyka w zarządzaniu, Amir D, Aczel. PWN, Warszawa 2000. [Prevelige 1989] Prediction of Protein Structure and the Principles of Protein Conformation. G. D. Fasman (Editor). Springer; 1 edition (October 31, 1989). Chapter 9: Chou-Fasman Prediction of the Secondary Structure of Proteins The Chou-Fasman-revelige Algorithm, Peter Prevelige, Jr., and Gerald D. Fasman.. [Edholm 2010] The Chou-Fasman method for predicting secondary structure, Olle Edholm. Alba Nova University Center , KTH - Theoretica Physics , SE-106 91 Stockholm - Sweden, [email protected] . [Singh 2000] COS551 Intro. to Computational Biology, Mona Singh. http://www.cs.princeton.edu/~mona/Lecture/sec-structure.pdf . [Zhou 1998] An Intriguing Controversy over Protein Structural Class Prediction, Guo-Ping Zhou. Journal of Protein Chemistry, Vol. 17, No. 8, 1998. [Gu 2008] Protein structural class prediction based on an improved statistical strategy, Fei Gu, Hang Chen, Jun Ni. BMC Bioinformatics 2008, 9 (Suppl 6):S5. [Hsu 2010] A Practical Guide to Support Vector Classification, Chih-Wei Hsu, Chih Chung Chang, Chih-Jen Lin. Departament of Computer Science 2010, http://www.csie.ntu.edu.tw/~cjlin .. [Hochreiter 2007] Bioinformatics III. Structural Bioinformatics and Genome Analysis. Sepp Hochreiter. Lecture Notes, Institute of Bioinformatics , Johannes Kepler University Linz, A-4040 Linz, Austria, http://www.bioinf.jku.at.. [Trojanowski 1977] Biochemia dla Biologów. Jerzy Trojanowski. PWN Warszawa 1977. [Eisenhaber 1995] Protein Structure Prediction: Recognition of Primary, Secondary, and Tertiary Structural Features from Amino Acid Sequence. Frank Eisenhaber, Bengt Persson, Patrick Argos. Critical Reviews in Biochemistry and Molecular Biology, 30(1):1-94 (1995).. [Chou 1998] Domain structural class prediction, Kuo-Chen Chou1 and Gerald M.Maggiora. Protein Engineering vol.11 no.7 pp.523–538, 1998. [Hubbard 1998] SCOP, Structural Classification of Proteins Database: Applications to Evaluation of the Effectiveness of Sequence Alignment Methods and Statistics of Protein Structural Data, Tim J. P. Hubbard, Bart Ailey, Steven E. Brenner, Alexey G. Murzin, Cyrus Chothia. Acta Cryst. (1998). D54, 1147-1154. [Hubbard 1999] SCOP, Structural Classification of Proteins Database, Tim J. P. Hubbard, Bart Ailey, Steven E. Brenner, Alexey G. Murzin, Cyrus Chothia. Nucleid Acids Research, 1999, Vol. 27, No. 1. [Murzin 1995] SCOP: A Structural Classification of Proteins Database for the Investigation of Sequences and Structures Alexey G. Murzin, Steven E. Brenner, Tim Hubbard and Cyrus Chothia. J. Mol. Biol. (1995) 247, 536–540 . [Chandonia 2004] The ASTRAL Compendium in 2004. John-Marc Chandonia, Gary Hon, Nigel S. Walker, Loredana Lo Conte, Patrice Koehl, Michael Levitt, Steven E. Brenner. Nucleic Acids Research, 2004, Vol. 32, Database issue D189-D192. [Liu 2008] Classification and feature selection algorithms for multi-class CGH data, Jun Liu, Sanjay Ranka, Tamer Kahveci. Bioinformatics , Volume 24 Issue 13, July 2008. [Guyon 2003] An Introduction to Variable and Feature Selection, Isabelle Guyon, Andr´e Elisseeff. Journal of Machine Learning Research 3 (2003) 1157-1182 . 23 [Shieh 2008] Multiclass SVM-RFE for product form feature selection, Meng-Dar Shieh, Chih-Chieh Yang. Expert Systems with Applications Volume 35, Issues 1-2, July-August 2008, Pages 531-541. [Guyon 2007] Feature selection and causal discovery fundamentals and applications, Isabelle Guyon. http://langtech.jrc.it/mmdss2007/htdocs/Presentations/Docs/MMDSS_Guyon.pdf . [Oza 1999] Dimensionality Reduction Through Classifier Ensembles, Nikunj C. Oza, Kagan Turner. Technical Report NASA-ARC-IC-1999-126, NASA Ames Research Center, 1999. [Guyon 2008] Mining Massive Data Sets for Security: Advances in Data Mining, Search, Social Networks and Text Mining, and their Applications to Security, F. Fogelman-Soulie (Author, Editor), D. Perrotta (Editor), J. Piskorski (Editor), R. Steinberger (Editor). IOS Press (December 15, 2008). Chapter : Practical Feature Selection: from Correlation to Causality, Isabelle Guyon. [Twardowski 2005] Numeryczne metody obliczeń technicznych . Wykład VII, Wartości i wektory własne. Wartości osobliwe i dekompozycja SVD, Tomasz Twardowski. http://galaxy.uci.agh.edu.pl/~ttward/numer/Warto%9Cci%20i%20wektory%20w%B3asne.pdf [Dutkowski 2007] Eksploracyjna analiza danych. Metody rzutowania: analiza składowych głównych oraz skalowanie wielowymiarowe. Janusz Dutkowski. http://www.mimuw.edu.pl/~aniag/SADM/pca.pdf. [The Biochemistry Questions] The Biochemistry Questions http://biochemistryquestions.wordpress.com/2008/10/02/secondary-structure-of-proteins/. [Muñoz 1996] Analysis of the effect of local interactions on protein stability. Victor Muńoz, Philippe Cronet, Eva López-Hernández and Luis Serrano. Folding and Design Volume 1, Issue 3, June 1996, Pages 167-178. [Muñoz 1996a] Local versus nonlocal interactions in protein folding and stability - an experimentalist’s point of view, Victor Muñoz, Luis Serrano. Folding and Design Volume 1, Issue 4, August 1996, Pages R71-R77. [Overview Beta] Overview of Beta-Pleated Sheet Secondary Structure. http://mcdbwebarchive.mcdb.ucsb.edu/sears/biochemistry/. [Overview Alpha] Alpha-Helix: Overview of Secondary Structure. http://mcdbwebarchive.mcdb.ucsb.edu/sears/biochemistry/.. 24