1/18/2017 G: PROBLEM: KLASTROWANIE DANYCH I DRZEWA FILOGENETYCZNE METODY: MACIERZ EKSPRESJI KLASTROWANIE HIERARCHICZNE KLASTROWANIE K-ŚREDNICH METODA KLIK ODLEGŁOŚCIOWA REKONSTRUKCJA DRZEWA FILOGENETYCZNEGO MACIERZE ADDYTYWNE REKONSTRUKCJA DRZEWA POPRZEZ KLASTROWANIE METODA NAJWIĘKSZEJ OSZCZĘDNOŚCI : PARSYMONIA Klastrowanie danych ( analiza skupisk) D. Makowiec: G: klastrowanie 2 Znaleźć taką cechę w zebranych danych, która pozwoli je rozdzielić w rozłączne grupy - klastery. Takim problemem jest potrzeba określenia funkcji nowo odkrytego genu. Samo porównywanie sekwencji zazwyczaj nie wystarcza. Funkcjonalności około 40% genów ich nie udaje się określić jedynie poprzez porównanie sekwencji. Nowa technika: mikromacierz ekspresji, pozwala oceniać aktywność genu w różnych warunkach ( np. jest choroba lub jej nie ma) , w różnych chwilach czasu i w różnych tkankach. Poziom ekspresji gen jest oceniany poprzez ilość mRNA związanego z danym genem (gen jest aktywny jeśli zachodzi transkrypcja; im więcej mRNA tym wyższa jest aktywność genu). 1 1/18/2017 D. Makowiec: G: klastrowanie Eksperymenty z mikromacierzami kontrola 3 próba Gen jest bardziej aktywny w kontroli niż próbce Pobieramy mRNA Gen jest bardziej aktywny w próbce niż w kontroli Syntezujemy cDNA ’farbujemy’ go fosforem Aktywność obu grup genów jest identyczna Mieszamy Nie wykryto aktywności żadnego z grup genów Hybrydyzujemy Skanujemy Analizujemy obraz Macierz ekspresji genów D. Makowiec: G: klastrowanie 4 2 1/18/2017 Klastrowanie danych z mikromacierzy Macierz ekspresji genów D. Makowiec: G: klastrowanie D. Makowiec: G: klastrowanie 6 7 I ij to poziom ekspresji genu i w eksperymencie j Wiersz i to wzorzec ekspresji genu i Zadanie: wyszukać w I pary genów o podobnych wzorcach 3 1/18/2017 Macierz odległości ekspresji genów D. Makowiec: G: klastrowanie 8 Warunki poprawnego grupowania: • jednorodność : geny z tej samej grupy, każdy z każdym, mają wzorce bardzo podobne • separacja : geny z różnych grup, każdy z każdym, różnią się znacząco OK Techniki klastrowania Nie OK D. Makowiec: G: klastrowanie 9 Hierarchiczna : dane organizujemy w drzewa binarne (np.: dendrogram) Optymalizacyjna : szukamy średniego wektora najlepiej reprezentującego klaster Grafowe : klikowe – klastery tworzą kliki w grafie odległości z progiem 4 1/18/2017 Klastrowanie hierarchiczne D. Makowiec: G: klastrowanie 1 0 Technika organizowania danych w drzewo: • geny to liście • krawędzie mają długość • Długość ścieżki pomiędzy liśćmi koreluje z wynikiem z macierzy odległości d 2 krok: 1 krok: Start: Klastrowanie hierarchiczne D. Makowiec: G: klastrowanie 11 Różne możliwości zdefiniowania odległości do nowego węzła 5 1/18/2017 Klastrowanie hierarchiczne D. Makowiec: G: klastrowanie 12 Główna propozycja podziału Klastrowanie hierarchiczne Michel Eisen i współpracownicy , i ich drzewo klastrowania 8600 genów w 13 chwilach czasowych D. Makowiec: G: klastrowanie 13 Macierz odległości to macierz korelacji: Eisen M B et al. PNAS 1998;95:14863-14868 6 1/18/2017 D. Makowiec: G: klastrowanie 14 Klastrowanie hierarchiczne jest często wykorzytywane do konstrukcji historii ewolucji ( tzw. drzewa filogenetyczne) D. Makowiec: G: klastrowanie Klastrowanie k-średnich 15 Definicja odległością punktu v od zbioru punktów X={ x1,x2,…, xk } nazywamy d (v, {x1 , x2 ,...xk }) min xi :x1 , x2 ,... xk d (v, xi ) Definicja Błąd kwadratowy średni ( błąd deformacji) zbioru punktów V ={v1,v2,… vn} od zbioru punktów X={ x1,x2,…, xn } nazywamy d ({v1 , v2 ,..., vn }, {x1 , x2 ,...xk }) 1 d 2 (vi ,{x1 , x2 ,...xk }) n i 1,..n Problem: Dla zadanego zbioru n punktów z m-wymiarowej przestrzeni oraz danej wartości K zbudować zbiór X składający się K punktów (centrów klastrowania) takich, dla których błąd kwadratowy średni jest minimalny. 7 1/18/2017 Klastrowanie K- średnich Klastrowanie K- średnich D. Makowiec: G: klastrowanie D. Makowiec: G: klastrowanie 16 17 Przykład : Klastrowanie 1-średniej epsilon odpowiednio maly Input : zestaw punktów V{v1,v2,… vn} Output: pojedynczy punkt x (centrum klastera), który minimalizuje d(V,x) po wszystkich możliwych wyborach x Typowa symulacja Monte Carlo • Wylosuj współrzędne wektora X=[x1,x2,…,xk] • Oblicz d(V, X) • Wylosuj numer współrzędnej j:1,…,m • Wylosuj nową wartość dla tej wspólrzędnej x*j • Oblicz d(V, X*) • Jeśli d(V, X*)< d(V, X) zaakceptuj zmianę w X, czyli X= X* w przeciwnym wypadku zaakceptuj zmianę w X z prawdopodobieństwem skorelownym z epsilon = d(V, X*)-d(V, X) Wróć do 8 1/18/2017 Klastrowanie K- średnich D. Makowiec: G: klastrowanie 18 Przykład : Klastrowanie K-średnich epsilon odpowiednio maly Input : zestaw punktów V{v1,v2,… vn} Output: zestaw K punktów X (centrów klasterów), które minimalizują d(V,x) po wszystkich możliwych wyborach X Typowa symulacja Monte Carlo • Wylosuj współrzędne wektora X=[x1,x2,…,xk], każdy jest m wymiarowy • Oblicz d(V, X) • Wylosuj numer wektora i:1…k, i numer wspolrzędnej j:1,…,m • Wylosuj nową wartość X*j, utworz X*=[x1,x2,… x*j…. ,xm] • Oblicz d(V, X*) • Jeśli d(V, X*)< d(V, X) zaakceptuj zmianę w X, czyli X= X* w przeciwnym wypadku zaakceptuj zmianę w X z prawdopodobieństwem skorelownym z epsilon = d(V, X*)-d(V, X) Wróć do Algorytm Lloyda ( heurystyczne klastrowanie k-średnich D. Makowiec: G: klastrowanie 1 9 9 1/18/2017 Algorytm Lloyda ( heurystyczne klastrowanie k-średnich D. Makowiec: G: klastrowanie 2 0 Algorytm Lloyda ( heurystyczne klastrowanie k-średnich D. Makowiec: G: klastrowanie 2 1 10 1/18/2017 Algorytm Lloyda ( heurystyczne klastrowanie k-średnich Algorytm Lloyda ( heurystyczne klastrowanie k-średnich D. Makowiec: G: klastrowanie 23 11 1/18/2017 Jak dobrać K? D. Makowiec: G: klastrowanie 25 D. Makowiec: G: klastrowanie 26 Jeśli K rośnie to błąd kwadratowy średni maleje (jest zerem gdy K=n, ale wówczas klastrowanie jest bezużyteczne) Strategia: Zwiększaj k dopóki błąd kwadratowy średni ma malejące przyrosty Grafy klikowe Definicje: Grafem zupełnym nazywamy graf, w którym każde dwa wierzchołki są połączone krawędzią. Grafem klikowym nazywamy graf, w którym każda składowa spójna jest grafem zupełnym. Podzbiór V’ zbioru wierzchołków V grafu G= (V, E) tworzy podgraf zupełny jeśli dowolne dwa wierzchołki z V’ są połączone krawędzią w G. Kliką w grafie nazywamy maksymalny podgraf zupełny, to znaczy podgraf zupełny, który nie jest zawarty w innym podgrafie. Przykład: 1) Graf o trzech składowych spójnych . Każda składowa jest grafem zupełnym. 1) Graf o 7 wierzchołkach , który posiada 4 kliki: {1,2,6,7} ,{2,3}, {5,6}, {3,4,5}. 12 1/18/2017 Grafy klikowe D. Makowiec: G: klastrowanie 27 Każdy podział n elementów na K klastrów może być reprezentowany jako graf klikowy o n wierzchołkach i K klikach. Grafy klikowe D. Makowiec: G: klastrowanie 28 Od macierzy odległości do grafu klikowego: • geny to wierzchołki grafu • dwa wierzchołki łączymy krawędzią jeśli odległość pomiędzy nimi jest mniejsza od ustalonego progu odległości θ 13 1/18/2017 CAST : Claster Affinity Search Technique D. Makowiec: G: klastrowanie 29 *** Ewolucja a analiza DNA : zagadka wielkiej pandy D. Makowiec: G: klastrowanie 30 https://en.wikipedia.org/wiki/Giant_panda niedźwiedź czy szop? • 1870 problem postawił Armand David Analiza cech behawioralnych i morfologicznych kształt niedźwiedzia, ale nie hibernuje nie ryczy jak niedźwiedź a beczy jak szop • 1985 problem rozwiązał Steven O’Brian ze współpracownikami opierając się na badaniach DNA 14 1/18/2017 Drzewo ewolucyjne człowieka D. Makowiec: G: klastrowanie 31 1965 : Zuckerman i Pauling pracą „Evolutionary Divergence and Convergence in Proteins” dali początek wykorzystania DNA do rekonstrukcji drzewa filogenetycznego. Obecnie badania DNA są podstawą badań ewolucyjnych W tym samym czasie, gdy Steven O’Brien rozwiązał kontrowersje wokół pochodzenia wielkiej pandy, Rebecca Cann, Mark Stoneking i Allan Wilson skonstruowali drzewo ewolucji człowieka. Nowa kontrowersja - hipoteza o afrykańskim pochodzeniu naszego gatunku. Gatunek nasz ma wspólnego przodka, który to żył w Afryce ok. 200,000 lat temu ……. Temporal and Geographical Distribution of Hominid Populations Redrawn from Stringer (2003) Drzewo ewolucyjne człowieka D. Makowiec: G: klastrowanie 32 15 1/18/2017 Drzewo ewolucyjne człowieka D. Makowiec: G: klastrowanie 33 Drzewo ewolucyjne człowieka D. Makowiec: G: klastrowanie 34 16 1/18/2017 Drzewo ewolucyjne człowieka Bazowe pojęcia: drzewa swobodne a drzewa ukorzenione D. Makowiec: G: klastrowanie 35 D. Makowiec: G: klastrowanie 36 Jak te drzewa są budowane z sekwencji DNA? Konstruujemy ważone drzewa binarne: wszystkie wewnętrzne wierzchołki mają stopień 3. przy czym • Liście to aktualnie istniejące gatunki • Wewnętrzne wierzchołki to wspólni przodkowie • Zazwyczaj krawędzie mają wagę To samo drzewo w reprezentacji • Czasem i wierzchołki mają wagę (tzw. zegar molekularny) od wyróżnionego wierzchołka Wyróżniony wierzchołek nie jest binarne Drzewa mogą być swobodne lub ukorzenione. Pień drzewa ukorzenionego wskazuje na wspólnego przodka. W drzewie swobodnym wspólny przodek jest nieznany. 17 1/18/2017 Rekonstrukcja drzewa bazująca na odległościach D. Makowiec: G: klastrowanie 37 Drzewo binarne o sześciu liściach ma cztery węzły wewnętrzne. Mając drzewo ważone możemy dla każdej pary liści obliczyć odległość pomiędzy nimi. Zatem każde drzewo T ważone wyznacza macierz d i,j (T) odległości pomiędzy wierzchołkami i oraz j . Z drugiej strony w oparciu o badania n gatunków mamy macierz n x n odległości pomiędzy nimi D i,j. Zadanie: Znaleźć takie drzewo T ważone dla którego d i,j (T) = D i,j dla dowolnych wierzchołków i oraz j . Drzewo dla przypadku n =3 D. Makowiec: G: klastrowanie 38 Od macierzy D(i,j) do drzewa binarnego nieukorzenionego (swobodnego) T ważonego , takiego gdzie waga krawędzi d(i,j) = D(i,j) 3 równania liniowe o 3 niewiadomych 18 1/18/2017 Addytywna macierz odłeglości 39 D. Makowiec: G: klastrowanie TWIERDZENIE: Swobodne drzewo binarne o n liściach ma 2n-3 krawędzi Dopasowanie drzewa do zadanej macierzy odległości wymaga rozwiązania układu n(n-1)/2 równań liniowych o 2n-3 zmiennych Definicja: Macierz odległości D(i,j) nazywamy addytywną jeśli istnieje takie binarne i swobodne drzewo T, że odległości w tym drzewie d(i,j) są uzgodnione z macierzą odległości, D(i,j)=d(i,j) D. Makowiec: G: klastrowanie 40 19 1/18/2017 D. Makowiec: G: klastrowanie Rekonstrukcja drzewa z macierzy addytywnej • Odszukaj sąsiadujące liście i, j , to jest liście które mają tego samego ojca k • Usuń wiersze oraz kolumny i-te oraz j-te • Dopisz nowy wiersz oraz kolumnę odpowiadającą wierzchołkowi k gdzie odległość do dowolnego wierzchołka m jest obliczana jako 41 Tego wierzchołka w D póki co nie było, bo jest to wierzchołek wewnętrzny Jak znaleźć sąsiadujące liście? najbliżsi sąsiedzi w D nie muszą być sąsiadującymi liści w drzewie 11 4 D(j,k)=12 a D(i,j)=13 czy D(k,l)=13 2 „Strzyżenie wiszących krawędzi” Jak znaleźć sąsiadujące liście bazując na D? 6 7 D. Makowiec: G: klastrowanie 42 Iteracyjnie stosujemy proces strzyżenia krawędzi wiszących Macierz D: Krawędzie wiszące to krawędzie prowadzące do liści drzewa. Strzyżenie krawędzi wiszących to skrócenie wszystkich tych krawędzi o d. Zdegenerowana trójka to zbiór trzech elementów i, j, k w D takich, że D(i,j) +D(j,k) =D(i,k). 20 1/18/2017 „Strzyżenie wiszących krawędzi” D. Makowiec: G: klastrowanie 43 D. Makowiec: G: klastrowanie 44 Po usunięciu B: Kolejna iteracja: strzyżenie o 3 wyszukiwanie zdegenerowanej trojki Uwaga: tak naprawdę to kolejne iteracje to przede wszystkim wyszukiwanie zdegenerowanych trójek punków. Dopiero, gdy takiej trójki nie mamy , to zaczynamy strzyżenie. Rekonstrukcja drzewa 21 1/18/2017 Algorytm konstrukcji drzewa z macierzy odległości D. Makowiec: G: klastrowanie 45 zakończenie obliczenia przygotowanie zmiennych do dalszego przetwarzania Wyszukiwanie zdegenerowanej trójki, poprawienie macierzy odległości wywołanie rekurencyjne obliczenia Rekonstrukcja drzewa Test czy aktualna D jest addytywna A co jeśli D jest nieaddytywna? D. Makowiec: G: klastrowanie 46 Jeśli D nie jest addytywna ( tak jest zazwyczaj) to szukamy T , które najlepiej przybliża D to znaczy takiego T dla którego błąd kwadratowy jest najmniejszy. Problem NP-trudny 22 1/18/2017 D. Makowiec: G: klastrowanie Przypomnienie: klastrowanie hierarchiczne Drzewa ewolucyjne i klastrowanie hierarchiczne D. Makowiec: G: klastrowanie 47 48 UPGMA (Unweighted Pair Group Method with Arithmetic Mean) 23 1/18/2017 Drzewa ewolucyjne i klastrowanie hierarchiczne D. Makowiec: G: klastrowanie 49 UPGMA zaczyna generowanie poprzez zbudowanie drzewa postaci: Uwaga: z UPGMA nigdy nie powstanie drzewo o takiej strukturze które to „wyciąga w górę” tak, aby zachodziło: Następnie dobudowuje kolejną gałąź Drzewa ewolucyjne i klastrowanie hierarchiczne Kolejno powstaje tego typu struktura: drzewo ultrametryczne Odległość od pnia do każdego liścia jest taka sama D. Makowiec: G: klastrowanie 50 24 1/18/2017 Dane jest n sekwencji DNA o długości m każda. Mamy zatem macierz dopasowania w rozmiarze n x m. Species Species Species Species Species A B C D E Można ją przetransformować na macierz odległości, ale nigdy w drugą stronę. Informacja o dopasowaniu jest bezpowrotnie tracona przy tej transformacji D. Makowiec: G: klastrowanie 51 ATGGCTATTCTTATAGTACG ATCGCTAGTCTTATATTACA TTCACTAGACCTGTGGTCCA TTGACCAGACCTGTGGTCCG TTGACCAGTTCTCTAGTTCG n x m macierz dopasowania tran Nie ma sfor transformac macji ja powrotnej X Metody dyskretne rekonstrukcji drzewa ewolucyjnego n x n macierz odległości Lepsza technika: algorytm rekonstrukcji drzewa bazujący na symbolach umożliwia badanie ewolucji dla każdego znaku. Parsymonia w rekonstrukcji drzewa filogenetycznego D. Makowiec: G: klastrowanie 52 Parsymonia (oszczędność): kryterium optymalizacyjne - szukamy takiego drzewa, które wyznacza najmniejszą liczbę zdarzeń ewolucyjnych ( podstawienia, zamiany, itp.) Brzytwa Ockhama Przykład: Szukaj najprostszego wyjaśnienia dla danych { ATCG, ATCC, ACGG} 25 1/18/2017 Problem małej parsymonii inaczej D. Makowiec: G: klastrowanie 53 Znaki naszego drzewa to brwi i usta. Każdy z nich może być w dwóch stanach. Dobierz etykiety węzłów wewnętrznych tak by wynik parsymonii był najmniejszy. Rekonstrukcja drzewa ewolucyjne oparta na symbolach D. Makowiec: G: klastrowanie 54 Dwie klasy problemów: małej parsymonii : zakładamy , że struktura drzewa jest dana wielkiej parsymonii : struktura drzewa jest dowolna. 26 1/18/2017 Mała parsymonia w rekonstrukcji drzewa filogenetycznego D. Makowiec: G: klastrowanie 55 D. Makowiec: G: klastrowanie 56 Znaki w łańcuchach są niezależne od siebie (???) zatem problem malej parsymonii może być rozwiązawany dla każdej pozycji oddzielnie Parsymonia w rekonstrukcji drzewa filogenetycznego Punktacja zgodna z tablicą małej parsymonii Punktacja zgodna z przykładową tablicą ważonej małej parsymonii 27 1/18/2017 57 D. Makowiec: G: klastrowanie Algorytm Sankoffa Każdy wierzchołek v z drzewa T wyznacza poddrzewo o korzeniu: wierzchołków osiągalnych z v. Etykieta v ma zbierać własności dzieci wierzchołka v. st (v) st (u ) st (w) Algorytm dynamiczny Niech st (v) to wynik parsymonii dla poddrzewa v uzyskany przy założeniu, ze w v umieszczono znak t, czyli st (v) min i{ A,T ,C ,G}{si (u ) d it } min i{ A,T ,C ,G}{si ( w) d it } Warunek początkowy 0 dla v t st (v) dla v t 58 D. Makowiec: G: klastrowanie Algorytm Sankoffa A C T G 28 1/18/2017 D. Makowiec: G: klastrowanie A T G C ? A C D. Makowiec: G: klastrowanie 9 A 7 8 9 T G C A 59 60 ? C 29 1/18/2017 D. Makowiec: G: klastrowanie 9, 7, 8, 9 A: + 0 ,3 , 4, 9 61 7, 2, 2, 8 + 0 ,3 , 4, 9 min{9,10,12,18} + min{7, 5, 6 , 17} = 14 T: + 3, 0 , 2, 4 +3,0,2,4 min{12, 7, 10,13} + min{10, 2, 4 , 12} = 9 G: + 4, 2, 0 , 4 +4,2,0, 4 min{ 13, 9, 8, 13} + min{11, 4, 2 , 12} = 10 C: + 9, 4, 4, 0 + 9,4,4,0 min{18, 11,12, 9} + min{19, 6, 6 , 8} = 15 T T T Ojciec dostaje wektor: { 14,9,10,15} A, T, G, C D. Makowiec: G: klastrowanie Algorytm Fitcha 62 Idąc od dołu góry przydziel każdemu wierzchołkowi zestaw etykiet: jeśli część wspólna jest niepusta w przeciwnym przypadku Idąc do dołu z góry wybierz wspólny stan dla ojca i jego potomka jeśli taki jest. W przeciwnym wypadku wylosuj jeden i zapłać karę Przykład 1 30 1/18/2017 D. Makowiec: G: klastrowanie 63 Przykład 2 Algorytm Sankoffa versus algorytm Fitcha D. Makowiec: G: klastrowanie 64 Macierz punktacji si(v) - od Sankoffa, jest równoważne S (v) - od Fitch’a . 31 1/18/2017 Problem wielkiej parsymonii D. Makowiec: G: klastrowanie 65 Problem NP-zupełny Przykłady drzew o 4 liściach Ilość drzew ukorzenionych o n liściach : T(n) dla n = 2, 3, 4, 5, 6, 7, 8, 9, 10, …. to Zamiana najbliższych sąsiadow w problemie wielkiej parsymonii D. Makowiec: G: klastrowanie 66 Najbliżsi sąsiedzi w przestrzeni drzew Każda krawędź pozwala na trzy różne połączenia czterech poddrzew A, B, C i D 32 1/18/2017 Problem przeszukiwania przestrzeni drzew D. Makowiec: G: klastrowanie 67 Wszystkie drzewa swobodne o pięciu liściach. Drzewa sąsiadujące (poprzez transformację zamiany najbliższych sąsiadów ) są połączone krawędzią Algorytm zachłanny Monte Carlo przeszukuje przestrzeń drzew 33