Motywy regulacyjne w sekwencjach DNA

advertisement
11/1/2016
1
C:
PROBLEM: MOTYWY REGULACYJNE W
SEKWENCJACH DNA
METODA: ALGORYTMY PRZESZUKIWANIA
WYCZERPUJĄCE I Z OGRANICZENIAMI
Łańcuch konsensusu a łańcuch mediany
Wprowadzenie biologiczne
2
D. Makowiec: C: motywy regulacyjne DNA
Geny to relatywnie rzadkie sekwencje:
-mamy O(1 000 000 000) par nukleotydów w genomie
-mamy O(10 000) genów w genomie
- jest O(1000) par nukleotydów w genie
Zatem w przybliżeniu jedynie 1% kodu DNA zawiera sekwencje kodujące geny
(bo: 10^3 * 10^4/10^9)
3’
• Obszary regulacyjne ( promocji) są ulokowane 100-1000 bp przed sekwencją
kodującą.
• Specjalne białka ( Transciption Factors, TF, enzymy transkrypcyjne) przyklejają się do
odpowiadających im sekwencji DNA, znajdujących się w danym obszarze
regulacyjnym genu (Transcription Factor Binding Sites, TFBS)
• Przyklejenie tego specjalnego białka powoduje odseparowanie nici DNA , co
umożliwia rozpoczęcie procesu transkrypcji przez polimerazę RNA
• Sekwencje DNA tworzące TFBS nazywamy MOTYWAMI.
1
11/1/2016
Wprowadzenie biologiczne
D. Makowiec: C: motywy regulacyjne DNA
3
Przykład:
TCGGGGATTTCC : motyw regulacyjny genów odpornościowych muszki owocówki.
•
Pewne białka są wytwarzane przez organizm jedynie w określonych warunkach, na
przykład przy infekcji.
•
Sekwencja TCGGGGATTTCC (zwana NK-B binding site) to miejsce przywiązywania się
białka (enzym transkrypcyjny NF- B), które to aktywuje lub zwalnia polimerazę RNA
do transkrypcji genu, który za motywem się rozpoczyna.
Motywy regulacyjne to krótkie sekwencje nukleotydów, ułożone zwykle przed
początkiem genu, które kontrolują ekspresję genów.
Szukanie motywu ( nieformalnie) to problem odnalezienia sekwencji
regulujących, gdy nie ma bez wiedzy wstępnej, jak sekwencja
wygląda.
Ale przypuszczamy, że te sekwencje powinny występować stosunkowo
często.
Jak odróżnić motyw od losowego bałaganu?
D. Makowiec: C: motywy regulacyjne DNA
4
Umiesz odszukać wstawione motywy do każdej losowo wygenerowanej sekwencji?
atgaccgggatactgatagaagaaaggttgggggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg
acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatacaataaaacggcggga
tgagtatccctgggatgacttaaaataatggagtggtgctctcccgatttttgaatatgtaggatcattcgccagggtccga
gctgagaattggatgcaaaaaaagggattgtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga
tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatataataaaggaagggcttatag
gtcaatcatgttcttgtgaatggatttaacaataagggctgggaccgcttggcgcacccaaattcagtgtgggcgagcgcaa
cggttttggcccttgttagaggcccccgtataaacaaggagggccaattatgagagagctaatctatcgcgtgcgtgttcat
aacttgagttaaaaaatagggagccctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta
ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatactaaaaaggagcggaccgaaagggaag
ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttactaaaaaggagcgga
2
11/1/2016
Jak odróżnić motyw od losowego bałaganu?
5
D. Makowiec: C: motywy regulacyjne DNA
W drugą stronę : dane mamy losowe sekwencje nukleotydów
atgaccgggatactgataccgtatttggcctaggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg
acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatactgggcataaggtaca
tgagtatccctgggatgacttttgggaacactatagtgctctcccgatttttgaatatgtaggatcattcgccagggtccga
gctgagaattggatgaccttgtaagtgttttccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga
tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatggcccacttagtccacttatag
gtcaatcatgttcttgtgaatggatttttaactgagggcatagaccgcttggcgcacccaaattcagtgtgggcgagcgcaa
cggttttggcccttgttagaggcccccgtactgatggaaactttcaattatgagagagctaatctatcgcgtgcgtgttcat
aacttgagttggtttcgaaaatgctctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta
ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatttcaacgtatgccgaaccgaaagggaag
ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttctgggtactgatagca
Jak odróżnić motyw od losowego bałaganu?
D. Makowiec: C: motywy regulacyjne DNA
6
Wstawmy w nie motyw AAAAAAAAGGGGGGG
atgaccgggatactgatAAAAAAAAGGGGGGGggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg
acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaataAAAAAAAAGGGGGGGa
tgagtatccctgggatgacttAAAAAAAAGGGGGGGtgctctcccgatttttgaatatgtaggatcattcgccagggtccga
gctgagaattggatgAAAAAAAAGGGGGGGtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga
tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatAAAAAAAAGGGGGGGcttatag
gtcaatcatgttcttgtgaatggatttAAAAAAAAGGGGGGGgaccgcttggcgcacccaaattcagtgtgggcgagcgcaa
cggttttggcccttgttagaggcccccgtAAAAAAAAGGGGGGGcaattatgagagagctaatctatcgcgtgcgtgttcat
aacttgagttAAAAAAAAGGGGGGGctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta
ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatAAAAAAAAGGGGGGGaccgaaagggaag
ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttAAAAAAAAGGGGGGGa
3
11/1/2016
Jak odróżnić motyw od losowego bałaganu?
D. Makowiec: C: motywy regulacyjne DNA
7
A jeśli każdy motyw ma 4 mutacje?
atgaccgggatactgatAgAAgAAAGGttGGGggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg
acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatacAAtAAAAcGGcGGGa
tgagtatccctgggatgacttAAAAtAAtGGaGtGGtgctctcccgatttttgaatatgtaggatcattcgccagggtccga
gctgagaattggatgcAAAAAAAGGGattGtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga
tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatAtAAtAAAGGaaGGGcttatag
gtcaatcatgttcttgtgaatggatttAAcAAtAAGGGctGGgaccgcttggcgcacccaaattcagtgtgggcgagcgcaa
cggttttggcccttgttagaggcccccgtAtAAAcAAGGaGGGccaattatgagagagctaatctatcgcgtgcgtgttcat
aacttgagttAAAAAAtAGGGaGccctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta
ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatActAAAAAGGaGcGGaccgaaagggaag
ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttActAAAAAGGaGcGGa
Jak odróżnić motyw od losowego bałaganu?
D. Makowiec: C: motywy regulacyjne DNA
8
Dlaczego odnalezienie motywu jest trudne?
atgaccgggatactgatAgAAgAAAGGttGGGggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg
acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatacAAtAAAAcGGcGGGa
tgagtatccctgggatgacttAAAAtAAtGGaGtGGtgctctcccgatttttgaatatgtaggatcattcgccagggtccga
gctgagaattggatgcAAAAAAAGGGattGtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga
tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatAtAAtAAAGGaaGGGcttatag
gtcaatcatgttcttgtgaatggatttAAcAAtAAGGGctGGgaccgcttggcgcacccaaattcagtgtgggcgagcgcaa
cggttttggcccttgttagaggcccccgtAtAAAcAAGGaGGGccaattatgagagagctaatctatcgcgtgcgtgttcat
aacttgagttAAAAAAtAGGGaGccctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta
ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatActAAAAAGGaGcGGaccgaaagggaag
ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttActAAAAAGGaGcGGa
AgAAgAAAGGttGGG
..|..|||.|..|||
cAAtAAAAcGGcGGG
4
11/1/2016
Jak odróżnić motyw od losowego bałaganu?
D. Makowiec: C: motywy regulacyjne DNA
9
Dlaczego odnalezienie motywu jest trudne?
• rozważany motyw składa się z 15-tu nukleotydów ( 15-merów) czyli motyw
jest jednym z 4^15 możliwych 15-merów.
• rozważamy 10 sekwencji DNA , każda składa się z 83 nukleotydów.
Zatem mamy do rozważenie 10 *(83 -15 +1) = 640 możliwych 15-merów.
Ale prawdopodobieństwo wystąpienia danego 15-meru jest 640 /4^15
640/1 073 741 824 = 5.960 10^-7.
A więc powtórzenie 15-meru jest nieprawdopodobne i dlatego możemy
spodziewać się sukcesu.
Szukać będziemy l-merów , sekwencji o ustalonej długości l, które w danym
zestawie sekwencji DNA występują stosunkowo często.
Jak odróżnić motyw od losowego bałaganu?
•
•
•
•
Motyw może mutować na mniej znaczących pozycjach
Przedstawione tutaj 5 motywów ma mutacje w pozycji 3 i 5
Taka reprezentacja to tzw. logo motywu (sekwencja
nukleotydów wraz z ich mutacjami) , ilustruje część
zachowaną i obszar zmian motywu
Poniżej przykład logo innego motywu (wysokości liter
odpowiadają częstościom mutacji)
D. Makowiec: C: motywy regulacyjne DNA
T
T
T
T
T
G
G
G
G
G
10
GGGGA
AGAGA
GGGGA
AGAGA
AGGGA
5
11/1/2016
Pojęcia niezbędne do zdefiniowania problemu motywu
D. Makowiec: C: motywy regulacyjne DNA
11
Szukamy jednego motywu o długości l (u nas 8) w zestawie t (u nas 7) sekwencji DNA
Przestrzenią poszukiwań dla
zestawu t sekwencji
nukleotydowych o długości n
jest tablica
( t wierszy x n kolumn )
Wektor pozycji
startowych rozważanych
l-merów
1. Aktualnie rozważany wektor
pozycji startowych wstawek w
łańcuchach
(8,19,3,5,31,27,15)
Pojęcia niezbędne do zdefiniowania problemu motywu
D. Makowiec: C: motywy regulacyjne DNA
12
2. Macierz dopasowania dla danego s:
Zmienność
macierzy
dopasowania
3. Macierz profilu P(s) dla danego s:
4. Uzgodniony łańcuch profilu dla s
Zestaw
nukleotydów
najczęściej
występujących
6
11/1/2016
Pojęcia niezbędne do zdefiniowania problemu motywu
D. Makowiec: C: motywy regulacyjne DNA
13
Jak ocenić jakość uzyskanego łańcucha
konsensusu?
P( s)
M P(s) ( j)
5 5 6 4
5 5
6 6
Nasz zestaw
DNA dla s daje :
Score(s,DNA)=5
+5+ 6+ 4 +5
+ 5+6+ 6
=42
największa wartość w j-tej kolumnie P(s)
5. Wynik dla
łańcucha
konsensu z
punktu
startowego s
dla zadanego
zestawu DNA
Score( s, DNA) 
M
j 1,...,l
Ocena
Score
Problem znalezienia motywu: definicja
lt
lt
4
P(s)
( j)
najlepsze dopasowanie
najgorsze dopasowanie
Max dla naszego
problemu to
8*7 =56
min to:
8*7/4=28
D. Makowiec: C: motywy regulacyjne DNA
14
Złożoność obliczeniowa
(n  l  1)t  (nt )
7
11/1/2016
Problem łańcucha medianowego
D. Makowiec: C: motywy regulacyjne DNA
15
Problem potraktowany INACZEJ
6. Odległość Hamminga pomiędzy l –merami
w i v to ilość pozycji, w których l-mery w i
v się różnią
7 Odległość pomiędzy w i l-merami zestawu
DNA z pozycji s=(s1, s2,…, st)
8. Odległość pomiędzy w i l-merami zestawu
DNA to minimalna odległość zaobserwowana
w analizowanym zbiorze DNA od zadanego lmeru w
d H ( w, v)
d H ( w, s ) 
d
j 1,..,t
H
( w, s j )
TotalDist ( w, DNA)  min d H ( w, s )
s
Proste!
9. Łańcuch mediany to taki l-mer w* , dla
którego TotalDistance(w,DNA) dla danego
zestawu DNA jest najmniejszy
Problem łańcucha medianowego
w*  min TotalDist ( w, DNA)
w
D. Makowiec: C: motywy regulacyjne DNA
16
4l * tn  ( 4l tn)
8
11/1/2016
Problem łańcucha medianowego
D. Makowiec: C: motywy regulacyjne DNA
17
równoważność
łańcuch konsensusu
max Score( s, DNA) 
s
a
M
j 1,...,l
P(s)
( j)
łańcuch medianowy
≡
w*  min TotalDist ( w, DNA)
w
d H (( ATGCAACT ), s )  1  1  1  1  1  3  2  1  1  1  1  14
Score( s, DNA)  5  5  6  4  5  5  6  6  42
Jeśli w to łańcuch konsensusu , to
A w drugą stronę?
Podsumowanie:
D. Makowiec: C: motywy regulacyjne DNA
problem
znalezienia motywu
Ilość możliwości:
(n-l+1)t
18
problem wyznaczenia
łańcucha mediany
4l n t
9
11/1/2016
Przeszukiwanie w zupełnym drzewie binarnym
D. Makowiec: C: motywy regulacyjne DNA
19
’-’ Informacja pusta
Kolejność
Kolejność
odwiedzanych
odwiedzanych
Poziom
drzewa
wierzchołków
wierzchołków
Pierwsze litery rozdzielone
Drugie litery rozdzielone
Trzecie litery rozdzielone
Czwarte litery rozdzielone
Liście to zestaw wszystkich możliwych słów
czteroliterowych zbudowanych z liter ’1’ i ’2’
Powiększamy zestaw przeszukiwanej informacji (liści)
o informacje o wszystkich przodkach.
Całe drzewo będzie przeglądane.
Czy to się opłaci?
Tak, pod warunkiem, że będziemy umieli właściwie
oszacować wartość przodków.
Przeszukiwanie w zupełnym drzewie binarnym
D. Makowiec: C: motywy regulacyjne DNA
Kolejność
Kolejność
Kolejność
odwiedzanych
odwiedzanych
odwiedzanych
wierzchołków
wierzchołków
wierzchołków
20
Zadać pytanie ojcu takie, by
było wiadomo czy warto
interesować się jego synami
?
Pokażemy, jak
wykorzystać tą
obserwację, aby
OGRANICZYĆ
ZNACZĄCO
przeszukiwaną
przestrzeń
Porządek z prawej kolumny jest
identyczny z kolejnością odwiedzania
wierzchołków w pełnym drzewie
binarnym przy zastosowaniu algorytmu
PREORDER: najpierw ojciec, potem dzieci
10
11/1/2016
Przeszukiwanie w zupełnym drzewie binarnym
D. Makowiec: C: motywy regulacyjne DNA
21
Rozwiązanie iteracyjne
dla PREORDER:
Mamy alfabet k - literowy
Budujemy kolejne L literowe słowa
Przy zadanym słowie
a=(a1,..aL) ,
jakie słowo (liść)
będzie następne
Jeśli drzewo
przyglądamy w
porządku preorder
?
i - poziom drzewa
Kolejno
przesuwamy
się w głąb
drzewa
lepiej
Odwiedzamy
liście
Startując ze słowa
a=(1,…,1) wyliczamy
wszystkie kolejne
słowa
NextVertex(a,i,L,k)
Przeszukiwanie w zupełnym drzewie binarnym
D. Makowiec: C: motywy regulacyjne DNA
22
Wszystkie możliwe
sekwencje startowe
Mamy alfabet k = n-l+1 literowy
odwiedzamy wierzchołki drzewa słów o
długości L = t
11
11/1/2016
Przeszukiwanie w zupełnym drzewie binarnym
Pomysł:
optymistyczne
Score dla węzła
wewnetrznego
D. Makowiec: C: motywy regulacyjne DNA
23
Dane są t= 3 DNA, o długości n=1 2
Szukamy motywu o długości l=10
Drzewo o nieinteresujących poddrzewach:
ignorujemy poddrzewa każdego węzła, którego liście nie ma
szansy, aby dostać wyższe Score niż najlepszy liść wierzchołków
już odwiedzonych.
Przeszukiwanie w zupełnym drzewie binarnym
D. Makowiec: C: motywy regulacyjne DNA
24
12
11/1/2016
Praca domowa D
D. Makowiec: C: motywy regulacyjne DNA
25
1. Wyznacz macierz dopasowania (aligment), macierz profilu (profile) i łańcuch konsensusu
(consensus) dla 5-merów o początkach w s= ( 1, 6, 4, 2, 4, 3,5) dla poniższych sekwencji
DNA:
CGGGGCTATGCAA
TTTGAGGGTGCCC
GGATGCAACTGGG
AAGGATGCAAGCA
AATTTTCTAAAAAG
CTGGCAACTGGGA
TACATGATCTGCAA
• Podaj wynik Score(s) dla opisanego przypadku.
• Oblicz TotalDistance dla następujących słów: CTAT i ATGA
2. Niech słowo a=242, o długości L=3, jest zbudowane z liter k=4-literowego alfabetu.
Uzyskaj sześć kolejnych słów zgodnie z konstrukcją NextVertex(a,i,L,k)
13
Download