Dopasowanie sekwencji Sequence alignment Bioinformatyka, wykład 5 (8.XI.2007) [email protected] terminologia z alignment z dopasowanie sekwencji z uliniowienie sekwencji – – – uliniowianie sekwencji uliniawianie uliniowanie z elajment 33000 119 82 125 6 3 2 Uliniowianie Z Wikipedii z W bioinformatyce, uliniawianie sekwencji to sposób porównywania sekwencji pierwszorzędowej DNA, RNA bądź białek w celu identyfikacji regionów podobnych, które mogą być wynikiem funkcjonalnych, strukturalnych bądź ewolucyjnych związków pomiędzy sekwencjami. Uliniowione sekwencje rezyduów nukleotydów bądź aminokwasów zwykle są przedstawiane jako wiersze macierzy Pomiędzy znaki wstawiane są przerwy w taki sposób, aby zapewnić jak największą zgodność porównywanych sekwencji. ... dopasowanie (alignment) Ułożenie dwóch sekwencji biopolimerów (DNA, RNA lub białka) w celu zidentyfikowania regionów podobieństwa istotnego ze względów ewolucyjnych, strukturalnych lub funkcjonalnych (procedura oraz jej efekt). dwie sekwencje - pairwise alignment wiele sekwencji - multiple sequence alignment gap AGATTGATACCCA AGA--TTGATACCCA AGACATTAACTA AGACATTAA---CTA match mismatch Edgar Allan Poe, The Raven Dopasowanie sekwencji - znaczenie Podobieństwo porównywanych sekwencji (similarity) może świadczyć o: podobnej funkcji sekwencji podobnej strukturze białek wspólnej historii ewolucyjnej sekwencji Podobieństwo porównywanych sekwencji (similarity) może wynikać z: homologii - pochodzeniu sekwencji (homologicznych) od wspólnego przodka; sekwencje mogą, ale nie muszą pełnić te same funkcje konwergencji - podobne motywy, które wyewoluowały w obu sekwencjach (analogicznych) niezależnie; np. chymotrypsyna i subtylizyna - różna struktura 3D, ale podobne centrum aktywne (histydyna, seryna, kwas asparaginowy) {... Problem rozróżnienia odległej homologii od analogii } regiony zachowane = znaczenie funkcjonalne sekwencje trypsyny Mus musculus i Astracus astracus S-S * Mouse IVGGYNCEENSVPYQVSLNS-----GYHFCGGSLINEQWVVSAGHCYK-------SRIQV Crayfish IVGGTDAVLGEFPYQLSFQETFLGFSFHFCGASIYNENYAITAGHCVYGDDYENPSGLQI * Mouse RLGEHNIEVLEGNEQFINAAKIIRHPQYDRKTLNNDIMLIKLSSRAVINARVSTISLPTA Crayfish VAGELDMSVNEGSEQTITVSKIILHENFDYDLLDNDISLLKLSGSLTFNNNVAPIALPAQ S-S Mouse PPATGTKCLISGWGNTASSGADYPDELQCLDAPVLSQAKCEASYPG-KITSNMFCVGFLE Crayfish GHTATGNVIVTGWG-TTSEGGNTPDVLQKVTVPLVSDAECRDDYGADEIFDSMICAGVPE S-S * Mouse GGKDSCQGDSGGPVVCNG----QLQGVVSWGDGCAQKNKPGVYTKVYNYVKWIKNTIAAN Crayfish GGKDSCQGDSGGPLAASDTGSTYLAGIVSWGYGCARPGYPGVYTEVSYHVDWIKANAV-- różnice między sekwencjami świadczą o mutacjach, które zaszły po rozdzieleniu się sekwencji od wspólnego przodka AGA--TTGATACCCA AGACATTAA---CTA AGA--TTGATACCCA delecja insercja AGACATTAA---CTA -CA +TAC G->A C->T TAC AGACATTGACCA substytucje dopasowanie - zastosowanie Porównywanie sekwencji jest bardzo pomocne w: poszukiwaniu oraz określaniu funkcji i struktury (białek) dla nowych sekwencji określaniu powiązań filogenetycznych między sekwencjami - homologii między sekwencjami oraz w analizach ewolucyjnych dopasowanie - metody dopasowanie par sekwencji: Macierz punktów - dot matrix, dotplot Programowanie dynamiczne (DP) Metody słów (k - tuple methods) - szybkie metody stosowane przy przeszukiwaniu baz danych sekwencji z wykorzystaniem programów FASTA i BLAST dopasowanie wielu sekwencji Dot matrix M T S I E Q W T R Q V M • T S I E L Q W • T R E V A W • • • • • • • • • • • • • MTSIELQWTREVAW MTSIE-QWTRQV-- Dot matrix – porównanie sekwencji samej z sobą Dot matrix – porównanie dwóch podobnych sekwencji Dot matrix - metody wstawiania punktów Dla identycznych zasad lub reszt aminokwasowych (symboli) W oparciu o macierz punktacji (PAM, BLOSUM), gdy symbole wykazują podobieństwo większe niż pewna wartość punktacji (score) Nadawanie różnych kolorów lub odcieni szarości w zależności od stopnia podobieństwa symboli Gdy liczba podobnych symboli w danym oknie przekracza pewną wartość Dot matrix - metody wstawiania punktów ACTGCTAGATCGTAGCTGATAATGACCG ACAGCAACATCTGAACTGGCAGCGACGG 5/7 rodzaj sekwencji liczba wielkość identycznych okna symboli sekwencje DNA 15 10 sekwencje białek 2-3 2 sekwencje odległe 15 5 Dot matrix - metody wstawiania punktów ACTGCTAGATCGTAGCTGATAATGACCG ACAGCAACATCTGAACTGGCAGCGACGG 12/20 rodzaj sekwencji liczba wielkość identycznych okna symboli sekwencje DNA 15 10 sekwencje białek 2-3 2 sekwencje odległe 15 5 Dot matrix - zastosowanie identyfikacja regionów podobnych lub identycznych porównywanie sekwencji o strukturze wielodomenowej rozpoznawanie dużych insercji i delecji rozpoznawanie regionów powtórzonych i duplikacji rozpoznawanie rearanżacji rozpoznawanie regionów o słabo zróżnicowanym składzie analiza sekwencji i struktury RNA Dot matrix – insercja lub delecja ATGCTAGACATCGGATATTCGACA A T G C T A G A A T A T T C G A C A ATGCTAGACATCGGATATTCGACA ATGCTAGA------ATATTCGACA