wykład

advertisement
ALEKSANDRA ŚWIERCZ
Ekspresja genów
http://genome.wellcome.ac.uk/doc_WTD020757.html
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
2
Różnice między eksperymentem
mikromacierzowym a RNA-seq
Przy użyciu mikromacierzy można badać poziom ekspresji znanych
genów, natomiast wykorzystując RNA-seq można także wykryć nowe
izoformy genów
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
3
Do czego wykorzystywane jest RNA-seq?
 Badanie ekspresji genów oraz różnicowej ekspresji genów
 Wyszukiwanie alternatywnego splicingu w genach
 Odkrywanie nowych transkryptów/izoform
 Odkrywanie mutacji w genach
 Wykrywanie fuzji genów
 Edytowanie RNA (mutacje w RNA)
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
4
Sekwencjonowanie RNA – po kolei
RNA-seq Module, 2013, www.bioinformatics.ca
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
5
Trzy podejścia do mapowania RNA-seq
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
6
Mapowanie – wyznaczenie
poziomu ekspresji – wizualizacja
TopHat / BowTie
Cufflinks
Cuffmerge
Cuffdiff
Cummerbund
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
11
TopHat2 pipeline
Znane sygnały podziału
GT-AG, GC-AG, AT-AC
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
12
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
13
Jak wyrażana jest ekspresja genu?
RPKM – Reads Per Kilobase of transcript per Million mapped reads
FPKM – Fragments Per Kilobase of transcript per Million mapped reads
W RNA-Seq – poziom ekspresji transkryptu jest proporcjonalny do liczby
fragmentów cDNA z którego pochodzi. Chociaż:
◦ Liczba fragmentów jest przechylona w kierunku większych genów
◦ Całkowita liczba fragmentów jest uzależniona od głębokości sekwencjonowania
RPKM (FPKM) = (109 * C) / (N * L)
◦ C – liczba zmapowanych odczytów (fragmentów) do genu/transkryptu/eksonu
◦ N – całkowita liczba zmapowanych odczytów (fragmentów) w bibliotece
◦ L – liczba nukleotydów w genie/transkrypcie/eksonie
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
14
Alternatywny splicing
W procesie splicingu łączone są ze sobą różne eksony z pre-mRNA na różne
sposoby, czasami z pominięciem niektórych eksonów, lub z zachowaniem
niektórych intronów
Jeśli warianty splicingowe dotyczą sekwencji kodującej, powstałe białka
różnią się sekwencją aminokwasową, co może powodować np.
zróżnicowanie funkcji.
Jeśli warianty splicingowe dotyczą obszarów niekodujących może to
wpływać np. na wzmocnienie translacji lub stabilność mRNA.
Rekordem w liczbie różnych wariantów splicingowych jest gen Dscam D.
melanogaster, który ma ponad 38 tys. różnych wariantów (więcej niż liczba
wszystkich genów) *
* C.
Ghigna, C. Valacca, G. Biamonti „Alternative Splicing and Tumor Progression”, Curr
Genomics. Dec 2008; 9(8): 556–570.
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
16
Różne
warianty
splicingowe
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
17
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
18
Różne warianty splicingowe
Mutually exclusive exons
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
19
Zhiyong Guo, Yun Qiu
A New Trick of an Old
Molecule: Androgen
Receptor Splice
Variants Taking the
Stage?!
Int J Biol Sci 2011;
7(6):815-822.
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
20
Jak Cufflinks radzi
sobie z wykrywaniem
alternatywnego
splicingu?
C. Trapnell, BA Williams, G Pertea, A Mortazavi, G Kwan, MJ
van Baren, SL Salzberg, BJ Wold, L Pachter, „Transcript
assembly and quantification by RNA-Seq reveals
unannotated transcripts and isoform switching during cell
differentiation, Nature Biotechnology 28(5) 2010, p. 511515
C Trapnell, DG Hendrickson, M Sauvageau, L Goff, JL Rinn, L
Pachter, „Differential analysis of gene regulation at
transcript resolution with RNA-seq”, Nature Biotechnology
31(1), 2013, p. 46-53.
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
21
Mapowanie odczytów sparowanych za pomocą TopHat-a.
Każda para odczytów traktowana jest jako jedno
dopasowanie. Odczyty mogą być zmapowane w całości,
lub z podziałem pomiędzy eksonami
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
22
Cufflinks
W pierwszym kroku wyszukiwane są pary
„niekompatybilnych” fragmentów, które muszą
pochodzić z innych izoform mRNA (zaznaczone na
żółto, niebiesko i czerwono).
Fragmenty (sparowane odczyty), są wierzchołkami w
grafie. Wierzchołki są łączone pomiędzy parami
kompatybilnych fragmentów.
Szarym kolorem zaznaczone są fragmenty, które
mogą pochodzić z dowolnych transkryptów.
Ścieżki w grafie odpowiadają wzajemnie
wykluczającym się fragmentom, które mogą być
połączone w izoformy.
Graf może być pokryty minimalnie przez 3 ścieżki –
oznaczone 3 kolorami, co w efekcie daje 3 odrębne
izoformy
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
23
Cufflinks
Fragmenty są znakowane (tutaj kolorem) w zależności
od tego z której izoformy pochodzą. Fioletowy fragment
może pochodzić z niebieskiego lub czerwonego. Szare
fragmenty mogą pochodzić z dowolnej izoformy.
Cufflinks estymuje liczność transkryptu używając
modelu statystycznego, w którym prawdopodobieństwo
obserwowania każdego fragmentu jest liniową funkcją
liczności transkryptów, z których mogą pochodzić.
Ponieważ długość sekwencjonowanych fragmentów nie
jest znana (sparowane odczyty są końcami
fragmentów), a przypisanie fragmentu do różnych
izoform powoduje że różna jest jego długość – Cufflinks
wyznacza rozkład długości odczytów. Rozkład ten jest
następnie wykorzystywany do przypisania fragmentów
do różnych izoform (fioletowy fragment byłby zbyt
długi, gdyby został przypisany do czerwonego
transkryptu).
W ostatnim kroku program maksymalizuje prawdopodobieństwo liczności każdej z
izoform i przydziela im odpowiednio numeryczne wartości (γ1, γ2, γ3)
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
24
Cufflinks
W powyższym przykładzie analizowany był tylko fragment jednego genu. Wszystkie
fragmenty genu należy potem skleić całość
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
25
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
26
Do czego jest potrzebny cuffmerge?
Pozwala na łączenie wyników z działania cufflinks’a dla różnych próbek
◦ Jest to potrzebne ponieważ dla każdej próbki cufflinks może wykryć inną
liczbę oraz inną strukturę transkryptów
Odfiltrowywane są transkrypty, które są najprawdopodobniej
artefaktami (transfrags)
Opcjonalnie może także podać plik GTF w odniesieniu do genomu
referencyjnego, w którym połączone będą dotychczas znane oraz nowe
izoformy wraz z maksymalizacją jakości zasemblowanych transkryptów
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
27
Jak wyznaczyć ekspresję transkryptu?
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
28
Jak działa cuffdiff?
• Modelowanie zmienności w liczbie fragmentów dla każdego
genu dla różnych powtórzeń – estymacja wariacji
• Liczba fragmentów dla każdej izoformy jest estymowana dla
każdego powtórzenia (jak poprzednio) razem z miarą
niepewności pochodzącą od niejednoznacznie
zmapowanych odczytów
• Transkrypty, z większą liczbą współdzielonych eksonów, a
niewielką liczbą jednoznacznie przypisanych fragmentów będą
miały mniejszą niepewność
• Algorytm łączy estymowaną niepewność razem ze
zmiennością pomiędzy powtórzeniami poprzez model
ujemnego rozkładu dwumianowego dla liczby fragmentów,
w celu estymowania liczby niezgodności dla każdego
transkryptu w każdej bibliotece
• Te estymowane niezgodności używane podczas testowania
statystycznego pozwalają na znalezienie znaczących
statystycznie genów i transkryptów, które uległy
zróżnicowanej ekspresji
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
29
Wizualizacja, np. cummeRbund
Automatycznie generuje zestaw wykresów do porównania ekspresji dla
różnych (zadanych) próbek
◦
◦
◦
◦
◦
Wykresy z rozkładem wartości
Wykresy z korelacją
Wykresy MA
Wykresy ‚volcano’
Wykresy klastrowania, PCA, MDS – w celu ogólnej oceny związku pomiędzy
warunkami
◦ Heatmapy – wykresy gęstości
◦ Wykresy z poziomu genów lub transkryptów pokazujące strukturę
transkryptów i poziom ekspresji
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
30
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
31
`
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
32
Alternatywne do FPKM/RPKM
„Raw counts” – liczba odczytów/fragmentów przypadająca na
gen/transkrypt
„HTSeq” – htseq-count – zlicza liczbę odczytów przypadających na
gen/ekson
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
33
FPKM czy ‚raw’ counts ?
FPKM
◦ Gdy chcemy wykorzystać zalety ‚smokingu’ (tophat/cufflinks/itp)
◦ Można wykorzystać do wizualizacji na heatmapie
◦ Także do wyznaczania zmiany poziomu ekspresji genów
Surowa liczba odczytów
◦ Jeśli chcemy wykorzystać bardziej zaawansowane metody statystyczne do
normalizacji, czy do badania zmiany poziomu ekspresji genów
◦ Do wykorzystania przy skomplikowanych projektach eksperymentalnych, przy
analizie trendów czasowych i przy wykorzystaniu innych zaawansowanych
testów statystycznych
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
34
Limma
Liniowy model początkowo używany do analizy danych pochodzących z
eksperymentów mikromacierzowych, następnie przystosowany do
analizy danych RNA-seq
Umożliwia na bardzo rozbudowany model porównania, poprzez
zdefiniowanie design matrix oraz contrast matrix.
> design <- model.matrix(~ 0+factor(c(1,1,1,2,2,3,3,3)))
> colnames(design) <- c("group1", "group2", "group3")
> contrast.matrix <- makeContrasts(group2-group1, group3group2, group3-group1, levels=design)
Umożliwia analizę trendów
Time points
1d 2d
4d
8d
12d
Control vs treated
http://www.bioconductor.org/packages/release/bioc/html/limma.html
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
36
DESeq
Utworzony dla danych RNA-seq. Wymaga tabeli z wyznaczoną liczbą
odczytów przypadających na dany gen.
Normalizacja względem liczby wszystkich odczytów przypadających na
próbkę
> cds = estimateSizeFactors( cds )
Estymacja wariancji – wyznaczenie jak bardzo geny różnią się w
ekspresji pomiędzy różnymi próbkami
> cds = estimateDispersions( cds )
Wyznaczenie różnicowej ekspresji
> res = nbinomTest( cds, "untreated", "treated" )
http://www.bioconductor.org/packages/release/bioc/html/DESeq.html
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
37
Różne programy – porównanie
wyników
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
38
Alamancos GP, Agirre E,
Eyras E. (2014)
Methods to study splicing
from high-throughput
RNA sequencing data.
Methods Mol Biol
1126:357-97.
A. Świercz
ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
39
Download