Statystyczna analiza danych Podstawowe rozkłady zmiennych losowych Ewa Szczurek [email protected] Instytut Informatyki Uniwersytet Warszawski 1/33 Statystyczna analiza danych 1 - wykład i ćwiczenia Strona z materiałami do wykładu i ćwiczeń I http://www.mimuw.edu.pl/~szczurek/SAD1/ Kryteria zaliczenia I I Wykład: Egzamin pisemny (40 punktów) Ćwiczenia: I I I Kolokwium 1 (10 punktów) Kolokwium 2 (20 punktów) Zadanie zaliczeniowe, prezentowane na ostatnich zajęciach (30 punktów) 2/33 Plan zajęć 1. Podstawy I I Rozkłady zmiennych losowych Testowanie hipotez 3/33 Plan zajęć 1. Podstawy I I Rozkłady zmiennych losowych Testowanie hipotez 2. Rozumienie danych 3/33 Plan zajęć 1. Podstawy I I Rozkłady zmiennych losowych Testowanie hipotez 2. Rozumienie danych I Nadzorowane: Budowanie modeli opisujących zależność f danych wyjściowych Y od danych wejściowych X z błędem Y = f (X ) + I Predykcja: Ŷ = fˆ(Xnew ) I Inferencja: uczenie się postaci f . Np., czy f to liniowa, czy nieliniowa zależność? 3/33 Plan zajęć 1. Podstawy I I Rozkłady zmiennych losowych Testowanie hipotez 2. Rozumienie danych I Nadzorowane: Budowanie modeli opisujących zależność f danych wyjściowych Y od danych wejściowych X z błędem Y = f (X ) + I Predykcja: Ŷ = fˆ(Xnew ) I I Inferencja: uczenie się postaci f . Np., czy f to liniowa, czy nieliniowa zależność? Nienadzorowane: Wyszukiwanie wzorców w danych, grupowanie (klastrowanie) 3/33 Przykład 1: dane Wage 20 40 Age 60 80 300 200 50 100 50 100 Wage 200 50 100 Wage 300 I Wage I 300 I Czy da się zestawić czynniki, które mogą wpływać na zarobki w USA? Trend dla zależności od zmiennej Age, ale też i wariancja Trudne zadanie! Dla akuratnej predykcji trzeba wziąć pod uwagę kilka zmiennych naraz Przykład problemu regresji (predykcja danych ciągłych) 200 I 2003 2006 Year 2009 1 2 3 4 5 Education Level 4/33 Przykład 2: pomiary ekspresji genów Czy w danych widać podział na grupy (klastry) linii komórkowych? I Trudne zadanie! Jak porównać linie komórkowe gdy każda reprezentowana jest aż przez 7000 wartości? I Przykład problemu nienadzorowanego klastrowania I Tutaj podejście przez redukcję wymiaru: 0 Z2 −20 −60 −40 −20 −40 −60 Z2 0 20 NCI60 - ekspresja 6830 genów w 64 typach komórek rakowych I 20 I −40 −20 0 20 Z1 40 60 −40 −20 0 20 40 60 Z1 5/33 Zmienne losowe Zmienna losowa Funkcja X określona na zbiorze zdarzeń elementarnych (eksperymentów) Ω X :Ω→Y My będziemy rozważać zmienne losowe rzeczywiste, dla których Y = R. Dyskretna (skokowa) Przyjmuje wartości ze skończonego zbioru, np. wyników rzutu kostką Ciągła Przyjmuje ciągłe wartości ze zbioru R, np. pomiarów ekspresji genów 6/33 Rozkłady zmiennych losowych Rozkład zmiennej losowej X Funkcja PX (A) = P(X −1 (A)), gdzie I A to dowolny podzbiór zbioru wartości Y , I P to miara prawdopodobieństwa określona na zdarzeniach losowych. Formalnie ujmując, A ∈ B(Y ), gdzie B(Y ) sigma-ciało podzbiorów zbioru wartości zmiennej losowej X . 7/33 Rozkłady zmiennych losowych Rozkład zmiennej dyskretnej X Zdefiniowany przez zbiór par x, PX (X = x), gdzie I x ∈ Y : wartość zmiennej X ; I PX (X = x) = PX (x): prawdopodobieństwo, że zmienna X przyjme wartość x PX (x) = P(X −1 (x)) Dla dyskretnego rozkładu prawdopodobieństwa mamy P I Dla dowolnego A ⊂ Y , PX (A) = xi ∈A PX (xi ) P I i PX (xi ) = 1 8/33 Dystrybuanta Dystrybuanta rozkładu zmiennej losowej X Funkcja dana wzorem FX (t) = PX ({x : x ≤ t}) = PX ((−∞, t]) 9/33 Rozkład zmiennej ciągłej Ciągły rozkład zmiennej X Rozkład PX dla którego istnieje funkcja f , taka że Z PX (A) = f (x)dx A zwana funkcją gęstości prawdopodobieństwa. Dla ciągłego rozkładu prawdopodobieństwa mamy R∞ I f (x)dx = 1 −∞ I Dystrybuanta X wyraża się wzorem FX (t) = Rt −∞ f (x)dx 10/33 Wartość oczekiwana zmiennej losowej Wartość określająca spodziewany wynik doświadczenia losowego. Wartość oczekiwana zmiennej dyskretnej X o rozkładzie PX E (X ) = X xi PX (xi ) i Wartość oczekiwana zmiennej ciągłej X o gęstości rozkladu f Z∞ E (X ) = xf (x)dx. −∞ 11/33 Wariancja zmiennej losowej Miara zmienności zmiennej losowej. Średnia kwadratów odchyleń od wartości oczekiwanej. Wariancja zmiennej losowej X Var (X ) = E (X − E (X ))2 Zachodzi też Var (X ) = E X 2 − (E (X ))2 12/33 Fajne rozkłady zmiennych losowych i ich zastosowania Rozkłady zmiennych losowych można podzielić na grupy I Rozkłady jednostajne (ang. uniform), dyskretny Uniform(n), albo ciągły Uniform(a, b). I Rozkłady dla procesu Bernoulliego, lub losowania z bądz bez zwracania: rozkład zero-jedynkowy Bernoulli(p), dwumianowy Binomial(n, p), Geometric(p), NegativeBinomial(p, r ) i Hypergeometric(N, M, n). I Rozkłady dla procesu Poissona: Gamma(λ, r ) i Beta(α, β), Poisson(λ, t), Exponential(λ), I Rozkład normalny, występujący często w naturze, i inne związane z Centralnym Tw. Granicznym: Normal(µ, σ 2 ), ChiSquared(ν), T(ν) i F(ν1 , ν2 ). 13/33 Przydatne funkcje: gamma i beta O funkcjach gamma i beta można myśleć jak o odpowiednio ciągłych wersjach silni n! i symbolu Newtona kn . 14/33 Przydatne funkcje: gamma i beta O funkcjach gamma i beta można myśleć jak o odpowiednio ciągłych wersjach silni n! i symbolu Newtona kn . Funkcja Gamma Γ(x) Funkcja Γ(x) : R+ → R zdefiniowana na liczbach dodatnich x > 0 Z∞ Γ(x) = t x−1 e −t dt 0 Ponieważ Γ(x + 1) = xΓ(x) i Γ(1) = 1, dla dodatniego całkowitego x zachodzi Γ(x) = (x − 1)! 14/33 Przydatne funkcje: gamma i beta O funkcjach gamma i beta można myśleć jak o odpowiednio ciągłych wersjach silni n! i symbolu Newtona kn . Funkcja Beta B(α, β) Funkcja B(α, β) zdefiniowana na liczbach dodatnich α, β > 0 jako Z1 B(α, β) = t α−1 (1 − t)β−1 dt = Γ(α)Γ(β) . Γ(α + β) 0 Dla α i β dodatnich całkowitych B(α, β) = (α − 1)!(β − 1)! (α + β − 1)! 15/33 Rozkład jednostajny dyskretny Uniform(n) Zmienna X o rozkładzie jednostajnym dyskretnym przyjmuje z tym samym prawdopodobieństwem wartości z dowolnego skończonego zbioru. Tutaj oznaczamy go {1, . . . , n}, gdzie parametr n to liczba całkowita dodatnia. PX (x) = 1/n, dla x = 1, 2, . . . , n E (X ) = Var (X ) = n+1 2 n2 − 1 12 16/33 Rozkład jednostajny dyskretny Uniform(n) Zmienna X o rozkładzie jednostajnym dyskretnym przyjmuje z tym samym prawdopodobieństwem wartości z dowolnego skończonego zbioru. Tutaj oznaczamy go {1, . . . , n}, gdzie parametr n to liczba całkowita dodatnia. PX (x) = 1/n, dla x = 1, 2, . . . , n E (X ) = Var (X ) = n+1 2 n2 − 1 12 Przykład. Rzut kostką. n = 6, E (X ) = 3.5, Var (X ) = 35 12 . 16/33 Rozkład jednostajny ciągły Uniform(a, b) Zmienna X o rozkładzie jednostajnym ciągłym przyjmuje wartości z danego przedziału [a, b] z tym samym prawdopodobieństwem proporcjonalnym do jego długości. PX (x) = 1 , dla x ∈ [a, b] b−a E (X ) = Var (X ) = a+b 2 (b − a)2 12 17/33 Rozkład jednostajny ciągły Uniform(a, b) Zmienna X o rozkładzie jednostajnym ciągłym przyjmuje wartości z danego przedziału [a, b] z tym samym prawdopodobieństwem proporcjonalnym do jego długości. PX (x) = 1 , dla x ∈ [a, b] b−a E (X ) = Var (X ) = a+b 2 (b − a)2 12 Przykład. Błąd zaokrąglania do liczb całkowitych na przedziale [−0.5, 0.5]. 17/33 Rozkład zero-jedynkowy Bernoulli(p) Zmienna X o rozkładzie zero-jedynkowym odpowiada próbie Bernoulliego mogącej zakończyć się sukcesem (wartość 1) albo porażką (0). X przyjmuje wartośc 1 z prawdopodobieństwem p i wartość 0 z przwdopodobieństwem 1 − p. PX (0) = 1 − p, PX (1) = p E (X ) = p Var (X ) = p(1 − p) 18/33 Rozkład zero-jedynkowy Bernoulli(p) Zmienna X o rozkładzie zero-jedynkowym odpowiada próbie Bernoulliego mogącej zakończyć się sukcesem (wartość 1) albo porażką (0). X przyjmuje wartośc 1 z prawdopodobieństwem p i wartość 0 z przwdopodobieństwem 1 − p. PX (0) = 1 − p, PX (1) = p E (X ) = p Var (X ) = p(1 − p) Przykład. Rzut monetą. p = 1 − p = E (X ) = 0.5, Var (X ) = 1/4. 18/33 Rozkład dwumianowy Binomial(n, p) Zmienna X jest sumą wyników w n próbach Bernoulliego (procesie Bernoulliego), czyli X = x oznacza, że w n próbach było x sukcesów (Binomial(1,p)=Bernoulli(p)) n x PX (x) = p (1 − p)n−x , dla x = 0, 1, . . . , n x E (X ) = np Var (X ) = np(1 − p) 19/33 Rozkład dwumianowy Binomial(n, p) Zmienna X jest sumą wyników w n próbach Bernoulliego (procesie Bernoulliego), czyli X = x oznacza, że w n próbach było x sukcesów (Binomial(1,p)=Bernoulli(p)) n x PX (x) = p (1 − p)n−x , dla x = 0, 1, . . . , n x E (X ) = np Var (X ) = np(1 − p) Przykład. Losowanie ze zwracaniem (po losowaniu odkładam spowrotem) z N kul, gdzie M jest białych a N − M czarnych. Sukces to kula biała. Prawdopodobieństwo sukcesu za każdym losowaniem to M/N. Losowanie n razy ze zwracaniem to proces Bernoulliego. 19/33 Rozkład geometryczny Geometric(p) Rozkład liczby prób Bernoulliego (z prawdopodobieństwem sukcesu p w jednej próbie) potrzebnych do uzyskania pierwszego sukcesu. PX (x) = p(1 − p)x−1 , dla x = 1, 2, . . . E (X ) = Var (X ) = 1 p 1−p p2 20/33 Ujemny rozkład dwumianowy NegativeBinomial(p, r ) Rozkład liczby prób Bernoulliego (z prawdopodobieństwem sukcesu p w jednej próbie) potrzebnych do uzyskania pierwszych r sukcesów. x −1 PX (x) = (p)r (1 − p)x−r , dla x = r , r + 1, . . . r −1 E (X ) = Var (X ) = r p r (1 − p) p2 21/33 Rozkład hipergeometryczny Hypergeometric(N, M, n) Rozkład liczby sukcesów w pierwszych n próbach Bernoulliego, przy założeniu, że w N próbach będzie M sukcesów. M N−M PX (x) = x n−x N n dla x = 0, 1, . . . , n E (X ) = np Var (X ) = (N − n)(N − 1)np(1 − p), gdzie p = M N. Przykład. Losowanie bez zwracania (element wylosowany nie wraca spowrotem). Dla N kul mamy M kul białych, losujemy n kul. Możemy wylosować białą z prawdopodobieństwem M/N. Ile kul białych wylosujemy sięgając po n kul? 22/33 Proces Poissona I I Wersja ciągła procesu Bernoulliego. Proces Bernoulliego I I I I Czas dyskretny w każdej próbie prawdopodobieństwo p wygranej, próby niezalezne. Proces Poissona I I I Czas ciągły częstotliwość λ: średnia liczba zdarzeń na jednostkę czasu zdarzenia niezależne 23/33 Rozkład Poissona Poisson(λt) Rozkład liczby zdarzeń w przedziale czasowym długości t przy założeniu że zdarzenia zachodzą jednostajnie w czasie z częstotlwością λ. PX (x) = 1 (λt)x e −λt , dla x = 0, 1, . . . x! E (X ) = λt Var (X ) = λt Zazwyczaj definiuje się przyjmując t = 1. 24/33 Rozkład wykładniczy Exponential(λ) Rozkład czasu, który upłynie do pierwszego zdarzenia, przy założeniu że zdarzenia zachodzą jednostajnie w czasie z częstotlwością λ. f (x) = λe −λx , dla x ∈ [0, ∞) E (X ) = 1/λ Var (X ) = 1/λ2 25/33 Rozkład Gamma Gamma(λ, r ) Rozkład czasu, który upłynie do pierwszych r zdarzeń, przy założeniu że zdarzenia zachodzą jednostajnie w czasie z częstotlwością λ. f (x) = 1 r r −1 −λx λx e , dla x ∈ [0, ∞) Γ(r ) E (X ) = r /λ Var (X ) = r /λ2 26/33 Rozkład Beta Beta(α, β) Rozkład tej części jednostki czasu, który upłynie do pierwszych α zdarzeń, przy założeniu że zachodzi α + β zdarzeń na jednostkę czasu (jednostajnie tak jak w procesie Poissona). f (x) = x α (1 − x)β−1 , dla x ∈ [0, 1] B(α, β) E (X ) = Var (X ) = α (α + β) αβ (α + β)2 (α + β + 1) 27/33 Centralne Twierdzenie Graniczne Średnie z prób i sumy z prób są asymptotycznie normalne gdy wielkość próby dąży do nieskończoności. 28/33 Rozkład Normalny Normal(µ, σ 2 ) Zwany także rozkładem Gaussowskim. Parametry: średnia µ ∈ R, wariancja σ 2 ∈ R+ , z dodatnim pierwiastkiem (odchylenie standardowe). (x − µ)2 1 f (x) = √ exp − , dla x ∈ R 2σ 2 σ 2π E (X ) = µ Var (X ) = σ 2 Rozkład normalny standardowy ma średnią µ = 0 i wariancję σ 2 = 1. Stąd, jego funkcja gęstości to 1 2 f (x) = √ e −x /2 , dla x ∈ R 2π 29/33 Rozkład χ2 ChiSquared(ν). Rozkład sumy kwadratów ν niezależnych rozkładów standardowych normalnych. Parametr ν jest liczbą całkowitą dodatnią i zwany jest stopniem swobody. f (x) = x ν/2−1 e −x/2 dla x.0 2ν/2 Γ(ν/2) E (X ) = ν Var (X ) = 2ν 30/33 Rozkład T −Studenta T(ν). Rozkład wartości zmiennej X gdy X = √Y Z /ν dla zmiennej Y standardowej normalnej X ∼ Normal (0, 1) i Z ∼ ChiSquared (ν). Parametr ν jest liczbą całkowitą dodatnią i zwany jest stopniem swobody. Γ ν+1 2 f (x) = √ dla x ∈ R πνΓ( ν2 )(1 + x 2 /ν)(ν+1)/2 E (X ) = 0 ν Var (X ) = ν−2 Rozkład T stosujemy w statystyce aby wnioskować o wariancji populacji z rozkładu normalnego, szczególnie w przypadku gdy populacja jest mała. 31/33 Rozkład Snedecora-Fishera F F (ν1 , ν2) /ν1 , dla Y i Z niezależnych zmiennych Rozkład zmiennej X = YZ /ν 2 2 ∼ χ ze stopniami swobody ν1 i ν2 . ν1 /2 ν1 ν2 1 f (x) = B(ν1 /2, ν2 /2) (1 + E (X ) = Var (X ) = x ν1 /2−1 ν1 (ν1 +ν2 )/2 ν2 x) dla x > 0. ν2 dla ν2 > 2 ν2 − 2 2ν22 (ν1 + ν2 − 2) dla ν2 > 4 ν1 (ν2 − 2)2 (ν2 − 4) Rozkłady F stosowane są w statystyce przy porównywaniu wariancji dwóch populacji. 32/33 Referencje I http://www-bcf.usc.edu/~gareth/ISL/ I http://statweb.stanford.edu/~tibs/ElemStatLearn/ I http://aleph0.clarku.edu/~djoyce/ma218/ 33/33