Wrocław University of Technology SPOTKANIE 4: Podstawowe rozkłady prawdopodobieństwa Maciej Zięba Studenckie Koło Naukowe ”Estymator” [email protected] 27.10.2015 Pojęcie prawdopodobieństwa Prawdopodobieństwo reprezentuje pewne przekonanie dotyczące zjawisk. Przekonanie to wyraża się pewną wartością rzeczywistą z przedziału [0, 1]. Suma przekonań odnośnie wszystkich możliwych zdarzeń jest równa 1. Możliwe zdarzenia reprezentowane są za pomocą zmiennej losowej X. Przykład: rzut kostką sześcienną X = {1, 2, 3, 4, 5, 6}, 2/29 Interpretacja częstościowa prawdopodobieństwa Rzuciłem kostką 15 razy: 3 2 2 3 2 3 razy razy razy razy razy razy wypadła wypadła wypadła wypadła wypadła wypadła ”1” ”2”, ”3” ”4”, ”5”, ”6”. Prawdopodobieństwo wylosowania ”6” jest równe: p(X = 6) = p(6) = 3 1 = . 15 5 3/29 Bayesowska interpretacja prawdopodobieństwa Mamy informację, że ze względu na własności fizyczne kostek prawdopodobieństwo wylosowania ”6” jest równe 16 . Dla jednej na pięć kostek wykorzystywanych w kasynach prawdopodobieństwo wylosowania ”6” równe 13 . Prawdopodobieństwo wylosowania ”6” jest równe: p(6) = 1 4 1 1 1 · + · = . 5 6 5 3 5 4/29 Dyskretne zmienne losowe Zbiór możliwych wartości X jest co najwyżej przeliczalny. Suma prawdopodobieństw równa się 1: X p(X = x) = x∈X X p(x) = 1. x∈X Dla podzbioru A ⊆ X : X x∈A p(x) = 1 − X p(x), x∈¬A gdzie ¬A stanowi dopełnienie zbioru A. 5/29 Ciągłe zmienne losowe Rozkład opisuje funkcją gęstości p(x). Prawdopodobieństwo X ∈ [a, b]: p(a ¬ X ¬ b) = Zb p(x)dx a Dystrybuanta: p(X ¬ b) = P (b) = Zb p(x)dx −∞ Funkcja gęstości spełnia reguły: R brzegową: p(x) = p(x, y)dy łańcuchową: p(x, y) = p(x|y)p(y) 6/29 Wartość oczekiwana Typową własnością rozkładu jest wartość oczekiwana (średnia), którą dla rozkładu dyskretnego definiuje się następująco: E[X] = X x · p(x), x∈X dla rozkładu ciągłego definiuje się następująco: E[X] = Z x · p(x)dx, x∈X Wartość oczekiwana dla rzutu monetą: E[X] = 1 · θ + 0 · (1 − θ) = θ. 7/29 Wariancja i odchylenie standardowe Wariancja jest własnością która opisuje rozpiętość rozkładu (jak bardzo odchylają się wartości x od średniej) i definiuje się następująco: V ar[X] = E[(X − E[X])2 ] = E[X 2 ] − (E[X])2 Odchylenie standardowe definiowane jest jako pierwiastek z wariancji: std[X] = q V ar[X] Wariancja dla rzutu monetą: V ar[X] = θ · (1 − θ). 8/29 Korelacja i kowariancja Miarą liniowej zależności pomiędzy zmienną losową X i Y jest kowariancja zadana wzorem: cov[X, Y ] = E[(X − E[X])(Y − E[Y ])] = E[XY ] − E[X]E[Y ]. Kowariancja przyjmuje wartości z przedziału (−∞, ∞), w praktyce wygodniej jest operować na znormalizowanej postaci kowariancji nazywanej korelacją: cov[X, Y ] , corr[X, Y ] = q V ar[X]V ar[Y ] która przyjmuje wartości z przedziału [−1, 1]. 9/29 Korelacja i kowariancja 10/29 Rozkład dwupunktowy : Zmienna losowa X ∼ Ber(θ) przyjmuje wartości ze zbioru: X = {0, 1}. Funkcja rozkładu prawdopodobieństwa: Ber(x|θ) = θI(x=1) (1 − θ)I(x=0) = θx (1 − θ)1−x Rozkład ma interpretację pojedynczego rzutu monetą. Parametr θ reprezentuje prawdopodobieństwo sukcesu w rzucie monetą. Podstawowe własności rozkładu: E[X] = θ, V ar[X] = θ · (1 − θ). 11/29 Rozkład wielopunktowy Wektory binarnych zmiennych losowych spełniające P warunek K i=1 xi = 1. Funkcja rozkładu prawdopodobieństwa: Cat(x, θ) = K Y I(xi =1) θi i=1 Rozkład ma interpretację rzutu K-wymiarową kostką. Parametr θi reprezentuje prawdopodobieństwo wypadnięcia i oczek. Podstawowe własności rozkładu: E[Xj ] = θj , V ar[Xj ] = θj · (1 − θj ), cov[Xj , Xi ] = −θj θi 12/29 Rozkład jednostajny Funkcja gęstości: p(x) = 1 , x ∈ [a, b], 0, w.p.p. b−a Podstawowe własności rozkładu: E[X] = funkcja gęstości dystrybuanta (b − a)2 a+b , V ar[X] = . 2 12 13/29 Rozkład Gaussa Funkcja gęstości: N (x|µ, σ 2 ) = √ (x−µ)2 1 e− 2σ2 2πσ 2 Podstawowe własności rozkładu: E[X] = µ, V ar[X] = σ 2 . 14/29 Wielowymiarowy rozkład Gaussa Funkcja gęstości: N (x|µ, Σ) = 1 q (2π)K/2 |Σ|−1 e−(x−µ) T Σ−1 (x−µ) Podstawowe własności rozkładu: E[X] = µ, cov[X] = Σ. Istotną własnością rozkładu jest macierz precyzji Λ = Σ−1 . 15/29 Rozkład Gamma Funkcja gęstości: Ga(x|a, b) = Γ(b) = Z∞ ba a−1 −bx x e , Γ(b) ub−1 e−u du. 0 Podstawowe własności rozkładu: a a E[X] = , V ar[X] = 2 . b b 16/29 Rozkład Beta Funkcja gęstości: Beta(x|a, b) = xa−1 (1 − x)b−1 , B(a, b) B(a, b) = Γ(a)Γ(b) Γ(a + b) Podstawowe własności rozkładu: E[X] = V ar[X] = a a+b ab (a + b)2 (a + b + 1) . 17/29 Funkcja wiarygodności Dysponujemy danymi D = {(xn )}N n=1 . Rozpatrujemy model, który generuje dane z pewnego rozkładu p(x|θ). Funkcję wiarygodności (ang. likelihood function) definiuje się następująco: p(D|θ) = N Y p(xn |θ). n=1 18/29 Funkcja wiarygodności Dysponujemy ciągiem obserwacji dotyczących rzutu monetą D = {o, o, o, r, r, o, r, o, r} Chcemy ocenić, czy bardziej wiarygodne jest, że dane zostały wygenerowane: z rozkładu Ber(x|0.5), czy też z rozkładu Ber(x|0.75). Wartości funkcji wiarygodności Ber(D|θ) dla rozkładów wynoszą: Ber(D|0.5) = 0.59 = 0.001953125, Ber(D|0.75) = 0.754 · 0.255 = 0.00030899. 19/29 Funkcja wiarygodności Dysponujemy ciągiem obserwacji dotyczących rzutu monetą D = {o, o, o, r, r, o, r, o, r} Chcemy ocenić, czy bardziej wiarygodne jest, że dane zostały wygenerowane: z rozkładu Ber(x|0.5), czy też z rozkładu Ber(x|0.75). Wartości funkcji wiarygodności Ber(D|θ) dla rozkładów wynoszą: Ber(D|0.5) = 0.59 = 0.001953125, Ber(D|0.75) = 0.754 · 0.255 = 0.00030899. 19/29 Funkcja wiarygodności Dysponujemy ciągiem obserwacji D = {0.24, 0.32, 0.21, −0.2, −0.87, 0.23, −0.12, 0.01} Chcemy ocenić, czy bardziej wiarygodne jest, że dane zostały wygenerowane: z rozkładu N (0, 1), czy też z rozkładu N (1, 0.1). Wartości funkcji wiarygodności N (D|0, 1) = 0.00037608, N (D|1, 0.1) = 2.15 · 10−20 . 20/29 Funkcja wiarygodności Dysponujemy ciągiem obserwacji D = {0.24, 0.32, 0.21, −0.2, −0.87, 0.23, −0.12, 0.01} Chcemy ocenić, czy bardziej wiarygodne jest, że dane zostały wygenerowane: z rozkładu N (0, 1), czy też z rozkładu N (1, 0.1). Wartości funkcji wiarygodności N (D|0, 1) = 0.00037608, N (D|1, 0.1) = 2.15 · 10−20 . 20/29 Estymator maksymalnej wiarygodności Interesuje nas znalezienie modelu o najwyższej wiarygodności. Formalnie, zadanie to formułujemy jako zadanie optymalizacji: θ̂ M LE = arg max p(D|θ) θ = arg max θ N Y p(xn |θ), n=1 gdzie θ̂ M LE nazywany jest estymatorem maksymalnej wiarygodności (ang. maximal likelihood estimate, MLE). 21/29 Estymator maksymalnej wiarygodności W praktyce definiuje się alternatywne zadanie optymalizacji: θ̂ M LE = arg min − log p(D|θ) θ = arg min θ N X − log p(xn |θ). n=1 Okazuje się, że operacja logarytmu nie zmienia położenia punktu optymalnego! 22/29 Estymator maksymalnej wiarygodności Negatywny logarytm z funkcji wiarygodności: − log Ber(D|θ) = − N X {xn log θ + (1 − xn ) log(1 − θ)} n=1 = −m log θ − (N − m) log(1 − θ) gdzie m oznacza liczbę sukcesów. Estymator MLE: θM LE = m , N 23/29 Estymator maksymalnej wiarygodności Negatywny logarytm z funkcji wiarygodności: − log N (D|µ, σ 2 ) = − N N 1 X N (xn − µ)2 − log σ 2 − log 2π 2 2σ n=1 2 2 Estymator MLE parametru µ jest równy: µM LE = N 1 X xn N n=1 Estymator MLE parametru σ 2 : 2 σM LE = N 1 X (xn − µM LE )2 N n=1 24/29 Estymator maksymalnego a posteriori Załóżmy, że dysponujemy ciągiem obserwacji dotyczących rzutu monetą D = {r, r, r, r, r}. Jeżeli wykonamy estymację parametrów MLE parametru θ wówczas: θM LE = 5 m = = 1. N 5 W rezultacie otrzymujemy rozkład dwupunktowy dla którego prawdopodobieństwo sukcesu 1. W celu rozwiązania tego problemu załóżmy, że parametr θ charakteryzuje się niepewnością. 25/29 Estymator maksymalnego a posteriori Formalnie, zadanie to formułujemy jako zadanie optymalizacji: θ̂ M AP = arg max p(θ|D), θ gdzie θ̂ M AP nazywany jest estymatorem maksymalnego a posteriori (ang. maximal a posteriori estimate, MAP). Korzystając z reguły Bayesa ostatecznie mamy: θ̂ M AP = arg max p(θ)p(D|θ). θ 26/29 Estymator maksymalnego a posteriori Wprowadźmy rozkład na parametr θ: Beta(θ|a, b) = Γ(a + b) a−1 θ (1 − θ)b−1 . Γ(a)Γ(b) Wówczas mamy dla rozkładu a posteriori: p(θ|D) ∝ Γ(a + b + N ) m+a−1 θ (1 − θ)l+b−1 , Γ(a + m)Γ(b + l) gdzie l = N − m. Estymator MAP: θ̂M AP = m+a−1 N +a+b−2 27/29 Uczenie Bayesowskie i częstościowe W przypadku podejścia częstościowego konstrukcja rozkładu przebiega następująco: W pierwszym kroku wykonywana jest estymacja θ̂. W drugim kroku ”wstawiamy” estymator θ̂ do rozkładu: p(x|D) = p(x|θ̂) W przypadku podejścia Bayesowskiego następuje wycałkowanie względem parametrów θ: p(x|D) = Z p(x|θ)p(θ|D)dθ 28/29 Uczenie Bayesowskie Przykład Interesuje nas znalezienie p(x = r|D): p(x = r|D) = Z1 Przykład: p(x = r|θ)p(θ|D)dθ 0 = Z1 0 θp(θ|D)dθ = m+a N +a+b D= {r, r, r, r, r, o, r} a = 2, b = 3 6 7 7 = 10 θM LE = m N m+a−1 θ̂M AP = N +a+b−2 m+a p(x = r|D) = N +a+b θM LE = θ̂M AP p(x = r|D) = 2 3 29/29