WUT TWG 2005 WEDT Rachunek prawdopodobieństwa, teoria informacji, lingwistyka Wykład 2 Piotr Gawrysiak [email protected] 2005 Statystyczne NLP • Podejście statystyczne zakłada wykorzystanie metod wnioskowania statystycznego do analizy języka naturalnego • Wnioskowanie statystyczne – analiza pewnych danych eksperymentalnych (wyników doświadczenia, odpowiedzi na pytania ankietera itp.), generowanych zgodnie z pewnym nieznanym rozkładem prawdopodobieństwa, w celu określenia cech tego rozkładu • Przykład w NLP – modelowanie języka • • WUT TWG Jak przewidzieć wystąpienie kolejnego słowa w sekwencji słów? Do tego potrzebny jest model generacji słów w języku, określający prawdopodobieństwa wystąpienia pewnych słów pod warunkiem wystąpienia słów poprzedzających. 2005 Rachunek prawdopodobieństwa Zdarzenia losowe, doświadczenia, przestrzenie... • • • • • • • Doświadczenie losowe (experiment)– proces, w którym czynione są obserwacje, składa się ze zdarzeń Obserwowane są zdarzenia elementarne (basic outcomes) Przestrzeń /wszystkich możliwych/ zdarzeń elementarnych (sample space) – Ω Przestrzeń Ω może być ciągła (temperatura powietrza, wzrost) lub dyskretna (rzuty kostką, wystąpienia słów) Zdarzenie A – podzbiór Ω Zbiór pusty – zdarzenie niemożliwe, Ω – zdarzenie pewne Przykłady przestrzeni zdarzeń: • • • • Rzut monetą: Ω={O,R}, kostką: Ω={1..6} Lotto: |Ω|=106 Błędy ortograficzne: Ω=Z*, gdzie Z – alfabet, Z* - ciągi znaków nad tym alfabetem Brakujące słowa: |Ω|=wielkość słownika WUT TWG 2005 Rachunek prawdopodobieństwa Przykład z rzutem monetą – rzucamy 3 razy: Ω={OOO, OOR, ORO, ROO, RRO, ROR, ORR, RRR} |Ω|=8 • • • Zdarzenie – wyrzucono trzy orły: A1={RRR} Zdarzenie – wyrzucono pod rząd dwie reszki: A2={RRO,ORR,RRR} Zdarzenie – wyrzucono pod rząd cztery orły: A3=ø Zdarzenia to zbiory więc zastosowanie mają operacje teoriomnogościowe – suma zdarzeń (OR), iloczyn zdarzeń (AND), różnica zdarzeń, dopełnienie zdarzeń (zdarzenie przeciwne) itd. Kostka do gry Ω={1..6}, |Ω|=6 • Zdarzenie – wyrzucono parzystą liczbę oczek: A4={2,4,6} • Zdarzenie przeciwne – wyrzucono nieparzystą liczbę oczek: A5 = Ω-A4 = {1,3,5} WUT TWG 2005 Prawdopodobieństwo Jakie jest prawdopodobieństwo zdarzenia? • • • • Powtarzamy eksperyment t razy, zliczając liczbę c wystąpień zdarzenia A Powyższe serie powtarzamy wielokrotnie Wartość ci/ti zbliża się do pewnej (nieznanej a priori) stałej wartości Ta stała wartość to prawdopodobieństwo zdarzenia A, P(A) ci t i t i P(A) lim • • /Nb. powyższe to definicja częstościowa prawdopodobieństwa, R. von Mises; ponadto np. definicje – geometryczna oraz klasyczna Laplace’a 1812/ Oczywiście w praktyce nie da się przeprowadzić nieskończonej liczby doświadczeń, zatem wartość prawdopodobieństwa możemy jedynie estymować z c1/t1 WUT TWG 2005 WUT TWG Prawdopodobieństwo 2005 Definicja aksjomatyczna prawdopodobieństwa (Kołmogorowa, 1933) • • • P: F [0,1] P(Ω)=1 Dla rozłącznych zbiorów AjF P A j P(A j) j1 j1 Z powyższych aksjomatów wynikają własności funkcji prawdopodobieństwa takie jak: • • • P(Ø)=0 ABP(A)P(B) AΩ P(A) 1 Prawdopodobieństwo warunkowe Prawdopodobieństwo warunkowe i łączne • Niekiedy mamy częściową wiedzę o możliwym wyniku doświadczenia • • • Prawdopodobieństwo zdarzenia A: P(A) (prior probability) Załóżmy, że wiemy iż zaszło zdarzenie B Prawdopodobieństwo warunkowe zdarzenia A pod warunkiem, iż zaszło zdarzenie B: P(A|B) (posterior probability) P(A|B) = P(AB)/P(B), P(B)>0 Oczywiście analogicznie P(B|A) = P(AB)/P(A), P(A)>0 zatem P(AB)=P(B)*P(A|B)=P(A)*P(B|A) • Gdy są to zdarzenia niezależne /P(A|B)=P(A) itd./ to: P(AB)=P(A)*P(B) WUT TWG 2005 WUT TWG Reguła łańcuchowa 2005 Niezależność zdarzeń, reguła łańcuchowa • Dwa zdarzenia są niezależne, gdy wystąpienie jednego z nich nie ma wpływu na wystąpienie drugiego: • • • pogoda dzisiaj i 20 września 1800 roku wynik dwóch rzutów monetą każde dwa zdarzenia takie że P(AB)=P(A)*P(B) • Zdarzenia mogą być także warunkowo niezależne (conditionally independent): P(AB|C)=P(A|C)*P(B|C) • Uogólnienie prawdopodobieństwa warunkowego – reguła łańcuchowa n1 P(A 1 ... A n ) P(A 1)P(A 2 | A 1)P(A 3 | A 1 A 2 )...P(A n |i1 A i ) WUT TWG Wzór Bayesa 2005 Wzór Bayesa (Bayes Theorem) • Wzór Bayesa pozwala nam odwrócić stosunek zależności pomiędzy zdarzeniami – czyli obliczyć P(B|A) gdy znane jest P(A|B) P(B| A) • P(B A) P(A |B)P(B) P(A) P(A) „Golden Rule of SNLP” Gdy nie znamy P(A) • • Czasem możemy mianownik zignorować – gdy interesuje nas tylko określenie najbardziej prawdopodobnego zdarzenia ze zbioru zdarzeń zależnych od A Ew. P(A) = P(A B) + P(A B) = P(A|B)P(B)+P(A|B)P(B) Dzielimy zbiór A na dwie rozłączne części – z których jedna oczywiście może być zbiorem pustym WUT TWG Wzór Bayesa 2005 Z czego wynika bardziej ogólna postać wzoru Bayesa: n A i1Bi ,P(A) 0,B i Bj 0 dla i j P(Bj | A) P(A |Bj)P(Bj) n A jest dzielony na i rozłącznych podzbiorów P(A |Bi )P(Bi ) i1 Przykład: • S: zdrętwienie mięśni szyi, M: zapalenie opon mózgowych • P(S|M) =0.5, P(M) = 1/50000, P(S)=1/20 • Czujemy że drętwieje nam szyja, czy to powód do niepokoju? P(S | M)P(M) P(S) 0.5 1/50,000 0.0002 1/20 P(M |S) Wzór Bayesa Przykład 2: • Mamy „prawie dobry algorytm wykrywający konstrukcję typu parasitic gap” : Which book did she review __ without reading __? • Algorytm myli się „w obie strony” • G: w zdaniu jest parasitic gap, T: algorytm wykrył pg • P(G) =0.00001, P(T|G)=0.95, P(T|G)=0.005 • Algorytm wykrył pg, czy pg jest rzeczywiście w zdaniu? P(T |G)P(G) P(T |G)P(G) P(T |G)P(G) 0.95 0.00001 0.002 0.95 0.00001 0.005 0.99999 P(G| T) WUT TWG 2005 WUT TWG Zmienne losowe • • • 2005 Dla każdego doświadczenia przestrzeń zdarzeń elementarnych może być inna Zmienne losowe pozwalają nam analizować prawdopodobieństwa dla wartości numerycznych Zmienna losowa – funkcja X taka że: zmienna losowa ciągła X :Ω X :Ω S X : Ω {0,1} zmienna losowa dyskretna, skokowa (discreet random variable), S – przeliczalny podzbiór R próba Bernouliego WUT TWG Zmienne losowe • • 2005 Funkcja rozkładu prawdopodobieństwa, rozkład prawdopodobieństwa (probability mass function, pmf) pmf określa prawdopodobieństwo przyjęcia pewnej wartości przez zmienną losową pmf p(x) p(X x) p(A x ) A x ω Ω : X(ω ) x • • np. dla trzech rzutów monetą, X~liczba orłów: (xi) 0 1 2 3 P(Axi) 1/8 3/8 3/8 1/8 Wartość oczekiwana (expectation) – średnia wartości zmiennej losowej E(x) xp(x) x Zmienne losowe Własności wartości oczekiwanej E(X+Y) = E(X) + E(Y) E(XY) = E(X)*E(Y) jeśli zmienne losowe X i Y są niezależne Wariancja (variance) – określa na ile wartości zmiennej losowej odchylają się od średniej Var(X) E((X E(X))2 ) E(X 2 ) E2 (X) σ2 WUT TWG 2005 Modele probabilistyczne w NLP • Przy analizie danych tekstowych (zakładając istnienie procesu stochastycznego generującego dane) nie znamy zwykle pmf • Należy zatem estymować pmf analizując próbki danych Podejście bayesowskie Podejście częstościowe WUT TWG 2005 Podejście częstościowe • • WUT TWG 2005 Zgodnie z definicją częstościową Częstość względna: proporcja wystąpień zdarzenia do liczby wszystkich zdarzeń C(u) fu N C(u) liczba wystąpień zdarzenia w N próbach • Dla N względna częstość dąży do pewnej wartości, będącej oszacowaniem prawdopodobieństwa • Dwie metody – parametryczna i bezparametryczna Metoda parametryczna i bezparam. Metoda parametryczna: • • Zakładamy iż jakiś proces w języku jest poprawnie modelowany jednym ze znanych rozkładów statystycznych (rozkład statystyczny – rodzina parametryzowanych pmf) takich jak rozkład normalny, dwumianowy itd. Znając naturę procesu pozostaje ustalić jedynie parametry rozkładu, do czego potrzeba stosunkowo niewiele danych Metoda bezparametryczna: • • Nie przyjmujemy żadnych założeń dotyczących rozkładu analizowanych danych pmf należy estymować empirycznie, analizując dużą ilość danych -> zwykle otrzymamy rozkład dyskretnym, ale możemy go przekształcać w ciągły przez interpolację WUT TWG 2005 Przykłady rozkładów WUT TWG 2005 Rozkład dwumianowy • • • Seria doświadczeń o dwóch możliwych wynikach (próby Bernouliego) niezależnych od siebie r – liczba sukcesów w n próbach p - prawdopodobieństwo sukcesu w jednej próbie (np. zmienna losowa R, r=liczba orłów w n rzutach nieuczciwą monetą) n r P(R r) b(r; n, p) p (1 p)nr r Parametry • W zastosowaniach w NLP – często przyjmuje się przybliżenie o niezależności występowania słów (zdań) w tekście. Wtedy rozkład dwumianowy może mieć zastosowanie. Rozkład dwumianowy Inne rozkłady dyskretne: Poissona, Bernoulliego b(r;1,p), wielomianowe WUT TWG 2005 Przykłady rozkładów cd. WUT TWG Rozkład normalny • • Rozkład ciągły Parametry – średnia i odchylenie standardowe n(x; μ, σ) • • • 1 e σ 2π (x μ)2 2σ 2 Krzywa Gaussa – dzwonowa W NLP rozkłady ciągłe niezbyt użyteczne – dziedzina (słowa) jest bowiem z natury dyskretna, chociaż też się przydają W statystyce rozkład dwumianowy aproksymuje się zwykle normalnym – co jest uzasadnione, gdy oba prawdopodobieństwa są zbliżone – co może nie być prawdą w wielu metodach NLP 2005 Rozkład normalny WUT TWG 2005 Podejście częstościowe • • • • D: dane M: model (rodzina pmf) Θ: parametry (np. μ, σ) Dla ustalonego M : maximum likelihood estimate (MLE) wybieramy parametry takie, że: * θ argmax P(D| M, θ) θ • Wybór modelu podobnie: * * M argmax P D | M, θ(M) M * θ argmax P(D| M, θ) θ WUT TWG 2005 WUT TWG Podejście Bayesowskie • • • • 2005 W statystyce Bayesowskiej obliczamy stopnie ufności, wychodząc z pierwotnych wartości prawdopodobieństwa (prior beliefs) i dokonując ich uaktualnienia w świetle nowych faktów (zdarzeń) Przykład: 10 rzutów monetą, 8 orłów Um – model taki że P(orzeł) = m s – sekwencja rzutów gdzie i orłów i j reszek P( s | m ) mi (1 m) j i 0.8 i j m Załóżmy jednak, iż mieliśmy uprzednie przekonanie o jakości monety (tj. iż była uczciwa) arg max P( s | m ) • P(m ) 6m(1 m) • Maksimum w 0.5 I chcemy je zweryfikować po dokonaniu doświadczenia: P( s | m ) P( m ) mi (1 m) j 6m(1 m) P( m | s ) P( s ) P( s ) 3 arg max P( m | s ) 4 m