Wykład 2 - Rachunek prawdopodobieństwa

advertisement
WUT
TWG
2005
WEDT
Rachunek prawdopodobieństwa,
teoria informacji, lingwistyka
Wykład 2
Piotr Gawrysiak
[email protected]
2005
Statystyczne NLP
•
Podejście statystyczne zakłada wykorzystanie metod
wnioskowania statystycznego do analizy języka naturalnego
•
Wnioskowanie statystyczne – analiza pewnych danych
eksperymentalnych (wyników doświadczenia, odpowiedzi na
pytania ankietera itp.), generowanych zgodnie z pewnym
nieznanym rozkładem prawdopodobieństwa, w celu
określenia cech tego rozkładu
•
Przykład w NLP – modelowanie języka
•
•
WUT
TWG
Jak przewidzieć wystąpienie kolejnego słowa w sekwencji słów?
Do tego potrzebny jest model generacji słów w języku,
określający prawdopodobieństwa wystąpienia pewnych słów
pod warunkiem wystąpienia słów poprzedzających.
2005
Rachunek prawdopodobieństwa
Zdarzenia losowe, doświadczenia, przestrzenie...
•
•
•
•
•
•
•
Doświadczenie losowe (experiment)– proces, w którym
czynione są obserwacje, składa się ze zdarzeń
Obserwowane są zdarzenia elementarne (basic outcomes)
Przestrzeń /wszystkich możliwych/ zdarzeń elementarnych
(sample space) – Ω
Przestrzeń Ω może być ciągła (temperatura powietrza, wzrost)
lub dyskretna (rzuty kostką, wystąpienia słów)
Zdarzenie A – podzbiór Ω
Zbiór pusty – zdarzenie niemożliwe, Ω – zdarzenie pewne
Przykłady przestrzeni zdarzeń:
•
•
•
•
Rzut monetą: Ω={O,R}, kostką: Ω={1..6}
Lotto: |Ω|=106
Błędy ortograficzne: Ω=Z*, gdzie Z – alfabet, Z* - ciągi znaków nad
tym alfabetem
Brakujące słowa: |Ω|=wielkość słownika
WUT
TWG
2005
Rachunek prawdopodobieństwa
Przykład z rzutem monetą – rzucamy 3 razy:
Ω={OOO, OOR, ORO, ROO, RRO, ROR, ORR, RRR}
|Ω|=8
•
•
•
Zdarzenie – wyrzucono trzy orły: A1={RRR}
Zdarzenie – wyrzucono pod rząd dwie reszki: A2={RRO,ORR,RRR}
Zdarzenie – wyrzucono pod rząd cztery orły: A3=ø
Zdarzenia to zbiory więc zastosowanie mają operacje
teoriomnogościowe – suma zdarzeń (OR), iloczyn zdarzeń (AND),
różnica zdarzeń, dopełnienie zdarzeń (zdarzenie przeciwne) itd.
Kostka do gry
Ω={1..6}, |Ω|=6
•
Zdarzenie – wyrzucono parzystą liczbę oczek: A4={2,4,6}
•
Zdarzenie przeciwne – wyrzucono nieparzystą liczbę oczek:
A5 = Ω-A4 = {1,3,5}
WUT
TWG
2005
Prawdopodobieństwo
Jakie jest prawdopodobieństwo zdarzenia?
•
•
•
•
Powtarzamy eksperyment t razy, zliczając liczbę c
wystąpień zdarzenia A
Powyższe serie powtarzamy wielokrotnie
Wartość ci/ti zbliża się do pewnej (nieznanej a priori) stałej
wartości
Ta stała wartość to prawdopodobieństwo zdarzenia A, P(A)
ci
t i  t
i
P(A)  lim
•
•
/Nb. powyższe to definicja częstościowa
prawdopodobieństwa, R. von Mises; ponadto np. definicje –
geometryczna oraz klasyczna Laplace’a 1812/
Oczywiście w praktyce nie da się przeprowadzić
nieskończonej liczby doświadczeń, zatem wartość
prawdopodobieństwa możemy jedynie estymować z c1/t1
WUT
TWG
2005
WUT
TWG
Prawdopodobieństwo
2005
Definicja aksjomatyczna prawdopodobieństwa
(Kołmogorowa, 1933)
•
•
•
P: F [0,1]
P(Ω)=1

 
Dla rozłącznych zbiorów AjF P  A j    P(A j)
 j1

j1
Z powyższych aksjomatów wynikają własności funkcji
prawdopodobieństwa takie jak:
•
•
•
P(Ø)=0
ABP(A)P(B)

AΩ
P(A)  1
Prawdopodobieństwo warunkowe
Prawdopodobieństwo warunkowe i łączne
•
Niekiedy mamy częściową wiedzę o możliwym wyniku
doświadczenia
•
•
•
Prawdopodobieństwo zdarzenia A: P(A) (prior probability)
Załóżmy, że wiemy iż zaszło zdarzenie B
Prawdopodobieństwo warunkowe zdarzenia A pod
warunkiem, iż zaszło zdarzenie B: P(A|B) (posterior
probability)
P(A|B) = P(AB)/P(B), P(B)>0
Oczywiście analogicznie P(B|A) = P(AB)/P(A), P(A)>0 zatem
P(AB)=P(B)*P(A|B)=P(A)*P(B|A)
•
Gdy są to zdarzenia niezależne /P(A|B)=P(A) itd./ to:
P(AB)=P(A)*P(B)
WUT
TWG
2005
WUT
TWG
Reguła łańcuchowa
2005
Niezależność zdarzeń, reguła łańcuchowa
•
Dwa zdarzenia są niezależne, gdy wystąpienie jednego z
nich nie ma wpływu na wystąpienie drugiego:
•
•
•
pogoda dzisiaj i 20 września 1800 roku
wynik dwóch rzutów monetą
każde dwa zdarzenia takie że P(AB)=P(A)*P(B)
•
Zdarzenia mogą być także warunkowo niezależne
(conditionally independent):
P(AB|C)=P(A|C)*P(B|C)
•
Uogólnienie prawdopodobieństwa warunkowego –
reguła łańcuchowa
n1
P(A 1  ...  A n )  P(A 1)P(A 2 | A 1)P(A 3 | A 1  A 2 )...P(A n |i1 A i )
WUT
TWG
Wzór Bayesa
2005
Wzór Bayesa (Bayes Theorem)
•
Wzór Bayesa pozwala nam odwrócić stosunek zależności
pomiędzy zdarzeniami – czyli obliczyć P(B|A) gdy znane jest
P(A|B)
P(B| A) 
•
P(B  A) P(A |B)P(B)

P(A)
P(A)
„Golden Rule of SNLP”
Gdy nie znamy P(A)
•
•
Czasem możemy mianownik zignorować – gdy interesuje nas
tylko określenie najbardziej prawdopodobnego zdarzenia ze
zbioru zdarzeń zależnych od A
Ew. P(A) = P(A  B) + P(A  B) = P(A|B)P(B)+P(A|B)P(B)
Dzielimy zbiór A na dwie
rozłączne części – z których
jedna oczywiście może być
zbiorem pustym
WUT
TWG
Wzór Bayesa
2005
Z czego wynika bardziej ogólna postać wzoru Bayesa:
n
A  i1Bi ,P(A)  0,B i  Bj  0 dla i  j
P(Bj | A) 
P(A |Bj)P(Bj)

n
A jest dzielony na i
rozłącznych podzbiorów
P(A |Bi )P(Bi )
i1
Przykład:
• S: zdrętwienie mięśni szyi, M: zapalenie opon mózgowych
• P(S|M) =0.5, P(M) = 1/50000, P(S)=1/20
• Czujemy że drętwieje nam szyja, czy to powód do niepokoju?
P(S | M)P(M)
P(S)
0.5  1/50,000

 0.0002
1/20
P(M |S) 
Wzór Bayesa
Przykład 2:
• Mamy „prawie dobry algorytm wykrywający konstrukcję typu
parasitic gap” : Which book did she review __ without reading __?
• Algorytm myli się „w obie strony”
• G: w zdaniu jest parasitic gap, T: algorytm wykrył pg
• P(G) =0.00001, P(T|G)=0.95, P(T|G)=0.005
• Algorytm wykrył pg, czy pg jest rzeczywiście w zdaniu?
P(T |G)P(G)
P(T |G)P(G)  P(T |G)P(G)
0.95  0.00001

 0.002
0.95  0.00001  0.005  0.99999
P(G| T) 
WUT
TWG
2005
WUT
TWG
Zmienne losowe
•
•
•
2005
Dla każdego doświadczenia przestrzeń zdarzeń
elementarnych może być inna
Zmienne losowe pozwalają nam analizować
prawdopodobieństwa dla wartości numerycznych
Zmienna losowa – funkcja X taka że:
zmienna losowa ciągła
X :Ω  
X :Ω  S
X : Ω  {0,1}
zmienna losowa
dyskretna, skokowa
(discreet random
variable), S – przeliczalny
podzbiór R
próba Bernouliego
WUT
TWG
Zmienne losowe
•
•
2005
Funkcja rozkładu prawdopodobieństwa, rozkład
prawdopodobieństwa (probability mass function, pmf)
pmf określa prawdopodobieństwo przyjęcia pewnej wartości
przez zmienną losową
pmf p(x)  p(X  x)  p(A x )
A x  ω  Ω : X(ω )  x
•
•
np. dla trzech rzutów monetą, X~liczba orłów:
(xi)
0
1
2
3
P(Axi)
1/8
3/8
3/8
1/8
Wartość oczekiwana (expectation) – średnia wartości
zmiennej losowej
E(x)   xp(x)
x
Zmienne losowe
Własności wartości oczekiwanej
E(X+Y) = E(X) + E(Y)
E(XY) = E(X)*E(Y) jeśli zmienne losowe X i Y są niezależne
Wariancja (variance) – określa na ile wartości zmiennej losowej
odchylają się od średniej
Var(X)  E((X  E(X))2 )
 E(X 2 )  E2 (X)  σ2
WUT
TWG
2005
Modele probabilistyczne w NLP
•
Przy analizie danych tekstowych (zakładając istnienie
procesu stochastycznego generującego dane) nie znamy
zwykle pmf
•
Należy zatem estymować pmf analizując próbki danych
Podejście bayesowskie
Podejście częstościowe
WUT
TWG
2005
Podejście częstościowe
•
•
WUT
TWG
2005
Zgodnie z definicją częstościową
Częstość względna: proporcja wystąpień zdarzenia
do liczby wszystkich zdarzeń
C(u)
fu 
N
C(u) liczba wystąpień zdarzenia w N próbach
•
Dla N   względna częstość dąży do pewnej
wartości, będącej oszacowaniem
prawdopodobieństwa
•
Dwie metody – parametryczna i bezparametryczna
Metoda parametryczna i bezparam.
Metoda parametryczna:
•
•
Zakładamy iż jakiś proces w języku jest poprawnie
modelowany jednym ze znanych rozkładów statystycznych
(rozkład statystyczny – rodzina parametryzowanych pmf)
takich jak rozkład normalny, dwumianowy itd.
Znając naturę procesu pozostaje ustalić jedynie parametry
rozkładu, do czego potrzeba stosunkowo niewiele danych
Metoda bezparametryczna:
•
•
Nie przyjmujemy żadnych założeń dotyczących rozkładu
analizowanych danych
pmf należy estymować empirycznie, analizując dużą ilość
danych -> zwykle otrzymamy rozkład dyskretnym, ale
możemy go przekształcać w ciągły przez interpolację
WUT
TWG
2005
Przykłady rozkładów
WUT
TWG
2005
Rozkład dwumianowy
•
•
•
Seria doświadczeń o dwóch możliwych wynikach (próby
Bernouliego) niezależnych od siebie
r – liczba sukcesów w n próbach
p - prawdopodobieństwo sukcesu w jednej próbie
(np. zmienna losowa R, r=liczba orłów w n rzutach
nieuczciwą monetą)
n r
P(R  r)  b(r; n, p)   p (1 p)nr
r 
Parametry
•
W zastosowaniach w NLP – często przyjmuje się przybliżenie
o niezależności występowania słów (zdań) w tekście. Wtedy
rozkład dwumianowy może mieć zastosowanie.
Rozkład dwumianowy
Inne rozkłady dyskretne: Poissona, Bernoulliego b(r;1,p),
wielomianowe
WUT
TWG
2005
Przykłady rozkładów cd.
WUT
TWG
Rozkład normalny
•
•
Rozkład ciągły
Parametry – średnia i odchylenie standardowe
n(x; μ, σ) 
•
•
•
1
e
σ 2π

(x μ)2
2σ 2
Krzywa Gaussa – dzwonowa
W NLP rozkłady ciągłe niezbyt użyteczne – dziedzina (słowa)
jest bowiem z natury dyskretna, chociaż też się przydają
W statystyce rozkład dwumianowy aproksymuje się zwykle
normalnym – co jest uzasadnione, gdy oba
prawdopodobieństwa są zbliżone – co może nie być prawdą
w wielu metodach NLP
2005
Rozkład normalny
WUT
TWG
2005
Podejście częstościowe
•
•
•
•
D: dane
M: model (rodzina pmf)
Θ: parametry (np. μ, σ)
Dla ustalonego M : maximum likelihood estimate
(MLE) wybieramy parametry takie, że:
*
θ  argmax P(D| M, θ)
θ
•
Wybór modelu podobnie:
*
*


M  argmax P D | M, θ(M)
M


*
θ  argmax P(D| M, θ)
θ
WUT
TWG
2005
WUT
TWG
Podejście Bayesowskie
•
•
•
•
2005
W statystyce Bayesowskiej obliczamy stopnie ufności, wychodząc z
pierwotnych wartości prawdopodobieństwa (prior beliefs) i
dokonując ich uaktualnienia w świetle nowych faktów (zdarzeń)
Przykład: 10 rzutów monetą, 8 orłów
Um – model taki że P(orzeł) = m
s – sekwencja rzutów gdzie i orłów i j reszek
P( s |  m )  mi (1  m) j
i
 0.8
i j
m
Załóżmy jednak, iż mieliśmy uprzednie przekonanie o jakości
monety (tj. iż była uczciwa)
arg max P( s |  m ) 
•
P(m )  6m(1  m)
•
Maksimum w 0.5
I chcemy je zweryfikować po dokonaniu doświadczenia:
P( s | m ) P( m ) mi (1  m) j 6m(1  m)
P(  m | s ) 

P( s )
P( s )
3
arg max P(  m | s ) 
4
m
Download