10. Estymacja bayesowska

advertisement
Wykład 10. Estymacja bayesowska
■ Założenia: zasada Bayesa.
1. Niech w grze , D, R parametr  będzie zmienną losową o zadanym rozkładzie
prawdopodobieństwa.
2. W zbiorze  wyróżnimy σ-ciało  generowane przez wszystkie podzbiory
jednoelementowe zbioru  i takie, że
R(, d ) jest mierzalna dla d  D .
■ Definicja rozkładu a priori.
Miarę probabilistyczną  określoną na przestrzeni (,  ) nazywamy rozkładem a priori
parametru  .
Zbiór wszystkich rozkładów a priori oznaczamy   .
Uwaga.
Utożsamiając parametr  z rozkładem skoncentrowanym w punkcie  otrzymujemy, że
   .
■ Definicja ryzyka bayesowskiego.
Ryzyko bayesowskie reguły niezrandomizowanej d  D względem rozkładu a priori 
określamy jako
r ( , d )   R( , d )d ( ) ,

jeśli istnieje i jest skończone.
■ Definicja reguły bayesowskiej niezrandomizowanej.
Niezrandomizowana reguła decyzyjna d0  D nazywa się niezrandomizowaną regułą
bayesowską ze względu na rozkład a priori  wtedy, gdy
r ( , d0 )  inf r ( , d ) .
dD
Wartość inf r ( , d ) nazywamy minimalnym ryzykiem bayesowskim względem rozkładu
dD
a priori  .
Uwaga.
Reguła bayesowska może nie istnieć nawet wtedy, gdy istnieje minimalne ryzyko
bayesowskie.
■ Założenia o rozkładach.
1.  jest otwartym podzbiorem przestrzeni R k ,
2. P   , gdzie  jest σ-skończoną miarą na przestrzeni prób ( X, BX ) ,
3. f ( |  ) 
dP
() jest funkcją mierzalną względem σ-ciała produktowego BX   ,
d
4.    - gdzie  jest σ-skończoną miarą na przestrzeni (,  ) ,
5. h( ) 
d
( ) .
d
■ Wnioski.
1. Gęstość łącznego rozkładu wektora ( X ,  ) względem miary produktowej    jest postaci
g ( x, )  f ( x |  )h( ) .
2. Istnieje dla  p.w. gęstość warunkowa rozkładu  ( | x) zmiennej losowej  pod
warunkiem X  x
h( | x) 
f ( x |  )h( )
 f ( x |  )h( )d ( )
p.w.  .

Uwaga.
Rozkład  ( | x) zmiennej losowej  pod warunkiem X  x nazywamy rozkładem
a posteriori parametru  , a funkcję h( | x ) gęstością rozkładu a posteriori.
Uwaga.
W analizie rozkładu a posteriori można używać w obliczeniach zamiast równości znaku
proporcjonalności  opuszczając współczynniki niezależne od parametru  . Bowiem, jeżeli
w f ( x |  )h( ) opuścimy współczynnik niezależny od  , to również w całce
 f ( x |  )h( )d ( ) ten współczynnik może być wyłączony przed całkę i pominięty.

Z drugiej strony zauważmy, że wartość całki nie zależy od  i może być włączona do
opuszczonego współczynnika. Stąd gęstość a posteriori spełnia warunek
h( | x)  f ( x |  )h( ) ,
gdzie brakujący współczynnik wynika zawsze z warunku na funkcję gęstości:
 h( | x)d ( )  1 .

Przykład.
2
■ Wnioski.
3. Oznaczając gęstość brzegową zmiennej losowej X względem 
f ( x)   f ( x |  )h( )d ( )

otrzymujemy
g ( x, )  f ( x |  )h( )  h( | x)  f ( x |  )h( )d ( )  h( | x) f ( x) ,

czyli
g ( x, )  h( | x) f ( x) .
4. Ryzyko bayesowskie reguły d  D wyraża się wzorem
r ( , d )   R( , d )d ( )   R( , d )h( )d ( ) 




    L( , d ( x)) f ( x |  )d ( x) h( )d ( )


X
5. Zakładając, że funkcja straty L jest BX   mierzalna i możliwa jest zmiana kolejności
całkowania w ostatnim wzorze, to


r ( , d )   L( , d ( x)) g ( x, )d (    )( x, )     L( , d ( x)) h( | x)d ( ) f ( x)d ( x)
X 
X 

■ Twierdzenie.
Jeżeli dla dowolnej reguły decyzyjnej d  D zachodzi wzór z wniosku 5 i jeśli istnieje reguła
d 0  D taka, że  p.w. dla x  X
 L( , d 0 ( x)) h( | x)d ( )  dinf
 L( , d ( x)) h( | x)d ( )
D


oraz r ( , d 0 )   , to d 0  D jest regułą bayerowską względem rozkładu a priori  .
■ Definicja.
Całkę
R (d , x)   L( , d 0 ( x)) h( | x)d ( )  E L( , d ( X )) | X  x 

nazywamy ryzykiem a posteriori reguły decyzyjnej d.
3
■ Wniosek 6.
Przy założeniach twierdzenia niezrandomizowana reguła decyzyjna minimalizująca ryzyko
a posteriori jest bayesowska.
Niech teraz D  G , gdzie G jest zbiorem estymatorów funkcji parametru  .
■ Definicja.
Estymatorem bayesowskim funkcji parametru  :   R względem rozkładu a priori 
nazywamy regułę decyzyjną  0  G dla której



r ( ,  0 )  inf
r ( ,  ) i r ( ,  0 )   .

 G
■ Twierdzenie 1 o postaci estymatora bayesowskiego.
Niech  :   R będzie funkcją parametru, a L funkcją straty
L( , a)   ( )( ( )  a) 2
oraz niech  będzie rozkładem a priori takim, że

R ( , x)  

dla  p.w. dla x  X oraz każdego   G .
Wówczas statystyka

 0 ( x) 
E  ( ) ( ) | X  x 
dla x  X
E  ( ) | X  x 

jest estymatorem bayesowskim funkcji  względem rozkładu a priori  o ile r ( ,  0 )   .
Dowód.
■ Wniosek.
Jeżeli spełnione są założenia twierdzenia 1 o postaci estymatora bayesowskiego oraz
L( , a)  (  a) 2 i  ( )   , to estymator bayesowski ma postać
4

 ( x)  E  | X  x  .
■ Twierdzenie 2 o postaci estymatora bayesowskiego.
Niech   R ,  ( )   , L( , a )    a będzie funkcją straty, a ryzyko a posteriori

względem rozkładu  będzie skończone dla  p.w. dla x  X i każdego   G .
Wtedy statystyka

 ( x)  med  | X  x 

jest estymatorem bayesowskim parametru  względem rozkładu a priori  o ile r ( , )   .
■ Problem.
W estymacji bayesowskiej podstawowa trudność tkwi w wyborze sensownego rozkładu
a priori. Wyróżnimy trzy możliwe sposoby określenia takiego rozkładu:
1. wybieramy rodzinę rozkładów wygodną z matematycznego punktu widzenia (tak zwane
rodziny sprzężone rozkładów), które zarazem są wystarczająco różnorodne, aby zapewnić
wiarygodną estymację,
2, wybór opieramy o wcześniejsze doświadczenia i estymujemy parametry takiego rozkładu
(tak zwana estymacja empiryczna bayerowska),
3. wybieramy rozkład (tak zwany nieinformujący), który ma sprawiedliwie traktować
wszystkie możliwe wartości parametru np. | Φ | , gdzie Φ jest macierzą informacyjną.
Należy zauważyć, że żaden z trzech wymienionych sposobów nie stał się kanonem estymacji
bayesowskiej, a najbardziej rozpowszechniony wybór sprzężonej rodziny rozkładów wiąże
się zapewne w jej dogodnymi własnościami matematycznymi, a niekoniecznie z istotą
merytoryczną estymacji.
■ Definicja rodziny rozkładów sprzężonych.
Rodzinę rozkładów a priori nazywamy sprzężoną do rodziny rozkładów próby, jeżeli każdy
rozkład a posteriori należy również do rodziny rozkładów a priori.
■ Typowe rodziny rozkładów sprzężonych.
Rozkład próby
A Priori
A Posteriori
Dwumianowy
Beta
Beta
Ujemny dwumianowy
Beta
Beta
Poissona
Gamma
Gamma
Geometryczny
Beta
Beta
Wielomianowy
Dirichleta
Dirichleta
Równomierny R(0, )
Pareto
Pareto
Równomierny R (a, b)
Dwustronny
Dwustronny
dwuwymiarowy Pareto dwuwymiarowy Pareto
5
Wykładniczy
Gamma
Gamma
Normalny nieznane m
Normalny
Normalny
Normalny nieznana σ
Odwrotny Gamma
Odwrotny Gamma
Normalny
Normalny/Gamma
Normalny/Gamma
Uwaga. Obszerny przegląd rodzin sprzężonych można znaleźć w pracy Daniel Fink,
A Compendium of Conjugate Priors, Montana State Univeristy, 1997.
Przykład cd.
■ Twierdzenie o nieobciążoności.
Niech  :   R będzie funkcją parametru, a L funkcją straty postaci
L( , a)   ( )( ( )  a) 2 .

Jeżeli estymator bayesowski  ze względu na rozkład a priori  jest nieobciążonym
estymatorem funkcji  i E (  ( ))   , to

r ( ,  )  0 .
Dowód.

Jeżeli estymator  jest bayesowski, to

 ( x) 
E  ( ) ( ) | X  x 
E  ( ) | X  x 


i z nieobciążoności E ( ( X ))  E ( ( X ) |  )   ( ) .
Ponieważ …
6
■ Wniosek.
Dla funkcji straty L( , a)  ( ( )  a) 2 estymator nieobciążony funkcji  ( ) o dodatniej

wariancji D2 ( ( X )) dla każdego    nie jest bayesowski względem każdego rozkładu a
priori.
Dowód.

Na mocy twierdzenia o estymatorach nieobciążonych r ( ,  )  0 i jednocześnie funkcja


podcałkowa R( ,  )  D2 ( ( X ))  0 . Stąd miara przestrzeni po której całkujemy jest równa
zero  ()  0 , co przeczy temu, że  jest rozkładem prawdopodobieństwa.
Przykład.
Czy jest tak, jeżeli przyjmiemy funkcję straty L( , a)   ( )( ( )  a) 2 ?
7
Download