Wykład 10. Estymacja bayesowska ■ Założenia: zasada Bayesa. 1. Niech w grze , D, R parametr będzie zmienną losową o zadanym rozkładzie prawdopodobieństwa. 2. W zbiorze wyróżnimy σ-ciało generowane przez wszystkie podzbiory jednoelementowe zbioru i takie, że R(, d ) jest mierzalna dla d D . ■ Definicja rozkładu a priori. Miarę probabilistyczną określoną na przestrzeni (, ) nazywamy rozkładem a priori parametru . Zbiór wszystkich rozkładów a priori oznaczamy . Uwaga. Utożsamiając parametr z rozkładem skoncentrowanym w punkcie otrzymujemy, że . ■ Definicja ryzyka bayesowskiego. Ryzyko bayesowskie reguły niezrandomizowanej d D względem rozkładu a priori określamy jako r ( , d ) R( , d )d ( ) , jeśli istnieje i jest skończone. ■ Definicja reguły bayesowskiej niezrandomizowanej. Niezrandomizowana reguła decyzyjna d0 D nazywa się niezrandomizowaną regułą bayesowską ze względu na rozkład a priori wtedy, gdy r ( , d0 ) inf r ( , d ) . dD Wartość inf r ( , d ) nazywamy minimalnym ryzykiem bayesowskim względem rozkładu dD a priori . Uwaga. Reguła bayesowska może nie istnieć nawet wtedy, gdy istnieje minimalne ryzyko bayesowskie. ■ Założenia o rozkładach. 1. jest otwartym podzbiorem przestrzeni R k , 2. P , gdzie jest σ-skończoną miarą na przestrzeni prób ( X, BX ) , 3. f ( | ) dP () jest funkcją mierzalną względem σ-ciała produktowego BX , d 4. - gdzie jest σ-skończoną miarą na przestrzeni (, ) , 5. h( ) d ( ) . d ■ Wnioski. 1. Gęstość łącznego rozkładu wektora ( X , ) względem miary produktowej jest postaci g ( x, ) f ( x | )h( ) . 2. Istnieje dla p.w. gęstość warunkowa rozkładu ( | x) zmiennej losowej pod warunkiem X x h( | x) f ( x | )h( ) f ( x | )h( )d ( ) p.w. . Uwaga. Rozkład ( | x) zmiennej losowej pod warunkiem X x nazywamy rozkładem a posteriori parametru , a funkcję h( | x ) gęstością rozkładu a posteriori. Uwaga. W analizie rozkładu a posteriori można używać w obliczeniach zamiast równości znaku proporcjonalności opuszczając współczynniki niezależne od parametru . Bowiem, jeżeli w f ( x | )h( ) opuścimy współczynnik niezależny od , to również w całce f ( x | )h( )d ( ) ten współczynnik może być wyłączony przed całkę i pominięty. Z drugiej strony zauważmy, że wartość całki nie zależy od i może być włączona do opuszczonego współczynnika. Stąd gęstość a posteriori spełnia warunek h( | x) f ( x | )h( ) , gdzie brakujący współczynnik wynika zawsze z warunku na funkcję gęstości: h( | x)d ( ) 1 . Przykład. 2 ■ Wnioski. 3. Oznaczając gęstość brzegową zmiennej losowej X względem f ( x) f ( x | )h( )d ( ) otrzymujemy g ( x, ) f ( x | )h( ) h( | x) f ( x | )h( )d ( ) h( | x) f ( x) , czyli g ( x, ) h( | x) f ( x) . 4. Ryzyko bayesowskie reguły d D wyraża się wzorem r ( , d ) R( , d )d ( ) R( , d )h( )d ( ) L( , d ( x)) f ( x | )d ( x) h( )d ( ) X 5. Zakładając, że funkcja straty L jest BX mierzalna i możliwa jest zmiana kolejności całkowania w ostatnim wzorze, to r ( , d ) L( , d ( x)) g ( x, )d ( )( x, ) L( , d ( x)) h( | x)d ( ) f ( x)d ( x) X X ■ Twierdzenie. Jeżeli dla dowolnej reguły decyzyjnej d D zachodzi wzór z wniosku 5 i jeśli istnieje reguła d 0 D taka, że p.w. dla x X L( , d 0 ( x)) h( | x)d ( ) dinf L( , d ( x)) h( | x)d ( ) D oraz r ( , d 0 ) , to d 0 D jest regułą bayerowską względem rozkładu a priori . ■ Definicja. Całkę R (d , x) L( , d 0 ( x)) h( | x)d ( ) E L( , d ( X )) | X x nazywamy ryzykiem a posteriori reguły decyzyjnej d. 3 ■ Wniosek 6. Przy założeniach twierdzenia niezrandomizowana reguła decyzyjna minimalizująca ryzyko a posteriori jest bayesowska. Niech teraz D G , gdzie G jest zbiorem estymatorów funkcji parametru . ■ Definicja. Estymatorem bayesowskim funkcji parametru : R względem rozkładu a priori nazywamy regułę decyzyjną 0 G dla której r ( , 0 ) inf r ( , ) i r ( , 0 ) . G ■ Twierdzenie 1 o postaci estymatora bayesowskiego. Niech : R będzie funkcją parametru, a L funkcją straty L( , a) ( )( ( ) a) 2 oraz niech będzie rozkładem a priori takim, że R ( , x) dla p.w. dla x X oraz każdego G . Wówczas statystyka 0 ( x) E ( ) ( ) | X x dla x X E ( ) | X x jest estymatorem bayesowskim funkcji względem rozkładu a priori o ile r ( , 0 ) . Dowód. ■ Wniosek. Jeżeli spełnione są założenia twierdzenia 1 o postaci estymatora bayesowskiego oraz L( , a) ( a) 2 i ( ) , to estymator bayesowski ma postać 4 ( x) E | X x . ■ Twierdzenie 2 o postaci estymatora bayesowskiego. Niech R , ( ) , L( , a ) a będzie funkcją straty, a ryzyko a posteriori względem rozkładu będzie skończone dla p.w. dla x X i każdego G . Wtedy statystyka ( x) med | X x jest estymatorem bayesowskim parametru względem rozkładu a priori o ile r ( , ) . ■ Problem. W estymacji bayesowskiej podstawowa trudność tkwi w wyborze sensownego rozkładu a priori. Wyróżnimy trzy możliwe sposoby określenia takiego rozkładu: 1. wybieramy rodzinę rozkładów wygodną z matematycznego punktu widzenia (tak zwane rodziny sprzężone rozkładów), które zarazem są wystarczająco różnorodne, aby zapewnić wiarygodną estymację, 2, wybór opieramy o wcześniejsze doświadczenia i estymujemy parametry takiego rozkładu (tak zwana estymacja empiryczna bayerowska), 3. wybieramy rozkład (tak zwany nieinformujący), który ma sprawiedliwie traktować wszystkie możliwe wartości parametru np. | Φ | , gdzie Φ jest macierzą informacyjną. Należy zauważyć, że żaden z trzech wymienionych sposobów nie stał się kanonem estymacji bayesowskiej, a najbardziej rozpowszechniony wybór sprzężonej rodziny rozkładów wiąże się zapewne w jej dogodnymi własnościami matematycznymi, a niekoniecznie z istotą merytoryczną estymacji. ■ Definicja rodziny rozkładów sprzężonych. Rodzinę rozkładów a priori nazywamy sprzężoną do rodziny rozkładów próby, jeżeli każdy rozkład a posteriori należy również do rodziny rozkładów a priori. ■ Typowe rodziny rozkładów sprzężonych. Rozkład próby A Priori A Posteriori Dwumianowy Beta Beta Ujemny dwumianowy Beta Beta Poissona Gamma Gamma Geometryczny Beta Beta Wielomianowy Dirichleta Dirichleta Równomierny R(0, ) Pareto Pareto Równomierny R (a, b) Dwustronny Dwustronny dwuwymiarowy Pareto dwuwymiarowy Pareto 5 Wykładniczy Gamma Gamma Normalny nieznane m Normalny Normalny Normalny nieznana σ Odwrotny Gamma Odwrotny Gamma Normalny Normalny/Gamma Normalny/Gamma Uwaga. Obszerny przegląd rodzin sprzężonych można znaleźć w pracy Daniel Fink, A Compendium of Conjugate Priors, Montana State Univeristy, 1997. Przykład cd. ■ Twierdzenie o nieobciążoności. Niech : R będzie funkcją parametru, a L funkcją straty postaci L( , a) ( )( ( ) a) 2 . Jeżeli estymator bayesowski ze względu na rozkład a priori jest nieobciążonym estymatorem funkcji i E ( ( )) , to r ( , ) 0 . Dowód. Jeżeli estymator jest bayesowski, to ( x) E ( ) ( ) | X x E ( ) | X x i z nieobciążoności E ( ( X )) E ( ( X ) | ) ( ) . Ponieważ … 6 ■ Wniosek. Dla funkcji straty L( , a) ( ( ) a) 2 estymator nieobciążony funkcji ( ) o dodatniej wariancji D2 ( ( X )) dla każdego nie jest bayesowski względem każdego rozkładu a priori. Dowód. Na mocy twierdzenia o estymatorach nieobciążonych r ( , ) 0 i jednocześnie funkcja podcałkowa R( , ) D2 ( ( X )) 0 . Stąd miara przestrzeni po której całkujemy jest równa zero () 0 , co przeczy temu, że jest rozkładem prawdopodobieństwa. Przykład. Czy jest tak, jeżeli przyjmiemy funkcję straty L( , a) ( )( ( ) a) 2 ? 7