6. Metoda największej wiarygodności 6.1. Funkcja wiarygodności. Iloraz wiarygodności Wiąże się to z problemem estymacji parametrów. Załóżmy, że jest i=1,..,p interesujących nas parametrów i i tworzą one zbiór: λ λ1,..,λ p . Zbiór p parametrów określa gęstość prawdopodobieństwa f f x; dla zmiennych losowych x x1 ,..xn . Pojedyncze doświadczenie, pomiar wielkości x, oznacza pobranie próby o liczebności 1. Załóżmy, że jedna z takich prób dała w wyniku x j . Temu pojedynczemu doświadczeniu przypisujemy liczbę: dP j f x j ; dx , która ma charakter prawdopodobieństwa a posteriori. Mówi ona po uzyskaniu wyniku, jakie było prawdopodobieństwo uzyskania takiego właśnie wyniku, czyli uzyskania wartości x j takiej, że xi j x j xi j dxi j , gdzie i=1,..,n. Wykonajmy N niezależnych doświadczeń. Prawdopodobieństwo uzyskania wyniku x1 , x2 ,..., x j ,..., x N (seria N wyników, próba N-wymiarowa) dane jest iloczynem prawdopodobieństw: N dP f x j ; dx j 1 N Iloczyn L f x j ; nosi nazwę funkcji wiarygodności. j 1 Zauważmy: funkcja wiarygodności zdefiniowana jest przez gęstość prawdopodobieństwa a posteriori f x j ; , jest funkcją próby x j , j=1,..,N, a wobec tego jest zmienną losową. Czasami wiadomo, że rozpatrywana populacja parametrów może być należeć tylko do jednego z dwóch zbiorów: 1 lub 2 (np. liczby parzyste i nieparzyste, rzut monetą). Definiuje się wówczas iloraz wiarygodności: , f x ; N Q f x j ; 1 j 1 N j 1 j który mówi "zbiór parametrów 1 jest Q razy bardziej 2 prawdopodobny niż zbiór 2 ". Przykład. Rzucamy niesymetryczną monetą, o której wiemy, że może należeć do klasy A (częściej wypada reszka: PO=1/3, PR=2/3) lub do klasy B (częściej wypada orzeł: PO=2/3, 2017-07-21 20 PR=1/3). Praktycznie oznacza to, że nie jesteśmy pewni po której stronie wybiliśmy orła – po tej bardziej czy po tej mniej prawdopodobnej. Próba składająca się z N=5 rzutów badaną monetą dała 1 raz orła i 4 razy reszkę. Obliczamy funkcje wiarygodności LA,LB oraz iloraz wiarygodności Q: LA 12 2 2 2 2 1 1 1 1 L , LB ,Q A 8 3 3 3 3 3 3 3 3 3 3 LB 1 orzel 4 reszki 1 orzel 4 reszki Wniosek: Q=8 razy bardziej prawdopodobne jest że moneta należy do klasy A niż do klasy B. Z taką monetą możemy stawiać na orła. 6.2. Metoda największej wiarygodności Największą ufnością obdarzymy ten zbiór parametrów , dla którego funkcja N wiarygodności L f x j ; j 1 osiąga maksymalną wartość. Aby wyznaczyć położenie maksimum należy 1-szą pochodną funkcji wiarygodności L względem parametru przyrównać do zera. Różniczkowanie iloczynu jest niewygodne, zatem wprowadzamy logarytm: N l ln L ln f x j ; , l nazywamy logarytmiczną funkcją wiarygodności. Położenia j 1 maksimum dla l i L są identyczne. Problem wyznaczenia maksimum L sprowadzony został do rozwiązania równania wiarygodności: l l 0; i 1,2,.., p - jest to układ p równań dla każdego z p parametrów . λi Przykład. Wartość pewnego parametru możemy poznać drogą N-krotnego pomiaru. Jeśli pomiary x j dokonywane są tym samym przyrządem, w tych samych warunkach i błędy mają rozkład normalny, to możemy przyjąć, że najlepszym estymatorem wartości rzeczywistej jest średnia arytmetyczna wyników: N x j j 1 N Jeśli jednak pomiary dokonywane są z różną dokładnością (np. różne przyrządy), to nie wszystkie są tak samo wiarygodne. Posłużymy się zatem funkcją wiarygodności i wyznaczymy jej maksimum. Założymy, jak poprzednio, że błędy mają rozkład normalny o średniej i wariancji j - różnej dla poszczególnych pomiarów x j . Pojedynczy pomiar to 2017-07-21 21 pobranie próby o liczebności 1 z rozkładu Gaussa o średniej i wariancji j . Zatem, dla jednego pomiaru x j prawdopodobieństwo a posteriori uzyskania tego wyniku jest (zgodnie ze znaną postacią funkcji gęstości prawdopodobieństwa dla rozkładu normalnego): dP j x j λ 1 f x ;λ dx exp 2σ 2j 2π σ j j 2 dx Dla N pomiarów mamy funkcję wiarygodności: x j λ 1 L exp j 1 2π σ 2σ 2j j N 2 i jej logarytm: 1 N x j l const 2 j 1 2j 2 Równanie wiarygodności przyjmuje postać: N dl x j 0 d j 1 2j ~ Rozwiązaniem tego równania jest estymator największej wiarygodności , który, na podstawie powyższego równania, wynosi: x j 2 ~ j 1 j N 1 2 j 1 j N Wynik najbardziej wiarygodny jest średnią ważoną z N pomiarów o różnych wariancjach. Wagi są równe odwrotnościom wariancji. Druga pochodna d 2l / d2 j 2 0 , więc istotnie znaleźliśmy maksimum. Dla j const estymator największej wiarygodności staje się równy średniej arytmetycznej wyników: x j 2 ~ j 1 j N 1 2 j 1 j N 2017-07-21 x j 2 1 j 1 N N 2 N j const N x j j 1 22 6.3. Nierówność informacyjna. Estymatory o minimalnej wariancji ~ Dobry estymator to taki dla którego wartość obciążenia Bλ wynosi zero dla każdej ~ ~ liczebności próby oraz którego wariancja var 2 jest jak najmniejsza: ~ ~ Bλ E λ 0 oraz σ 2 min Często musimy szukać kompromisu pomiędzy wymaganiem dotyczącym braku obciążenia ~ ~ B 0 oraz minimalnej wariancji 2 min . Wielkości Bλ i 2 związane są za pomocą nierówności informacyjnej, zwanej nierównością Cramera-Rao: ~ 1 Bλ var σ 2 E l 2 2 Powyższe wyrażenie podaje związek pomiędzy obciążeniem parametru Bλ , wariancją ~ 2 oraz informacją zawartą w próbie, wyrażoną przez E l 2 . Gdy obciążenie znika (lub nie zależy od ), wyrażenie upraszcza się: E1l ~ 2 2 Funkcja informacyjna E l 2 , informacja próby ze względu na parametr - to wartość średnia z kwadratu pochodnej logarytmicznej funkcji wiarygodności. W przypadku wielowymiarowych ( λ λ1,..,λ p ) estymatorów nieobciążonych ( B 0 ) można dojść do następującej zależności: T ~ ~ cov λ E λ λ M 1 l l T 2l M E E T gdzie macierz M to macierz informacji, macierz informacyjna Fishera. 6.4. Prawo kombinacji błędów (uśrednianie błędów w kwadratach) Powróćmy do problemu wielokrotnego pomiaru tej samej wielkości z różnymi dokładnościami. Równanie wiarygodności o podanej wcześniej postaci: N dl x j 0 d j 1 2j Nieobciążony estymator największej wiarygodności: 2017-07-21 23 x j 2 ~ j 1 j N ma również minimalna wariancję, która wynosi: 1 2 j 1 j N ~ ~ N 1 var 2 2 j 1 j 1 Ten ostatni wzór znany jest jako prawo kombinacji błędów lub uśrednianie błędów w kwadratach. Można je także uzyskać przez zastosowanie prawa propagacji błędów w ~ stosunku do estymatora . ~ ~ Jeśli utożsamimy z błędem oraz utożsamimy j z błędem j-tego pomiaru x j , wówczas prawo kombinacji błędów przyjmuje znana ogólnie postać: 1 1 ~ 1 ... 2 2 2 x x x 2 n 1 1 2 ~ ~ Jeśli wszystkie pomiary mają takie same dokładności j , to oraz 2 przyjmą znane postaci: ~ ~ λ x, 2 λ 2 / n . 6.5. Własności asymptotyczne funkcji wiarygodności Własności: ~ 1. Estymator wiarygodności jest asymptotycznie nieobciążony, tzn. jest nieobciążony dla N . 2. Funkcja wiarygodności jest asymptotycznie normalna, tzn. jest normalna dla N . Przypomnimy: funkcja wiarygodności L jest miarą prawdopodobieństwa, że wartość prawdziwa 0 parametru jest równa: ~ ~ ~ ~ 0 Skoro funkcja wiarygodności dąży asymptotycznie do rozkładu normalnego, powyższy przedział można interpretować następująco: Prawdopodobieństwo, że wartość prawdziwa 0 zawarta jest w przedziale ~ ~ ~ ~ 0 wynosi 68.3%. W zastosowaniach praktycznych stosujemy tę interpretacje dla dużych, lecz skończonych, N. 2017-07-21 24 6.6. Jednoczesna estymacja kilku parametrów. Przedziały ufności Rozważmy logarytmiczną funkcję wiarygodności dla p parametrów λ1,..,λ p , które chcemy estymować równocześnie: N l x1 , x2 ,.., x N ; ln f x j ; j 1 i rozwińmy ją w szereg Taylora w otoczeniu rozwiązania największej wiarygodności ~ ~ ~ ~ 1 , 2 ,.., p co daje: p l ~ ~ k k l l k 1 k ~ λ p p 2l 1 ~ ~ l l m m .....wyrazy wyż szych rzędów 2 l 1 m1 l m ~λ Zastosujemy uproszczenia i oznaczenia: Zaniedbamy wyrazy wyższych rzędów. Wszystkie pochodne cząstkowe l 0 ~ z definicji (estymator największej wiarygodności został wyznaczony jako rozwiązanie równania powstałego z przyrównania pochodnej do zera) W rozwinięciu w szereg wyraz z podwójną sumą przedstawimy w zapisie macierzowym: l l ~ 12 ~ S ~ T S pxp 2l 2l 2 1 1 p 2l 2l 2 1 p p ~ Gdy N elementy macierzy S dla konkretnej próby możemy zastąpić odpowiednimi wartościami oczekiwanymi: 2l 2l E 2 E 1 1 p B E (S pxp ) 2 2 E l E l 2 ~ 1 p p Powyższe spostrzeżenia prowadzą do następującej postaci funkcji wiarygodności: 2017-07-21 25 1 ~ ~T ~ ln L ln L B 2 ~T ~ 1 L const exp B 2 Wniosek: Funkcja wiarygodności ma postać p-wymiarowego rozkładu normalnego ze średnią ~ i macierzą kowariancji C równą odwrotności B: C B 1 . ~ ~ ~ ~ Zatem, wariancje var i estymatorów największej wiarygodności 1 , 2 ,.., p to elementy z głównej przekątnej a elementy pozadiagonalne to kowariancje poszczególnych par estymatorów: C cij ~ ~ cii var i 2 i ~ ~ c jk cov j , k ~ ~ cov j , k ~ ~ j ,k ~ ~ - wspóczynn ik korelacji j k Podobnie jak w przypadku jednowymiarowym, pierwiastek kwadratowy z wariancji to odchylenie standardowe: ~ ~ i i cii Podobnie jak w przypadku wielowymiarowego rozkładu normalnego (rozdział 3), w przestrzeni parametrów 1 , 2 ,.., p , opisanych przez normalną (gaussowską) funkcję ~T ~ wiarygodności, określa się elipsoidę kowariancji z warunku B 1 . Przykład Wyznaczmy estymator największej wiarygodności dla wartości średniej 1 i odchylenia standardowego 2 dla rozkładu normalnego. Rozwiązanie. Funkcja wiarygodności dana jest wzorem: x j λ 1 1 L exp 2 j 1 λ 2 λ 2 π 2 2 N 2 , gdzie x j to jeden z wyników pomiaru wielkości, której średnią chcemy znaleźć. 1 N x j λ1 l ln L 2 j 1 λ22 2 N ln λ2 const. Następnie z układu równań wiarygodności: 2017-07-21 26 l l ~ 0, 0 otrzymujemy estymator wartości średniej 1 i estymator odchylenia 1 2 ~ standardowego 2 : 1 ~ 1 N N x to średnia arytmetyczna poszczególnych pomiarów, j 1 x N ~ 2 j j ~ 2 1 j 1 N Wyznaczmy jeszcze macierz kowariancji. Trzeba znaleźć 2-gie pochodne: 2l 2l 2l ~ ~ , ich wartości dla 1 1 , 2 2 , utworzyć B i odwrócić: , , 2 2 1 2 1 2 ~ 22 0 C B 1 ... N ~2 0 2 2 N Elementy diagonalne reprezentują błędy: ~2 2 N ~2 2 ~ 2 2N ~ 1 Wielkości 1 i 2 nie są skorelowane – elementy pozadiagonalne C są zerowe. 2017-07-21 27