Metoda największej wiarygodnosci

advertisement
6. Metoda największej wiarygodności
6.1. Funkcja wiarygodności. Iloraz wiarygodności
Wiąże się to z problemem estymacji parametrów. Załóżmy, że jest i=1,..,p interesujących nas


parametrów  i i tworzą one zbiór: λ  λ1,..,λ p . Zbiór p parametrów określa gęstość
prawdopodobieństwa f  f x;  dla zmiennych losowych x  x1 ,..xn  .
Pojedyncze doświadczenie, pomiar wielkości x, oznacza pobranie próby o liczebności 1.
Załóżmy, że jedna z takich prób dała w wyniku x j  . Temu pojedynczemu doświadczeniu
przypisujemy liczbę:


dP  j   f x  j  ;  dx ,
która ma charakter prawdopodobieństwa a posteriori. Mówi ona po uzyskaniu wyniku,
jakie było prawdopodobieństwo uzyskania takiego właśnie wyniku, czyli uzyskania wartości
x j  takiej, że xi j   x  j   xi j   dxi j  , gdzie i=1,..,n.
Wykonajmy N niezależnych doświadczeń. Prawdopodobieństwo uzyskania wyniku
x1 , x2 ,..., x j  ,..., x N 
(seria N wyników, próba N-wymiarowa) dane jest iloczynem
prawdopodobieństw:
N




dP   f x  j  ;  dx
j 1
N
Iloczyn L   f x  j  ;  nosi nazwę funkcji wiarygodności.
j 1
Zauważmy: funkcja wiarygodności zdefiniowana jest przez gęstość prawdopodobieństwa a


posteriori f x  j  ;  , jest funkcją próby x j  , j=1,..,N, a wobec tego jest zmienną losową.
Czasami wiadomo, że rozpatrywana populacja parametrów  może być należeć tylko do
jednego z dwóch zbiorów: 1 lub  2 (np. liczby parzyste i nieparzyste, rzut monetą).
Definiuje się wówczas iloraz wiarygodności:


,
 
 f x ;  
N
Q
 f x  j  ; 1
j 1
N
j 1
j
który mówi "zbiór parametrów 1
jest Q razy bardziej
2
prawdopodobny niż zbiór  2 ".
Przykład. Rzucamy niesymetryczną monetą, o której wiemy, że może należeć do klasy A
(częściej wypada reszka: PO=1/3, PR=2/3) lub do klasy B (częściej wypada orzeł: PO=2/3,
2017-07-21
20
PR=1/3). Praktycznie oznacza to, że nie jesteśmy pewni po której stronie wybiliśmy orła – po
tej bardziej czy po tej mniej prawdopodobnej.
Próba składająca się z N=5 rzutów badaną monetą dała 1 raz orła i 4 razy reszkę.
Obliczamy funkcje wiarygodności LA,LB oraz iloraz wiarygodności Q:
LA 
12 2 2 2
2 1 1 1 1
L

 , LB 

 ,Q  A  8
3 3 3 3 3
3  3 3 3 3
LB
1 orzel
4 reszki
1 orzel
4 reszki
Wniosek: Q=8 razy bardziej prawdopodobne jest że moneta należy do klasy A niż do klasy B.
Z taką monetą możemy stawiać na orła.
6.2. Metoda największej wiarygodności
Największą ufnością obdarzymy ten zbiór parametrów  , dla którego funkcja
N

wiarygodności L   f x  j  ; 
j 1

osiąga maksymalną wartość. Aby wyznaczyć położenie
maksimum należy 1-szą pochodną funkcji wiarygodności L względem parametru 
przyrównać do zera. Różniczkowanie iloczynu jest niewygodne, zatem wprowadzamy
logarytm:

N

l  ln L   ln f x  j  ;  , l nazywamy logarytmiczną funkcją wiarygodności. Położenia
j 1
maksimum dla l i L są identyczne. Problem wyznaczenia maksimum L sprowadzony został
do rozwiązania równania wiarygodności:
l 
l
 0; i  1,2,.., p - jest to układ p równań dla każdego z p parametrów  .
λi
Przykład.
Wartość pewnego parametru  możemy poznać drogą N-krotnego pomiaru. Jeśli pomiary
x  j  dokonywane są tym samym przyrządem, w tych samych warunkach i błędy mają rozkład
normalny, to możemy przyjąć, że najlepszym estymatorem wartości rzeczywistej jest średnia
arytmetyczna wyników:
N

 x 
j
j 1
N
Jeśli jednak pomiary dokonywane są z różną dokładnością (np. różne przyrządy), to nie
wszystkie są tak samo wiarygodne. Posłużymy się zatem funkcją wiarygodności i
wyznaczymy jej maksimum. Założymy, jak poprzednio, że błędy mają rozkład normalny o
średniej  i wariancji  j - różnej dla poszczególnych pomiarów x  j  . Pojedynczy pomiar to
2017-07-21
21
pobranie próby o liczebności 1 z rozkładu Gaussa o średniej  i wariancji  j . Zatem, dla
jednego pomiaru x  j  prawdopodobieństwo a posteriori uzyskania tego wyniku jest (zgodnie
ze znaną postacią funkcji gęstości prawdopodobieństwa dla rozkładu normalnego):
dP
 j

 x j   λ
1
 f x ;λ dx 
exp 

2σ 2j
2π σ j


 j


2

dx


Dla N pomiarów mamy funkcję wiarygodności:

 x j   λ
1
L
exp 

j 1 2π σ
2σ 2j
j

N

2




i jej logarytm:
1 N x  j    
l 
 const
2 j 1
 2j
2
Równanie wiarygodności przyjmuje postać:


N
dl
x j   

0
d j 1  2j
~
Rozwiązaniem tego równania jest estymator największej wiarygodności  , który, na
podstawie powyższego równania, wynosi:
x j 
 2
~ j 1  j
 N
1

2
j 1  j
N
Wynik najbardziej wiarygodny jest średnią ważoną z N pomiarów o różnych wariancjach.
Wagi są równe odwrotnościom wariancji. Druga pochodna d 2l / d2   j 2  0 , więc
istotnie znaleźliśmy maksimum.
Dla
 j    const
estymator największej wiarygodności staje się równy średniej
arytmetycznej wyników:
x j 
 2
~ j 1  j
 N
1

2
j 1  j
N
2017-07-21
x j 

2
1
j 1 


N
N
2

N
 j  const
N
 x   
j
j 1
22
6.3. Nierówność informacyjna. Estymatory o minimalnej wariancji
~
Dobry estymator  to taki dla którego wartość obciążenia Bλ wynosi zero dla każdej


~
~
liczebności próby oraz którego wariancja var    2  jest jak najmniejsza:


~
~
Bλ   E   λ  0 oraz σ 2   min
Często musimy szukać kompromisu pomiędzy wymaganiem dotyczącym braku obciążenia
~
~
B   0 oraz minimalnej wariancji  2   min . Wielkości Bλ i  2  związane są za


pomocą nierówności informacyjnej, zwanej nierównością Cramera-Rao:
~
ˆ  1  Bλ 
var   σ 2 
E l 2


2
 
Powyższe wyrażenie podaje związek pomiędzy obciążeniem parametru Bλ , wariancją

 
~
 2  oraz informacją zawartą w próbie, wyrażoną przez E l 2 . Gdy obciążenie znika (lub
nie zależy od  ), wyrażenie upraszcza się:
  E1l 
~
2  
2
 
Funkcja informacyjna E l 2 , informacja próby ze względu na parametr  - to wartość
średnia z kwadratu pochodnej logarytmicznej funkcji wiarygodności.


W przypadku wielowymiarowych ( λ  λ1,..,λ p ) estymatorów nieobciążonych
( B   0 ) można dojść do następującej zależności:




T
~
~
cov ˆ
λ  E λ   λ    M 1
 l  l T 
  2l 
M  E       E 
T 
  
     
gdzie macierz M to macierz informacji, macierz informacyjna Fishera.
6.4. Prawo kombinacji błędów (uśrednianie błędów w kwadratach)
Powróćmy do problemu wielokrotnego pomiaru tej samej wielkości z różnymi
dokładnościami. Równanie wiarygodności o podanej wcześniej postaci:


N
dl
x j   

0
d j 1  2j
Nieobciążony estymator największej wiarygodności:
2017-07-21
23
x j 
 2
~ j 1  j
 N
ma również minimalna wariancję, która wynosi:
1

2
j 1  j
N
~
~  N 1 
var    2     2 
 j 1  
j 



1
Ten ostatni wzór znany jest jako prawo kombinacji błędów lub uśrednianie błędów
w kwadratach. Można je także uzyskać przez zastosowanie prawa propagacji błędów w
~
stosunku do estymatora  .
~
~
Jeśli utożsamimy   z błędem   oraz utożsamimy  j z błędem j-tego pomiaru


x j , wówczas prawo kombinacji błędów przyjmuje znana ogólnie postać:
1
1 
~  1

  

 ... 
2
2
2 







x

x

x
2
n
 1


1
2

~
~
Jeśli wszystkie pomiary mają takie same dokładności    j , to  oraz  2 
przyjmą znane postaci:
~
~
λ  x, 2 λ  2 / n .

6.5. Własności asymptotyczne funkcji wiarygodności
Własności:
~
1. Estymator wiarygodności  jest asymptotycznie nieobciążony, tzn. jest nieobciążony dla
N  .
2. Funkcja wiarygodności jest asymptotycznie normalna, tzn. jest normalna dla N   .
Przypomnimy: funkcja wiarygodności L jest miarą prawdopodobieństwa, że wartość
prawdziwa  0 parametru jest równa:

~
~ ~
~
0         
Skoro funkcja wiarygodności dąży asymptotycznie do rozkładu normalnego, powyższy
przedział można interpretować następująco:
Prawdopodobieństwo, że wartość prawdziwa  0 zawarta jest w przedziale
~
~
~
~
    0     wynosi 68.3%.
W zastosowaniach praktycznych stosujemy tę interpretacje dla dużych, lecz skończonych, N.
2017-07-21
24
6.6. Jednoczesna estymacja kilku parametrów. Przedziały ufności
Rozważmy logarytmiczną funkcję wiarygodności dla p parametrów   λ1,..,λ p , które
chcemy estymować równocześnie:


N

l x1 , x2  ,.., x  N  ;    ln f x  j  ; 

j 1
i rozwińmy ją w szereg Taylora w otoczeniu rozwiązania największej wiarygodności
~ ~ ~
~
  1 ,  2 ,..,  p co daje:





p
 l 
~
~
  k   k 
l    l    
k 1   k  ~
λ
p
p
  2l 
1
~
~
  l   l  m   m  .....wyrazy wyż szych rzędów
  
2 l 1 m1   l  m  ~λ



Zastosujemy uproszczenia i oznaczenia:

Zaniedbamy wyrazy wyższych rzędów.

Wszystkie pochodne cząstkowe
 l 
  0
   ~
z definicji (estymator największej
wiarygodności został wyznaczony jako rozwiązanie równania powstałego z przyrównania
pochodnej do zera)

W rozwinięciu w szereg wyraz z podwójną sumą przedstawimy w zapisie macierzowym:
l    l ~    12   ~  S  ~ 
T
 S pxp

  2l
 2l 
 2   
1
1
p 

  2l
 2l 
2
  

 1 p  p   ~
Gdy N   elementy macierzy S dla konkretnej próby możemy zastąpić odpowiednimi
wartościami oczekiwanymi:
   2l 
  2l 

 E  2  E 





  1 
1
p


 B   E (S pxp )  
2
2



 
 E  l  E  l  
 2   ~
  1 p 
 p    
Powyższe spostrzeżenia prowadzą do następującej postaci funkcji wiarygodności:
2017-07-21
25



 
 


1
~
~T
~
ln L   ln L       B   
2
~T
~
 1
L   const  exp    B    
 2

Wniosek: Funkcja wiarygodności ma postać p-wymiarowego rozkładu normalnego ze średnią
~
 i macierzą kowariancji C równą odwrotności B: C  B 1 .
~ ~
~
~
Zatem, wariancje var i estymatorów największej wiarygodności 1 ,  2 ,..,  p to
 
elementy z głównej przekątnej a elementy pozadiagonalne to kowariancje poszczególnych par
estymatorów:
 
C  cij
~
~
cii  var  i   2 i
~ ~
c jk  cov  j ,  k
~ ~
cov  j ,  k
~ ~
  j ,k  ~
~ - wspóczynn ik korelacji
  j  k

   
 
     
Podobnie jak w przypadku jednowymiarowym, pierwiastek kwadratowy z wariancji to
odchylenie standardowe:
~
~
i   i  cii
 
Podobnie jak w przypadku wielowymiarowego rozkładu normalnego (rozdział 3), w
przestrzeni parametrów 1 ,  2 ,..,  p , opisanych przez normalną (gaussowską) funkcję

 

~T
~
wiarygodności, określa się elipsoidę kowariancji z warunku    B     1 .
Przykład
Wyznaczmy estymator największej wiarygodności dla wartości średniej 1 i odchylenia
standardowego  2   dla rozkładu normalnego.
Rozwiązanie. Funkcja wiarygodności dana jest wzorem:

 x j   λ
1
1
L
exp 
2

j 1 λ
2
λ
2
π
2
2

N

2

 , gdzie x  j  to jeden z wyników pomiaru wielkości,


której średnią chcemy znaleźć.

1 N x  j   λ1
l  ln L   
2 j 1
λ22

2
 N ln λ2  const.
Następnie z układu równań wiarygodności:
2017-07-21
26
l
l
~
 0,
 0 otrzymujemy estymator wartości średniej  1 i estymator odchylenia
1
 2
~
standardowego  2 :
1
~
1 
N
N
 x 
to średnia arytmetyczna poszczególnych pomiarów,
j 1
 x     
N
~
2 
j
j
~
2
1
j 1
N
Wyznaczmy jeszcze macierz kowariancji. Trzeba znaleźć 2-gie pochodne:
 2l  2l
 2l
~
~
, ich wartości dla 1  1 ,  2   2 , utworzyć B i odwrócić:
,
,
2
2
1  2 1 2
~
 22

0 

C  B 1  ...   N ~2 
 0 2 

2 N 
Elementy diagonalne reprezentują błędy:
~2
2
N
~2
2
~
 2 
2N
~
 1 
Wielkości 1 i  2 nie są skorelowane – elementy pozadiagonalne C są zerowe.
2017-07-21
27
Download