W11. Testy nieparametryczne

advertisement
11. Testy nieparametryczne
Twierdzenie Pearsona.
1. Niech P  P , gdzie P jest rodziną rozkładów na prostej R.
2. Testujemy hipotezy
 H : P  P0
.

K
:
P

P
0

3. Rozbijamy R na sumę rozłącznych przedziałów:
A1  (, a1 ) , A2  [a1 , a2 ) , … , Ak 1  [ak  2 , ak 1 ) , Ak  [ak 1 , )
tak, aby prawdopodobieństwa
p10  P0 ( A1 ) , p20  P0 ( A2 ) , … , pk0  P0 ( Ak )
były dodatnie.
n
4. Określamy zmienne Y j   I A j ( X i ) dla j  1,...,k .
i 1
Wniosek: Test dla którego obszar krytyczny określony jest wzorem
k ( y  np 0 ) 2


j
j
2
y
:


(
k

1
)

1  
 np0


j 1
j
 H : P  P0
jest testem do testowania hipotez 
na poziomie w przybliżeniu
 K : P  P0
równym  .
Wniosek o nazwach i zapisie próby:
n
1. Zmienne Y j   I A j ( X i ) dla j  1,...,k oznaczają ilości zmiennych w
i 1
próbie, których wartości należą do zbioru A j .
2. Wyznaczenie przedziałów A j przez przyjęcie liczb a1 ,..., a k nazywamy
grupowaniem obserwacji.
3. Na mocy 2 wartości y j zmiennych Y j nazywamy liczebnościami
empirycznymi pogrupowanych obserwacji i często oznaczamy przez n j .
4. Wartości np 0j nazywamy liczebnościami hipotetycznymi lub teoretycznymi
pogrupowanych obserwacji.
5. Wartości p 0j możemy obliczać przy pomocy dystrybuanty F rozkładu P0
p 0j  F (a j )  F (a j 1 ) .
5. Pogrupowaną próbę wygodnie jest zapisać w postaci tabeli:
a j 1  a j n j
   a1
n1
a1  a2
n2
……
…
ak 1  
nk
sumy
nazywanej szeregiem rozdzielczym przedziałów klasowych.
6. W konsekwencji test możemy zapisać w postaci statystyki
k
(n j  np0j ) 2
j 1
np0j
 
2
i obszaru krytycznego


S1   2 :  2   2 (k  1)1 .
Ograniczenia dla testu.
Test wymaga znajomości prawdopodobieństw
p10  P0 ( A1 ) , p20  P0 ( A2 ) , … , pk0  P0 ( Ak ) ,
czyli hipoteza zerowa musi precyzować rozkład P0 , np. H : P  N (2,1) ,
a w praktyce potrzebny jest test do weryfikacji hipotezy H : P  N (m, 2 ) .
Uogólnienie twierdzenia Pearsona.
Ogólny problem w badaniu zgodności polega na sprawdzeniu, czy w rozkładzie
wielomianowym prawdopodobieństwa są danymi funkcjami pewnej mniejszej
liczby parametrów, przy czym wartości tych parametrów nie są znane.
Twierdzenie uogólnione Pearsona.
Jeżeli θˆ  (ˆ1 ,...,ˆq )T jest estymatorem największej wiarygodności po
zgrupowaniu obserwacji dla parametrów hipotetycznego rozkładu
to statystyka
k
2  
j 1
Y j  np j (θˆ )2
np j (θˆ )
ma asympotycznie rozkład  2 (k  q  1) .
Uwagi o stosowalności uogólnionego twierdzenia Pearsona:
1. Liczebność próby duża – n  40 .
2. Ilość grup - k  5 .
3. Ilość obserwacji w grupie - n j  8 lub/i liczebność teoretyczna - np j  5 .
Twierdzenie Kołmogorowa.
Niech X 1 , X 2 ,... będą niezależnymi zmiennymi losowymi o jednakowym
rozkładzie z ciągłą dystrybuantą F , a Fn niech oznacza dystrybuantę
empiryczną z próby X  ( X 1 , X 2 ,..., X n ) .
Wtedy


lim P  : n sup Fn (u, X( ))  F (u )  y   
n   
uR

.
gdy y  0
0
 

(1) k exp(2k 2 y 2 ) gdy y  0


k  
Test Kołmogorowa.
Twierdzenie to jest podstawą następującego testu zgodności :
Niech:
 H : P  P0
1. 
,
 K : P  P0
2. F0 oznacza dystrybuantę rozkładu P0 ,
3. Dn ( X)  sup Fn (u, X)  F0 (u ) ,
uR
Wtedy za obszar krytyczny testu przyjmujemy
S1  x : Dn (x)  c.
Uwaga.
1. Dla małych n rozkład statystyki Dn jest stablicowany.
2. Dla dużych n możemy wykorzystać twierdzenie graniczne Kołmogorowa.
Stałą c wyznaczamy wtedy z warunku K (c n )  1   , gdzie K jest
stablicowaną dystrybuantą rozkładu Kołmogorowa.
3. Gichman wykazał, że jeżeli parametry rozkładu z hipotezy zerowej szacujemy
z próby, to twierdzenie Kołmogorowa nie jest spełnione.
4. W praktyce jednak mimo uwagi 2 stosuje się ten test przy bardzo dużej
liczebności próby.
Test Kołmogorowa-Smirnowa.
Twierdzenie Smirnowa.
Niech X 1 , X 2 ,... i Y1 , Y2 ,... będą niezależnymi zmiennymi losowymi o
jednakowym rozkładzie z ciągłą dystrybuantą F , a Fn i Gn niech oznaczają
dystrybuanty empiryczne z prób X  ( X 1 , X 2 ,..., X n ) Y  (Y1 , Y2 ,...,Yr ) .
Wtedy
 nr

lim P
sup Fn (u, X)  Gr (u, Y)  z   K ( z ) ,
n    n  r uR

r 
gdzie K jest dystrybuantą rozkładu Kołmogorowa.
Twierdzenie to jest podstawą następującego testu zgodności sprawdzającego,
czy próby pochodzą z tego samego rozkładu.
Niech:
H : F  G
1. 
,
K
:
F

G

2. Dn, r ( X, Y)  sup Fn (u, X)  Gr (u, Y) ,
uR
Wtedy za obszar krytyczny testu przyjmujemy
S1  (x, y) : Dn, r (x, y)  c.
Uwaga.
1. Dla małych n i r rozkład statystyki Dn, r jest stablicowany.
2. Dla dużych n i r możemy wykorzystać twierdzenie graniczne Smirnowa,
stałą wyznaczyć korzystając z rozkładu Kołmogorowa K .
Download