11. Testy nieparametryczne Twierdzenie Pearsona. 1. Niech P P , gdzie P jest rodziną rozkładów na prostej R. 2. Testujemy hipotezy H : P P0 . K : P P 0 3. Rozbijamy R na sumę rozłącznych przedziałów: A1 (, a1 ) , A2 [a1 , a2 ) , … , Ak 1 [ak 2 , ak 1 ) , Ak [ak 1 , ) tak, aby prawdopodobieństwa p10 P0 ( A1 ) , p20 P0 ( A2 ) , … , pk0 P0 ( Ak ) były dodatnie. n 4. Określamy zmienne Y j I A j ( X i ) dla j 1,...,k . i 1 Wniosek: Test dla którego obszar krytyczny określony jest wzorem k ( y np 0 ) 2 j j 2 y : ( k 1 ) 1 np0 j 1 j H : P P0 jest testem do testowania hipotez na poziomie w przybliżeniu K : P P0 równym . Wniosek o nazwach i zapisie próby: n 1. Zmienne Y j I A j ( X i ) dla j 1,...,k oznaczają ilości zmiennych w i 1 próbie, których wartości należą do zbioru A j . 2. Wyznaczenie przedziałów A j przez przyjęcie liczb a1 ,..., a k nazywamy grupowaniem obserwacji. 3. Na mocy 2 wartości y j zmiennych Y j nazywamy liczebnościami empirycznymi pogrupowanych obserwacji i często oznaczamy przez n j . 4. Wartości np 0j nazywamy liczebnościami hipotetycznymi lub teoretycznymi pogrupowanych obserwacji. 5. Wartości p 0j możemy obliczać przy pomocy dystrybuanty F rozkładu P0 p 0j F (a j ) F (a j 1 ) . 5. Pogrupowaną próbę wygodnie jest zapisać w postaci tabeli: a j 1 a j n j a1 n1 a1 a2 n2 …… … ak 1 nk sumy nazywanej szeregiem rozdzielczym przedziałów klasowych. 6. W konsekwencji test możemy zapisać w postaci statystyki k (n j np0j ) 2 j 1 np0j 2 i obszaru krytycznego S1 2 : 2 2 (k 1)1 . Ograniczenia dla testu. Test wymaga znajomości prawdopodobieństw p10 P0 ( A1 ) , p20 P0 ( A2 ) , … , pk0 P0 ( Ak ) , czyli hipoteza zerowa musi precyzować rozkład P0 , np. H : P N (2,1) , a w praktyce potrzebny jest test do weryfikacji hipotezy H : P N (m, 2 ) . Uogólnienie twierdzenia Pearsona. Ogólny problem w badaniu zgodności polega na sprawdzeniu, czy w rozkładzie wielomianowym prawdopodobieństwa są danymi funkcjami pewnej mniejszej liczby parametrów, przy czym wartości tych parametrów nie są znane. Twierdzenie uogólnione Pearsona. Jeżeli θˆ (ˆ1 ,...,ˆq )T jest estymatorem największej wiarygodności po zgrupowaniu obserwacji dla parametrów hipotetycznego rozkładu to statystyka k 2 j 1 Y j np j (θˆ )2 np j (θˆ ) ma asympotycznie rozkład 2 (k q 1) . Uwagi o stosowalności uogólnionego twierdzenia Pearsona: 1. Liczebność próby duża – n 40 . 2. Ilość grup - k 5 . 3. Ilość obserwacji w grupie - n j 8 lub/i liczebność teoretyczna - np j 5 . Twierdzenie Kołmogorowa. Niech X 1 , X 2 ,... będą niezależnymi zmiennymi losowymi o jednakowym rozkładzie z ciągłą dystrybuantą F , a Fn niech oznacza dystrybuantę empiryczną z próby X ( X 1 , X 2 ,..., X n ) . Wtedy lim P : n sup Fn (u, X( )) F (u ) y n uR . gdy y 0 0 (1) k exp(2k 2 y 2 ) gdy y 0 k Test Kołmogorowa. Twierdzenie to jest podstawą następującego testu zgodności : Niech: H : P P0 1. , K : P P0 2. F0 oznacza dystrybuantę rozkładu P0 , 3. Dn ( X) sup Fn (u, X) F0 (u ) , uR Wtedy za obszar krytyczny testu przyjmujemy S1 x : Dn (x) c. Uwaga. 1. Dla małych n rozkład statystyki Dn jest stablicowany. 2. Dla dużych n możemy wykorzystać twierdzenie graniczne Kołmogorowa. Stałą c wyznaczamy wtedy z warunku K (c n ) 1 , gdzie K jest stablicowaną dystrybuantą rozkładu Kołmogorowa. 3. Gichman wykazał, że jeżeli parametry rozkładu z hipotezy zerowej szacujemy z próby, to twierdzenie Kołmogorowa nie jest spełnione. 4. W praktyce jednak mimo uwagi 2 stosuje się ten test przy bardzo dużej liczebności próby. Test Kołmogorowa-Smirnowa. Twierdzenie Smirnowa. Niech X 1 , X 2 ,... i Y1 , Y2 ,... będą niezależnymi zmiennymi losowymi o jednakowym rozkładzie z ciągłą dystrybuantą F , a Fn i Gn niech oznaczają dystrybuanty empiryczne z prób X ( X 1 , X 2 ,..., X n ) Y (Y1 , Y2 ,...,Yr ) . Wtedy nr lim P sup Fn (u, X) Gr (u, Y) z K ( z ) , n n r uR r gdzie K jest dystrybuantą rozkładu Kołmogorowa. Twierdzenie to jest podstawą następującego testu zgodności sprawdzającego, czy próby pochodzą z tego samego rozkładu. Niech: H : F G 1. , K : F G 2. Dn, r ( X, Y) sup Fn (u, X) Gr (u, Y) , uR Wtedy za obszar krytyczny testu przyjmujemy S1 (x, y) : Dn, r (x, y) c. Uwaga. 1. Dla małych n i r rozkład statystyki Dn, r jest stablicowany. 2. Dla dużych n i r możemy wykorzystać twierdzenie graniczne Smirnowa, stałą wyznaczyć korzystając z rozkładu Kołmogorowa K .