weryfikacja hipotez statystycznych

advertisement
WERYFIKACJA HIPOTEZ STATYSTYCZNYCH
PODSTAWOWE POJĘCIA
Def. Przez hipotezę statystyczną rozumiemy dowolne
przypuszczenie co do rozkładu populacji generalnej (jego
postaci funkcyjnej lub wartości parametrów). Prawdziwość
przypuszczenia oceniana jest na podstawie wyników próby
losowej.
Def. Zbiór hipotez dopuszczalnych jest zbiorem rozkładów,
o których wiemy, że mogą charakteryzować populację
generalną.
Typy hipotez:




hipotezy proste
hipotezy złożone
hipotezy parametryczne
hipotezy nieparametryczne
Def. Testem statystycznym nazywamy regułę postępowania,
która każdej możliwej próbie losowej pobranej z
populacji generalnej przyporządkowuje decyzję
przyjęcia lub odrzucenia stawianej hipotezy.
ZASADY KONSTRUKCJI TESTÓW STATYSTYCZNYCH

formułujemy hipotezę, która podlega weryfikacji (tzw. hipotezę
zerową) i zapisujemy ją jako:
H 0 : F  x   0 ; 0  

formułujemy hipotezę będącą zaprzeczeniem hipotezy zerowej
(tzw. hipotezę alternatywną), którą przyjmuje się za prawdziwą
w przypadku odrzucenia tej pierwszej i zapisujemy ją jako:
H1 : F x 1;1  

oznaczamy przez W zbiór wszystkich możliwych wyników nelementowej próby (tzw. przestrzeń próby) oraz przez
En  ( X1, X 2 ,..., X n ) pewną próbę (tzw. punkt przestrzeni
próby).

określamy taki obszar przestrzeni próby w, że:
- jeśli En  w (tzn. wynik próby znajdzie się w tym obszarze) to
sprawdzaną hipotezę zerową odrzucamy,
- jeśli En W  w (tzn. wynik próby nie znajdzie się w tym
obszarze) to hipotezę zerową przyjmujemy.
Def. Obszar w nazywamy obszarem odrzucenia hipotezy lub
obszarem krytycznym testu.
Def. Obszar W-w nazywamy obszarem przyjęcia hipotezy zerowej.
BŁĘDY W TESTOWANIU HIPOTEZ
STATYSTYCZNYCH
Def. Błędem I rodzaju nazywamy błąd polegający na odrzuceniu
hipotezy zerowej pomimo, że jest ona prawdziwa.
Prawdopodobieństwo popełnienia błędu I rodzaju
definiujemy jako:
P  En  w / H 0    w 
Def. Błędem II rodzaju nazywamy błąd polegający na
przyjęciu hipotezy zerowej pomimo, że jest ona fałszywa.
Prawdopodobieństwo popełnienia błędu II rodzaju
definiujemy jako:
PEn  W  w / H1    w
Testy najmocniejsze – testy minimalizujące prawdopodobieństwo
popełnienia błędu II rodzaju  w przy ustalonym z góry poziomie
prawdopodobieństwa popełnienia błędu I rodzaju  w .
Moc testu M (w) – prawdopodobieństwo odrzucenia fałszywej
hipotezy H0 i przyjęcia w to miejsce prawdziwej hipotezy
alternatywnej:
M w  PWn  w / H1 
Związek między mocą testu i prawdopodobieństwem błędu II rodzaju:
 w  1  M w
ZASADY BUDOWY TESTÓW ISTOTNOŚCI



formułujemy hipotezę zerową H0 oraz hipotezę alternatywną
H1,
na podstawie próby losowej  X 1 , X 2 ,..., X n  wyznaczamy pewną
statystykę Zn (sprawdzian hipotezy H0 ), której rozkład określa
się przy założeniu, że hipoteza H0 jest prawdziwa,
wyznaczamy taki obszar wartości statystyki Zn oznaczany jako
 (tzw. obszar krytyczny testu), aby dla z góry określonego
małego prawdopodobieństwa  (tzw. poziom istotności) był
spełniony warunek:
P Z n     

jeżeli otrzymana w wyniku konkretnej próby wartość zn
statystyki Zn :
- przyjmie wartość z obszaru , sprawdzaną hipotezę H0
odrzucamy na korzyść hipotezy H1,
- znajdzie się poza obszarem , stwierdzamy jedynie, że nie ma
podstaw do odrzucenia sprawdzanej hipotezy H0 .
TESTY ISTOTNOŚCI DLA WARTOŚCI ŚREDNIEJ
W POPULACJI
A
Założenia
- populacja generalna ma rozkład normalny o nieznanej
wartości średniej m oraz znanym odchyleniu standardowym

- hipotezę weryfikujemy za pomocą n-elementowej
próby
Etapy weryfikacji:

stawiamy hipotezę zerową, że średnia m ma wartość m0 , tzn:
H0: m  m0
wobec hipotezy alternatywnej:
10 H1: m  m0
2o H1: m  m0
3o H1: m  m0

za sprawdzian hipotezy przyjmujemy średnią arytmetyczną X

jeżeli H0 jest prawdziwa to statystyka o postaci:
U
X  m0
ma rozkład N 0;1 ,

n
1o

ustalamy wartość u (tzw. wartość krytyczna), której nie
powinien przekraczać moduł statystyki U, określając ją w taki
sposób w rozkładzie N 0;1, aby dla ustalonego poziomu 
zachodziła relacja:
PU  u   

wartości zmiennej u spełniające nierówność
obszarem krytycznym testu, tzn.:
  ( ; u    u ; )
2
2
Obszar krytyczny  (dwustronny)
(u)
 u
2
0
u
2
u
U  u są
2o

ustalamy wartość u , której nie powinna przekraczać
statystyka U, określając ją w taki sposób w rozkładzie N 0;1 ,
aby dla ustalonego poziomu  zachodziła relacja:
PU  u   

wartości zmiennej U spełniające nierówność U  u stanowią
obszar krytyczny testu, tzn.:
   u ;  )
Obszar krytyczny  (prawostronny)
(u)
0
u
u
3o

ustalamy wartość u , od której powinna być większa statystyka
U, określając ją w taki sposób w rozkładzie N 0;1 , aby dla
ustalonego poziomu  zachodziła relacja:
PU  u   

wartości zmiennej U spełniające nierówność U   u stanowią
obszar krytyczny testu, tzn.:
   ;u 
Obszar krytyczny  (lewostronny)
(u)
-u 0
u

Jeżeli z próby uzyskamy taką wartość statystyki u, że
- u  to hipotezę zerową odrzucamy na rzecz hipotezy
alternatywnej,
- u   to stwierdzamy, że nie ma podstaw do odrzucenia
hipotezy zerowej.
B
Założenia
- populacja generalna ma rozkład normalny o nieznanej wartości
średniej m oraz nieznanym odchyleniu standardowym ,
- hipotezę weryfikujemy za pomocą małej, n-elementowej próby
(n<120).
Etapy weryfikacji
 stawiamy hipotezę zerową, że średnia m ma wartość m0 , tzn.:
H0: m  m0
wobec hipotezy alternatywnej
H1: m  m0 ,

do weryfikacji hipotezy wykorzystujemy zmienną o postaci
X m
t
n  1 , która ma rozkład t-Studenta o n-1 stopniach
SX 
swobody,

ustalamy wartość krytyczną t , której nie powinien
przekraczać moduł statystyki t, określając ją w taki sposób w
rozkładzie t-Studenta, aby dla ustalonego poziomu  zachodziła
relacja:
P t  t   

wartości zmiennej t spełniające nierówność t  t są obszarem
krytycznym testu, tzn.:
   ;t   t ; 

Jeżeli z próby uzyskamy taką wartość statystyki t, że:
- t  to hipotezę zerową odrzucamy na rzecz hipotezy
alternatywnej,
- t   to stwierdzamy, że nie ma podstaw do odrzucenia H0
C
Założenia
- populacja generalna ma dowolny rozkład z nieznanymi
parametrami,
- hipotezę weryfikujemy za pomocą dużej, n-elementowej próby
(n>120).
Etapy weryfikacji:

Stawiamy hipotezę zerową, że średnia m ma wartość m0 , tzn.:
H0: m  m0
wobec hipotezy alternatywnej:
H1: m  m0

za sprawdzian hipotezy przyjmujemy średnią arytmetyczną X
 S x  
mającą asymptotyczny rozkład N  m;
,
n 


jeżeli H0 jest prawdziawa to statystyka o postaci
U
X  m0
n
S x 
ma asymptotyczny rozkład N 0;1
TEST ISTOTNOŚCI DLA DWÓCH WARIANCJI
Założenia
- badane są dwie populacje o rozkładach odpowiednio
N m1 ,  1  oraz N m2 ,  2  ,
- żaden z parametrów tych rozkładów nie jest znany,
- hipotezę weryfikujemy na podstawie dwóch niezależnych
prób o liczebnościach odpowiednio n1 i n2.
Etapy weryfikacji

stawiamy hipotezę zerową, że wariancje w obu populacjach są
identyczne, tzn.:
H 0 :  12   22
wobec hipotezy alternatywnej:
H1 :  12   22

do weryfikacji hipotezy wykorzystujemy wariancje S12  x  i
S 22  x  obliczane z dwóch niezleżnych prób gdzie:
1 n
S  x     xi  x 2
n i 1

jeżeli H0 jest prawdziwa to statystyka o postaci:
n1S12 / n1  1
F
n2 S 22  x  / n2  1
ma rozkład F-Snedecora o n1  1 oraz n2  1 stopniach swobody

ustalamy wartość krytyczną F , której nie powinna
przekraczać statystyka F, określając ją w taki sposób w
rozkładzie F-Snedecora, aby dla ustalonego poziomu 
zachodziła relacja:
PF  F   

wartości zmiennej F spełniają nierówność F  F są obszarem
krytycznym testu, tzn.:
  F ;

jeżeli uzyskamy taką wartość statystyki F, że:
- F   to hipotezę zerową odrzucamy na rzecz hipotezy
alternatywnej,
- F   to stwierdzamy, że nie ma podstaw do odrzucenia
hipotezy zerowej
TEST ZGODNOŚCI  2

stawiamy hipotezę zerową, że populacja generalna ma rozkład
określony pewną dystrybuantą F0  x 
H 0 : F  x   F0  x  ,
wobec hipotezy alternatywnej:
H1 : F  x   F0  x 

losujemy z populacji dużą próbę, z której wyniki porządkujemy
w rozkład empiryczny, przez utworzenie r rozłącznych klas
wartości badanej zmiennej w próbie,

przyjmując, że H0 jest prawdziwa, tzn., że rozkład populacji
generalnej opisany jest dystrybuantą F0  x  , liczymy
prawdopodobieństwo pi tego, że zmienna losowa przyjmuje
wartości z i-tej klasy,

oceniamy zgodność rozkładu empirycznego z rozkładem
hipotetycznym
poprzez
obserwację
różnic
pomiędzy
liczebnościami empirycznymi ni a liczebnościami teoretycznymi
(hipotetycznymi) nˆi  npi w oparciu o statystykę o postaci:
r
ni  nˆi 2
i 1
nˆi
 
2
która przy założeniu prawdziwości hipotezy zerowej ma
2
asymptotyczny rozkład  o r  k  1 stopniach swobody, gdzie k
oznacza liczbę parametrów rozkładu, które zostały oszacowane na
podstawie rozkładu empirycznego

ustalamy
wartość
krytyczną
 2 , której nie powinna
przekraczać statystyka  2 , określając ją w taki sposób w
rozkładzie Chi-kwadrat, aby dla ustalonego poziomu 
zachodziła relacja:


P  2  2  

wartości zmiennej  2 spełniające nierówność  2   2 są
obszarem krytycznym testu, tzn.:
   2 ;  )

jeżeli uzyskamy taką wartość statystyki  2 , że
-    to hipotezę zerową odrzucamy na rzecz hipotezy
alternatywnej,
2
-    to stwierdzamy, że nie ma podstaw do odrzucenia
hipotezy zerowej.
2
Download