WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PODSTAWOWE POJĘCIA Def. Przez hipotezę statystyczną rozumiemy dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Prawdziwość przypuszczenia oceniana jest na podstawie wyników próby losowej. Def. Zbiór hipotez dopuszczalnych jest zbiorem rozkładów, o których wiemy, że mogą charakteryzować populację generalną. Typy hipotez: hipotezy proste hipotezy złożone hipotezy parametryczne hipotezy nieparametryczne Def. Testem statystycznym nazywamy regułę postępowania, która każdej możliwej próbie losowej pobranej z populacji generalnej przyporządkowuje decyzję przyjęcia lub odrzucenia stawianej hipotezy. ZASADY KONSTRUKCJI TESTÓW STATYSTYCZNYCH formułujemy hipotezę, która podlega weryfikacji (tzw. hipotezę zerową) i zapisujemy ją jako: H 0 : F x 0 ; 0 formułujemy hipotezę będącą zaprzeczeniem hipotezy zerowej (tzw. hipotezę alternatywną), którą przyjmuje się za prawdziwą w przypadku odrzucenia tej pierwszej i zapisujemy ją jako: H1 : F x 1;1 oznaczamy przez W zbiór wszystkich możliwych wyników nelementowej próby (tzw. przestrzeń próby) oraz przez En ( X1, X 2 ,..., X n ) pewną próbę (tzw. punkt przestrzeni próby). określamy taki obszar przestrzeni próby w, że: - jeśli En w (tzn. wynik próby znajdzie się w tym obszarze) to sprawdzaną hipotezę zerową odrzucamy, - jeśli En W w (tzn. wynik próby nie znajdzie się w tym obszarze) to hipotezę zerową przyjmujemy. Def. Obszar w nazywamy obszarem odrzucenia hipotezy lub obszarem krytycznym testu. Def. Obszar W-w nazywamy obszarem przyjęcia hipotezy zerowej. BŁĘDY W TESTOWANIU HIPOTEZ STATYSTYCZNYCH Def. Błędem I rodzaju nazywamy błąd polegający na odrzuceniu hipotezy zerowej pomimo, że jest ona prawdziwa. Prawdopodobieństwo popełnienia błędu I rodzaju definiujemy jako: P En w / H 0 w Def. Błędem II rodzaju nazywamy błąd polegający na przyjęciu hipotezy zerowej pomimo, że jest ona fałszywa. Prawdopodobieństwo popełnienia błędu II rodzaju definiujemy jako: PEn W w / H1 w Testy najmocniejsze – testy minimalizujące prawdopodobieństwo popełnienia błędu II rodzaju w przy ustalonym z góry poziomie prawdopodobieństwa popełnienia błędu I rodzaju w . Moc testu M (w) – prawdopodobieństwo odrzucenia fałszywej hipotezy H0 i przyjęcia w to miejsce prawdziwej hipotezy alternatywnej: M w PWn w / H1 Związek między mocą testu i prawdopodobieństwem błędu II rodzaju: w 1 M w ZASADY BUDOWY TESTÓW ISTOTNOŚCI formułujemy hipotezę zerową H0 oraz hipotezę alternatywną H1, na podstawie próby losowej X 1 , X 2 ,..., X n wyznaczamy pewną statystykę Zn (sprawdzian hipotezy H0 ), której rozkład określa się przy założeniu, że hipoteza H0 jest prawdziwa, wyznaczamy taki obszar wartości statystyki Zn oznaczany jako (tzw. obszar krytyczny testu), aby dla z góry określonego małego prawdopodobieństwa (tzw. poziom istotności) był spełniony warunek: P Z n jeżeli otrzymana w wyniku konkretnej próby wartość zn statystyki Zn : - przyjmie wartość z obszaru , sprawdzaną hipotezę H0 odrzucamy na korzyść hipotezy H1, - znajdzie się poza obszarem , stwierdzamy jedynie, że nie ma podstaw do odrzucenia sprawdzanej hipotezy H0 . TESTY ISTOTNOŚCI DLA WARTOŚCI ŚREDNIEJ W POPULACJI A Założenia - populacja generalna ma rozkład normalny o nieznanej wartości średniej m oraz znanym odchyleniu standardowym - hipotezę weryfikujemy za pomocą n-elementowej próby Etapy weryfikacji: stawiamy hipotezę zerową, że średnia m ma wartość m0 , tzn: H0: m m0 wobec hipotezy alternatywnej: 10 H1: m m0 2o H1: m m0 3o H1: m m0 za sprawdzian hipotezy przyjmujemy średnią arytmetyczną X jeżeli H0 jest prawdziwa to statystyka o postaci: U X m0 ma rozkład N 0;1 , n 1o ustalamy wartość u (tzw. wartość krytyczna), której nie powinien przekraczać moduł statystyki U, określając ją w taki sposób w rozkładzie N 0;1, aby dla ustalonego poziomu zachodziła relacja: PU u wartości zmiennej u spełniające nierówność obszarem krytycznym testu, tzn.: ( ; u u ; ) 2 2 Obszar krytyczny (dwustronny) (u) u 2 0 u 2 u U u są 2o ustalamy wartość u , której nie powinna przekraczać statystyka U, określając ją w taki sposób w rozkładzie N 0;1 , aby dla ustalonego poziomu zachodziła relacja: PU u wartości zmiennej U spełniające nierówność U u stanowią obszar krytyczny testu, tzn.: u ; ) Obszar krytyczny (prawostronny) (u) 0 u u 3o ustalamy wartość u , od której powinna być większa statystyka U, określając ją w taki sposób w rozkładzie N 0;1 , aby dla ustalonego poziomu zachodziła relacja: PU u wartości zmiennej U spełniające nierówność U u stanowią obszar krytyczny testu, tzn.: ;u Obszar krytyczny (lewostronny) (u) -u 0 u Jeżeli z próby uzyskamy taką wartość statystyki u, że - u to hipotezę zerową odrzucamy na rzecz hipotezy alternatywnej, - u to stwierdzamy, że nie ma podstaw do odrzucenia hipotezy zerowej. B Założenia - populacja generalna ma rozkład normalny o nieznanej wartości średniej m oraz nieznanym odchyleniu standardowym , - hipotezę weryfikujemy za pomocą małej, n-elementowej próby (n<120). Etapy weryfikacji stawiamy hipotezę zerową, że średnia m ma wartość m0 , tzn.: H0: m m0 wobec hipotezy alternatywnej H1: m m0 , do weryfikacji hipotezy wykorzystujemy zmienną o postaci X m t n 1 , która ma rozkład t-Studenta o n-1 stopniach SX swobody, ustalamy wartość krytyczną t , której nie powinien przekraczać moduł statystyki t, określając ją w taki sposób w rozkładzie t-Studenta, aby dla ustalonego poziomu zachodziła relacja: P t t wartości zmiennej t spełniające nierówność t t są obszarem krytycznym testu, tzn.: ;t t ; Jeżeli z próby uzyskamy taką wartość statystyki t, że: - t to hipotezę zerową odrzucamy na rzecz hipotezy alternatywnej, - t to stwierdzamy, że nie ma podstaw do odrzucenia H0 C Założenia - populacja generalna ma dowolny rozkład z nieznanymi parametrami, - hipotezę weryfikujemy za pomocą dużej, n-elementowej próby (n>120). Etapy weryfikacji: Stawiamy hipotezę zerową, że średnia m ma wartość m0 , tzn.: H0: m m0 wobec hipotezy alternatywnej: H1: m m0 za sprawdzian hipotezy przyjmujemy średnią arytmetyczną X S x mającą asymptotyczny rozkład N m; , n jeżeli H0 jest prawdziawa to statystyka o postaci U X m0 n S x ma asymptotyczny rozkład N 0;1 TEST ISTOTNOŚCI DLA DWÓCH WARIANCJI Założenia - badane są dwie populacje o rozkładach odpowiednio N m1 , 1 oraz N m2 , 2 , - żaden z parametrów tych rozkładów nie jest znany, - hipotezę weryfikujemy na podstawie dwóch niezależnych prób o liczebnościach odpowiednio n1 i n2. Etapy weryfikacji stawiamy hipotezę zerową, że wariancje w obu populacjach są identyczne, tzn.: H 0 : 12 22 wobec hipotezy alternatywnej: H1 : 12 22 do weryfikacji hipotezy wykorzystujemy wariancje S12 x i S 22 x obliczane z dwóch niezleżnych prób gdzie: 1 n S x xi x 2 n i 1 jeżeli H0 jest prawdziwa to statystyka o postaci: n1S12 / n1 1 F n2 S 22 x / n2 1 ma rozkład F-Snedecora o n1 1 oraz n2 1 stopniach swobody ustalamy wartość krytyczną F , której nie powinna przekraczać statystyka F, określając ją w taki sposób w rozkładzie F-Snedecora, aby dla ustalonego poziomu zachodziła relacja: PF F wartości zmiennej F spełniają nierówność F F są obszarem krytycznym testu, tzn.: F ; jeżeli uzyskamy taką wartość statystyki F, że: - F to hipotezę zerową odrzucamy na rzecz hipotezy alternatywnej, - F to stwierdzamy, że nie ma podstaw do odrzucenia hipotezy zerowej TEST ZGODNOŚCI 2 stawiamy hipotezę zerową, że populacja generalna ma rozkład określony pewną dystrybuantą F0 x H 0 : F x F0 x , wobec hipotezy alternatywnej: H1 : F x F0 x losujemy z populacji dużą próbę, z której wyniki porządkujemy w rozkład empiryczny, przez utworzenie r rozłącznych klas wartości badanej zmiennej w próbie, przyjmując, że H0 jest prawdziwa, tzn., że rozkład populacji generalnej opisany jest dystrybuantą F0 x , liczymy prawdopodobieństwo pi tego, że zmienna losowa przyjmuje wartości z i-tej klasy, oceniamy zgodność rozkładu empirycznego z rozkładem hipotetycznym poprzez obserwację różnic pomiędzy liczebnościami empirycznymi ni a liczebnościami teoretycznymi (hipotetycznymi) nˆi npi w oparciu o statystykę o postaci: r ni nˆi 2 i 1 nˆi 2 która przy założeniu prawdziwości hipotezy zerowej ma 2 asymptotyczny rozkład o r k 1 stopniach swobody, gdzie k oznacza liczbę parametrów rozkładu, które zostały oszacowane na podstawie rozkładu empirycznego ustalamy wartość krytyczną 2 , której nie powinna przekraczać statystyka 2 , określając ją w taki sposób w rozkładzie Chi-kwadrat, aby dla ustalonego poziomu zachodziła relacja: P 2 2 wartości zmiennej 2 spełniające nierówność 2 2 są obszarem krytycznym testu, tzn.: 2 ; ) jeżeli uzyskamy taką wartość statystyki 2 , że - to hipotezę zerową odrzucamy na rzecz hipotezy alternatywnej, 2 - to stwierdzamy, że nie ma podstaw do odrzucenia hipotezy zerowej. 2