9. Testowanie hipotez w rodzinie rozkładów normalnych— przypadek znanego odchylenia standardowego (23.04.07) Przykład X- średnica pewnego detalu stalowego wytwarzanego przez maszyn˛e tokarska˛ A.; Zakładamy (na podstawie wczesniejszych doświadczeń): X ∼ N (θ; 0,1); (jednostka-milimetr); Maszyna powinna produkować detale o szerokości średniej szerkości θ0 = 7,5. Mamy uzasadnione podejrzenia, że maszyna, po wielu miesiacach ˛ użytkowania bez konserwacji, uległa rozregulowaniu i przeci˛etna wartość średnicy produkowanych detali jest w obecnym czasie wi˛eksza niż 7,5. 1 Sformułowanie hipotezy zerowej i alternatywnej Interesuje nas sprawdzenie hipotezy H0 : θ = θ0 , gdzie θ0 = 7,5 (jednostka: milimetr.) Chcemy sprawdzić, czy zuzycie noża maszyny tokarskiej nie spowodowało zwi˛ekszenia wartości średnic θ. Stad ˛ hipoteza alternatywna: H1 : θ > θ0 . 2 Statystyka testowa i jej rozkład Zakładamy, że nasze pomiary stanowia˛ realizacj˛e próby prostej X1 , X2 , . . . , Xn , gdzie Xi ∼ N (θ; σ); w naszym przykładzie σ = 0,1. Chcemy „procedur˛e testowa" ˛ oprzeć na zmiennej losowej (tzw. statystyce testowej) X̄ − θ0 √ . Z= σ/ n Przy założeniu prawdziwości H0 zmienna Z ma wartość oczekiwana˛ równa˛ 0 — wynika to stad, ˛ że wartość oczekiwana średniej próbkowej X̄ jest równa θ0 . Można pokazać, że przy założeniu prawdziwości H0 odchylenie standardowe Z jest równe 1. Czy można precyzyjnie określić rozkład X̄ oraz Z? 3 Rozkład średniej próbkowej Twierdzenie 1 Jeżeli X1 , X2 , . . . , Xn sa˛ niezależnymi zmiennymi losowymi o rozkładzie normalnym N (θ; σ) to średnia X̄ ma rozkład √ N (θ; σ/ n) Wniosek:zmienna losowa Z określona przez Z= X̄ − θ0 √ . σ/ n ma rozkład N (0, 1) przy założeniu prawdziwości H0 . 4 Obszar krytyczny Problem: jakie wartości statystyki Z należy uznać za nietypowe? Niech z1−α oznacza kwantyl rz˛edu 1 − α rozkładu normalnego, tj. rozwiazanie ˛ równania: Φ(x) = 1 − α, gdzie jest ustalona˛ liczba˛ z przedziału (0, 1) — zazwyczaj przyjmujemy w zagadnieniach testowania hipotez α = 0,05 lub α = 0,01; α jest tzw. poziomem istotnosci testowania hipotezy. Określmy zbiór krytyczny dla zadanego α dla hipotezy alternatywnej H1 : θ = θ0 przez: C = {z : z ­ z1−α }. Test dla weryfikacji H0 przy alternatywie 1: przyjmij H0 , gdy Z ∈ / C, odrzuć H0 , gdy Z ∈ C, z- wartość statystyki Z dla konkretnych danych. 5 Przykład z detalami metalowymi— obliczenia z -oznacza realizacj˛e statystyki testowej Z. x̄ oznacza realizacj˛e statystyki X̄ Dla n = 50 pomiarów x1 , x2 , . . . , x50 otrzymaliśmy x̄ = 7,515; stad ˛ z= 7,515 − 7,5 x̄ − θ0 √ = √ ≈ 1,06. σ/ n 0,1/ 50 Dla poziomu istotności α = 0,01 zbiór krytyczny C ma postać [z0,99 , ∞) = [2,33; ∞), a wi˛ec nie ma podstaw do odrzucenia H0 i przyj˛ecia H1 . 6 0.4 0.3 0.2 0.0 0.1 y −4 −2 0 2 4 x Rysunek 1: Wykres g˛estości rozkładu N (0, 1); pole zacieniowanego „trapezu krzywoliniowego” jest równe 0,01 Podstawa „nieskończonego trapezu”: [2,33; ∞)- to obszar krytyczny (w przykładzie "średnice detali metalowych”) 7 Uwagi nt. obliczania kwantyli r. normalnego Definicja 1 Kwantylem rz˛edu u, u ∈ (0, 1), rozkładu normalnego N (0, 1) bedziemy nazywać liczb˛e zu spełniajac ˛ a˛ równość: Φ(zu ) = u. Kwantyle rozkładu normalnego N (0, 1) można obliczać „przeszukujac” ˛ tablic˛e wartości funkcji Φ, odczytać z tablicy kwantyli lub obliczyć korzystajac ˛ z odpowiedniego programu komputerowego— np. wydajac ˛ polecenie qnorm w R-rze. Wartość z0,99 można obliczyć w R-rze w nast˛epujacy ˛ sposób: > qnorm(0.99) [1] 2.326348 8 Testowanie hipotezy o proporcji Jeśli w naszym przykładzie hipotez˛e H1 zastapić ˛ przez hipotez˛e 0 lewostronna˛ H1 : θ < θ0 , to obszar krytyczny b˛edzie miał postać: (−∞, zα ], 00 w przypadku hipotezy alternatynej 2-stronnej H1 : θ 6= θ0 , obszar krytyczny b˛edzie miał postać: (−∞, zα/2 ] ∪ [z1−α/2 , ∞). 9 Testowanie hipotezy o proporcji W państwie P w roku 2000 procent ludzi żyjacych ˛ w ubóstwie (poverty rate- w skrócie PR) wynosił 11,3 a w 2004 roku: 12,7. Dane dotyczace ˛ 2000 roku sa˛ dokładne (pochodza˛ ze spisu powszechnego), dane dotyczace ˛ 2004 roku oparte sa˛ na rezultatach badań sondażowych, przeprowadzonych dla reprezentatywnej 10000-elementowej próby respondentów. Czy sa˛ podstawy aby sadzić, ˛ że PR istotnie wzrósł przez ostatnie 4 lata? 10 Testowanie hipotezy o proporcji- formalizacja problemu Doświadczenie losowe polega na wyborze losowym mieszkańca P; jeśli ten mieszkaniec żyje w ubóstwie, wtedy wartość X jest równa 1, jeśli nie żyje w ubóstwie, wtedy wartość X wynosi 0. Zakładamy, że odpowiedzi (dotyczace ˛ ubóstwa respondentów) otrzymane w 2004 roku stanowia˛ realizacj˛e próby prostej z rozkładu Bin(1, p). Chcemy zweryfikować H0 : p = p0 przeciw H1 : p > p0 ; w naszym przykładzie p0 = 11,3. 11 Testowanie hipotezy o proporcji— c.d. Niech Y - liczba żyjacych ˛ w ubóstwie— spośród n = 10000 ankietowanych. Zauważmy, że Y = X1 + X2 + . . . + Xn , gdzie Xi ∼ Bin(1, p) Z centralnego twierdzenia granicznego: przy założeniu prawdziwości H0 q p (1−p ) 0 0 , Y1 = Yn = X̄ ma w przybliżeniu rozkład N p0 , n a statystyka testowa Z Y1 − p0 Z=q p0 (1−p0 ) n ma w przybliżeniu rozkład normalny N (0, 1). Obszary krytyczne: lewostronny, prawostronny i dwustronny obliczamy tak jak w przypadku testowania hipotez w rodzinie rozkładów normalnych (gdy odchylenie standardowe jest znane). 12 Przykład „Procent ubóstwa w P”— c.d. Przyjmujemy poziom istotności α = 0,05. Obszar krytyczny— dla hipotezy prawostronnej H1 : p > p0 = 0,113 ma postać: [z0.95 , ∞) = [1,644854, ∞). Wartość statystyki testowej Z dla naszych danych jest równa 4.422084 Można ja˛ obliczyć w R-rze nast˛epujaco: ˛ > (0.127-0.113)/(sqrt((0.113*(1-0.113))/10000)) [1] 4.422084 a wi˛ec sa˛ podstawy, aby odrzucić H0 i przyjać ˛ H1 . 13