Testowanie hipotez dla proporcji Wrocław, 13 kwietnia 2015 Powtórka z rachunku prawdopodobieństwa Centralne Twierdzenie Graniczne Niech X = (X1 , X2 , . . . , Xn )0 oznacza próbę z rozkładu o średniej µ i skończonej wariancji σ 2 . Wówczas dla dowolnych liczb rzeczywistych a, b, przy n → ∞ zachodzi X̄ − µ P a¬ √ ¬b σ n ! = Φ(b) − Φ(a). Powtórka z rachunku prawdopodobieństwa Centralne Twierdzenie Graniczne Niech X = (X1 , X2 , . . . , Xn )0 oznacza próbę z rozkładu o średniej µ i skończonej wariancji σ 2 . Wówczas dla dowolnych liczb rzeczywistych a, b, przy n → ∞ zachodzi X̄ − µ P a¬ √ ¬b σ n Zmienna losowa X̄ √ −µ σ n ! = Φ(b) − Φ(a). zbiega do rozkładu normalnego N(0, 1), a stąd X̄ ma w przybliżeniu rozkład normalny z parametrami √ N(µ, σ/ n) Powtórka z rachunku prawdopodobieństwa Niech X = (X1 , X2 , . . . , Xn )0 będzie próbą z rozkładu 0 − 1 z prawdopodobieństwem sukcesu p. Centralne Twierdzenie Graniczne przyjmuje postać: p̂ − p P a ¬ q p(1−p) n ¬ b = Φ(b) − Φ(a). Powtórka z rachunku prawdopodobieństwa Uwaga: W praktyce z aproksymacji rozkładem normalnym można korzystac, gdy jednocześnie: np̂ > 5 n(1 − p̂) > 5 Test dla proporcji Niech X = (X1 , X2 , . . . , Xn )0 oznacza próbę z rozkładu dwupunktowego, z prawdopodobieństwem sukcesu p. P(X = 1) = p P(X = 0) = 1 − p = q Test dla proporcji Niech X = (X1 , X2 , . . . , Xn )0 oznacza próbę z rozkładu dwupunktowego, z prawdopodobieństwem sukcesu p. P(X = 1) = p P(X = 0) = 1 − p = q Przez p̂ = X̄ oznaczamy estymator parametru p i jest on równy frakcji z jaką pojawia się 1, tj. jeżeli w próbie n-elementowej k zmiennych losowych przyjmuje wartość 1, wówczas p̂ = X̄ = k n Test dla proporcji Niech X = (X1 , X2 , . . . , Xn )0 oznacza próbę z rozkładu dwupunktowego, z prawdopodobieństwem sukcesu p. Test dla proporcji Niech X = (X1 , X2 , . . . , Xn )0 oznacza próbę z rozkładu dwupunktowego, z prawdopodobieństwem sukcesu p. Testujemy hipotezę: H0 : p = p 0 Przy możliwych alternatywach: H1 : p 6= p0 H2 : p < p 0 H3 : p > p 0 Test dla proporcji Statystyka testowa postaci: p̂ − p0 Z=q p0 (1−p0 ) n przy prawdziwości H0 ma w przybliżeniu standardowy rozkład normalny. Test dla proporcji Statystyka testowa postaci: p̂ − p0 Z=q p0 (1−p0 ) n przy prawdziwości H0 ma w przybliżeniu standardowy rozkład normalny. Obszar krytyczny, w zależności od alternatywy, wyznaczamy w oparciu o odpowiednie kwantyle rozkładu normalnego. Przykład 6.1 Pewne ugrupowanie polityczne było przekonane, że poparcie Polaków dla jednego z kandydatów na prezydenta miasta X nigdy nie przekroczy 53%. Po przeprowadzeniu ankiety wśród 1000 mieszkańców tego miasta poparcie dla tego kandydata przedstawiło 570 ankietowanych. Przetestować hipotezę, że poparcie będzie równe 53% przy alternatywie, że przekroczy 53%. Przykład 6.1 Pewne ugrupowanie polityczne było przekonane, że poparcie Polaków dla jednego z kandydatów na prezydenta miasta X nigdy nie przekroczy 53%. Po przeprowadzeniu ankiety wśród 1000 mieszkańców tego miasta poparcie dla tego kandydata przedstawiło 570 ankietowanych. Przetestować hipotezę, że poparcie będzie równe 53% przy alternatywie, że przekroczy 53%. Testujemy hipotezę: H0 : p = 53% Przy alternatywie: H1 : p > 53% Przykład 6.2 Dane: k = 570 n = 1000 Przykład 6.2 Dane: k = 570 n = 1000 Estymator frakcji popierających kandydata na prezydenta miasta X p̂ = 0.57 Przykład 6.2 Dane: k = 570 n = 1000 Estymator frakcji popierających kandydata na prezydenta miasta X p̂ = 0.57 Statystyka testowa postaci: p̂ − p0 Z=q p0 (1−p0 ) n 0.57 − 0.53 =q = 2.53 0.53(1−0.53) 1000 Przykład 6.2 Dane: k = 570 n = 1000 Estymator frakcji popierających kandydata na prezydenta miasta X p̂ = 0.57 Statystyka testowa postaci: p̂ − p0 Z=q p0 (1−p0 ) n 0.57 − 0.53 =q = 2.53 0.53(1−0.53) 1000 Zbiór krytyczny jest postaci: C : [u(0.95), ∞) = [1.64, ∞) Test dla porównania dwóch frakcji Badana cecha X w dwóch populacjach (w pierwszej cecha X1 , w drugiej X2 ) ma rozkład dwupunktowy z prawdopodobieństwami sukcesu p1 i p2 odpowiednio. Test dla porównania dwóch frakcji Badana cecha X w dwóch populacjach (w pierwszej cecha X1 , w drugiej X2 ) ma rozkład dwupunktowy z prawdopodobieństwami sukcesu p1 i p2 odpowiednio. Testujemy hipotezę: H0 : p1 = p2 Przy możliwych alternatywach: H1 : p1 6= p2 H2 : p1 < p2 H3 : p1 > p2 Test dla porównania dwóch frakcji Statystyka testowa postaci: Z=r pˆ1 − pˆ2 p̂(1 − p̂) 1 n1 + 1 n2 , gdzie p̂1 = k1 n1 p̂2 = k2 n2 p̂ = k1 + k2 n1 + n2 przy prawdziwości H0 ma w przybliżeniu rozkład normalny N(0, 1). Test dla porównania dwóch frakcji Statystyka testowa postaci: Z=r pˆ1 − pˆ2 p̂(1 − p̂) 1 n1 + 1 n2 , gdzie p̂1 = k1 n1 p̂2 = k2 n2 p̂ = k1 + k2 n1 + n2 przy prawdziwości H0 ma w przybliżeniu rozkład normalny N(0, 1). Obszar krytyczny, w zależności od alternatywy, wyznaczamy w oparciu o odpowiednie kwantyle rozkładu normalnego. Test dla porównania dwóch frakcji W sytuacji, gdy liczności obu prób nie są wystarczająco duże, statystyka testowa postaci s Z= 2 arc sin k1 − 2 arc sin n1 s k2 n2 !r n1 n2 n1 + n2 przy prawdziwości H0 ma w przybliżeniu rozkład normalny N(0, 1). Przykład 6.2 Pewien importer owoców cytrusowych twierdzi, że owoce zawijane w papierki mniej się psują w transporcie od owoców, które importuje się starą metodą bez zawijania. Jednak wprowadzenie nowej metody wiąże się ze zwiększeniem kosztów. Dlatego importer przeprowadził eksperyment, który miał udowodnić, że owoce zawijane w papierki mniej się psują od nie zawijanych. Pobrał próbę losową 200 owoców zawijanych w papierki, z których uległo zepsuciu 85, oraz 150 owoców nie zawijanych w papierki, w których znaleziono 60 owoców zepsutych. Na poziomie istotności 0.05 oceń czy badania importera potwierdzają jego twierdzenie. Przykład 6.2 Testujemy hipotezę: H0 : p 1 = p 2 Przy alternatywie: H1 : p 1 < p 2 Przykład 6.2 Testujemy hipotezę: H0 : p 1 = p 2 Przy alternatywie: H1 : p 1 < p 2 Dane: k1 = 85 n1 = 200 k2 = 60 n2 = 150 Przykład 6.2 Testujemy hipotezę: H0 : p 1 = p 2 Przy alternatywie: H1 : p 1 < p 2 Dane: k1 = 85 n1 = 200 k2 = 60 n2 = 150 Estymatory dla frakcji owoców popsutych w partii zawijanej i nie zawijanej w papierki są postaci: p̂1 = p̂2 = p̂ = k1 n1 = k2 n2 = k1 +k2 n1 +n2 85 200 60 150 = 0.43 = 0.40 145 = 350 = 0.41 Przykład 6.2 Statystyka testowa przyjmuje wartość: Z=r pˆ1 − pˆ2 p̂(1 − p̂) 1 n1 + 1 n2 = r 0.43 − 0.4 0.41(1 − 0.41) 1 200 + 1 150 = 0.47 Przykład 6.2 Statystyka testowa przyjmuje wartość: Z=r pˆ1 − pˆ2 p̂(1 − p̂) 1 n1 + 1 n2 = r 0.43 − 0.4 0.41(1 − 0.41) 1 200 Zbiór krytyczny jest postaci: C : (−∞, −u0.975 ] = (−∞, −1.96] + 1 150 = 0.47 Pakiet R - test dla proporcji Statystyka testowa: p̂ − p0 Z=q p0 (1−p0 ) n ∼ N(0, 1), a stąd Statystyka testowa: 2 p̂ − p0 ∼ χ2 (1) Z2 = q p0 (1−p0 ) n Pakiet R - test dla proporcji Statystyka testowa: p̂ − p0 Z=q p0 (1−p0 ) n ∼ N(0, 1), a stąd Statystyka testowa: 2 p̂ − p0 ∼ χ2 (1) Z2 = q p0 (1−p0 ) n W pakiecie R jest zaimplementowana funkcja prop.test, która opiera się na statystyce testowej Z 2 Pakiet R - przykład 6.1 > k =570 > n =1000 > prop . test (k ,n , p =0.53 , correct =F , alternative = ’ greater ’) 1-sample proportions test without continuity correction data: k out of n, null probability 0.53 X-squared = 6.4231, df = 1, p-value = 0.005632 alternative hypothesis: true p is greater than 0.53 95 percent confidence interval: 0.5440939 1.0000000 sample estimates: p 0.57 Pakiet R - przykład 6.1 Uwaga Test z korektą opiera się na statystyce Z2 = 1 1 2 · n q p0 (1−p0 ) n |p̂ − p0 | − która ma w przybliżeniu rozkład χ2 (1) 2 , Pakiet R - przykład 6.1 > k =570 > n =1000 > prop . test (k ,n , p =0.53 , alternative = ’ greater ’) 1-sample proportions test with continuity correction data: k out of n, null probability 0.53 X-squared = 6.2635, df = 1, p-value = 0.006162 alternative hypothesis: true p is greater than 0.53 95 percent confidence interval: 0.5435916 1.0000000 sample estimates: p 0.57 Pakiet R - przykład 6.1 > k =570 > n =1000 > binom . test (k ,n , p =0.53 , alternative = ’ greater ’) Exact binomial test data: k and n number of successes = 570, number of trials = 1000, p-value = 0.006085 alternative hypothesis: true probability of success is greater than 0.53 95 percent confidence interval: 0.5436203 1.0000000 sample estimates: probability of success 0.57 Pakiet R - przykład 6.2 > > > > > k1 =85 k2 =60 n1 =200 n2 =150 prop . test ( c ( k1 , k2 ) ,c ( n1 , n2 ) , correct = F ) 2-sample test for equality of proportions without continuity correction data: c(k1, k2) out of c(n1, n2) X-squared = 0.2208, df = 1, p-value = 0.6385 alternative hypothesis: two.sided 95 percent confidence interval: -0.07911588 0.12911588 sample estimates: prop 1 prop 2 0.425 0.400 Literatura: • Bartoszewicz J.,Wykłady ze statystyki matematycznej, PWN, Warszawa 1989. • Koronacki J. i Mielniczuk J., Statystyka, dla studentów kierunków technicznych i przyrodniczych, WNT, 2001 • Magiera M, Modele i metody statystyki matematycznej, część II, wnioskowanie statystyczne, Wrocław, 2007