Testowanie hipotez dla proporcji

advertisement
Testowanie hipotez dla proporcji
Wrocław, 13 kwietnia 2015
Powtórka z rachunku prawdopodobieństwa
Centralne Twierdzenie Graniczne
Niech X = (X1 , X2 , . . . , Xn )0 oznacza próbę z rozkładu o średniej µ
i skończonej wariancji σ 2 . Wówczas dla dowolnych liczb
rzeczywistych a, b, przy n → ∞ zachodzi
X̄ − µ
P a¬ √ ¬b
σ n
!
= Φ(b) − Φ(a).
Powtórka z rachunku prawdopodobieństwa
Centralne Twierdzenie Graniczne
Niech X = (X1 , X2 , . . . , Xn )0 oznacza próbę z rozkładu o średniej µ
i skończonej wariancji σ 2 . Wówczas dla dowolnych liczb
rzeczywistych a, b, przy n → ∞ zachodzi
X̄ − µ
P a¬ √ ¬b
σ n
Zmienna losowa
X̄ √
−µ
σ n
!
= Φ(b) − Φ(a).
zbiega do rozkładu normalnego N(0, 1), a
stąd X̄ ma w przybliżeniu rozkład normalny z parametrami
√
N(µ, σ/ n)
Powtórka z rachunku prawdopodobieństwa
Niech X = (X1 , X2 , . . . , Xn )0 będzie próbą z rozkładu 0 − 1 z
prawdopodobieństwem sukcesu p. Centralne Twierdzenie Graniczne
przyjmuje postać:

p̂ − p
P a ¬ q
p(1−p)
n

¬ b  = Φ(b) − Φ(a).
Powtórka z rachunku prawdopodobieństwa
Uwaga:
W praktyce z aproksymacji rozkładem normalnym można
korzystac, gdy jednocześnie:
np̂ > 5
n(1 − p̂) > 5
Test dla proporcji
Niech X = (X1 , X2 , . . . , Xn )0 oznacza próbę z rozkładu
dwupunktowego, z prawdopodobieństwem sukcesu p.
P(X = 1) = p
P(X = 0) = 1 − p = q
Test dla proporcji
Niech X = (X1 , X2 , . . . , Xn )0 oznacza próbę z rozkładu
dwupunktowego, z prawdopodobieństwem sukcesu p.
P(X = 1) = p
P(X = 0) = 1 − p = q
Przez
p̂ = X̄
oznaczamy estymator parametru p i jest on równy frakcji z jaką
pojawia się 1, tj. jeżeli w próbie n-elementowej k zmiennych
losowych przyjmuje wartość 1, wówczas
p̂ = X̄ =
k
n
Test dla proporcji
Niech X = (X1 , X2 , . . . , Xn )0 oznacza próbę z rozkładu
dwupunktowego, z prawdopodobieństwem sukcesu p.
Test dla proporcji
Niech X = (X1 , X2 , . . . , Xn )0 oznacza próbę z rozkładu
dwupunktowego, z prawdopodobieństwem sukcesu p.
Testujemy hipotezę:
H0 : p = p 0
Przy możliwych alternatywach:
H1 : p 6= p0
H2 : p < p 0
H3 : p > p 0
Test dla proporcji
Statystyka testowa postaci:
p̂ − p0
Z=q
p0 (1−p0 )
n
przy prawdziwości H0 ma w przybliżeniu standardowy rozkład
normalny.
Test dla proporcji
Statystyka testowa postaci:
p̂ − p0
Z=q
p0 (1−p0 )
n
przy prawdziwości H0 ma w przybliżeniu standardowy rozkład
normalny.
Obszar krytyczny, w zależności od alternatywy, wyznaczamy w
oparciu o odpowiednie kwantyle rozkładu normalnego.
Przykład 6.1
Pewne ugrupowanie polityczne było przekonane, że poparcie
Polaków dla jednego z kandydatów na prezydenta miasta X nigdy
nie przekroczy 53%. Po przeprowadzeniu ankiety wśród 1000
mieszkańców tego miasta poparcie dla tego kandydata przedstawiło
570 ankietowanych. Przetestować hipotezę, że poparcie będzie
równe 53% przy alternatywie, że przekroczy 53%.
Przykład 6.1
Pewne ugrupowanie polityczne było przekonane, że poparcie
Polaków dla jednego z kandydatów na prezydenta miasta X nigdy
nie przekroczy 53%. Po przeprowadzeniu ankiety wśród 1000
mieszkańców tego miasta poparcie dla tego kandydata przedstawiło
570 ankietowanych. Przetestować hipotezę, że poparcie będzie
równe 53% przy alternatywie, że przekroczy 53%.
Testujemy hipotezę:
H0 : p = 53%
Przy alternatywie:
H1 : p > 53%
Przykład 6.2
Dane:
k = 570
n = 1000
Przykład 6.2
Dane:
k = 570
n = 1000
Estymator frakcji popierających kandydata na prezydenta miasta X
p̂ = 0.57
Przykład 6.2
Dane:
k = 570
n = 1000
Estymator frakcji popierających kandydata na prezydenta miasta X
p̂ = 0.57
Statystyka testowa postaci:
p̂ − p0
Z=q
p0 (1−p0 )
n
0.57 − 0.53
=q
= 2.53
0.53(1−0.53)
1000
Przykład 6.2
Dane:
k = 570
n = 1000
Estymator frakcji popierających kandydata na prezydenta miasta X
p̂ = 0.57
Statystyka testowa postaci:
p̂ − p0
Z=q
p0 (1−p0 )
n
0.57 − 0.53
=q
= 2.53
0.53(1−0.53)
1000
Zbiór krytyczny jest postaci:
C : [u(0.95), ∞) = [1.64, ∞)
Test dla porównania dwóch frakcji
Badana cecha X w dwóch populacjach (w pierwszej cecha X1 , w
drugiej X2 ) ma rozkład dwupunktowy z prawdopodobieństwami
sukcesu p1 i p2 odpowiednio.
Test dla porównania dwóch frakcji
Badana cecha X w dwóch populacjach (w pierwszej cecha X1 , w
drugiej X2 ) ma rozkład dwupunktowy z prawdopodobieństwami
sukcesu p1 i p2 odpowiednio.
Testujemy hipotezę:
H0 : p1 = p2
Przy możliwych alternatywach:
H1 : p1 6= p2
H2 : p1 < p2
H3 : p1 > p2
Test dla porównania dwóch frakcji
Statystyka testowa postaci:
Z=r
pˆ1 − pˆ2
p̂(1 − p̂)
1
n1
+
1
n2
,
gdzie
p̂1 =
k1
n1
p̂2 =
k2
n2
p̂ =
k1 + k2
n1 + n2
przy prawdziwości H0 ma w przybliżeniu rozkład normalny N(0, 1).
Test dla porównania dwóch frakcji
Statystyka testowa postaci:
Z=r
pˆ1 − pˆ2
p̂(1 − p̂)
1
n1
+
1
n2
,
gdzie
p̂1 =
k1
n1
p̂2 =
k2
n2
p̂ =
k1 + k2
n1 + n2
przy prawdziwości H0 ma w przybliżeniu rozkład normalny N(0, 1).
Obszar krytyczny, w zależności od alternatywy, wyznaczamy w
oparciu o odpowiednie kwantyle rozkładu normalnego.
Test dla porównania dwóch frakcji
W sytuacji, gdy liczności obu prób nie są wystarczająco duże,
statystyka testowa postaci
s
Z=
2 arc sin
k1
− 2 arc sin
n1
s
k2
n2
!r
n1 n2
n1 + n2
przy prawdziwości H0 ma w przybliżeniu rozkład normalny N(0, 1).
Przykład 6.2
Pewien importer owoców cytrusowych twierdzi, że owoce zawijane
w papierki mniej się psują w transporcie od owoców, które
importuje się starą metodą bez zawijania. Jednak wprowadzenie
nowej metody wiąże się ze zwiększeniem kosztów. Dlatego
importer przeprowadził eksperyment, który miał udowodnić, że
owoce zawijane w papierki mniej się psują od nie zawijanych.
Pobrał próbę losową 200 owoców zawijanych w papierki, z których
uległo zepsuciu 85, oraz 150 owoców nie zawijanych w papierki, w
których znaleziono 60 owoców zepsutych. Na poziomie istotności
0.05 oceń czy badania importera potwierdzają jego twierdzenie.
Przykład 6.2
Testujemy hipotezę:
H0 : p 1 = p 2
Przy alternatywie:
H1 : p 1 < p 2
Przykład 6.2
Testujemy hipotezę:
H0 : p 1 = p 2
Przy alternatywie:
H1 : p 1 < p 2
Dane:
k1 = 85 n1 = 200
k2 = 60 n2 = 150
Przykład 6.2
Testujemy hipotezę:
H0 : p 1 = p 2
Przy alternatywie:
H1 : p 1 < p 2
Dane:
k1 = 85 n1 = 200
k2 = 60 n2 = 150
Estymatory dla frakcji owoców popsutych w partii zawijanej i nie
zawijanej w papierki są postaci:
p̂1 =
p̂2 =
p̂ =
k1
n1 =
k2
n2 =
k1 +k2
n1 +n2
85
200
60
150
= 0.43
= 0.40
145
= 350 = 0.41
Przykład 6.2
Statystyka testowa przyjmuje wartość:
Z=r
pˆ1 − pˆ2
p̂(1 − p̂)
1
n1
+
1
n2
= r
0.43 − 0.4
0.41(1 − 0.41)
1
200
+
1
150
= 0.47
Przykład 6.2
Statystyka testowa przyjmuje wartość:
Z=r
pˆ1 − pˆ2
p̂(1 − p̂)
1
n1
+
1
n2
= r
0.43 − 0.4
0.41(1 − 0.41)
1
200
Zbiór krytyczny jest postaci:
C : (−∞, −u0.975 ] = (−∞, −1.96]
+
1
150
= 0.47
Pakiet R - test dla proporcji
Statystyka testowa:
p̂ − p0
Z=q
p0 (1−p0 )
n
∼ N(0, 1),
a stąd Statystyka testowa:
2

p̂ − p0 
∼ χ2 (1)
Z2 = q
p0 (1−p0 )
n
Pakiet R - test dla proporcji
Statystyka testowa:
p̂ − p0
Z=q
p0 (1−p0 )
n
∼ N(0, 1),
a stąd Statystyka testowa:
2

p̂ − p0 
∼ χ2 (1)
Z2 = q
p0 (1−p0 )
n
W pakiecie R jest zaimplementowana funkcja prop.test, która
opiera się na statystyce testowej Z 2
Pakiet R - przykład 6.1
> k =570
> n =1000
> prop . test (k ,n , p =0.53 , correct =F , alternative = ’ greater ’)
1-sample proportions test without continuity correction
data: k out of n, null probability 0.53
X-squared = 6.4231, df = 1, p-value = 0.005632
alternative hypothesis: true p is greater than 0.53
95 percent confidence interval:
0.5440939 1.0000000
sample estimates:
p
0.57
Pakiet R - przykład 6.1
Uwaga
Test z korektą opiera się na statystyce

Z2 = 
1 1
2 · n
q
p0 (1−p0 )
n
|p̂ − p0 | −
która ma w przybliżeniu rozkład χ2 (1)
2
 ,
Pakiet R - przykład 6.1
> k =570
> n =1000
> prop . test (k ,n , p =0.53 , alternative = ’ greater ’)
1-sample proportions test with continuity correction
data: k out of n, null probability 0.53
X-squared = 6.2635, df = 1, p-value = 0.006162
alternative hypothesis: true p is greater than 0.53
95 percent confidence interval:
0.5435916 1.0000000
sample estimates:
p
0.57
Pakiet R - przykład 6.1
> k =570
> n =1000
> binom . test (k ,n , p =0.53 , alternative = ’ greater ’)
Exact binomial test
data: k and n
number of successes = 570, number of trials = 1000, p-value = 0.006085
alternative hypothesis: true probability of success is greater than 0.53
95 percent confidence interval:
0.5436203 1.0000000
sample estimates:
probability of success
0.57
Pakiet R - przykład 6.2
>
>
>
>
>
k1 =85
k2 =60
n1 =200
n2 =150
prop . test ( c ( k1 , k2 ) ,c ( n1 , n2 ) , correct = F )
2-sample test for equality of proportions without continuity correction
data: c(k1, k2) out of c(n1, n2)
X-squared = 0.2208, df = 1, p-value = 0.6385
alternative hypothesis: two.sided
95 percent confidence interval:
-0.07911588 0.12911588
sample estimates:
prop 1 prop 2
0.425 0.400
Literatura:
• Bartoszewicz J.,Wykłady ze statystyki matematycznej, PWN,
Warszawa 1989.
• Koronacki J. i Mielniczuk J., Statystyka, dla studentów
kierunków technicznych i przyrodniczych, WNT, 2001
• Magiera M, Modele i metody statystyki matematycznej, część
II, wnioskowanie statystyczne, Wrocław, 2007
Download