sad9p(02).

advertisement
ESTYMACJA PUNKTOWA
Niech X1 , X 2 ,..., X n będzie prostą próbą losową z
rozkładu, którego parametr  jest nieznany.
Definicja. Statystykę h( X1, X 2 ,..., X n ) , której
realizacje dla konkretnych próbek są „rozsądnymi”
ocenami  , nazywamy estymatorem parametru  i
oznaczamy
ˆ = h( X1, X 2 ,..., X n ) .
Definicja. Estymator ˆ parametru jest nieobciążony,
jeśli
E (ˆ)   .
Przykłady.
(a) Średnia z prostej próby losowej jest nieobciążonym
estymatorem wartości średniej  .
E( X )   .
(b) Wariancja z prostej próby losowej jest
nieobciążonym estymatorem wariancji rozkładu cechy
populacji  2 .
 1 n
2
2
E (S )  E
 (Xi  X )    .
 n  1 i 1

2
I. Przedziały ufności dla wartości średniej rozkładu
normalnego.
Niech X1, X 2 ,..., X n będzie prostą próbą losową z
rozkładu normalnego N (  ,  ) .
Model 1. ( znane odchylenie standardowe  )

1 n
X   X i ~ N ( , ) .
n
n i 1
X 
~ N (0,1) .
Z
/ n
Niech   (0,1) - ustalona liczba.
X 
 z1 / 2 ) = 1   , (1)
/ n
gdzie z / 2 = kwantyl rzędu  / 2 rozkładu N (0,1) ,
z1 / 2 = kwantyl rzędu 1   / 2 rozkładu N (0,1) , tzn.
P( z / 2 
P( Z  z / 2 ) 

2
oraz P( Z  z1 / 2 )  1 
Z symetrii standardowej gęstości normalnej
z / 2   z1 / 2 .

2
.
Równanie (1) można zapisać jako
P( z1 / 2
(2)
P( z1 / 2
P( X  z1 / 2
[ X  z1 / 2


n

n
X 

 z1 / 2 ) =
/ n
 X    z1 / 2
   X  z1 / 2
, X  z1 / 2


n

n
)=
) = 1 .
] - przedział losowy
n
n
zawierający z prawdopodobieństwem 1   nieznaną
wartość średnią  . Realizacją tego losowego przedziału
obliczoną dla próbki jest
[ x  z1 / 2

, x  z1 / 2

] =
n
n
przedział ufności dla  na poziomie ufności 1  
Interpretacja częstościowa (sens praktyczny )
przedziału ufności:
Niech x1 , x2 ,..., xN oznaczają średnie próbkowe
obliczone dla N próbek: ( x11 , x12 ,...x1n ) , ( x12 , x22 ,...xn2 ) ,
( x1N , x2N ,...xnN ) . Próbki są realizacjami niezależnych
prostych prób losowych ( X 11 , X 21 ,..., X n1 ),
( X 12 , X 22 ,..., X n2 ),...., ( X 1N , X 2N ,..., X nN ). Dokładniej:
wykonujemy N jednakowych niezależnych
doświadczeń. Każde k-te ( k = 1,2,...,N ) doświadczenie
polega na zaobserwowaniu realizacji k-tej prostej próby
losowej ( X 1k , X 2k ,..., X nk ), tzn. k-tej próbki:
( x1k , x2k ,...xnk ) . Przedział ufności dla  na poziomie
ufności 1   obliczony dla k-tej próbki ma postać
[ xk  z1 / 2

n
, xk  z1 / 2

n
].
Nieznana nam średnia  nie dla każdej próbki należy
do wyznaczonego dla niej przedziału ufności. Ale, niech
N  oznacza liczbę tych doświadczeń dla których


 [ xk  z1 / 2
, xk  z1 / 2
].
n
n
Wówczas na mocy interpretacji częstościowej
prawdopodobieństwa zdarzenia, dla N   ,
N
 P(   [ X  z1 / 2

, X  z1 / 2

]) =1  
n
n
N
Zatem spośród wielu próbek w przybliżeniu (1   )100%
jest takich dla których wyznaczony przedział ufności
zawiera nieznaną wartość średnią  .
Jak duża powinna być liczność próbki n ?
(a) Długość przedziału [ x  z1 / 2

, x  z1 / 2

n
jest stała ( nie zależy od próbki ) równa
2 z1 / 2

n
]
.
n
Im większe n tym mniejsza długość przedziału ufności,
tzn. tym lepsze oszacowanie przedziałowe  na danym
poziomie ufności.
(b) Ze wzoru (2) mamy
P( X    z1 / 2

n
) = 1 ,
Niech d  0 będzie takie że
2
z




z1 / 2
 d , równoważnie n   1 / 2  .
n
 d

Wówczas (wykorzystując P( A)  P( B) dla A  B )

1   = P( X    z1 / 2
)  P( X    d ) , skąd
n
P( X    d )  1   .
Udowodniliśmy
Stwierdzenie. Jeśli liczność prostej próby losowej z
rozkładu normalnego o wartości średniej  i
standardowym odchyleniu  spełnia warunek
 z1 / 2 
n
 ,
 d

2
to
P( X    d )  1   .
( Z prawdopodobieństwem co najmniej 1   błąd
bezwzględny oszacowania nieznanej wartości średniej
 poprzez X nie przekroczy d , tzn. wśród wielu
próbek o liczności n częstość takich dla których błąd
bezwzględny średniej próbkowej nie przekroczy d jest
w przybliżeniu nie mniejsza niż 1   . )
Zadanie. Stacja paliw sprzedała 8019 litrów gazu w
ciągu 9 losowo wybranych dni. Załóżmy, że dzienna
ilość sprzedanego gazu ma rozkład normalny o
standardowym odchyleniu   90 (litrów).
Skonstruować przedziały ufności dla średniej dziennej
sprzedaży gazu na poziomach ufności:
(a) 0,98
(b) 0,80.
Mamy:
x
9
 xi  8019, n = 9,   90 , skąd
i 1
9019
 891.
9
(a)   0,02, 1   / 2  0,99, z0,99  2,33 .
98% przedział ufności dla  :
[891 – 2,33
90
90
, 891 + 2,33 ] = [821,1, 960,9]
9
9
(b)   0,20 , 1   / 2  0,90, z0,90  1,28 .
80% przedział ufności dla  = [852,6, 929,4].
Zadanie. Producent chce ocenić średnią zawartość
nikotyny w paczkach papierosów pewnego gatunku.
Wiadomo, że standardowe odchylenie zawartości
nikotyny w losowo wybranej paczce papierosów   8
(mg),
Znaleźć liczbę paczek papierosów, w których należy
zbadać zawartość nikotyny, aby na poziomie ufności co
najmniej 0,95 móc stwierdzić, że obliczona średnia z
próbki x nie będzie się różniła od prawdziwej średniej
zawartości nikotyny  o więcej niż 1,5 (mg).
Zakładając rozkład normalny zawartości nikotyny w
paczce papierosów mamy:
Dla   0,05 ,   8, d  1,5 , z1 / 2  z0,975  1,96 .
 z1 / 2 
P( X    d )  0,95, jeśli n  
 , tzn.
 d

2
 1,96  8 
n
 . Stąd liczność próbki powinna być:
 1,5 
n  109 .
2
Model 2. ( nieznane odchylenie standardowe  )
W poprzednim modelu wykorzystano
X 
. Podstawiając zamiast  estymator  , tzn.
Z
/ n
1 n
2
2
2
S  S , gdzie S 
 ( X i  X ) , otrzymujemy
n  1 i 1
zmienną losową
X 
.
T
S/ n
T ma znany rozkład: t Studenta z n  1 stopniami
swobody, gdzie
Definicja. Niech Z 0 , Z1,..., Z k będą niezależnymi
zmiennymi losowymi o rozkładach N (0,1) .
Rozkład prawdopodobieństwa zmiennej losowej
V =
Z0
nazywamy rozkładem t
 ... 
Studenta z k stopniami swobody.
( Z12
Z k2 ) / k
Notacja. V ~ tk .
Własności rozkładu t k :
Gęstość symetryczna o podobnym kształcie jak gęstość
normalna, E (V )  0, Dla k  30 można przyjąć
tk  N (0,1) .
Mając zmienną losową T ~ tn 1 budujemy przedział
ufności dla  analogicznie jak w modelu 1:
[ x  t1 / 2, n 1
s
s
, x  t1 / 2, n 1
] , gdzie
n
n
t1 / 2, n 1 = kwantyl rzędu 1   / 2 rozkładu t Studenta
o n  1 stopniach swobody.
Uwaga. Jeśli n  30 , to przyjmujemy
t1 / 2, n 1  z1 / 2 .
Zadanie. Zanotowano czasy obsługi przy okienku
kasowym ( w minutach ) 64 losowo wybranych
klientów pewnego banku. Obliczono: średnią z próbki
x  3,2 (min.) oraz wariancję z próbki s 2  1,44 (min. 2 )
Znaleźć 98% przedział ufności dla średniego czasu
obsługi  , jeśli można założyć, że czas obsługi klienta
przy okienku kasowym ma rozkład normalny.
Mamy: x  3,2 , s  1,44 , n =64, n  1  63 = liczba
stopni swobody,   0,02 , 1   / 2  0,99,
t0,99,63  z0,99  2,33 .
98% przedział ufności dla  ma postać
[ x  t1 / 2, n 1
[3,2 - 2,33
s
s
, x  t1 / 2, n 1
]=
n
n
1,44
1,44
, 3,2 + 2,33
] = [2,85, 3,55].
64
64
Zadanie. W ciągu pięciu losowo wybranych tygodni
zaobserwowano następujące zużycia cukru ( w
gospodarstwie domowym, w kg ):
3,8, 4,5, 5,2, 4,0, 5,5.
Skonstruować 90% przedział ufności dla średniego
tygodniowego zużycia cukru w tym gospodarstwie, jeśli
można przyjąć rozkład normalny zużycia cukru.
Obliczamy: x = 4,6 oraz
5
2
2
2
2
2
2
 ( xi  x )  (0,8)  (0,1)  (0,6)  (0,6)  (0,9)
i 1
= 2,18.
Stąd, s 2 
2,18
 0,545, s  0,545 = 0,738
5 1
  0,1, 1   / 2  0,95, 5 – 1 = 4 = liczba stopni
swobody, t0,95, 4  2,132.
90% przedział ufności dla  ma postać:
[ x  t1 / 2, n 1
s
s
, x  t1 / 2, n 1
]=
n
n
[ 4,6 – 2,132
0,738
0,738
, 4,6 + 2,132
]= [3,896, 5,304].
5
5
II. Przedziały ufności dla różnicy wartości średnich
dwóch rozkładów normalnych.
Niech X1 , X 2 ,..., X n1 oraz Y1 , Y2 ,...,Yn2 będą dwiema
niezależnymi prostymi próbami losowymi z rozkładów
normalnych N ( 1 ,  1 ) oraz N (  2 ,  2 ) , odpowiednio.
Model 3. ( znane odchylenia standardowe  1 ,  2 )
Średnie z obu prób losowych X , Y są niezależnymi
zmiennymi losowymi o rozkładach normalnych
N ( 1 ,
1
) , N (2 ,
2
) , odpowiednio. Stąd z
n1
n2
własności rozkładu normalnego X  Y ma rozkład
normalny o wartości średniej 1   2 i wariancji
 12  22

, gdyż
n1 n2
E( X  Y ) = E( X ) + E( - Y ) = E( X ) - E( Y )
Var( X  Y ) = Var( X ) + Var(-Y ) =
 12  22
2

Var( X ) + (1) Var(Y ) =
,
n1 n2
skąd po standaryzacji mamy
( X  Y )  ( 1   2 )
Z
 12 / n1   22 / n2
~ N (0,1) .
Postępując dokładnie tak samo jak w przypadku jednej


, x  z1 / 2
] )otrzymamy
próby ( [ x  z1 / 2
n
n
przedział ufności dla 1   2 na poziomie ufności 1   :

 12  22
 12  22 

, ( x  y )  z1 / 2

( x  y )  z1 / 2

n1 n2
n1 n2 

Model 4. ( nieznane odchylenia standardowe  1 ,  2 )
Założenie dodatkowe:  1   2   ,  - nieznane.
Z
( X  Y )  ( 1   2 )
 12 / n1   22 / n2
=
( X  Y )  ( 1   2 )
 1 / n1  1 / n2
1 1
Var( X  Y ) =  2    ,
 n1 n2 
Niech
1 n1
1 n2
2
2
2

 ( X i  X ) , S2 
 (Yi  Y ) n1  1 i 1
n2  1 i 1
nieobciążone estymatory  2 .
S12
Estymatorem nieobciążonym  2 , opartym na dwu
próbach łącznie, jest statystyka
S 2p
(n1  1) S12  (n2  1) S 22

.
n1  n2  2
Wówczas we wzorze na Z podstawiając S p  S 2p
zamiast  otrzymujemy statystykę
T
( X  Y )  ( 1   2 )
~ tn1 n2  2 .
1 1
Sp

n1 n2
Analogicznie jak w modelu 3 otrzymujemy przedział
ufności dla 1   2 na poziomie ufności 1   :

1 1
1 1
(
x

y
)

t
s

,
(
x

y
)

t
s
 
1 / 2 p
1 / 2 p

n1 n2
n1 n2 

gdzie:
t1 / 2  t1 / 2, n1  n
2
2
= kwantyl rzędu n1  n2  2
rozkładu t Studenta z n1  n2  2 stopniami swobody.
Zadanie. 10 żarówek producenta A miało średni czas
życia 1850 (godz.) oraz standardowe odchylenie
s1  130 (godz.). Natomiast 12 żarówek producenta B
miało średni czas życia 1940 (godz.) oraz standardowe
odchylenie s2  140 (godz.). Skonstruować 95%
przedział ufności dla różnicy prawdziwych wartości
średnich czasów życia żarówek producentów A i B.
( podać odpowiednie założenia ).
Zadanie. U 8 kierowców zanotowano czasy reakcji (
na pewien bodziec ) w sek. :
3,0, 2,0, 1,0, 2,5, 1,5, 4,0, 1,0, 2,0.
U 6 innych kierowców zbadano czasy reakcji n bodziec
po spożyciu określonej dawki alkoholu:
5,0, 4,0, 3,0, 4,5, 2,0, 2,5.
Znaleźć 95% przedział ufności dla różnicy wartości
średnich czasów reakcji w obu populacjach.
Zadanie. Dla realizacji 2 niezależnych prób losowych
z rozkładów normalnych otrzymano:
x  50 , s1  6 , n1  10,
y  56, s2  8, n2  14 ,
Znaleźć 90% przedział ufności dla różnicy wartości
średnich tych rozkładów.
s 2p
(n1  1) s12  (n2  1) s22 9  6 2  13  82

=
= 52,55.
n1  n2  2
10  14  2
s p  7,249.   0,1, 1   / 2  0,95, n1  n2  2  22 =
liczba stopni swobody, t0,95, 22  1,717.

1 1
1 1
 , ( x  y )  1,717s p
 
( x  y )  1,717s p
n1 n2
n1 n2 

1 1
 , 50 – 56 +
10 14
[50 – 56 – 1,717(7,249)
1,717(7,249)
1 1
 ]
10 14
= [-11,15, -0,85].
III. Przedziały ufności dla wariancji rozkładu
normalnego.
Model 5. Przedział ufności dla wariancji.
Niech X1, X 2 ,..., X n będzie prostą próbą losową z
rozkładu normalnego N (  ,  ) ,  ,  są nieznane.
Definicja. Niech X1 , X 2 ,..., X n będą niezależnymi
zmiennymi losowymi o rozkładach N (0,1) . Wówczas
zmienna losowa
n
   X i2
2
i 1
ma rozkład  2 o n stopniach swobody.
Notacja:  2 ~  n2 .
Zauważmy, że dla prostej próby losowej z rozkładu
N (  ,  ) , po standaryzacji, zmienne losowe
Xn  
X1   X 2  
,
,...,
są niezależne o rozkładach


N (0,1) . Stąd

 Xi   
2

 ~ n
 
i 1
Dowodzi się, że zastępując nieznaną wartość średnią 
przez średnią z próby losowej X otrzymamy zmienną
losową:
2
n
Stąd
2
(n  1) S 2
 Xi  X 
2
2
~

  
 
n
1 .
2
 

i 1
n
 2

(n  1) S 2
2
P  / 2, n 1 


 1   , (3)
1 / 2, n 1 
2




gdzie 2 / 2, n 1, 12 / 2, n 1 są kwantylami rzędu  / 2,
1   / 2, odpowiednio, rozkładu  n21.
Wzór (3) zapisujemy równoważnie:
2
 (n  1) S 2
(
n

1
)
S
2
  1 .
P 2
  2

 / 2, n 1 
 1 / 2, n 1
Stąd, przedziałami ufności na poziomie ufności 1   są
(a) dla wariancji  2 rozkładu normalnego
 (n  1) s 2 (n  1) s 2 
, 2
 2
,
 1 / 2, n 1  / 2, n 1 
(b) dla standardowego odchylenia  rozkładu
normalnego
 (n  1) s 2
(n  1) s 2 
,
 2
.
2
 1 / 2, n 1  / 2, n 1 
Zadanie. Plastyk zużył następujące ilości farby do
pomalowania 6 talerzy:
8,1, 8,7, 7,6, 7,8, 8,5, 7,9.
Znaleźć 95% przedział ufności dla wariancji, zakładając
rozkład normalny farby potrzebnej do pomalowania 1
talerza.
Rozwiązanie.
6
Obliczamy  ( xi  x ) 2  0,9. Stąd
i 1
6
2
 ( xi  x )
s 2  i 1
6 1
=
0,9
= 0,18.
5
  0,05,  / 2 = 0,025, 1   / 2 = 0,975,
n  1  6  1  5 = liczba stopni swobody.
Z tablic kwantyli rozkładu  52 można odczytać
 02,025,5  0,831,  02,975,5  12,832
 (n  1) s 2 (n  1) s 2   0,9
0,9 
,
, 2
 2
=

 1 / 2, n 1  / 2, n 1  12,832 0,831
Model 6. Przedział ufności dla ilorazu wariancji
dwóch rozkładów normalnych.
Niech X1 , X 2 ,..., X n1 oraz Y1 , Y2 ,...,Yn2 będą dwiema
niezależnymi prostymi próbami losowymi z rozkładów
normalnych N ( 1 ,  1 ) oraz N (  2 ,  2 ) , odpowiednio.
Wówczas
(n1  1) S12
 12
,
(n2  1) S 22
 22
są niezależnymi
zmiennymi losowymi, o rozkładach  2 o n1  1, n2  1
stopniach swobody, odpowiednio.
Definicja. Niech U, V będą niezależnymi zmiennymi
losowymi oraz U ~  r2 , V ~  k2 . Wówczas rozkład
prawdopodobieństwa zmiennej
U /r
nazywamy rozkładem F Snedecora z r i k
V /k
stopniami swobody.
[(n1  1) S12 /  12 ] /(n1  1) S12 /  12
= 2 2
2
2
[(n2  1) S 2 /  2 ] /(n2  1) S 2 /  2
S12 /  12
Zatem zmienna losowa
ma rozkład F
2
2
S2 /  2
Snedecora z n1  1, n2  1 stopniami swobody.
P( f / 2
S12 /  12
 2 2  f1 / 2 ) 
S2 /  2
2
2
 S 22


S
2
2

P 2 f / 2  2  2 f1 / 2  = 1   ,
 1 S1
 S1

gdzie f / 2 , f1 / 2 są kwantylami rzędu  / 2,1   / 2 ,
odpowiednio, rozkładu F Snedecora z n1  1, n2  1
stopniami swobody.
Wiadomo, że f1 / 2  ( f / 2 ) 1 . Zatem przedział
 22
ufności dla ilorazu wariancji 2 na poziomie ufności
1
1   ma postać
2
 s22

1 s2
.
(
f
)
,
f
 2 1 / 2
2 1 / 2 
s1
 s1

IV. Przedziały ufności dla proporcji.
Model 7. Niech X1, X 2 ,..., X n będzie prostą próbą
losową z rozkładu Bernoulli’ego o nieznanym
parametrze p.
Wówczas   E ( X 1 ) ,  2  p(1  p) .
Niech p̂ = X . Z centralnego twierdzenia granicznego
dla dostatecznie dużego n zmienna losowa
pˆ  p
ma rozkład bliski rozkładowi N (0,1).
p (1  p )
n
( musi zachodzić np  5, n(1  p)  5 ).
Można też udowodnić, że zmienna losowa
pˆ  p
ma rozkład bliski N (0,1) , o ile
pˆ (1  pˆ )
n
npˆ  5, n(1  pˆ )  5 .
Stąd


P  z1 / 2 





pˆ  p
 z1 / 2   1   .

pˆ (1  pˆ )

n

Równoważnie

pˆ (1  pˆ )
pˆ (1  pˆ ) 

P pˆ  z1 / 2
 p  pˆ  z1 / 2
n
n


 1
Przedział ufności dla p na poziomie ufności 1   jest
realizacją przedziału losowego:

pˆ (1  pˆ )
pˆ (1  pˆ ) 
p

z
,
p

z
ˆ
ˆ
.
1 / 2
1 / 2


n
n


Przykład. W badaniach opinii publicznej otrzymano
wynik: 57% spośród 1000 ankietowanych Polaków
poparło wejście Polski do Unii Europejskiej, a
pozostałych 43% osób było przeciwnych.
Skonstruować 95% przedział ufności dla proporcji p
obywateli popierających wejście Polski do UE.
Mamy:
p̂ = 0,57, 1   = 0,95,   0,05 ,
1   / 2 = 1 – 0,025 =0,975. Z tablic: z0,975 = 1,96.
Próba jest bardzo liczna oraz spełnione są warunki
npˆ  1000 0,57  5 , n(1  pˆ )  1000  0,43  5 .
Zatem można wykorzystać powyżej znaleziony
przybliżony przedział ufności:

pˆ (1  pˆ )
pˆ (1  pˆ ) 
p

z
,
p

z
=
ˆ
ˆ
1 / 2
1 / 2


n
n



0,57  0,43
0,57  0,43 
0
,
57

1
,
96
,
0
,
57

1
,
96
=


1000
1000 

= [0,54, 0,60].
Zatem mamy „95% pewności”, że proporcja Polaków
popierających wejście Polski do UE jest liczbą z
przedziału [0,54, 0,60].
Zadanie. Spośród 400 dorosłych przypadkowo
wybranych osób zapytanych o regularne uprawianie
sportu rekreacyjnego 160 osób odpowiedziało
twierdząco. Skonstruować 98% przedział ufności dla
p = proporcji osób uprawiających sport rekreacyjny w
danej populacji.
160
= 0,4, n = 400,   0,02 ,
400
1   / 2  0,99, z0,99  2,33 .
npˆ  160  5 , n(1  pˆ )  240  5.
Mamy: pˆ 

pˆ (1  pˆ )
pˆ (1  pˆ ) 
p

z
,
p

z
=
ˆ
ˆ
1 / 2
1 / 2


n
n



0,4  0,6
0,4  0,6 
0
,
4

2
,
33
,
0
,
4

2
,
33
=


400
400 

= [0,343, 0,457] = 98% przedział ufności dla p.
Download