sad10przuf

advertisement
ESTYMACJA PUNKTOWA
Niech X1 , X 2 ,..., X n będzie prostą próbą losową z
rozkładu, którego parametr  jest nieznany.
Definicja. Statystykę h( X1, X 2 ,..., X n ) , której
realizacje dla konkretnych próbek są „rozsądnymi”
ocenami  , nazywamy estymatorem parametru  i
oznaczamy
ˆ = h( X1, X 2 ,..., X n )
Definicja. Estymator ˆ parametru jest nieobciążony,
jeśli
E (ˆ)   .
Przykłady.
 Średnia z prostej próby losowej jest nieobciążonym
estymatorem wartości średniej  :
E( X )  
 Wariancja z prostej próby losowej jest
nieobciążonym estymatorem wariancji rozkładu
cechy populacji  2 :
 n

1
2
E (S ) 
E   ( X i  X )    2
n  1  i 1

2
ESTYMACJA PRZEDZIAŁOWA
I. Przedziały ufności dla wartości średniej rozkładu
normalnego.
Niech X1, X 2 ,..., X n będzie prostą próbą losową z
rozkładu normalnego N (  ,  ) .
Model 1. ( znane odchylenie standardowe  )

1 n
N
(

,
).
X   Xi ~
n
n i 1
Z
X 
~ N (0,1) .
/ n
Niech   (0,1) - ustalona liczba.
P( z / 2  Z  z1 / 2 ) = 1   ,
(1)
gdzie z / 2 = kwantyl rzędu  / 2 rozkładu N (0,1) ,
z1 / 2 = kwantyl rzędu 1   / 2 rozkładu N (0,1) , tzn.
P( Z  z / 2 ) 

2
oraz P( Z  z1 / 2 )  1 
Z symetrii standardowej gęstości normalnej
z / 2   z1 / 2 .
Równanie (1) można zapisać jako
P( z1 / 2  Z  z1 / 2 ) = 1   .
Podstawiając dokładną postać Z mamy
P( z1 / 2 
X 
 z1 / 2 ) =
/ n

2
.
(2)
P( z1 / 2
P( X  z1 / 2
[ X  z1 / 2

n

n

n
 X    z1 / 2
   X  z1 / 2
, X  z1 / 2

n

n

n
)=
) = 1 .
] - przedział losowy
zawierający z prawdopodobieństwem 1   nieznaną
wartość średnią  .
[ x  z1 / 2

n
, x  z1 / 2

n
] =
przedział ufności dla  na poziomie ufności 1   (
obliczony na podstawie konkretnej próbki).
Interpretacja częstościowa (sens praktyczny )
przedziału ufności:
Niech x1 , x2 ,..., xN oznaczają średnie próbkowe
obliczone dla N próbek: ( x11 , x12 ,...x1n ) , ( x12 , x22 ,...xn2 ) ,
( x1N , x2N ,...xnN ) . Próbki są realizacjami niezależnych
prostych prób losowych ( X 11 , X 21 ,..., X n1 ),
( X 12 , X 22 ,..., X n2 ),...., ( X 1N , X 2N ,..., X nN ). Dokładniej:
wykonujemy N jednakowych niezależnych
doświadczeń. Każde k-te ( k = 1,2,...,N ) doświadczenie
polega na zaobserwowaniu realizacji k-tej prostej próby
losowej ( X 1k , X 2k ,..., X nk ), tzn. k-tej próbki:
( x1k , x2k ,...xnk ) . Przedział ufności dla  na poziomie
ufności 1   obliczony dla k-tej próbki ma postać
[ xk  z1 / 2

n
, xk  z1 / 2

n
].
Nieznana nam średnia  nie dla każdej próbki należy
do wyznaczonego dla niej przedziału ufności. Ale, niech
N  oznacza liczbę tych doświadczeń dla których
 [ xk  z1 / 2

, xk  z1 / 2
n

n
].
Wówczas na mocy interpretacji częstościowej
prawdopodobieństwa zdarzenia, dla N   ,
N
N
 P(   [ X  z1 / 2

n
, X  z1 / 2

n
]) =1  
Zatem spośród wielu próbek w przybliżeniu (1   )100%
jest takich dla których wyznaczony przedział ufności
zawiera nieznaną wartość średnią  .
Jak duża powinna być liczność próbki n ?
 Długość przedziału [ x  z1 / 2

n
, x  z1 / 2

n
]
jest stała ( nie zależy od próbki ) równa
2 z1 / 2

n
.
Im większe n tym mniejsza długość przedziału ufności,
tzn. tym lepsze oszacowanie przedziałowe  na danym
poziomie ufności.
 Ze wzoru (2) mamy
P( X    z1 / 2

n
) = 1 ,
Niech d  0 będzie takie że
z1 / 2

z
 d , równoważnie n   1 / 2  .
n
 d


2
Wówczas (wykorzystując P( A)  P( B) dla A  B )
1   = P( X    z1 / 2

n
)  P( X    d ) , skąd
P( X    d )  1   .
Udowodniliśmy
Stwierdzenie. Jeśli liczność prostej próby losowej z
rozkładu normalnego o wartości średniej  i
standardowym odchyleniu  spełnia warunek

z
n   1 / 2  ,
 d

2
to
P( X    d )  1   .
( Z prawdopodobieństwem co najmniej 1   błąd
bezwzględny oszacowania nieznanej wartości średniej
 poprzez X nie przekroczy d , tzn. wśród wielu
próbek o liczności n częstość takich dla których błąd
bezwzględny średniej próbkowej nie przekroczy d jest
w przybliżeniu nie mniejsza niż 1   . )
Zadanie. Stacja paliw sprzedała 8019 litrów gazu w
ciągu 9 losowo wybranych dni. Załóżmy, że dzienna
ilość sprzedanego gazu ma rozkład normalny o
standardowym odchyleniu   90 (litrów).
Skonstruować przedziały ufności dla średniej dziennej
sprzedaży gazu na poziomach ufności:
(a) 0,98
(b) 0,80.
9
Mamy:
 xi  8019,
n = 9,   90 , skąd
i 1
x
9019
 891.
9
 (a)   0,02, 1   / 2  0,99, z0,99  2,33.
98% przedział ufności dla  :
[891 – 2,33
90
90
, 891 + 2,33 ] = [821,1, 960,9]
9
9
 (b)   0,20 , 1   / 2  0,90, z0,90  1,28 .
80% przedział ufności dla  = [852,6, 929,4].
Zadanie. Producent chce ocenić średnią zawartość
nikotyny w paczkach papierosów pewnego gatunku.
Wiadomo, że standardowe odchylenie zawartości
nikotyny w losowo wybranej paczce papierosów   8
(mg),
Znaleźć liczbę paczek papierosów, w których należy
zbadać zawartość nikotyny, aby na poziomie ufności co
najmniej 0,95 móc stwierdzić, że obliczona średnia z
próbki x nie będzie się różniła od prawdziwej średniej
zawartości nikotyny  o więcej niż 1,5 (mg).
Zakładając rozkład normalny zawartości nikotyny w
paczce papierosów mamy:
Dla   0,05 ,   8, d  1,5 , z1 / 2  z0,975  1,96 .

z
P( X    d )  0,95 , jeśli n   1 / 2  , tzn.
 d

2
2
 1,96  8 
n
 . Stąd liczność próbki powinna być:
 1,5 
n  109 .
Model 2. ( nieznane odchylenie standardowe  )
W poprzednim modelu wykorzystano
X 
. Podstawiając zamiast  estymator  , tzn.
Z
/ n
1 n
2
S  S , gdzie S 
 ( X i  X ) , otrzymujemy
n  1 i 1
2
2
zmienną losową
T
X 
.
S/ n
T ma znany rozkład: t Studenta z n  1 stopniami
swobody, gdzie
Definicja. Niech Z 0 , Z1,..., Z k będą niezależnymi
zmiennymi losowymi o rozkładach N (0,1) .
Rozkład prawdopodobieństwa zmiennej losowej
V =
Z0
( Z12
 ... 
Z k2 ) / k
nazywamy rozkładem t
Studenta z k stopniami swobody.
Notacja. V ~ tk .
Własności rozkładu t k :
Gęstość symetryczna o podobnym kształcie jak gęstość
normalna, E (V )  0, Dla k  30 można przyjąć
tk  N (0,1) .
Mając zmienną losową T ~ tn 1 budujemy przedział
ufności dla  analogicznie jak w modelu 1:
[ x  t1 / 2, n 1
s
s
, x  t1 / 2, n 1
] , gdzie
n
n
t1 / 2, n 1 = kwantyl rzędu 1   / 2 rozkładu t Studenta
o n  1 stopniach swobody.
Uwaga. Jeśli n  30 , to przyjmujemy
t1 / 2, n 1  z1 / 2 .
Zadanie. Zanotowano czasy obsługi przy okienku
kasowym ( w minutach ) 64 losowo wybranych
klientów pewnego banku. Obliczono: średnią z próbki
x  3,2 (min.) oraz wariancję z próbki s 2  1,44 (min. 2 )
Znaleźć 98% przedział ufności dla średniego czasu
obsługi  , jeśli można założyć, że czas obsługi klienta
przy okienku kasowym ma rozkład normalny.
Mamy: x  3,2 , s  1,44 , n =64,   0,02 ,
t1 0,02 / 2,63  t0,99,63  z0,99  2,33 .
98% przedział ufności dla  ma postać
[ x  t1 / 2, n 1
[3,2 - 2,33
s
s
, x  t1 / 2, n 1
]=
n
n
1,44
1,44
, 3,2 + 2,33
] = [2,85, 3,55].
64
64
Zadanie. W ciągu pięciu losowo wybranych tygodni
zaobserwowano następujące zużycia cukru ( w
gospodarstwie domowym, w kg ):
3,8, 4,5, 5,2, 4,0, 5,5.
Skonstruować 90% przedział ufności dla średniego
tygodniowego zużycia cukru w tym gospodarstwie, jeśli
można przyjąć rozkład normalny zużycia cukru.
Obliczamy: x = 4,6 oraz
5
2
2
2
2
2
2
 ( xi  x )  (0,8)  (0,1)  (0,6)  (0,6)  (0,9)
i 1
= 2,18.
Stąd, s 2 
2,18
 0,545, s  0,738.
5 1
  0,1, 1   / 2  0,95, 5 – 1 = 4 = liczba stopni
swobody, t0,95, 4  2,132.
90% przedział ufności dla  ma postać:
[ x  t1 / 2, n 1
[ 4,6 – 2,132
s
s
, x  t1 / 2, n 1
]=
n
n
0,738
0,738
, 4,6 + 2,132
]=
5
5
[3,896, 5,304].
II. Przedziały ufności dla różnicy wartości średnich
dwóch rozkładów normalnych. (nieobowiązkowo)
Niech X1 , X 2 ,..., X n1 oraz Y1 , Y2 ,...,Yn2 będą dwiema
niezależnymi prostymi próbami losowymi z rozkładów
normalnych N ( 1 ,  1 ) oraz N (  2 ,  2 ) , odpowiednio.
Model 3. ( znane odchylenia standardowe  1 ,  2 )
Średnie z obu prób losowych X , Y są niezależnymi
zmiennymi losowymi o rozkładach normalnych
N ( 1 ,
1
n1
) , N (2 ,
2
n2
) , odpowiednio. Stąd z
własności rozkładu normalnego X  Y ma rozkład
normalny o wartości średniej 1   2 i wariancji
 12
n1

 22
n2
, gdyż
E( X  Y ) = E( X ) - E(Y )
Var( X  Y ) = Var( X ) + Var(-Y ) =
= Var( X ) + (1) 2 Var(Y ) =
=
 12
n1

 22
n2
,
skąd po standaryzacji mamy
Z
( X  Y )  ( 1   2 )
 12
/ n1   22
~ N (0,1) .
/ n2
Postępując dokładnie tak samo jak w przypadku jednej
próby otrzymamy przedział ufności dla 1   2 na
poziomie ufności 1   :

 12  22
 12  22 

, ( x  y )  z1 / 2

( x  y )  z1 / 2

n1 n2
n1 n2 

Model 4. ( nieznane odchylenia standardowe  1 ,  2 )
Założenie dodatkowe:  1   2   ,  - nieznane.
Z
( X  Y )  ( 1   2 )
 12 / n1   22 / n2
=
( X  Y )  ( 1   2 )
 1 / n1  1 / n2
2
1 1
Var( X  Y ) =     ,
 n1 n2 
Niech
S12
1 n1
2

 (Xi  X ) ,
n1  1 i 1
S 22
1 n2
2

 (Yi  Y ) n2  1 i 1
nieobciążone estymatory  2 .
Estymatorem nieobciążonym  2 , opartym na dwu
próbach łącznie, jest statystyka
S 2p
(n1  1) S12  (n2  1) S 22

.
n1  n2  2
Wówczas we wzorze na Z podstawiając S p  S 2p
zamiast  otrzymujemy statystykę
T
( X  Y )  ( 1   2 )
~ tn1 n2  2 .
1 1
Sp

n1 n2
Analogicznie jak w modelu 3 otrzymujemy przedział
ufności dla 1   2 na poziomie ufności 1   :

1 1
1 1
 , ( x  y )  t1 / 2 s p
 
( x  y )  t1 / 2 s p
n
n
n
n2 
1
2
1

gdzie:
t1 / 2  t1 / 2, n1  n
2
2
= kwantyl rzędu n1  n2  2
rozkładu t Studenta z n1  n2  2 stopniami swobody.
Zadanie. 10 żarówek producenta A miało średni czas
życia 1850 (godz.) oraz standardowe odchylenie
s1  130 (godz.). Natomiast 12 żarówek producenta B
miało średni czas życia 1940 (godz.) oraz standardowe
odchylenie s2  140 (godz.). Skonstruować 95%
przedział ufności dla różnicy prawdziwych wartości
średnich czasów życia żarówek producentów A i B.
( podać odpowiednie założenia ).
Zadanie. U 8 kierowców zanotowano czasy reakcji (
na pewien bodziec ) w sek. :
3,0, 2,0, 1,0, 2,5, 1,5, 4,0, 1,0, 2,0.
U 6 innych kierowców zbadano czasy reakcji n bodziec
po spożyciu określonej dawki alkoholu:
5,0, 4,0, 3,0, 4,5, 2,0, 2,5.
Znaleźć 95% przedział ufności dla różnicy wartości
średnich czasów reakcji w obu populacjach.
Zadanie. Dla realizacji 2 niezależnych prób losowych
z rozkładów normalnych otrzymano:
x  50 , s1  6 , n1  10,
y  56, s2  8, n2  14 ,
Znaleźć 90% przedział ufności dla różnicy wartości
średnich tych rozkładów.
s 2p
(n1  1) s12  (n2  1) s22 9  6 2  13  82

=
= 52,55.
n1  n2  2
10  14  2
s p  7,249.   0,1, 1   / 2  0,95, n1  n2  2  22 ,
t0,95, 22  1,717.

1 1
1 1
 , ( x  y )  1,717s p
 
( x  y )  1,717s p
n1 n2
n1 n2 

[50 – 56 – 1,717(7,249)
1,717(7,249)
1 1
 ]
10 14
1 1
 , 50 – 56 +
10 14
= [-11,15, -0,85].
III. Przedziały ufności dla wariancji rozkładu
normalnego.
Model 5. Przedział ufności dla wariancji.
Niech X1, X 2 ,..., X n będzie prostą próbą losową z
rozkładu normalnego N (  ,  ) .
Definicja. Niech X1 , X 2 ,..., X n będą niezależnymi
zmiennymi losowymi o rozkładach N (0,1) .
Wówczas zmienna losowa
n
   X i2
2
i 1
ma rozkład  2 o n stopniach swobody.
Notacja:  2 ~  n2 .
Uwaga. Można pokazać, że gęstość rozkładu  2 o n
stopniach swobody ma postać:
1

x0
x n / 2 1e  x / 2
 n/2
f ( x )   2  ( n / 2)
gdy
.
x0

0
(Wykresy gęstości dla liczby stopni swobody)

( s )   x s 1e  x dx .
0
Zauważmy, że dla prostej próby losowej z rozkładu
N (  ,  ) , po standaryzacji, zmienne losowe
X 
X1   X 2  
,
,..., n
są niezależne o rozkładach



N (0,1) . Stąd
 Xi   
2

 ~ n
 
i 1
n
2
Zastępując nieznaną wartość średnią  przez średnią z
próby losowej X otrzymamy zmienną losową:
2
(n  1) S 2
 Xi  X 
2
2
~

  
 
n 1 .
2
 

i 1
n
Stąd
 2

(n  1) S 2
2

P  / 2, n 1 
 1 / 2, n 1   1   ,
2



(3)
gdzie 2 / 2, n 1, 12 / 2, n 1 są kwantylami rzędu  / 2,
1   / 2, odpowiednio, rozkładu  n21.
Wzór (3) zapisujemy równoważnie:
2
 (n  1) S 2
(
n

1
)
S
  1 .
P 2
2  2

 / 2, n 1 
 1 / 2, n 1
Stąd, przedziałami ufności na poziomie ufności 1   są
 dla wariancji  2 rozkładu normalnego
 (n  1) s 2 (n  1) s 2 
, 2
 2



 1 / 2, n 1  / 2, n 1 
 dla standardowego odchylenia  rozkładu
normalnego
 (n  1) s 2
(n  1) s 2 
,
 2
.
2
 1 / 2, n 1  / 2, n 1 
Model 6. Przedział ufności dla ilorazu wariancji
dwóch rozkładów normalnych ( nieobowiązkowo)
Niech X1 , X 2 ,..., X n1 oraz Y1 , Y2 ,...,Yn2 będą dwiema
niezależnymi prostymi próbami losowymi z rozkładów
normalnych N ( 1 ,  1 ) oraz N (  2 ,  2 ) , odpowiednio.
Wówczas
(n1  1) S12
 12
,
(n2  1) S 22
 22
są niezależnymi
zmiennymi losowymi, o rozkładach  2 o n1  1, n2  1
stopniach swobody, odpowiednio.
Definicja. Niech U, V będą niezależnymi zmiennymi
losowymi oraz U ~  r2 , V ~  k2 . Wówczas rozkład
prawdopodobieństwa zmiennej
U /r
nazywamy rozkładem F Snedecora z r i k
V /k
stopniami swobody.
S12 /  12
Zatem zmienna losowa
ma rozkład F
2
2
S2 /  2
Snedecora z n1  1, n2  1 stopniami swobody.
P( f / 2
S12 /  12
 2 2  f1 / 2 ) 
S2 /  2
2
2
 S 22


S
2
2

P 2 f / 2  2  2 f1 / 2  = 1   ,
 1 S1
 S1

gdzie f / 2 , f1 / 2 są kwantylami rzędu  / 2,1   / 2 ,
odpowiednio, rozkładu F Snedecora z n1  1, n2  1
stopniami swobody.
Wiadomo, że f1 / 2  ( f / 2 ) 1 . Zatem przedział
 22
ufności dla ilorazu wariancji 2 na poziomie ufności
1
1   ma postać
2
 s22

1 s2
.
(
f
)
,
f
 2 1 / 2
2 1 / 2 
s1
 s1

IV. Przedziały ufności dla proporcji
Model 7. Niech X1, X 2 ,..., X n będzie prostą próbą
losową z rozkładu Bernoulli’ego o nieznanym
parametrze p.
Wówczas   E ( X 1 ) ,  2  p(1  p) .
Niech p̂ = X . Z centralnego twierdzenia granicznego
dla dostatecznie dużego n zmienna losowa
pˆ  p
ma rozkład bliski rozkładowi N (0,1).
p (1  p )
n
( musi zachodzić np  5, n(1  p)  5 )
Można też udowodnić, że zmienna losowa
pˆ  p
ma rozkład bliski N (0,1) , o ile
pˆ (1  pˆ )
n
npˆ  5, n(1  pˆ )  5 .
Stąd


P  z1 / 2 





pˆ  p
 z1 / 2   1   .

pˆ (1  pˆ )

n

Równoważnie

pˆ (1  pˆ )
pˆ (1  pˆ ) 

P pˆ  z1 / 2
 p  pˆ  z1 / 2
n
n


 1
Przedział ufności dla p na poziomie ufności 1   jest
realizacją przedziału losowego:

pˆ (1  pˆ )
pˆ (1  pˆ ) 
, pˆ  z1 / 2
 pˆ  z1 / 2

n
n


Przykład. W badaniach opinii publicznej otrzymano
wynik: 70% spośród 1000 ankietowanych Polaków
poparło wejście Polski do Unii Europejskiej, a
pozostałych 30% osób było przeciwnych.
Skonstruować 95% przedział ufności dla proporcji p
obywateli popierających wejście Polski do UE.
Mamy:
p̂ = 0,7, 1   = 0,95,   0,05 ,
1   / 2 = 1 – 0,025 =0,975. Z tablic: z0,975 = 1,96.
Próba jest bardzo liczna oraz spełnione są warunki
npˆ  1000 0,7  5, n(1  pˆ )  1000  0,3  5 .
Zatem można wykorzystać powyżej znaleziony
przybliżony przedział ufności:

pˆ (1  pˆ )
pˆ (1  pˆ ) 
p

z
,
p

z
=
ˆ
ˆ
1 / 2
1 / 2


n
n



0,7  0,3
0,7  0,3 
0
,
7

1
,
96
,
0
,
7

1
,
96
=


1000
1000 

= [0,68, 0,73].
Zatem mamy „95% pewności”, że proporcja Polaków
popierających wejście Polski do UE jest liczbą z
przedziału [0,68, 0,73].
Zadanie. Spośród 400 dorosłych przypadkowo
wybranych osób zapytanych o regularne uprawianie
sportu rekreacyjnego 160 osób odpowiedziało
twierdząco. Skonstruować 98% przedział ufności dla
p = proporcji osób uprawiających sport rekreacyjny w
danej populacji.
Mamy: pˆ 
160
= 0,4, n = 400,   0,02 ,
400
1   / 2  0,99, z0,99  2,33 .
npˆ  160  5 , n(1  pˆ )  240  5.

pˆ (1  pˆ )
pˆ (1  pˆ ) 
, pˆ  z1 / 2
 pˆ  z1 / 2
 =
n
n



0,4  0,6
0,4  0,6 
0
,
4

2
,
33
,
0
,
4

2
,
33
=


400
400 

= [0,343, 0,457] = 98% przedział ufności dla p.
Zadanie. Producent twierdzi, że niezawodność
elementów jego produkcji wynosi 0,9 ( np.
prawdopodobieństwo poprawnej pracy w okresie
gwarancji, prawdopodobieństwo wylosowania elementu
nie spełniającego norm z bieżącej produkcji ..., ogólnie
proporcja elementów niezawodnych ).
Wśród 100 wybranych losowo elementów 15 okazało
się zawodnych. Czy jesteśmy skłonni ufać twierdzeniu
producenta ?
[0,85  1,96 
0,85  0,15
0,85  0,15
, 0.85  1,96 
]
100
100
= [0,780,0,920] = 95% przeział ufności dla proporcji
elementów niezawodnych.
Download