ESTYMACJA PUNKTOWA Niech X1 , X 2 ,..., X n będzie prostą próbą losową z rozkładu, którego parametr jest nieznany. Definicja. Statystykę h( X1, X 2 ,..., X n ) , której realizacje dla konkretnych próbek są „rozsądnymi” ocenami , nazywamy estymatorem parametru i oznaczamy ˆ = h( X1, X 2 ,..., X n ) . Definicja. Estymator ˆ parametru jest nieobciążony, jeśli E (ˆ) . Przykłady. (a) Średnia z prostej próby losowej jest nieobciążonym estymatorem wartości średniej . E( X ) . (b) Wariancja z prostej próby losowej jest nieobciążonym estymatorem wariancji rozkładu cechy populacji 2 . 1 n 2 2 E (S ) E (Xi X ) . n 1 i 1 2 I. Przedziały ufności dla wartości średniej rozkładu normalnego. Niech X1, X 2 ,..., X n będzie prostą próbą losową z rozkładu normalnego N ( , ) . Model 1. ( znane odchylenie standardowe ) 1 n X X i ~ N ( , ) . n n i 1 X ~ N (0,1) . Z / n Niech (0,1) - ustalona liczba. X z1 / 2 ) = 1 , (1) / n gdzie z / 2 = kwantyl rzędu / 2 rozkładu N (0,1) , z1 / 2 = kwantyl rzędu 1 / 2 rozkładu N (0,1) , tzn. P( z / 2 P( Z z / 2 ) 2 oraz P( Z z1 / 2 ) 1 Z symetrii standardowej gęstości normalnej z / 2 z1 / 2 . 2 . Równanie (1) można zapisać jako P( z1 / 2 (2) P( z1 / 2 P( X z1 / 2 [ X z1 / 2 n n X z1 / 2 ) = / n X z1 / 2 X z1 / 2 , X z1 / 2 n n )= ) = 1 . ] - przedział losowy n n zawierający z prawdopodobieństwem 1 nieznaną wartość średnią . Realizacją tego losowego przedziału obliczoną dla próbki jest [ x z1 / 2 , x z1 / 2 ] = n n przedział ufności dla na poziomie ufności 1 Interpretacja częstościowa (sens praktyczny ) przedziału ufności: Niech x1 , x2 ,..., xN oznaczają średnie próbkowe obliczone dla N próbek: ( x11 , x12 ,...x1n ) , ( x12 , x22 ,...xn2 ) , ( x1N , x2N ,...xnN ) . Próbki są realizacjami niezależnych prostych prób losowych ( X 11 , X 21 ,..., X n1 ), ( X 12 , X 22 ,..., X n2 ),...., ( X 1N , X 2N ,..., X nN ). Dokładniej: wykonujemy N jednakowych niezależnych doświadczeń. Każde k-te ( k = 1,2,...,N ) doświadczenie polega na zaobserwowaniu realizacji k-tej prostej próby losowej ( X 1k , X 2k ,..., X nk ), tzn. k-tej próbki: ( x1k , x2k ,...xnk ) . Przedział ufności dla na poziomie ufności 1 obliczony dla k-tej próbki ma postać [ xk z1 / 2 n , xk z1 / 2 n ]. Nieznana nam średnia nie dla każdej próbki należy do wyznaczonego dla niej przedziału ufności. Ale, niech N oznacza liczbę tych doświadczeń dla których [ xk z1 / 2 , xk z1 / 2 ]. n n Wówczas na mocy interpretacji częstościowej prawdopodobieństwa zdarzenia, dla N , N P( [ X z1 / 2 , X z1 / 2 ]) =1 n n N Zatem spośród wielu próbek w przybliżeniu (1 )100% jest takich dla których wyznaczony przedział ufności zawiera nieznaną wartość średnią . Jak duża powinna być liczność próbki n ? (a) Długość przedziału [ x z1 / 2 , x z1 / 2 n jest stała ( nie zależy od próbki ) równa 2 z1 / 2 n ] . n Im większe n tym mniejsza długość przedziału ufności, tzn. tym lepsze oszacowanie przedziałowe na danym poziomie ufności. (b) Ze wzoru (2) mamy P( X z1 / 2 n ) = 1 , Niech d 0 będzie takie że 2 z z1 / 2 d , równoważnie n 1 / 2 . n d Wówczas (wykorzystując P( A) P( B) dla A B ) 1 = P( X z1 / 2 ) P( X d ) , skąd n P( X d ) 1 . Udowodniliśmy Stwierdzenie. Jeśli liczność prostej próby losowej z rozkładu normalnego o wartości średniej i standardowym odchyleniu spełnia warunek z1 / 2 n , d 2 to P( X d ) 1 . ( Z prawdopodobieństwem co najmniej 1 błąd bezwzględny oszacowania nieznanej wartości średniej poprzez X nie przekroczy d , tzn. wśród wielu próbek o liczności n częstość takich dla których błąd bezwzględny średniej próbkowej nie przekroczy d jest w przybliżeniu nie mniejsza niż 1 . ) Zadanie. Stacja paliw sprzedała 8019 litrów gazu w ciągu 9 losowo wybranych dni. Załóżmy, że dzienna ilość sprzedanego gazu ma rozkład normalny o standardowym odchyleniu 90 (litrów). Skonstruować przedziały ufności dla średniej dziennej sprzedaży gazu na poziomach ufności: (a) 0,98 (b) 0,80. Mamy: x 9 xi 8019, n = 9, 90 , skąd i 1 9019 891. 9 (a) 0,02, 1 / 2 0,99, z0,99 2,33 . 98% przedział ufności dla : [891 – 2,33 90 90 , 891 + 2,33 ] = [821,1, 960,9] 9 9 (b) 0,20 , 1 / 2 0,90, z0,90 1,28 . 80% przedział ufności dla = [852,6, 929,4]. Zadanie. Producent chce ocenić średnią zawartość nikotyny w paczkach papierosów pewnego gatunku. Wiadomo, że standardowe odchylenie zawartości nikotyny w losowo wybranej paczce papierosów 8 (mg), Znaleźć liczbę paczek papierosów, w których należy zbadać zawartość nikotyny, aby na poziomie ufności co najmniej 0,95 móc stwierdzić, że obliczona średnia z próbki x nie będzie się różniła od prawdziwej średniej zawartości nikotyny o więcej niż 1,5 (mg). Zakładając rozkład normalny zawartości nikotyny w paczce papierosów mamy: Dla 0,05 , 8, d 1,5 , z1 / 2 z0,975 1,96 . z1 / 2 P( X d ) 0,95, jeśli n , tzn. d 2 1,96 8 n . Stąd liczność próbki powinna być: 1,5 n 109 . 2 Model 2. ( nieznane odchylenie standardowe ) W poprzednim modelu wykorzystano X . Podstawiając zamiast estymator , tzn. Z / n 1 n 2 2 2 S S , gdzie S ( X i X ) , otrzymujemy n 1 i 1 zmienną losową X . T S/ n T ma znany rozkład: t Studenta z n 1 stopniami swobody, gdzie Definicja. Niech Z 0 , Z1,..., Z k będą niezależnymi zmiennymi losowymi o rozkładach N (0,1) . Rozkład prawdopodobieństwa zmiennej losowej V = Z0 nazywamy rozkładem t ... Studenta z k stopniami swobody. ( Z12 Z k2 ) / k Notacja. V ~ tk . Własności rozkładu t k : Gęstość symetryczna o podobnym kształcie jak gęstość normalna, E (V ) 0, Dla k 30 można przyjąć tk N (0,1) . Mając zmienną losową T ~ tn 1 budujemy przedział ufności dla analogicznie jak w modelu 1: [ x t1 / 2, n 1 s s , x t1 / 2, n 1 ] , gdzie n n t1 / 2, n 1 = kwantyl rzędu 1 / 2 rozkładu t Studenta o n 1 stopniach swobody. Uwaga. Jeśli n 30 , to przyjmujemy t1 / 2, n 1 z1 / 2 . Zadanie. Zanotowano czasy obsługi przy okienku kasowym ( w minutach ) 64 losowo wybranych klientów pewnego banku. Obliczono: średnią z próbki x 3,2 (min.) oraz wariancję z próbki s 2 1,44 (min. 2 ) Znaleźć 98% przedział ufności dla średniego czasu obsługi , jeśli można założyć, że czas obsługi klienta przy okienku kasowym ma rozkład normalny. Mamy: x 3,2 , s 1,44 , n =64, n 1 63 = liczba stopni swobody, 0,02 , 1 / 2 0,99, t0,99,63 z0,99 2,33 . 98% przedział ufności dla ma postać [ x t1 / 2, n 1 [3,2 - 2,33 s s , x t1 / 2, n 1 ]= n n 1,44 1,44 , 3,2 + 2,33 ] = [2,85, 3,55]. 64 64 Zadanie. W ciągu pięciu losowo wybranych tygodni zaobserwowano następujące zużycia cukru ( w gospodarstwie domowym, w kg ): 3,8, 4,5, 5,2, 4,0, 5,5. Skonstruować 90% przedział ufności dla średniego tygodniowego zużycia cukru w tym gospodarstwie, jeśli można przyjąć rozkład normalny zużycia cukru. Obliczamy: x = 4,6 oraz 5 2 2 2 2 2 2 ( xi x ) (0,8) (0,1) (0,6) (0,6) (0,9) i 1 = 2,18. Stąd, s 2 2,18 0,545, s 0,545 = 0,738 5 1 0,1, 1 / 2 0,95, 5 – 1 = 4 = liczba stopni swobody, t0,95, 4 2,132. 90% przedział ufności dla ma postać: [ x t1 / 2, n 1 s s , x t1 / 2, n 1 ]= n n [ 4,6 – 2,132 0,738 0,738 , 4,6 + 2,132 ]= [3,896, 5,304]. 5 5 II. Przedziały ufności dla różnicy wartości średnich dwóch rozkładów normalnych. Niech X1 , X 2 ,..., X n1 oraz Y1 , Y2 ,...,Yn2 będą dwiema niezależnymi prostymi próbami losowymi z rozkładów normalnych N ( 1 , 1 ) oraz N ( 2 , 2 ) , odpowiednio. Model 3. ( znane odchylenia standardowe 1 , 2 ) Średnie z obu prób losowych X , Y są niezależnymi zmiennymi losowymi o rozkładach normalnych N ( 1 , 1 ) , N (2 , 2 ) , odpowiednio. Stąd z n1 n2 własności rozkładu normalnego X Y ma rozkład normalny o wartości średniej 1 2 i wariancji 12 22 , gdyż n1 n2 E( X Y ) = E( X ) + E( - Y ) = E( X ) - E( Y ) Var( X Y ) = Var( X ) + Var(-Y ) = 12 22 2 Var( X ) + (1) Var(Y ) = , n1 n2 skąd po standaryzacji mamy ( X Y ) ( 1 2 ) Z 12 / n1 22 / n2 ~ N (0,1) . Postępując dokładnie tak samo jak w przypadku jednej , x z1 / 2 ] )otrzymamy próby ( [ x z1 / 2 n n przedział ufności dla 1 2 na poziomie ufności 1 : 12 22 12 22 , ( x y ) z1 / 2 ( x y ) z1 / 2 n1 n2 n1 n2 Model 4. ( nieznane odchylenia standardowe 1 , 2 ) Założenie dodatkowe: 1 2 , - nieznane. Z ( X Y ) ( 1 2 ) 12 / n1 22 / n2 = ( X Y ) ( 1 2 ) 1 / n1 1 / n2 1 1 Var( X Y ) = 2 , n1 n2 Niech 1 n1 1 n2 2 2 2 ( X i X ) , S2 (Yi Y ) n1 1 i 1 n2 1 i 1 nieobciążone estymatory 2 . S12 Estymatorem nieobciążonym 2 , opartym na dwu próbach łącznie, jest statystyka S 2p (n1 1) S12 (n2 1) S 22 . n1 n2 2 Wówczas we wzorze na Z podstawiając S p S 2p zamiast otrzymujemy statystykę T ( X Y ) ( 1 2 ) ~ tn1 n2 2 . 1 1 Sp n1 n2 Analogicznie jak w modelu 3 otrzymujemy przedział ufności dla 1 2 na poziomie ufności 1 : 1 1 1 1 ( x y ) t s , ( x y ) t s 1 / 2 p 1 / 2 p n1 n2 n1 n2 gdzie: t1 / 2 t1 / 2, n1 n 2 2 = kwantyl rzędu n1 n2 2 rozkładu t Studenta z n1 n2 2 stopniami swobody. Zadanie. 10 żarówek producenta A miało średni czas życia 1850 (godz.) oraz standardowe odchylenie s1 130 (godz.). Natomiast 12 żarówek producenta B miało średni czas życia 1940 (godz.) oraz standardowe odchylenie s2 140 (godz.). Skonstruować 95% przedział ufności dla różnicy prawdziwych wartości średnich czasów życia żarówek producentów A i B. ( podać odpowiednie założenia ). Zadanie. U 8 kierowców zanotowano czasy reakcji ( na pewien bodziec ) w sek. : 3,0, 2,0, 1,0, 2,5, 1,5, 4,0, 1,0, 2,0. U 6 innych kierowców zbadano czasy reakcji n bodziec po spożyciu określonej dawki alkoholu: 5,0, 4,0, 3,0, 4,5, 2,0, 2,5. Znaleźć 95% przedział ufności dla różnicy wartości średnich czasów reakcji w obu populacjach. Zadanie. Dla realizacji 2 niezależnych prób losowych z rozkładów normalnych otrzymano: x 50 , s1 6 , n1 10, y 56, s2 8, n2 14 , Znaleźć 90% przedział ufności dla różnicy wartości średnich tych rozkładów. s 2p (n1 1) s12 (n2 1) s22 9 6 2 13 82 = = 52,55. n1 n2 2 10 14 2 s p 7,249. 0,1, 1 / 2 0,95, n1 n2 2 22 = liczba stopni swobody, t0,95, 22 1,717. 1 1 1 1 , ( x y ) 1,717s p ( x y ) 1,717s p n1 n2 n1 n2 1 1 , 50 – 56 + 10 14 [50 – 56 – 1,717(7,249) 1,717(7,249) 1 1 ] 10 14 = [-11,15, -0,85]. III. Przedziały ufności dla wariancji rozkładu normalnego. Model 5. Przedział ufności dla wariancji. Niech X1, X 2 ,..., X n będzie prostą próbą losową z rozkładu normalnego N ( , ) , , są nieznane. Definicja. Niech X1 , X 2 ,..., X n będą niezależnymi zmiennymi losowymi o rozkładach N (0,1) . Wówczas zmienna losowa n X i2 2 i 1 ma rozkład 2 o n stopniach swobody. Notacja: 2 ~ n2 . Zauważmy, że dla prostej próby losowej z rozkładu N ( , ) , po standaryzacji, zmienne losowe Xn X1 X 2 , ,..., są niezależne o rozkładach N (0,1) . Stąd Xi 2 ~ n i 1 Dowodzi się, że zastępując nieznaną wartość średnią przez średnią z próby losowej X otrzymamy zmienną losową: 2 n Stąd 2 (n 1) S 2 Xi X 2 2 ~ n 1 . 2 i 1 n 2 (n 1) S 2 2 P / 2, n 1 1 , (3) 1 / 2, n 1 2 gdzie 2 / 2, n 1, 12 / 2, n 1 są kwantylami rzędu / 2, 1 / 2, odpowiednio, rozkładu n21. Wzór (3) zapisujemy równoważnie: 2 (n 1) S 2 ( n 1 ) S 2 1 . P 2 2 / 2, n 1 1 / 2, n 1 Stąd, przedziałami ufności na poziomie ufności 1 są (a) dla wariancji 2 rozkładu normalnego (n 1) s 2 (n 1) s 2 , 2 2 , 1 / 2, n 1 / 2, n 1 (b) dla standardowego odchylenia rozkładu normalnego (n 1) s 2 (n 1) s 2 , 2 . 2 1 / 2, n 1 / 2, n 1 Zadanie. Plastyk zużył następujące ilości farby do pomalowania 6 talerzy: 8,1, 8,7, 7,6, 7,8, 8,5, 7,9. Znaleźć 95% przedział ufności dla wariancji, zakładając rozkład normalny farby potrzebnej do pomalowania 1 talerza. Rozwiązanie. 6 Obliczamy ( xi x ) 2 0,9. Stąd i 1 6 2 ( xi x ) s 2 i 1 6 1 = 0,9 = 0,18. 5 0,05, / 2 = 0,025, 1 / 2 = 0,975, n 1 6 1 5 = liczba stopni swobody. Z tablic kwantyli rozkładu 52 można odczytać 02,025,5 0,831, 02,975,5 12,832 (n 1) s 2 (n 1) s 2 0,9 0,9 , , 2 2 = 1 / 2, n 1 / 2, n 1 12,832 0,831 Model 6. Przedział ufności dla ilorazu wariancji dwóch rozkładów normalnych. Niech X1 , X 2 ,..., X n1 oraz Y1 , Y2 ,...,Yn2 będą dwiema niezależnymi prostymi próbami losowymi z rozkładów normalnych N ( 1 , 1 ) oraz N ( 2 , 2 ) , odpowiednio. Wówczas (n1 1) S12 12 , (n2 1) S 22 22 są niezależnymi zmiennymi losowymi, o rozkładach 2 o n1 1, n2 1 stopniach swobody, odpowiednio. Definicja. Niech U, V będą niezależnymi zmiennymi losowymi oraz U ~ r2 , V ~ k2 . Wówczas rozkład prawdopodobieństwa zmiennej U /r nazywamy rozkładem F Snedecora z r i k V /k stopniami swobody. [(n1 1) S12 / 12 ] /(n1 1) S12 / 12 = 2 2 2 2 [(n2 1) S 2 / 2 ] /(n2 1) S 2 / 2 S12 / 12 Zatem zmienna losowa ma rozkład F 2 2 S2 / 2 Snedecora z n1 1, n2 1 stopniami swobody. P( f / 2 S12 / 12 2 2 f1 / 2 ) S2 / 2 2 2 S 22 S 2 2 P 2 f / 2 2 2 f1 / 2 = 1 , 1 S1 S1 gdzie f / 2 , f1 / 2 są kwantylami rzędu / 2,1 / 2 , odpowiednio, rozkładu F Snedecora z n1 1, n2 1 stopniami swobody. Wiadomo, że f1 / 2 ( f / 2 ) 1 . Zatem przedział 22 ufności dla ilorazu wariancji 2 na poziomie ufności 1 1 ma postać 2 s22 1 s2 . ( f ) , f 2 1 / 2 2 1 / 2 s1 s1 IV. Przedziały ufności dla proporcji. Model 7. Niech X1, X 2 ,..., X n będzie prostą próbą losową z rozkładu Bernoulli’ego o nieznanym parametrze p. Wówczas E ( X 1 ) , 2 p(1 p) . Niech p̂ = X . Z centralnego twierdzenia granicznego dla dostatecznie dużego n zmienna losowa pˆ p ma rozkład bliski rozkładowi N (0,1). p (1 p ) n ( musi zachodzić np 5, n(1 p) 5 ). Można też udowodnić, że zmienna losowa pˆ p ma rozkład bliski N (0,1) , o ile pˆ (1 pˆ ) n npˆ 5, n(1 pˆ ) 5 . Stąd P z1 / 2 pˆ p z1 / 2 1 . pˆ (1 pˆ ) n Równoważnie pˆ (1 pˆ ) pˆ (1 pˆ ) P pˆ z1 / 2 p pˆ z1 / 2 n n 1 Przedział ufności dla p na poziomie ufności 1 jest realizacją przedziału losowego: pˆ (1 pˆ ) pˆ (1 pˆ ) p z , p z ˆ ˆ . 1 / 2 1 / 2 n n Przykład. W badaniach opinii publicznej otrzymano wynik: 57% spośród 1000 ankietowanych Polaków poparło wejście Polski do Unii Europejskiej, a pozostałych 43% osób było przeciwnych. Skonstruować 95% przedział ufności dla proporcji p obywateli popierających wejście Polski do UE. Mamy: p̂ = 0,57, 1 = 0,95, 0,05 , 1 / 2 = 1 – 0,025 =0,975. Z tablic: z0,975 = 1,96. Próba jest bardzo liczna oraz spełnione są warunki npˆ 1000 0,57 5 , n(1 pˆ ) 1000 0,43 5 . Zatem można wykorzystać powyżej znaleziony przybliżony przedział ufności: pˆ (1 pˆ ) pˆ (1 pˆ ) p z , p z = ˆ ˆ 1 / 2 1 / 2 n n 0,57 0,43 0,57 0,43 0 , 57 1 , 96 , 0 , 57 1 , 96 = 1000 1000 = [0,54, 0,60]. Zatem mamy „95% pewności”, że proporcja Polaków popierających wejście Polski do UE jest liczbą z przedziału [0,54, 0,60]. Zadanie. Spośród 400 dorosłych przypadkowo wybranych osób zapytanych o regularne uprawianie sportu rekreacyjnego 160 osób odpowiedziało twierdząco. Skonstruować 98% przedział ufności dla p = proporcji osób uprawiających sport rekreacyjny w danej populacji. 160 = 0,4, n = 400, 0,02 , 400 1 / 2 0,99, z0,99 2,33 . npˆ 160 5 , n(1 pˆ ) 240 5. Mamy: pˆ pˆ (1 pˆ ) pˆ (1 pˆ ) p z , p z = ˆ ˆ 1 / 2 1 / 2 n n 0,4 0,6 0,4 0,6 0 , 4 2 , 33 , 0 , 4 2 , 33 = 400 400 = [0,343, 0,457] = 98% przedział ufności dla p.