ESTYMACJA PUNKTOWA Niech X1 , X 2 ,..., X n będzie prostą próbą losową z rozkładu, którego parametr jest nieznany. Definicja. Statystykę h( X1, X 2 ,..., X n ) , której realizacje dla konkretnych próbek są „rozsądnymi” ocenami , nazywamy estymatorem parametru i oznaczamy ˆ = h( X1, X 2 ,..., X n ) Definicja. Estymator ˆ parametru jest nieobciążony, jeśli E (ˆ) . Przykłady. Średnia z prostej próby losowej jest nieobciążonym estymatorem wartości średniej : E( X ) Wariancja z prostej próby losowej jest nieobciążonym estymatorem wariancji rozkładu cechy populacji 2 : n 1 2 E (S ) E ( X i X ) 2 n 1 i 1 2 ESTYMACJA PRZEDZIAŁOWA I. Przedziały ufności dla wartości średniej rozkładu normalnego. Niech X1, X 2 ,..., X n będzie prostą próbą losową z rozkładu normalnego N ( , ) . Model 1. ( znane odchylenie standardowe ) 1 n N ( , ). X Xi ~ n n i 1 Z X ~ N (0,1) . / n Niech (0,1) - ustalona liczba. P( z / 2 Z z1 / 2 ) = 1 , (1) gdzie z / 2 = kwantyl rzędu / 2 rozkładu N (0,1) , z1 / 2 = kwantyl rzędu 1 / 2 rozkładu N (0,1) , tzn. P( Z z / 2 ) 2 oraz P( Z z1 / 2 ) 1 Z symetrii standardowej gęstości normalnej z / 2 z1 / 2 . Równanie (1) można zapisać jako P( z1 / 2 Z z1 / 2 ) = 1 . Podstawiając dokładną postać Z mamy P( z1 / 2 X z1 / 2 ) = / n 2 . (2) P( z1 / 2 P( X z1 / 2 [ X z1 / 2 n n n X z1 / 2 X z1 / 2 , X z1 / 2 n n n )= ) = 1 . ] - przedział losowy zawierający z prawdopodobieństwem 1 nieznaną wartość średnią . [ x z1 / 2 n , x z1 / 2 n ] = przedział ufności dla na poziomie ufności 1 ( obliczony na podstawie konkretnej próbki). Interpretacja częstościowa (sens praktyczny ) przedziału ufności: Niech x1 , x2 ,..., xN oznaczają średnie próbkowe obliczone dla N próbek: ( x11 , x12 ,...x1n ) , ( x12 , x22 ,...xn2 ) , ( x1N , x2N ,...xnN ) . Próbki są realizacjami niezależnych prostych prób losowych ( X 11 , X 21 ,..., X n1 ), ( X 12 , X 22 ,..., X n2 ),...., ( X 1N , X 2N ,..., X nN ). Dokładniej: wykonujemy N jednakowych niezależnych doświadczeń. Każde k-te ( k = 1,2,...,N ) doświadczenie polega na zaobserwowaniu realizacji k-tej prostej próby losowej ( X 1k , X 2k ,..., X nk ), tzn. k-tej próbki: ( x1k , x2k ,...xnk ) . Przedział ufności dla na poziomie ufności 1 obliczony dla k-tej próbki ma postać [ xk z1 / 2 n , xk z1 / 2 n ]. Nieznana nam średnia nie dla każdej próbki należy do wyznaczonego dla niej przedziału ufności. Ale, niech N oznacza liczbę tych doświadczeń dla których [ xk z1 / 2 , xk z1 / 2 n n ]. Wówczas na mocy interpretacji częstościowej prawdopodobieństwa zdarzenia, dla N , N N P( [ X z1 / 2 n , X z1 / 2 n ]) =1 Zatem spośród wielu próbek w przybliżeniu (1 )100% jest takich dla których wyznaczony przedział ufności zawiera nieznaną wartość średnią . Jak duża powinna być liczność próbki n ? Długość przedziału [ x z1 / 2 n , x z1 / 2 n ] jest stała ( nie zależy od próbki ) równa 2 z1 / 2 n . Im większe n tym mniejsza długość przedziału ufności, tzn. tym lepsze oszacowanie przedziałowe na danym poziomie ufności. Ze wzoru (2) mamy P( X z1 / 2 n ) = 1 , Niech d 0 będzie takie że z1 / 2 z d , równoważnie n 1 / 2 . n d 2 Wówczas (wykorzystując P( A) P( B) dla A B ) 1 = P( X z1 / 2 n ) P( X d ) , skąd P( X d ) 1 . Udowodniliśmy Stwierdzenie. Jeśli liczność prostej próby losowej z rozkładu normalnego o wartości średniej i standardowym odchyleniu spełnia warunek z n 1 / 2 , d 2 to P( X d ) 1 . ( Z prawdopodobieństwem co najmniej 1 błąd bezwzględny oszacowania nieznanej wartości średniej poprzez X nie przekroczy d , tzn. wśród wielu próbek o liczności n częstość takich dla których błąd bezwzględny średniej próbkowej nie przekroczy d jest w przybliżeniu nie mniejsza niż 1 . ) Zadanie. Stacja paliw sprzedała 8019 litrów gazu w ciągu 9 losowo wybranych dni. Załóżmy, że dzienna ilość sprzedanego gazu ma rozkład normalny o standardowym odchyleniu 90 (litrów). Skonstruować przedziały ufności dla średniej dziennej sprzedaży gazu na poziomach ufności: (a) 0,98 (b) 0,80. 9 Mamy: xi 8019, n = 9, 90 , skąd i 1 x 9019 891. 9 (a) 0,02, 1 / 2 0,99, z0,99 2,33. 98% przedział ufności dla : [891 – 2,33 90 90 , 891 + 2,33 ] = [821,1, 960,9] 9 9 (b) 0,20 , 1 / 2 0,90, z0,90 1,28 . 80% przedział ufności dla = [852,6, 929,4]. Zadanie. Producent chce ocenić średnią zawartość nikotyny w paczkach papierosów pewnego gatunku. Wiadomo, że standardowe odchylenie zawartości nikotyny w losowo wybranej paczce papierosów 8 (mg), Znaleźć liczbę paczek papierosów, w których należy zbadać zawartość nikotyny, aby na poziomie ufności co najmniej 0,95 móc stwierdzić, że obliczona średnia z próbki x nie będzie się różniła od prawdziwej średniej zawartości nikotyny o więcej niż 1,5 (mg). Zakładając rozkład normalny zawartości nikotyny w paczce papierosów mamy: Dla 0,05 , 8, d 1,5 , z1 / 2 z0,975 1,96 . z P( X d ) 0,95 , jeśli n 1 / 2 , tzn. d 2 2 1,96 8 n . Stąd liczność próbki powinna być: 1,5 n 109 . Model 2. ( nieznane odchylenie standardowe ) W poprzednim modelu wykorzystano X . Podstawiając zamiast estymator , tzn. Z / n 1 n 2 S S , gdzie S ( X i X ) , otrzymujemy n 1 i 1 2 2 zmienną losową T X . S/ n T ma znany rozkład: t Studenta z n 1 stopniami swobody, gdzie Definicja. Niech Z 0 , Z1,..., Z k będą niezależnymi zmiennymi losowymi o rozkładach N (0,1) . Rozkład prawdopodobieństwa zmiennej losowej V = Z0 ( Z12 ... Z k2 ) / k nazywamy rozkładem t Studenta z k stopniami swobody. Notacja. V ~ tk . Własności rozkładu t k : Gęstość symetryczna o podobnym kształcie jak gęstość normalna, E (V ) 0, Dla k 30 można przyjąć tk N (0,1) . Mając zmienną losową T ~ tn 1 budujemy przedział ufności dla analogicznie jak w modelu 1: [ x t1 / 2, n 1 s s , x t1 / 2, n 1 ] , gdzie n n t1 / 2, n 1 = kwantyl rzędu 1 / 2 rozkładu t Studenta o n 1 stopniach swobody. Uwaga. Jeśli n 30 , to przyjmujemy t1 / 2, n 1 z1 / 2 . Zadanie. Zanotowano czasy obsługi przy okienku kasowym ( w minutach ) 64 losowo wybranych klientów pewnego banku. Obliczono: średnią z próbki x 3,2 (min.) oraz wariancję z próbki s 2 1,44 (min. 2 ) Znaleźć 98% przedział ufności dla średniego czasu obsługi , jeśli można założyć, że czas obsługi klienta przy okienku kasowym ma rozkład normalny. Mamy: x 3,2 , s 1,44 , n =64, 0,02 , t1 0,02 / 2,63 t0,99,63 z0,99 2,33 . 98% przedział ufności dla ma postać [ x t1 / 2, n 1 [3,2 - 2,33 s s , x t1 / 2, n 1 ]= n n 1,44 1,44 , 3,2 + 2,33 ] = [2,85, 3,55]. 64 64 Zadanie. W ciągu pięciu losowo wybranych tygodni zaobserwowano następujące zużycia cukru ( w gospodarstwie domowym, w kg ): 3,8, 4,5, 5,2, 4,0, 5,5. Skonstruować 90% przedział ufności dla średniego tygodniowego zużycia cukru w tym gospodarstwie, jeśli można przyjąć rozkład normalny zużycia cukru. Obliczamy: x = 4,6 oraz 5 2 2 2 2 2 2 ( xi x ) (0,8) (0,1) (0,6) (0,6) (0,9) i 1 = 2,18. Stąd, s 2 2,18 0,545, s 0,738. 5 1 0,1, 1 / 2 0,95, 5 – 1 = 4 = liczba stopni swobody, t0,95, 4 2,132. 90% przedział ufności dla ma postać: [ x t1 / 2, n 1 [ 4,6 – 2,132 s s , x t1 / 2, n 1 ]= n n 0,738 0,738 , 4,6 + 2,132 ]= 5 5 [3,896, 5,304]. II. Przedziały ufności dla różnicy wartości średnich dwóch rozkładów normalnych. (nieobowiązkowo) Niech X1 , X 2 ,..., X n1 oraz Y1 , Y2 ,...,Yn2 będą dwiema niezależnymi prostymi próbami losowymi z rozkładów normalnych N ( 1 , 1 ) oraz N ( 2 , 2 ) , odpowiednio. Model 3. ( znane odchylenia standardowe 1 , 2 ) Średnie z obu prób losowych X , Y są niezależnymi zmiennymi losowymi o rozkładach normalnych N ( 1 , 1 n1 ) , N (2 , 2 n2 ) , odpowiednio. Stąd z własności rozkładu normalnego X Y ma rozkład normalny o wartości średniej 1 2 i wariancji 12 n1 22 n2 , gdyż E( X Y ) = E( X ) - E(Y ) Var( X Y ) = Var( X ) + Var(-Y ) = = Var( X ) + (1) 2 Var(Y ) = = 12 n1 22 n2 , skąd po standaryzacji mamy Z ( X Y ) ( 1 2 ) 12 / n1 22 ~ N (0,1) . / n2 Postępując dokładnie tak samo jak w przypadku jednej próby otrzymamy przedział ufności dla 1 2 na poziomie ufności 1 : 12 22 12 22 , ( x y ) z1 / 2 ( x y ) z1 / 2 n1 n2 n1 n2 Model 4. ( nieznane odchylenia standardowe 1 , 2 ) Założenie dodatkowe: 1 2 , - nieznane. Z ( X Y ) ( 1 2 ) 12 / n1 22 / n2 = ( X Y ) ( 1 2 ) 1 / n1 1 / n2 2 1 1 Var( X Y ) = , n1 n2 Niech S12 1 n1 2 (Xi X ) , n1 1 i 1 S 22 1 n2 2 (Yi Y ) n2 1 i 1 nieobciążone estymatory 2 . Estymatorem nieobciążonym 2 , opartym na dwu próbach łącznie, jest statystyka S 2p (n1 1) S12 (n2 1) S 22 . n1 n2 2 Wówczas we wzorze na Z podstawiając S p S 2p zamiast otrzymujemy statystykę T ( X Y ) ( 1 2 ) ~ tn1 n2 2 . 1 1 Sp n1 n2 Analogicznie jak w modelu 3 otrzymujemy przedział ufności dla 1 2 na poziomie ufności 1 : 1 1 1 1 , ( x y ) t1 / 2 s p ( x y ) t1 / 2 s p n n n n2 1 2 1 gdzie: t1 / 2 t1 / 2, n1 n 2 2 = kwantyl rzędu n1 n2 2 rozkładu t Studenta z n1 n2 2 stopniami swobody. Zadanie. 10 żarówek producenta A miało średni czas życia 1850 (godz.) oraz standardowe odchylenie s1 130 (godz.). Natomiast 12 żarówek producenta B miało średni czas życia 1940 (godz.) oraz standardowe odchylenie s2 140 (godz.). Skonstruować 95% przedział ufności dla różnicy prawdziwych wartości średnich czasów życia żarówek producentów A i B. ( podać odpowiednie założenia ). Zadanie. U 8 kierowców zanotowano czasy reakcji ( na pewien bodziec ) w sek. : 3,0, 2,0, 1,0, 2,5, 1,5, 4,0, 1,0, 2,0. U 6 innych kierowców zbadano czasy reakcji n bodziec po spożyciu określonej dawki alkoholu: 5,0, 4,0, 3,0, 4,5, 2,0, 2,5. Znaleźć 95% przedział ufności dla różnicy wartości średnich czasów reakcji w obu populacjach. Zadanie. Dla realizacji 2 niezależnych prób losowych z rozkładów normalnych otrzymano: x 50 , s1 6 , n1 10, y 56, s2 8, n2 14 , Znaleźć 90% przedział ufności dla różnicy wartości średnich tych rozkładów. s 2p (n1 1) s12 (n2 1) s22 9 6 2 13 82 = = 52,55. n1 n2 2 10 14 2 s p 7,249. 0,1, 1 / 2 0,95, n1 n2 2 22 , t0,95, 22 1,717. 1 1 1 1 , ( x y ) 1,717s p ( x y ) 1,717s p n1 n2 n1 n2 [50 – 56 – 1,717(7,249) 1,717(7,249) 1 1 ] 10 14 1 1 , 50 – 56 + 10 14 = [-11,15, -0,85]. III. Przedziały ufności dla wariancji rozkładu normalnego. Model 5. Przedział ufności dla wariancji. Niech X1, X 2 ,..., X n będzie prostą próbą losową z rozkładu normalnego N ( , ) . Definicja. Niech X1 , X 2 ,..., X n będą niezależnymi zmiennymi losowymi o rozkładach N (0,1) . Wówczas zmienna losowa n X i2 2 i 1 ma rozkład 2 o n stopniach swobody. Notacja: 2 ~ n2 . Uwaga. Można pokazać, że gęstość rozkładu 2 o n stopniach swobody ma postać: 1 x0 x n / 2 1e x / 2 n/2 f ( x ) 2 ( n / 2) gdy . x0 0 (Wykresy gęstości dla liczby stopni swobody) ( s ) x s 1e x dx . 0 Zauważmy, że dla prostej próby losowej z rozkładu N ( , ) , po standaryzacji, zmienne losowe X X1 X 2 , ,..., n są niezależne o rozkładach N (0,1) . Stąd Xi 2 ~ n i 1 n 2 Zastępując nieznaną wartość średnią przez średnią z próby losowej X otrzymamy zmienną losową: 2 (n 1) S 2 Xi X 2 2 ~ n 1 . 2 i 1 n Stąd 2 (n 1) S 2 2 P / 2, n 1 1 / 2, n 1 1 , 2 (3) gdzie 2 / 2, n 1, 12 / 2, n 1 są kwantylami rzędu / 2, 1 / 2, odpowiednio, rozkładu n21. Wzór (3) zapisujemy równoważnie: 2 (n 1) S 2 ( n 1 ) S 1 . P 2 2 2 / 2, n 1 1 / 2, n 1 Stąd, przedziałami ufności na poziomie ufności 1 są dla wariancji 2 rozkładu normalnego (n 1) s 2 (n 1) s 2 , 2 2 1 / 2, n 1 / 2, n 1 dla standardowego odchylenia rozkładu normalnego (n 1) s 2 (n 1) s 2 , 2 . 2 1 / 2, n 1 / 2, n 1 Model 6. Przedział ufności dla ilorazu wariancji dwóch rozkładów normalnych ( nieobowiązkowo) Niech X1 , X 2 ,..., X n1 oraz Y1 , Y2 ,...,Yn2 będą dwiema niezależnymi prostymi próbami losowymi z rozkładów normalnych N ( 1 , 1 ) oraz N ( 2 , 2 ) , odpowiednio. Wówczas (n1 1) S12 12 , (n2 1) S 22 22 są niezależnymi zmiennymi losowymi, o rozkładach 2 o n1 1, n2 1 stopniach swobody, odpowiednio. Definicja. Niech U, V będą niezależnymi zmiennymi losowymi oraz U ~ r2 , V ~ k2 . Wówczas rozkład prawdopodobieństwa zmiennej U /r nazywamy rozkładem F Snedecora z r i k V /k stopniami swobody. S12 / 12 Zatem zmienna losowa ma rozkład F 2 2 S2 / 2 Snedecora z n1 1, n2 1 stopniami swobody. P( f / 2 S12 / 12 2 2 f1 / 2 ) S2 / 2 2 2 S 22 S 2 2 P 2 f / 2 2 2 f1 / 2 = 1 , 1 S1 S1 gdzie f / 2 , f1 / 2 są kwantylami rzędu / 2,1 / 2 , odpowiednio, rozkładu F Snedecora z n1 1, n2 1 stopniami swobody. Wiadomo, że f1 / 2 ( f / 2 ) 1 . Zatem przedział 22 ufności dla ilorazu wariancji 2 na poziomie ufności 1 1 ma postać 2 s22 1 s2 . ( f ) , f 2 1 / 2 2 1 / 2 s1 s1 IV. Przedziały ufności dla proporcji Model 7. Niech X1, X 2 ,..., X n będzie prostą próbą losową z rozkładu Bernoulli’ego o nieznanym parametrze p. Wówczas E ( X 1 ) , 2 p(1 p) . Niech p̂ = X . Z centralnego twierdzenia granicznego dla dostatecznie dużego n zmienna losowa pˆ p ma rozkład bliski rozkładowi N (0,1). p (1 p ) n ( musi zachodzić np 5, n(1 p) 5 ) Można też udowodnić, że zmienna losowa pˆ p ma rozkład bliski N (0,1) , o ile pˆ (1 pˆ ) n npˆ 5, n(1 pˆ ) 5 . Stąd P z1 / 2 pˆ p z1 / 2 1 . pˆ (1 pˆ ) n Równoważnie pˆ (1 pˆ ) pˆ (1 pˆ ) P pˆ z1 / 2 p pˆ z1 / 2 n n 1 Przedział ufności dla p na poziomie ufności 1 jest realizacją przedziału losowego: pˆ (1 pˆ ) pˆ (1 pˆ ) , pˆ z1 / 2 pˆ z1 / 2 n n Przykład. W badaniach opinii publicznej otrzymano wynik: 70% spośród 1000 ankietowanych Polaków poparło wejście Polski do Unii Europejskiej, a pozostałych 30% osób było przeciwnych. Skonstruować 95% przedział ufności dla proporcji p obywateli popierających wejście Polski do UE. Mamy: p̂ = 0,7, 1 = 0,95, 0,05 , 1 / 2 = 1 – 0,025 =0,975. Z tablic: z0,975 = 1,96. Próba jest bardzo liczna oraz spełnione są warunki npˆ 1000 0,7 5, n(1 pˆ ) 1000 0,3 5 . Zatem można wykorzystać powyżej znaleziony przybliżony przedział ufności: pˆ (1 pˆ ) pˆ (1 pˆ ) p z , p z = ˆ ˆ 1 / 2 1 / 2 n n 0,7 0,3 0,7 0,3 0 , 7 1 , 96 , 0 , 7 1 , 96 = 1000 1000 = [0,68, 0,73]. Zatem mamy „95% pewności”, że proporcja Polaków popierających wejście Polski do UE jest liczbą z przedziału [0,68, 0,73]. Zadanie. Spośród 400 dorosłych przypadkowo wybranych osób zapytanych o regularne uprawianie sportu rekreacyjnego 160 osób odpowiedziało twierdząco. Skonstruować 98% przedział ufności dla p = proporcji osób uprawiających sport rekreacyjny w danej populacji. Mamy: pˆ 160 = 0,4, n = 400, 0,02 , 400 1 / 2 0,99, z0,99 2,33 . npˆ 160 5 , n(1 pˆ ) 240 5. pˆ (1 pˆ ) pˆ (1 pˆ ) , pˆ z1 / 2 pˆ z1 / 2 = n n 0,4 0,6 0,4 0,6 0 , 4 2 , 33 , 0 , 4 2 , 33 = 400 400 = [0,343, 0,457] = 98% przedział ufności dla p. Zadanie. Producent twierdzi, że niezawodność elementów jego produkcji wynosi 0,9 ( np. prawdopodobieństwo poprawnej pracy w okresie gwarancji, prawdopodobieństwo wylosowania elementu nie spełniającego norm z bieżącej produkcji ..., ogólnie proporcja elementów niezawodnych ). Wśród 100 wybranych losowo elementów 15 okazało się zawodnych. Czy jesteśmy skłonni ufać twierdzeniu producenta ? [0,85 1,96 0,85 0,15 0,85 0,15 , 0.85 1,96 ] 100 100 = [0,780,0,920] = 95% przeział ufności dla proporcji elementów niezawodnych.