Estymacja przedziałowa - przedziały ufności dla średnich Wrocław, 5 grudnia 2014 Przedział ufności Niech będzie dana próba X1 , X2 , . . . , Xn z rozkładu Pθ , θ ∈ Θ. Definicja Przedziałem ufności dla paramertu θ ∈ Θ na poziomie ufności 1 − α nazywamy przedział (θ1 , θ2 ), gdzie 1. θ1 = θ1 (X1 , X2 , . . . , Xn ) oraz θ2 = θ2 (X1 , X2 , . . . , Xn ) są funkcjami próby i nie zależą od parametru θ. 2. dla każdego θ ∈ Θ P(θ1 ¬ θ ¬ θ2 ) = 1 − α. Przedział ufności 1. Końce przedziału ufności (θ1 , θ2 ) są zmiennymi losowymi. 2. Przedziału ufności pokrywa parametr θ z prawdopodobieństwem w przybliżeniu równym 1 − α. 3. Długość przedziału ufności: dθ = θ2 − θ1 4. Najlepszy przedział ufności to ten najkrótszy. Przedział ufności dla średniej w rozkładzie normalnym ze znaną wariancją Przedział ufności dla średniej w rozkładzie normalnym ze znanym odchyleniem standardowym X1 , X2 , . . . , Xn - próba z rozkładu normalnego N (µ, σ 2 ), µ nieznane, σ - znane. Przedział ufności dla średniej w rozkładzie normalnym ze znanym odchyleniem standardowym X1 , X2 , . . . , Xn - próba z rozkładu normalnego N (µ, σ 2 ), µ nieznane, σ - znane. Znanym faktem jest, że: n 1X X̄ = Xi ∼ N n i=1 σ2 µ, √ n ! Przedział ufności dla średniej w rozkładzie normalnym ze znanym odchyleniem standardowym X1 , X2 , . . . , Xn - próba z rozkładu normalnego N (µ, σ 2 ), µ nieznane, σ - znane. Znanym faktem jest, że: n 1X X̄ = Xi ∼ N n i=1 σ2 µ, √ n oraz, że: Z= X̄ − µ √ ∼ N (0, 1) σ/ n ! Przedział ufności dla średniej w rozkładzie normalnym ze znanym odchyleniem standardowym Dla danego α można wyznaczyć takie stałe u1 , u2 , dla których P(u1 ¬ Z ¬ u2 ) = Φ(u2 ) − Φ(u1 ) = 1 − α Przedział ufności dla średniej w rozkładzie normalnym ze znanym odchyleniem standardowym Dla danego α można wyznaczyć takie stałe u1 , u2 , dla których P(u1 ¬ Z ¬ u2 ) = Φ(u2 ) − Φ(u1 ) = 1 − α Niech u1 = Φ−1 (α1 ) oraz u2 = Φ−1 (1 − α2 ), wówczas Φ(u2 ) − Φ(u1 ) = Φ(Φ−1 (1 − α2 )) − Φ(Φ−1 (α1 )) = = 1 − α2 − α1 = 1 − (α1 + α2 ) Przedział ufności dla średniej w rozkładzie normalnym ze znanym odchyleniem standardowym Niech teraz α = α1 + α2 , α1 , α2 > 0 oraz przyjmijmy, że u1 = uα1 oraz u2 = u1−α2 - kwantyle rzędów α1 oraz 1 − α2 z rozkładu N (0, 1). Wówczas P(u1 ¬ Z ¬ u2 ) = P uα1 ¬ X̄ −µ √ σ/ n ¬ u1−α2 = P X̄ − u1−α2 √σn ¬ µ ¬ X̄ − uα1 √σn . Przedział ufności dla średniej w rozkładzie normalnym ze znanym odchyleniem standardowym Niech teraz α = α1 + α2 , α1 , α2 > 0 oraz przyjmijmy, że u1 = uα1 oraz u2 = u1−α2 - kwantyle rzędów α1 oraz 1 − α2 z rozkładu N (0, 1). Wówczas P(u1 ¬ Z ¬ u2 ) = P uα1 ¬ X̄ −µ √ σ/ n ¬ u1−α2 = P X̄ − u1−α2 √σn ¬ µ ¬ X̄ − uα1 √σn . Przedział ufności dla µ na poziomie ufności 1 − α σ σ X̄ − u1−α2 √ ; X̄ − uα1 √ . n n Przedział ufności dla średniej w rozkładzie normalnym ze znanym odchyleniem standardowym • Jeśli α1 = 0, to przedział ufności jest postaci: σ X̄ − u1−α2 √ ; ∞ n • Jeśli α2 = 0, to przedział ufności jest postaci: σ −∞; X̄ − uα1 √ n • Jeśli α1 = α2 = α2 , to przedział ufności jest postaci: σ σ X̄ − u1−α/2 √ ; X̄ − uα/2 √ n n Przedział ufności dla średniej w rozkładzie normalnym ze znanym odchyleniem standardowym Zauważmy, że u(1−α/2) = −u(α/2) , a stąd uα/2 · σ u1−α/2 · σ u1−α/2 · σ u1−α/2 · σ √ √ √ ; X̄ − √ ≡ X̄ − ; X̄ + n n n n X̄ − Przedział ten ma długość σ dµ = 2u1− α2 √ . n Jest to najkrótszy = najlepszy przedział ufności dla średniej w rozkładzie normalnym. Przedziały ufności dla średniej Długość przedziału ufności zeleży od: 1. rozmiaru próby 2. poziomu ufności Przedziały ufności dla średniej Długość przedziału ufności zeleży od: 1. rozmiaru próby - większa próba = krótszy przedział 2. poziomu ufności - większy poziom = dłuższy przedział Przykład Przykład 9.1 Z populacji, o rozkładzie normalnym o nieznanej średniej i znanej wariancji równej 0.5, przedstawiającej średnią ocen pewnych uczniów z klasy pierwszej wylosowano próbę 6 osób, dla których ta średnia wynosiła 3.71, 4.28, 2.95, 3.38, 4.05, 4.98. Wyznaczyc 99% przedział ufności dla średniej średniej ocen uczniów. Przykład Przykład 9.1 Z populacji, o rozkładzie normalnym o nieznanej średniej i znanej wariancji równej 0.5, przedstawiającej średnią ocen pewnych uczniów z klasy pierwszej wylosowano próbę 6 osób, dla których ta średnia wynosiła 3.71, 4.28, 2.95, 3.38, 4.05, 4.98. Wyznaczyc 99% przedział ufności dla średniej średniej ocen uczniów. Dane: n=6 σ 2 = 0.5, a stąd σ = 0.7 X̄ = 61 (3.71 + 4.28 + 2.95 + 3.38 + 4.05 + 4.98) = 3.9 1 − α = 0.99 - poziom ufności, a zatem α = 0.01 u0.995 = 2.57 Przykład Przykład 9.1 -cd Obliczmy końce przedziałów ufności: X̄ − u1−α/2 · σ 0.7 · 2.57 √ √ = 3.9 − 0.73 = 3.15 = 3.9 − n 6 X̄ + u1−α/2 · σ 0.7 · 2.57 √ √ = 3.9 + = 3.9 + 0.73 = 4.63, n 6 stąd µ ∈ [3.15, 4.63]. A zatem mamy 99% pewności, że średnia średnia ocen wśród uczniów rozważanej klasy pierwszej mieści się w przedziale [3.15, 4.63]. Przedział ufności dla średniej w rozkładzie normalnym z nieznaną wariancją Przedział ufności dla średniej w rozkładzie normalnym z nieznaną wariancją X1 , X2 , . . . , Xn - próba z rozkładu normalnego N (µ, σ 2 ), µ - nieznane, σ - nieznane. Przedział ufności dla średniej w rozkładzie normalnym z nieznaną wariancją X1 , X2 , . . . , Xn - próba z rozkładu normalnego N (µ, σ 2 ), µ - nieznane, σ - nieznane. Wiemy, że: Z= X̄ − µ √ ∼ N (0, 1) σ/ n Przedział ufności dla średniej w rozkładzie normalnym z nieznaną wariancją X1 , X2 , . . . , Xn - próba z rozkładu normalnego N (µ, σ 2 ), µ - nieznane, σ - nieznane. Wiemy, że: Z= oraz X̄ − µ √ ∼ N (0, 1) σ/ n n nS02 1 X = (Xi − X̄ )2 ∼ χ2 (n − 1) σ2 σ 2 i=1 Przedział ufności dla średniej w rozkładzie normalnym z nieznaną wariancją Fakt Jeżeli zmienne losowe Y i Z są niezależne, przy czym Y ∼ N (0, 1) oraz Z ∼ χ2 (n), to zmienna losowa T = √Y ∼ t(n) Z /n Przedział ufności dla średniej w rozkładzie normalnym z nieznaną wariancją Fakt Jeżeli zmienne losowe Y i Z są niezależne, przy czym Y ∼ N (0, 1) oraz Z ∼ χ2 (n), to zmienna losowa T = √Y ∼ t(n) Z /n Korzystając z powyższego faktu: T =r X̄ −µ √ σ/ n nS02 σ 2 (n−1) = X̄ − µ √ n−1 S0 Przedział ufności dla średniej w rozkładzie normalnym z nieznaną wariancją Fakt Jeżeli zmienne losowe Y i Z są niezależne, przy czym Y ∼ N (0, 1) oraz Z ∼ χ2 (n), to zmienna losowa T = √Y ∼ t(n) Z /n Korzystając z powyższego faktu: T =r X̄ −µ √ σ/ n nS02 σ 2 (n−1) = X̄ − µ √ n − 1 ∼ t(n − 1) S0 Przedział ufności dla średniej w rozkładzie normalnym z nieznaną wariancją Niech teraz t1−α2 (n − 1) oraz tα1 (n − 1) oznaczają kwantyle z rozkładu studenta z n − 1 stopniami swobody rzędu 1 − α2 i α1 odpowiednio. P(tα1 (n − 1) ¬ T ¬ t1−α2 (n − 1)) = 1 − α2 − α1 = 1 − α Przedział ufności dla średniej w rozkładzie normalnym z nieznaną wariancją Niech teraz t1−α2 (n − 1) oraz tα1 (n − 1) oznaczają kwantyle z rozkładu studenta z n − 1 stopniami swobody rzędu 1 − α2 i α1 odpowiednio. P(tα1 (n − 1) ¬ T ¬ t1−α2 (n − 1)) = 1 − α2 − α1 = 1 − α X̄ − µ √ P tα1 (n − 1) ¬ ¬ t1−α2 (n − 1) S0 / n − 1 = P X̄ − tα1 (n − 1) √ ! = S0 S0 ¬ µ ¬ X̄ − t1−α2 (n − 1) √ n−1 n−1 = 1−α Przedział ufności dla średniej w rozkładzie normalnym z nieznaną wariancją Przedział ufności dla µ przy nieznanym σ jest postaci X̄ − tα1 (n − 1) · S0 t1−α2 (n − 1) · S0 √ √ ; X̄ − n−1 n−1 Przedział ufności dla średniej w rozkładzie normalnym z nieznaną wariancją Przedział ufności dla µ przy nieznanym σ jest postaci X̄ − tα1 (n − 1) · S0 t1−α2 (n − 1) · S0 √ √ ; X̄ − n−1 n−1 Niech teraz α1 = α2 = α2 , wówczas najkrótszy przedział ufności dla µ jest postaci " # t1−α/2 (n − 1) · S0 t1−α/2 (n − 1) · S0 √ √ X̄ − ; X̄ + . n−1 n−1 Przykład Przykład Na podstawie wielokrotnych obserwacji ustalono, że rozkład czasu dojazdu do pracy osób zatrudnionych w sklepach pewnej sieci jest rozkładem normalnym. W celu oszacowania nieznanej średniej w tym rozkładzie wylosowano niezależnie 17–elementową próbę pracowników. Średni czas dojazdu w tej próbie wynosił 40 minut a odchylenie standardowe stanowiło połowę czasu średniego. Wyznacz 95% przedział ufności dla średniego czasu dojazdu do pracy dla ogółu pracowników. Przykład Przykład Na podstawie wielokrotnych obserwacji ustalono, że rozkład czasu dojazdu do pracy osób zatrudnionych w sklepach pewnej sieci jest rozkładem normalnym. W celu oszacowania nieznanej średniej w tym rozkładzie wylosowano niezależnie 17–elementową próbę pracowników. Średni czas dojazdu w tej próbie wynosił 40 minut a odchylenie standardowe stanowiło połowę czasu średniego. Wyznacz 95% przedział ufności dla średniego czasu dojazdu do pracy dla ogółu pracowników. Dane: X̄ = 40 S = 0.5 · 40 = 20 n = 17 1 − α = 0.95 - poziom ufności, a stąd α = 0.05 t0.975 (16) = 2.12. Przykład Przykład Obliczmy końce przedziałów ufności X̄ − X̄ + t1−α/2 (n − 1) · S 20 · 2.12 √ = 40 − √ = 40 − 10.59 = 29.4 n−1 16 t1−α/2 (n − 1) · S 20 · 2.12 √ = 40 + √ = 40 + 10.59 = 50.59, n−1 16 Przykład Przykład Obliczmy końce przedziałów ufności X̄ − X̄ + t1−α/2 (n − 1) · S 20 · 2.12 √ = 40 − √ = 40 − 10.59 = 29.4 n−1 16 t1−α/2 (n − 1) · S 20 · 2.12 √ = 40 + √ = 40 + 10.59 = 50.59, n−1 16 stąd µ ∈ [29.4, 50.59] A zatem z prawdopodobieństwem 0.95 możemy stwierdzić, że średni czasu dojazdu do pracy dla ogółu pracowników mieści się w przedziale [29.4, 50.59]. Przedział ufności dla średniej w dowolnym rozkładzie Przedziały ufności dla średniej w dowolnym rozkładzie X1 , X2 , . . . , Xn - próba z rozkładu o rozmiarze n ­ 100 o nieznanej średniej EXi = µ i wariancji Var (Xi ) = σ 2 . Przedziały ufności dla średniej w dowolnym rozkładzie X1 , X2 , . . . , Xn - próba z rozkładu o rozmiarze n ­ 100 o nieznanej średniej EXi = µ i wariancji Var (Xi ) = σ 2 . Z Centralnego Twierdzenia Granicznego: Z= X̄ − µ n→∞ √ −→ Y σ/ n Przedziały ufności dla średniej w dowolnym rozkładzie X1 , X2 , . . . , Xn - próba z rozkładu o rozmiarze n ­ 100 o nieznanej średniej EXi = µ i wariancji Var (Xi ) = σ 2 . Z Centralnego Twierdzenia Granicznego: Z= X̄ − µ n→∞ √ −→ Y ∼ N (0, 1), σ/ n Przedziały ufności dla średniej w dowolnym rozkładzie X1 , X2 , . . . , Xn - próba z rozkładu o rozmiarze n ­ 100 o nieznanej średniej EXi = µ i wariancji Var (Xi ) = σ 2 . Z Centralnego Twierdzenia Granicznego: Z= X̄ − µ n→∞ √ −→ Y ∼ N (0, 1), σ/ n a stąd: X̄ − µ √ ¬ u2 lim P u1 ¬ n→∞ σ/ n gdzie u1 = uα1 , u2 = u1−α2 . ! = 1 − α, Przedziały ufności dla średniej w dowolnym rozkładzie Przedział ufności (asymptotyczny) dla średniej µ na poziomie ufności 1 − α jest postaci: 1. gdy σ znane: u1−α/2 · σ u1−α/2 · σ √ √ X̄ − ; X̄ + n n 2. gdy σ nie jest znane: u1−α/2 · S u1−α/2 · S √ √ X̄ − ; X̄ + n n Przykład Przykład Załóżmy, że p · 100%, 0 ¬ p ¬ 1 wyborców jest zdecydowana poprzeć pewnego kandydata w najbliższych wyborach. W celu oszacowania wartości p przeprowadzono ankietę (przewidującą dwie odpowiedzi: TAK lub NIE) wśród 1076 osób, z czego 324 odpowiedziały TAK. Wyznaczymy 90% przedział ufności dla p. Przykład Przykład Załóżmy, że p · 100%, 0 ¬ p ¬ 1 wyborców jest zdecydowana poprzeć pewnego kandydata w najbliższych wyborach. W celu oszacowania wartości p przeprowadzono ankietę (przewidującą dwie odpowiedzi: TAK lub NIE) wśród 1076 osób, z czego 324 odpowiedziały TAK. Wyznaczymy 90% przedział ufności dla p. Zauważmy, że mamy do czynienia z rozkładem dwumianowym, gdzie p jest wartością oczekiwaną zmiennej losowej Xi zdefiniowanej następująco: ( Xi = 1 pytana osoba odpowie TAK 0 pytana osoba odpowie NIE Przykład Przykład Dane: n = 1076 324 = 0.301 X̄ = 1076 324 324 S 2 = 1076 1 − 1076 = 0.21 1 − α = 0.90 - poziom ufności, a zatem α = 0.1 t0.95 (1075) = 1.64. Przedział ufności dla p jest postaci: (0.278; 0.324) Zatem na danego kandydata zdecydowanych jest głosować 324 1076 · 100% = 30.1% wyborców, z dopuszczalnym błędem statystycznym równym dn = 2.3%.