Metody probabilistyczne i statystyka Wykład Estymacja przedziałowa Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki Szczecińskiej 8 Metody probabilistyczne i statystyka Wykład 8 22. Estymacja przedziałowa Estymacja przedziałowa – metoda wyznaczenia takiego przedziału liczbowego, aby z prawdopodobieństwem bliskim 1 można było oczekiwać, że prawdziwa wartość interesującego nas parametru rozkładu cechy X znajduje się wewnątrz tego przedziału θ – nieznany parametr zmiennej losowej X, (X1,…, Xn) – próba losowa Jeżeli α ∈ (0,1) i U n = U n ( X 1 ,..., X n ) oraz U n = U n ( X 1 ,..., X n ) są dwiema statystykami takimi, że U n < U n oraz P (U n < θ < U n ) = 1 − α (22.1) to przedział losowy (U n ,U n ) (22.2) nazywamy przedziałem ufności dla parametru θ na poziomie ufności 1−α Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 8 Realizacja przedziału ufności (22.3) Uwagi a) b) Jeżeli (x1,…, xn) jest próbką wartości cechy X i obliczymy wartości statystyk un = U n ( x1 ,..., xn ) oraz u n = U n ( x1 ,..., xn ), to otrzymamy przedział rzeczywisty ( u n , u n ) , który jest jedną z wielu realizacji przedziału ufności (22.2) Liczby un i u n nazywamy odpowiednio ocenami dolną i górną parametru θ Dla różnych próbek wartości cechy X będziemy otrzymywać różne realizacje przedziałów ufności, lecz np. dla α = 0.01 parametr będzie do nich należał w 99 przypadkach na 100 próbek Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 8 Przedziały ufności dla wartości oczekiwanej – model 1 (22.4) Wartość oczekiwana Model 1 (rozkład normalny, znana wariancja) X – zmienna losowa o rozkładzie normalnym N(m,σ), wariancja σ2 = D2X jest znana Średnia z próby X = 1n ( X 1 + ... + X n ) ma rozkład N m, σn , zatem statystyka X −m X −m U= σ = n σ f ( x) n ( ma rozkład N(0,1) i dla dowolnego α∈(0,1) istnieje uα takie, że P ( −u α < U < u α ) = 1 − α ) N (0,1) α 2 α 2 1−0.1 α −uα 0 uα Rys.22.1. Gęstość rozkładu N(0,1) Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 8 Przedziały ufności dla wartości oczekiwanej – model 1 Dalej dostajemy Φ (u α ) = 1 − α2 , zatem uα jest kwantylem rozkładu normalnego N(0,1) rzędu 1 − α2 , odczytywanym z tablic, który będziemy oznaczać przez u (1 − α2 ) W rezultacie X −m α α 1 − α = P −u (1 − 2 ) < σ < u (1 − 2 ) n = P −u (1 − α2 ) σn < X − m < u (1 − α2 ) σn ( ( = P X − u (1 − α2 ) ) σ n < m < X + u (1 − α2 ) σ n ) Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 8 Przedziały ufności dla wartości oczekiwanej – model 1 Otrzymujemy przedział ufności dla wartości oczekiwanej na poziomie ufności 1−α X − u (1 − α2 ) σn , X + u (1 − α2 ) σn ( ) z realizacją dla próbki (x1,…, xn) ( x − u (1 − α 2 ) σ n , x + u (1 − α2 ) σ n ) Przykład (do modelu 1) Dokonano 100 pomiarów ciśnienia wody pewnym przyrządem Wielkość pomiaru to zmienna losowa X o rozkładzie normalnym N(m,σ), gdzie odchylenie standardowe σ jest dla tego przyrządu znane i wynosi 2.1 Przyrząd mierzy bez błędu systematycznego, tzn. EX = m Średnia z próbki wynosi 2.21 Oszacować nieznane średnie ciśnienie wody przedziałem ufności na poziomie ufności 0.95 Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 8 Przedziały ufności dla wartości oczekiwanej – model 2 Model 2 (rozkład normalny, wariancja nieznana) X – zmienna losowa o rozkładzie normalnym N(m,σ), wariancja σ2 = D2X nie jest znana 2 n Jeśli X = 1n ( X 1 + ... + X n ) i S 2 = 1n ∑ i =1 ( X i − X ) , to statystyka X −m t= n −1 S ma rozkład Studenta z n – 1 stopniami swobody f ( x) Obszar ufności jest konstruowany analogicznie do Modelu 1 t Z tablic kwantyli rozkładu Studenta z n – 1 1−0.1 α stopniami swobody odczytujemy kwantyl 0 t (1 − , n − 1) −t (1 − , n − 1) t (1 − α2 , n − 1) rzędu 1 − α2 taki, że Rys.22.2. Gęstość rozkładu t P ( −t (1 − α2 , n − 1) < t < t (1 − α2 , n − 1) ) = 1 − α α 2 α 2 α 2 α 2 Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 8 Przedziały ufności dla wartości oczekiwanej – model 2 Po przekształceniach otrzymujemy przedział ufności dla wartości oczekiwanej na poziomie ufności 1−α ( X − t (1 − α 2 , n − 1) S n −1 , X + t (1 − α2 , n − 1) S n −1 ) z realizacją dla próbki (x1,…, xn) ( x − t (1 − α 2 , n − 1) s n −1 , x + t (1 − α2 , n − 1) s n −1 ) Przykład (do modelu 2) Przeprowadzono 10 niezależnych pomiarów wartości przyspieszenia ziemskiego w pewnym punkcie, otrzymując (w cm/s2): 980,1 978,9 977,3 979,2 978,2 981,0 980,5 976,9 979,3 978,6 Wielkość pomiaru to zmienna losowa o rozkładzie normalnym N(m,σ) Przyrząd pomiarowy mierzy bez błędu systematycznego Wyznaczyć 99 % realizację przedziału ufności dla wartości przeciętnej przyspieszenia ziemskiego Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 8 Przedziały ufności dla wartości oczekiwanej – model 3 Model 3 (rozkład nieznany, duża próba n ≥ 100 ) X – zmienna losowa o nieznanym rozkładzie, istnieją wartość oczekiwana EX = m i wariancja σ2 = D2X > 0 Jeśli próba jest duża ( n ≥ 100 ), to statystyka X −m n σ ma rozkład w przybliżeniu normalny N(0,1) 2 n Ponieważ próba jest duża, przyjmujemy σ 2 ≈ S 2 = 1n ∑ i =1 ( X i − X ) Powtarzając przekształcenia analogicznie do Modelu 1, otrzymujemy na poziomie ufności przedział U= z realizacją ( X − u(1 − ( x − u (1 − α 2 ) S n , X + u (1 − α2 ) S n α 2 ) s n , x + u (1 − α2 ) s n ) ) Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 8 Przedziały ufności dla wariancji i odchylenia standardowego – model 1 (22.5) Wariancja i odchylenie standardowe Model 1 (rozkład normalny, parametry nieznane) X – zmienna losowa o rozkładzie normalnym N(m,σ), parametry m i σ nie są znane 2 n 2 1 Jeśli S = n ∑ i =1 ( X i − X ) , to statystka nS 2 2 χ = 2 f ( x) σ χ 2 ma rozkład χ z n – 1 stopniami swobody Dla dowolnego α∈(0,1) istnieją kwantyle 1− α α α rzędu 2 i 1 − 2 rozkładu χ2 z n – 1 stopniami swobody takie, że 0 χ ( , n − 1) α 2 2 α 2 P ( χ 2 ( α2 , n − 1) < χ 2 < χ 2 (1 − α2 , n − 1) ) = 1 − α 2 α 2 χ 2 (1 − α2 , n − 1) x Rys.22.3. Gęstość rozkładu χ2 Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 8 Przedziały ufności dla wariancji i odchylenia standardowego – model 1 Dalej dostajemy 2 α nS 2 2 α 1 − α = P χ ( 2 , n − 1) < 2 < χ (1 − 2 , n − 1) σ 1 σ2 1 = P 2 < 2< 2 α α χ (1 − , n − 1) nS χ ( , n − 1) 2 2 nS 2 nS 2 2 = P 2 <σ < 2 α α χ ( 2 , n − 1) χ (1 − 2 , n − 1) Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 8 Przedziały ufności dla wariancji i odchylenia standardowego – model 1 W rezultacie otrzymujemy przedział ufności dla wariancji nS 2 nS 2 , 2 2 α α χ (1 − , n − 1) χ ( , n − 1) 2 2 i dla odchylenia standardowego na poziomie ufności 1−α nS 2 nS 2 , 2 2 α α χ (1 − , n − 1) χ ( , n − 1) 2 2 Przykład (do modelu 1) W celu oszacowania dokładności przyrządu pomiarowego, dokonano nim 9 niezależnych pomiarów pewnej wielkości fizycznej Otrzymano odchylenie standardowe z próbki 0.5 Wielkość pomiaru to zmienna losowa o rozkładzie normalnym N(m,σ) Na poziomie ufności 0.9 oszacować przedziałem ufności odchylenie standardowe, które przyjmujemy za miarę dokładności przyrządu Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 8 Przedziały ufności dla wariancji i odchylenia standardowego – model 2 Model 2 (rozkład normalny, parametry nieznane, duża próba n ≥ 50) X – zmienna losowa o rozkładzie normalnym N(m,σ), parametry m i σ nie są znane Jeśli próba jest duża ( n ≥ 50 ), to statystyka nS 2 S 2χ = 2 2 = 2n σ σ ma w przybliżeniu rozkład normalny N 2n − 3,1 , a więc statystyka U = 2χ 2 − 2n − 3 ma rozkład normalny N(0,1) Wtedy dla α∈(0,1) otrzymujemy 2 ( ( ) ) P −u (1 − α2 ) < 2χ 2 − 2n − 3 < u (1 − α2 ) = 1 − α Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 8 Przedziały ufności dla wariancji i odchylenia standardowego – model 2 Dalej dostajemy S 1 − α = P 2n − 3 − u (1 − α2 ) < 2n < 2n − 3 + u (1 − α2 ) σ 3 u (1 − α2 ) S 3 u (1 − α2 ) = P 1− − < < 1− + 2 n σ 2 n 2 n 2 n 0 S S ≈ P u (1− α ) < σ < α u (1 − ) 2 1+ 2 1 − 2n 2n Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 8 Przedziały ufności dla wariancji i odchylenia standardowego – model 1 W rezultacie otrzymujemy przedział ufności dla odchylenia standardowego S S , u (1− α ) u (1− α2 ) 2 1+ 1 − 2n 2n i dla wariancji na poziomie ufności 1−α 2 2 S S , 1 + u (1− α2 ) 1 − u (1− α2 ) 2n 2n Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 8 Przedział ufności dla wskaźnika struktury (22.6) Wskaźnik struktury Model (rozkład 0-1, parametr p nieznany, duża próba n ≥ 100) X – zmienna losowa o rozkładzie 0-1, parametr p nie jest znany Jeśli próba jest duża ( n ≥ 100 ), to statystyka M n gdzie M oznacza zmienną losową, której wartościami są liczby wyróżnionych elementów w n-elementowej próbce, ma w przybliżeniu rozkład normalny N p, p (1− p ) , n Wtedy statystyka M n − p U= p= ( ma rozkład N(0,1) ) p (1− p ) n Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 8 Przedział ufności dla wskaźnika struktury Dla α∈(0,1) otrzymujemy 1 − α = P −u (1 − α2 ) < =P ( M n − u (1 − α2 ) p (1− p ) n M n −p p (1− p ) n < p< M n < u (1 − α2 ) p (1− p ) n + u (1 − α2 ) ) Końce przedziału zależą od p, które nie jest znane, ale wobec n ≥ 100, można dla uproszczenia przyjąć p ≈ Mn Otrzymujemy realizację przedziału ufności dla próbki (x1,…, xn) m − u (1 − α ) n 2 m (1− mn ) n n < p< m n α 2 + u (1 − ) m (1− mn ) n n Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 8 Przedział ufności dla wskaźnika struktury Przykład 350 losowo wybranych wyrobów Znaleziono 31 wyrobów wadliwych Wykorzystując wynik badania kontrolnego podać 99 % realizację przedziału ufności dla frakcji wyrobów dobrych w całej partii produkowanych wyrobów Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 8 Dziękuję za uwagę Opracowała Joanna Banaś