WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ESTYMACJA Symbole w statystyce Symbole Populacja Próba Średnia m 𝑥 Odchylenie standardowe σ s Odsetek p 𝑝 Estymacja – co to jest? • Estymacja punktowa • Estymacja przedziałowa • Co można oszacować? • m – średnią w populacji • p – odsetek w populacji Szacowanie średniej 1. Rozkład normalny, m – znane, σ – znane, n – znane a) Obliczamy średnią 𝑥 σ σ Maksymalny błąd szacunku (d) 𝑥 − Uα < m < 𝑥+Uα Standardowy błąd szacunku 𝑛 𝑛 2. Rozkład normalny, m – znane, σ – nieznane, n – znane a) Obliczamy średnią 𝑥, odchylenie standardowe s 𝑠 𝑠 𝑥 − tα, n−1 < m < 𝑥+tα, n−1 𝑛 𝑛 3. Rozkład nieznany, n – bardzo duże a) Obliczamy średnią 𝑥, odchylenie standardowe s 𝑠 𝑠 𝑥 − Uα < m < 𝑥+Uα 𝑛 𝑛 Szacowanie odsetka/frakcji w populacji n – znane, 𝑝 - znane 𝑝 − Uα 𝑝×(1−𝑝) 𝑛 < p <𝑝+Uα 𝑝×(1−𝑝) 𝑛 Poziom i przedział ufności • Poziom ufności/współczynnik ufności: 1 – α – prawdopodobieństwo, że szacunek jest dobry • Przedział ufności d d 𝑥 Szacunek punktowy i wariancja nieobciążona • Średnia ± standardowy błąd szacunku • Przeciętny odsetek ± standardowy błąd szacunku ~~~~~~~~~~~~~~~~~~ 𝑛 1 𝑠2 𝑥 = (𝑥𝑖 − 𝑥)2 𝑛−1 𝑖=1 PRZYKŁADOWE ZADANIA Zadanie 3.4 Z szeregu badań wiadomo, że poziom leukocytów we krwi (w tys/mm3) ma rozkład normalny o odchyleniu standardowym 0,3. W pewnym instytucie doświadczalnym postanowiono sprawdzić możliwość zastosowania nowego aparatu do badania przeciętnego poziomu leukocytów we krwi. a) Jak liczna powinna być próba badanych osób, aby przy współczynniku ufności 0,95 maksymalny błąd szacunku (połowa długości przedziału ufności) wynosił 0,1 tys/mm3? b) Zbudować przedział ufności dla przeciętnego poziomu leukocytów we krwi (1-α = 0,95), jeśli w losowej próbie o liczebności wyznaczonej w punkcie a) średni poziom leukocytów wynosił 8,0. Rozwiązanie Dane: X: N(m, σ); σ = 0,3 a) n = ?, 1-α = 0,95, d = 0,1 Szacowanie średniej 1. Rozkład normalny, m – znane, σ – znane, n – znane a) Obliczamy średnią 𝑥 σ σ Maksymalny błąd szacunku (d) 𝑥 − Uα < m < 𝑥+Uα 𝑛 𝑛 2. Rozkład normalny, m – znane, σ – nieznane, n – znane a) Obliczamy średnią 𝑥, odchylenie standardowe s 𝑠 𝑠 𝑥 − tα, n−1 < m < 𝑥+tα, n−1 𝑛 𝑛 3. Rozkład nieznany, n – bardzo duże a) Obliczamy średnią 𝑥, odchylenie standardowe s 𝑠 𝑠 𝑥 − Uα < m < 𝑥+Uα 𝑛 𝑛 Rozwiązanie c.d Dane: X: N(m, σ); σ = 0,3 a) n = ?; 1-α = 0,95 => α = 0,05; d = 0,1 d = 𝑈α × σ 𝑛 n = (1,96 × ⇒𝑛= 0,3 2 ) = 0,1 σ 2 (𝑈α × ) 𝑑 34,57 ⇒ 𝑛 = 35 Odp: Próba powinna liczyć 35 osób. Rozwiązanie c.d. b) n = 35; α = 0,05; 𝑥 = 8 𝑥-d<m<𝑥+d 8 – 0,1 < m < 8 + 0,1 (uwaga na jednostki!!) 7,9 < m < 8,1 Odp: Oszacowany przedział (7,9 tys/mm3; 8,1 tys/mm3) jest jednym z możliwych do oszacowania, które z prawdopodobieństwem 0,95 pokrywają nieznany średni poziom leukocytów w populacji. Zadanie 3.6 Organizacja pozarządowa zajmująca się ochroną środowiska postanowiła oszacować przeciętną ilość odpadów wytwarzanych w roku przez jednego Polaka. Zebrane informacje dla 60 losowo wybranych osób pozwoliły stwierdzić, że wyprodukowały one 18 000 kg (18 t) śmieci, natomiast suma kwadratów wagi odpadów wytworzonych przez te osoby wyniosła 5 494 400 (kg2). a) Obliczyć na podstawie próby wariancję nieobciążoną b) Określić błąd standardowy estymacji. Czy obliczona wielkość jest wielkością dokładną? c) Wyznaczyć przedział ufności przy 1-α = 0,9 dla średniej ilości śmieci wytwarzanych przez Polaka. Jakie założenia dotyczące rozkładu cechy w populacji są tu niezbędne? Rozwiązanie Dane: n = 60; 60 60 2 𝑥 = 𝑥 + 𝑥 + 𝑥 + ⋯ + 𝑥 = 18 000; (𝑥 ) = 1 2 3 60 𝑖=1 𝑖 𝑖=1 𝑖 (𝑥1 )2 + (𝑥2 )2 + (𝑥3 )2 + ⋯ + (𝑥60 )2 = 5 494 400 2 a) 𝑠 𝑥 = 1 𝑛−1 × 60 𝑖=1(𝑥𝑖 − 𝑥) 2 1 = 60−1 × 60 𝑖=1 𝑥𝑖2 + 𝑥 2 − Rozwiązanie c.d. b) X: … <- nieznany! 𝑠 2 𝑥 = 1 600 ⇒ 𝑠 𝑥 = 40 𝑠 40 = ≈ 5,16 𝑛 60 Odp: Błąd standardowy wynosi 5,16 i nie jest dokładny, bo szacujemy na bazie odchylenia standardowego z próby. c) 1-α=0,9 => α = 0,1; n = 60; 𝑥 = 300; X:… nieznany 300 – 1,64 x 5,16 < m < 300 + 1,64 x 5,16 291,54 < m < 308,46 Odp: Oszacowany przedział jest jednym z możliwych do oszacowania, które z prawdopodobieństwem 0,9 pokrywają nieznaną średnią ilość śmieci wyrzucanych przez Polaków. Brak założeń, bo n jest duże. Szacowanie średniej 1. Rozkład normalny, m – znane, σ – znane, n – znane a) Obliczamy średnią 𝑥 σ σ 𝑥 − Uα < m < 𝑥+Uα 𝑛 𝑛 2. Rozkład normalny, m – znane, σ – nieznane, n – znane a) Obliczamy średnią 𝑥, odchylenie standardowe s 𝑠 𝑠 𝑥 − tα, n−1 < m < 𝑥+tα, n−1 𝑛 𝑛 3. Rozkład nieznany, n – bardzo duże a) Obliczamy średnią 𝑥, odchylenie standardowe s 𝑠 𝑠 𝑥 − Uα < m < 𝑥+Uα 𝑛 𝑛 Zadanie 3.11 Roczne wydatki na promocję firm z pewnej branży mają rozkład normalny. a) Ile wynosił współczynnik ufności przy przedziałowej estymacji średniej wysokości tych wydatków dla wszystkich firm branży, jeśli na podstawie 9elementowej losowej próby przedsiębiorstw uzyskano przedział o długości 1500 zł, a odchylenie standardowe (wyznaczone jako pierwiastek z wariancji nieobciążonej) wydatków w badanej próbie firm wyniosło 995 zł? b) Jak liczna powinna być próba, aby z prawdopodobieństwem 0,95 oszacować odsetek firm tej branży reklamujących się w TV z maksymalnym błędem 0,02? Badanie pilotażowe wskazuje, że takich firm jest ok. 20%. Rozwiązanie Dane: X:N(…,…) a) 1-α =?; n = 9; 2d = 1500 => d = 750; s = 995 𝑑 = 𝑡α,𝑛−1 × 𝑠 𝑛 ⇒ 𝑡α,8 = 𝑑× 𝑛 𝑠 ⇒ 𝑡α,8 = 2,2613 => α = 0,05 => 1- α = = 0,95 Odp: Współczynnik ufności wynosi 0,95. Rozwiązanie c.d. b) n = ?; 1-α = 0,95 => α = 0,05; d = 0,02; 𝑝 = 0,2 d = 𝑈α × 𝑝(1−𝑝) 𝑛 ⇒n= 𝑝(1−𝑝)×𝑈α2 𝑑2 ⇒𝑛= 𝑛 = 1537 Odp: Próba powinna liczyć 1537 osób. 0,16×1,962 0,022 = 1536,64 ⇒ Szacowanie odsetka w populacji n – znane, 𝑝 - znane 𝑝 1−𝑝 𝑝 1−𝑝 𝑝 − 𝑢α ∙ < 𝑝 < 𝑝 + 𝑢α ∙ 𝑛 𝑛 Zadanie 3.14 Pewien bank chce oszacować odsetek klientów zadowolonych z jego usług. W wyniku estymacji, na podstawie wyników 130-elementowej losowej próby, otrzymano przedział dla odsetka zadowolonych klientów o granicach: 50,7% i 69,3%. a) Ile osób w badanej próbie wyraziło opinię pozytywną? b) Otrzymany przedział jest jednym spośród wielu możliwych do wyznaczenia (na podstawie różnych prób). Jaka jest spodziewana liczba przedziałów (spośród 100), które pokrywają prawdziwy odsetek zadowolonych klientów? Rozwiązanie a) Dane: n = 130 Przedział ufności: (0,507; 0,693) => 0,507 < p < 0,693 𝑝 =? Ze wzoru na szacowanie odsetka w populacji mamy: 𝑝 1−𝑝 𝑝 1−𝑝 𝑝 − 𝑢α ∙ < 𝑝 < 𝑝 + 𝑢α ∙ 𝑛 𝑛 Rozwiązanie – c.d. 𝑝 1−𝑝 𝑝 − 𝑢α ∙ = 0,507 130 𝑝 1−𝑝 𝑝 + 𝑢α ∙ = 0,693 130 + 2𝑝 = 1,2 𝑝 = 0,6 0,6 ∙ 130 = 78 Odp. Pozytywną opinię w badanej próbie wyraziło 78 osób. Rozwiązanie – c.d. b) Spodziewana liczba przedziałów spośród 100 oznacza współczynnik ufności. 1−𝛼 =? 𝛼 =? Korzystamy ze wzoru na maksymalny błąd standardowy (d) i szukamy 𝑢𝛼 . d – połowa długości przedziału ufności 0,693 − 0,507 𝑑= = 0,093 2 Rozwiązanie – c.d. 𝑝 × (1 − 𝑝) d = Uα 𝑛 𝑑 𝑛 0,093 × 130 𝑢𝛼 = = = 2,1643 0,6 × 0,4 𝑝 × (1 − 𝑝) Z tablic rozkładu normalnego odczytujemy 𝜑 𝑢𝛼 . 𝜑 2,16 = 0,9846 𝛼 𝜑 𝑢𝛼 = 1 − 2 𝛼 1 − = 0,9846 2 𝛼 = 0,03 1 − 𝛼 = 0,97 Odp. Spodziewana liczba przedziałów wynosi 97. Zadanie 3.15 Pewna fundacja zamierza przeprowadzić badanie, w którym chce zapytać licealistów o to, czy znają billboardy poruszające problem przemocy w rodzinie i zastanawiają się nad ich przesłaniem. a) Jak liczną próbę należałoby wylosować do tego badania przy założeniu, że współczynnik ufności wynosi 0,95, natomiast maksymalny (bezwzględny) błąd szacunku – 5% (wcześniej takie szacunki nie były prowadzone)? b) Zbudować przy 1 – α = 0,95, przedział ufności dla frakcji młodzieży, która zna billboard „Bo zupa była za słona”, jeśli w wylosowanej próbie o liczebności obliczonej w punkcie a) ¾ licealistów potwierdziło, że zna ten billboard. Rozwiązanie a) Dane: d = 0,05 1 – α = 0,95 α = 0,05 𝑝 × (1 − 𝑝) d = Uα 𝑛 Jako 𝑝 możemy przyjąć 0,5 (wtedy wyrażenie pod pierwiastkiem w liczniku przyjmie maksymalną wartość. Uα odczytujemy z tablic rozkładu normalnego dla α = 0,05. Po przekształceniu wzoru: 𝑝(1 − 𝑝)𝑢𝛼2 0,5 × 0,5 × 1,962 𝑛= = = 384,16 2 2 𝑑 0,05 Po zaokrągleniu w górę: n = 385 Odp. Należałoby wylosować 385 osób. Rozwiązanie – c.d. b) 𝑝 − 𝑢α ∙ 0,75 −1,96 ∙ 𝑝 1−𝑝 𝑛 < 𝑝 < 𝑝 + 𝑢α ∙ 0,75∗0,25 385 𝑝 1−𝑝 𝑛 < 𝑝 < 0,75 + 1,96 ∙ 0,75∗0,25 385 0,7067 < p < 0,7933 Odp. (0,7067; 0,7933) Interpretacja: Powyższy przedział pokrywa nieznaną wartość odsetka w populacji w 95 przypadkach na 100. Zadanie 3.17 Z cząstkowych badań realizowanych przed wielu laty w różnych rejonach kraju wynika, że na katar alergiczny może cierpieć nawet co piąty Polak. Pewien uczony, prowadzący badania alergologiczne, chce zweryfikować ten pogląd. a) Jak liczną próbę powinien przebadać, aby z błędem szacunku nie większym niż 3% przy współczynniku 0,95 oszacować odsetek populacji dotkniętej tym schorzeniem? b) Oszacować punktowo i przedziałowo frakcję Polaków cierpiących na katar alergiczny, jeśli w losowej próbie o liczebności wyznaczonej w punkcie a) okazało się, że problem tego typu alergii dotyczył 157 osób. c) Ile ostatecznie wyniósł maksymalny błąd szacunku? Jak wytłumaczyć różnicę między uzyskanym błędem, a tym planowanym na początku badania? Rozwiązanie a) Dane: 1 5 p = = 0,2 1 – α = 0,95 d ≤ 0,03 𝑝 × (1 − 𝑝) d = Uα 𝑛 𝑝(1 − 𝑝)𝑢𝛼2 𝑛= 𝑑2 𝛼 0,05 𝜑 𝑢𝛼 = 1 − = 1 − = 0,975 2 2 Z tablic rozkładu normalnego 𝑢𝛼 = 1,96. 0,2 × 1 − 0,2 × 1,962 𝑛= = 682,99 2 0,03 Po zaokrągleniu w górę n = 683. Odp. Należy przebadać co najmniej 683 osoby. Rozwiązanie – c.d. b) n = 683 157 𝑝= = 0,23 683 Estymacja punktowa: p = 0,23 ± D(𝑝) D(𝑝) = 𝑝 1−𝑝 𝑛 = p = 0,23 ± 0,016 0,23×0,77 683 = 0,016 Rozwiązanie – c.d. b) Estymacja przedziałowa: 1 – α = 0,95 α = 0,05 𝛼 0,05 𝜑 𝑢𝛼 = 1 − = 1 − = 0,975 2 2 𝑢𝛼 = 1,96 d = 𝑢𝛼 × D(𝑝) = 1,96 × 0,016 = 0,03136 Przedział ufności: (𝑝 - d; 𝑝 + d); 𝑝 = 0,23 (0,19864; 0,26136) -> estymacja przedziałowa Rozwiązanie – c.d. c) d = 0,03136 ≥ 0,03 Maksymalny błąd szacunku wyniósł więcej, niż szacowano na początku badania. Wynika to z faktu, że frakcja w próbie była większa niż szacowano. Dobre rady od SKN Statystyki • INTERPRETACJA! Interpretacja jest punktowana na zaliczeniach ze statystyki – nawet jeśli wynik jest niepoprawny, interpretacja pozwoli Ci uzyskać dodatkowy punkt. • SPRAWDZAJ OBLICZENIA! Pisząc w stresie łatwo się pomylić, więc sprawdź obliczenia 2-3 razy, jeśli pozwoli Ci na to czas. Nie wstydź się korzystania z kalkulatora. • ELIMINUJ! Statystyka daje nam wiele przydatnych wzorów i musisz sam(a) zdecydować, którego użyć – zrób to eliminując te wzory, dla których nie masz danych lub które nie spełniają warunków zadania. Dobre rady od SKN Statystyki cd. • DOSTOSUJ KARTĘ WZORÓW! Na zaliczeniach ze statystyki możesz mieć swoją kartę wzorów i korzystaj z tego – przygotuj własną, zrozumiałą dla siebie kartę lub zaprzyjaźnij się z książką „Statystyka. Wzory i tablice” Piotra Kuszewskiego i Jarosława Podgórskiego. Uczyń tę kartę przydatną! • ZAOPATRZ SIĘ W KALKULATOR! Możesz zaoszczędzić dużo czasu, kiedy na zaliczeniu użyjesz kalkulatora, który dobrze znasz. Dlatego zakup kalkulator już dzisiaj i naucz się z niego korzystać, bo każdy jest inny! Odradzamy również korzystanie z kalkulatora na baterię słoneczną. Dobre rady od SKN Statystyki cd. • WIZUALIZACJA! Niektórym łatwiej jest zrozumieć problem rozrysowując go sobie bądź porządkując dane w tabeli. Jeśli jesteś jedną z tych osób, wykorzystaj to, żeby lepiej zrozumieć zadanie na zaliczeniu. • PRAKTYKA! Najlepszym sposobem na przygotowanie się do rozwiązania każdego typu zadania jest wcześniejsze przerobienie zadań. Zajrzyj do książek z przykładowymi zadaniami i przerób każdy ich typ ze zrozumieniem. To sprawi, że na zaliczeniu nic Cię nie zaskoczy. Dobre rady od SKN Statystyki cd. • ZAPANUJ NAD STRESEM! Podczas zaliczenia nie myśl o tym, że nie zdasz, czy o tym, ile czasu Ci zostało – skup się na rozwiązywaniu zadań. Żeby zredukować stres (i zwiększyć szansę na zdanie) zacznij od zadań, które wiesz jak rozwiązać, potem zajmij się tymi trudniejszymi. PYTANIA? DZIĘKUJEMY ZA UWAGĘ! Martyna Fira Aleksandra Petrykiewicz