4. Estymacja - SKN Statystyki

advertisement
WIELKA SGH-OWA
POWTÓRKA ZE STATYSTYKI
ESTYMACJA
Symbole w statystyce
Symbole
Populacja
Próba
Średnia
m
𝑥
Odchylenie standardowe
σ
s
Odsetek
p
𝑝
Estymacja – co to jest?
• Estymacja punktowa
• Estymacja przedziałowa
• Co można oszacować?
• m – średnią w populacji
• p – odsetek w populacji
Szacowanie średniej
1. Rozkład normalny, m – znane, σ – znane, n – znane
a) Obliczamy średnią 𝑥
σ
σ
Maksymalny błąd szacunku (d)
𝑥 − Uα < m < 𝑥+Uα
Standardowy błąd szacunku
𝑛
𝑛
2. Rozkład normalny, m – znane, σ – nieznane, n – znane
a) Obliczamy średnią 𝑥, odchylenie standardowe s
𝑠
𝑠
𝑥 − tα, n−1 < m < 𝑥+tα, n−1
𝑛
𝑛
3. Rozkład nieznany, n – bardzo duże
a) Obliczamy średnią 𝑥, odchylenie standardowe s
𝑠
𝑠
𝑥 − Uα < m < 𝑥+Uα
𝑛
𝑛
Szacowanie odsetka/frakcji w
populacji
n – znane, 𝑝 - znane
𝑝 − Uα
𝑝×(1−𝑝)
𝑛
< p <𝑝+Uα
𝑝×(1−𝑝)
𝑛
Poziom i przedział ufności
• Poziom ufności/współczynnik ufności: 1 – α – prawdopodobieństwo,
że szacunek jest dobry
• Przedział ufności
d
d
𝑥
Szacunek punktowy i wariancja
nieobciążona
• Średnia ± standardowy błąd szacunku
• Przeciętny odsetek ± standardowy błąd szacunku
~~~~~~~~~~~~~~~~~~
𝑛
1
𝑠2 𝑥 =
(𝑥𝑖 − 𝑥)2
𝑛−1
𝑖=1
PRZYKŁADOWE ZADANIA
Zadanie 3.4
Z szeregu badań wiadomo, że poziom leukocytów we krwi (w tys/mm3) ma
rozkład normalny o odchyleniu standardowym 0,3. W pewnym instytucie
doświadczalnym postanowiono sprawdzić możliwość zastosowania nowego
aparatu do badania przeciętnego poziomu leukocytów we krwi.
a) Jak liczna powinna być próba badanych osób, aby przy współczynniku
ufności 0,95 maksymalny błąd szacunku (połowa długości przedziału
ufności) wynosił 0,1 tys/mm3?
b) Zbudować przedział ufności dla przeciętnego poziomu leukocytów we
krwi (1-α = 0,95), jeśli w losowej próbie o liczebności wyznaczonej w
punkcie a) średni poziom leukocytów wynosił 8,0.
Rozwiązanie
Dane: X: N(m, σ); σ = 0,3
a) n = ?, 1-α = 0,95, d = 0,1
Szacowanie średniej
1. Rozkład normalny, m – znane, σ – znane, n – znane
a) Obliczamy średnią 𝑥
σ
σ
Maksymalny błąd szacunku (d)
𝑥 − Uα < m < 𝑥+Uα
𝑛
𝑛
2. Rozkład normalny, m – znane, σ – nieznane, n – znane
a) Obliczamy średnią 𝑥, odchylenie standardowe s
𝑠
𝑠
𝑥 − tα, n−1 < m < 𝑥+tα, n−1
𝑛
𝑛
3. Rozkład nieznany, n – bardzo duże
a) Obliczamy średnią 𝑥, odchylenie standardowe s
𝑠
𝑠
𝑥 − Uα < m < 𝑥+Uα
𝑛
𝑛
Rozwiązanie c.d
Dane: X: N(m, σ); σ = 0,3
a) n = ?; 1-α = 0,95 => α = 0,05; d = 0,1
d = 𝑈α ×
σ
𝑛
n = (1,96 ×
⇒𝑛=
0,3 2
) =
0,1
σ 2
(𝑈α × )
𝑑
34,57 ⇒ 𝑛 = 35
Odp: Próba powinna liczyć 35 osób.
Rozwiązanie c.d.
b) n = 35; α = 0,05; 𝑥 = 8
𝑥-d<m<𝑥+d
8 – 0,1 < m < 8 + 0,1 (uwaga na jednostki!!)
7,9 < m < 8,1
Odp: Oszacowany przedział (7,9 tys/mm3; 8,1 tys/mm3) jest jednym z
możliwych do oszacowania, które z prawdopodobieństwem 0,95
pokrywają nieznany średni poziom leukocytów w populacji.
Zadanie 3.6
Organizacja pozarządowa zajmująca się ochroną środowiska postanowiła
oszacować przeciętną ilość odpadów wytwarzanych w roku przez jednego Polaka.
Zebrane informacje dla 60 losowo wybranych osób pozwoliły stwierdzić, że
wyprodukowały one 18 000 kg (18 t) śmieci, natomiast suma kwadratów wagi
odpadów wytworzonych przez te osoby wyniosła 5 494 400 (kg2).
a) Obliczyć na podstawie próby wariancję nieobciążoną
b) Określić błąd standardowy estymacji. Czy obliczona wielkość jest wielkością
dokładną?
c) Wyznaczyć przedział ufności przy 1-α = 0,9 dla średniej ilości śmieci
wytwarzanych przez Polaka. Jakie założenia dotyczące rozkładu cechy w
populacji są tu niezbędne?
Rozwiązanie
Dane: n = 60;
60
60
2
𝑥
=
𝑥
+
𝑥
+
𝑥
+
⋯
+
𝑥
=
18
000;
(𝑥
)
=
1
2
3
60
𝑖=1 𝑖
𝑖=1 𝑖
(𝑥1 )2 + (𝑥2 )2 + (𝑥3 )2 + ⋯ + (𝑥60 )2 = 5 494 400
2
a) 𝑠 𝑥 =
1
𝑛−1
×
60
𝑖=1(𝑥𝑖
− 𝑥)
2
1
=
60−1
×
60
𝑖=1
𝑥𝑖2 + 𝑥 2 −
Rozwiązanie c.d.
b) X: … <- nieznany!
𝑠 2 𝑥 = 1 600 ⇒ 𝑠 𝑥 = 40
𝑠
40
=
≈ 5,16
𝑛
60
Odp: Błąd standardowy wynosi 5,16 i nie jest dokładny, bo szacujemy na bazie
odchylenia standardowego z próby.
c) 1-α=0,9 => α = 0,1; n = 60; 𝑥 = 300; X:… nieznany
300 – 1,64 x 5,16 < m < 300 + 1,64 x 5,16
291,54 < m < 308,46
Odp: Oszacowany przedział jest jednym z możliwych do oszacowania, które z
prawdopodobieństwem 0,9 pokrywają nieznaną średnią
ilość śmieci wyrzucanych przez Polaków. Brak założeń,
bo n jest duże.
Szacowanie średniej
1. Rozkład normalny, m – znane, σ – znane, n – znane
a) Obliczamy średnią 𝑥
σ
σ
𝑥 − Uα < m < 𝑥+Uα
𝑛
𝑛
2. Rozkład normalny, m – znane, σ – nieznane, n – znane
a) Obliczamy średnią 𝑥, odchylenie standardowe s
𝑠
𝑠
𝑥 − tα, n−1 < m < 𝑥+tα, n−1
𝑛
𝑛
3. Rozkład nieznany, n – bardzo duże
a) Obliczamy średnią 𝑥, odchylenie standardowe s
𝑠
𝑠
𝑥 − Uα < m < 𝑥+Uα
𝑛
𝑛
Zadanie 3.11
Roczne wydatki na promocję firm z pewnej branży mają rozkład normalny.
a) Ile wynosił współczynnik ufności przy przedziałowej estymacji średniej
wysokości tych wydatków dla wszystkich firm branży, jeśli na podstawie 9elementowej losowej próby przedsiębiorstw uzyskano przedział o długości
1500 zł, a odchylenie standardowe (wyznaczone jako pierwiastek z wariancji
nieobciążonej) wydatków w badanej próbie firm wyniosło 995 zł?
b) Jak liczna powinna być próba, aby z prawdopodobieństwem 0,95 oszacować
odsetek firm tej branży reklamujących się w TV z maksymalnym błędem 0,02?
Badanie pilotażowe wskazuje, że takich firm jest ok. 20%.
Rozwiązanie
Dane: X:N(…,…)
a) 1-α =?; n = 9; 2d = 1500 => d = 750; s = 995
𝑑 = 𝑡α,𝑛−1 ×
𝑠
𝑛
⇒ 𝑡α,8 =
𝑑× 𝑛
𝑠
⇒ 𝑡α,8 = 2,2613 => α = 0,05 => 1- α =
= 0,95
Odp: Współczynnik
ufności wynosi 0,95.
Rozwiązanie c.d.
b) n = ?; 1-α = 0,95 => α = 0,05; d = 0,02; 𝑝 = 0,2
d = 𝑈α ×
𝑝(1−𝑝)
𝑛
⇒n=
𝑝(1−𝑝)×𝑈α2
𝑑2
⇒𝑛=
𝑛 = 1537
Odp: Próba powinna liczyć 1537 osób.
0,16×1,962
0,022
= 1536,64 ⇒
Szacowanie odsetka w populacji
n – znane, 𝑝 - znane
𝑝 1−𝑝
𝑝 1−𝑝
𝑝 − 𝑢α ∙
< 𝑝 < 𝑝 + 𝑢α ∙
𝑛
𝑛
Zadanie 3.14
Pewien bank chce oszacować odsetek klientów zadowolonych z jego usług. W
wyniku estymacji, na podstawie wyników 130-elementowej losowej próby,
otrzymano przedział dla odsetka zadowolonych klientów o granicach: 50,7% i
69,3%.
a) Ile osób w badanej próbie wyraziło opinię pozytywną?
b) Otrzymany przedział jest jednym spośród wielu możliwych do wyznaczenia (na
podstawie różnych prób). Jaka jest spodziewana liczba przedziałów (spośród
100), które pokrywają prawdziwy odsetek zadowolonych klientów?
Rozwiązanie
a) Dane:
n = 130
Przedział ufności: (0,507; 0,693) => 0,507 < p < 0,693
𝑝 =?
Ze wzoru na szacowanie odsetka w populacji mamy:
𝑝 1−𝑝
𝑝 1−𝑝
𝑝 − 𝑢α ∙
< 𝑝 < 𝑝 + 𝑢α ∙
𝑛
𝑛
Rozwiązanie – c.d.
𝑝 1−𝑝
𝑝 − 𝑢α ∙
= 0,507
130
𝑝 1−𝑝
𝑝 + 𝑢α ∙
= 0,693
130
+
2𝑝 = 1,2
𝑝 = 0,6
0,6 ∙ 130 = 78
Odp. Pozytywną opinię w badanej próbie wyraziło
78 osób.
Rozwiązanie – c.d.
b) Spodziewana liczba przedziałów spośród 100 oznacza współczynnik
ufności.
1−𝛼 =?
𝛼 =?
Korzystamy ze wzoru na maksymalny błąd standardowy (d) i szukamy
𝑢𝛼 .
d – połowa długości przedziału ufności
0,693 − 0,507
𝑑=
= 0,093
2
Rozwiązanie – c.d.
𝑝 × (1 − 𝑝)
d = Uα
𝑛
𝑑 𝑛
0,093 × 130
𝑢𝛼 =
=
= 2,1643
0,6 × 0,4
𝑝 × (1 − 𝑝)
Z tablic rozkładu normalnego odczytujemy 𝜑 𝑢𝛼 .
𝜑 2,16 = 0,9846
𝛼
𝜑 𝑢𝛼 = 1 −
2
𝛼
1 − = 0,9846
2
𝛼 = 0,03
1 − 𝛼 = 0,97
Odp. Spodziewana liczba przedziałów wynosi 97.
Zadanie 3.15
Pewna fundacja zamierza przeprowadzić badanie, w którym chce zapytać
licealistów o to, czy znają billboardy poruszające problem przemocy w rodzinie i
zastanawiają się nad ich przesłaniem.
a) Jak liczną próbę należałoby wylosować do tego badania przy założeniu, że
współczynnik ufności wynosi 0,95, natomiast maksymalny (bezwzględny) błąd
szacunku – 5% (wcześniej takie szacunki nie były prowadzone)?
b) Zbudować przy 1 – α = 0,95, przedział ufności dla frakcji młodzieży, która zna
billboard „Bo zupa była za słona”, jeśli w wylosowanej próbie o liczebności
obliczonej w punkcie a) ¾ licealistów potwierdziło, że zna ten billboard.
Rozwiązanie
a) Dane:
d = 0,05
1 – α = 0,95
α = 0,05
𝑝 × (1 − 𝑝)
d = Uα
𝑛
Jako 𝑝 możemy przyjąć 0,5 (wtedy wyrażenie pod pierwiastkiem w liczniku
przyjmie maksymalną wartość.
Uα odczytujemy z tablic rozkładu normalnego dla α = 0,05.
Po przekształceniu wzoru:
𝑝(1 − 𝑝)𝑢𝛼2 0,5 × 0,5 × 1,962
𝑛=
=
= 384,16
2
2
𝑑
0,05
Po zaokrągleniu w górę: n = 385
Odp. Należałoby wylosować 385 osób.
Rozwiązanie – c.d.
b) 𝑝 − 𝑢α ∙
0,75 −1,96 ∙
𝑝 1−𝑝
𝑛
< 𝑝 < 𝑝 + 𝑢α ∙
0,75∗0,25
385
𝑝 1−𝑝
𝑛
< 𝑝 < 0,75 + 1,96 ∙
0,75∗0,25
385
0,7067 < p < 0,7933
Odp. (0,7067; 0,7933)
Interpretacja: Powyższy przedział pokrywa nieznaną wartość odsetka
w populacji w 95 przypadkach na 100.
Zadanie 3.17
Z cząstkowych badań realizowanych przed wielu laty w różnych rejonach kraju
wynika, że na katar alergiczny może cierpieć nawet co piąty Polak. Pewien uczony,
prowadzący badania alergologiczne, chce zweryfikować ten pogląd.
a) Jak liczną próbę powinien przebadać, aby z błędem szacunku nie większym niż
3% przy współczynniku 0,95 oszacować odsetek populacji dotkniętej tym
schorzeniem?
b) Oszacować punktowo i przedziałowo frakcję Polaków cierpiących na katar
alergiczny, jeśli w losowej próbie o liczebności wyznaczonej w punkcie a)
okazało się, że problem tego typu alergii dotyczył 157 osób.
c) Ile ostatecznie wyniósł maksymalny błąd szacunku? Jak wytłumaczyć różnicę
między uzyskanym błędem, a tym planowanym na początku badania?
Rozwiązanie
a) Dane:
1
5
p = = 0,2
1 – α = 0,95
d ≤ 0,03
𝑝 × (1 − 𝑝)
d = Uα
𝑛
𝑝(1 − 𝑝)𝑢𝛼2
𝑛=
𝑑2
𝛼
0,05
𝜑 𝑢𝛼 = 1 − = 1 −
= 0,975
2
2
Z tablic rozkładu normalnego 𝑢𝛼 = 1,96.
0,2 × 1 − 0,2 × 1,962
𝑛=
= 682,99
2
0,03
Po zaokrągleniu w górę n = 683.
Odp. Należy przebadać co najmniej 683 osoby.
Rozwiązanie – c.d.
b) n = 683
157
𝑝=
= 0,23
683
Estymacja punktowa:
p = 0,23 ± D(𝑝)
D(𝑝) =
𝑝 1−𝑝
𝑛
=
p = 0,23 ± 0,016
0,23×0,77
683
= 0,016
Rozwiązanie – c.d.
b) Estymacja przedziałowa:
1 – α = 0,95
α = 0,05
𝛼
0,05
𝜑 𝑢𝛼 = 1 − = 1 −
= 0,975
2
2
𝑢𝛼 = 1,96
d = 𝑢𝛼 × D(𝑝) = 1,96 × 0,016 = 0,03136
Przedział ufności: (𝑝 - d; 𝑝 + d); 𝑝 = 0,23
(0,19864; 0,26136) -> estymacja przedziałowa
Rozwiązanie – c.d.
c) d = 0,03136 ≥ 0,03
Maksymalny błąd szacunku wyniósł więcej, niż szacowano na początku
badania. Wynika to z faktu, że frakcja w próbie była większa niż szacowano.
Dobre rady od SKN Statystyki 
• INTERPRETACJA! Interpretacja jest punktowana na zaliczeniach ze
statystyki – nawet jeśli wynik jest niepoprawny, interpretacja pozwoli
Ci uzyskać dodatkowy punkt.
• SPRAWDZAJ OBLICZENIA! Pisząc w stresie łatwo się pomylić, więc
sprawdź obliczenia 2-3 razy, jeśli pozwoli Ci na to czas. Nie wstydź się
korzystania z kalkulatora.
• ELIMINUJ! Statystyka daje nam wiele przydatnych wzorów i musisz
sam(a) zdecydować, którego użyć – zrób to eliminując te wzory, dla
których nie masz danych lub które nie spełniają warunków zadania.
Dobre rady od SKN Statystyki  cd.
• DOSTOSUJ KARTĘ WZORÓW! Na zaliczeniach ze statystyki możesz
mieć swoją kartę wzorów i korzystaj z tego – przygotuj własną,
zrozumiałą dla siebie kartę lub zaprzyjaźnij się z książką „Statystyka.
Wzory i tablice” Piotra Kuszewskiego i Jarosława Podgórskiego. Uczyń
tę kartę przydatną!
• ZAOPATRZ SIĘ W KALKULATOR! Możesz zaoszczędzić dużo czasu, kiedy
na zaliczeniu użyjesz kalkulatora, który dobrze znasz. Dlatego zakup
kalkulator już dzisiaj i naucz się z niego korzystać, bo każdy jest inny!
Odradzamy również korzystanie z kalkulatora na baterię słoneczną.
Dobre rady od SKN Statystyki  cd.
• WIZUALIZACJA! Niektórym łatwiej jest zrozumieć problem
rozrysowując go sobie bądź porządkując dane w tabeli. Jeśli jesteś
jedną z tych osób, wykorzystaj to, żeby lepiej zrozumieć zadanie na
zaliczeniu.
• PRAKTYKA! Najlepszym sposobem na przygotowanie się do
rozwiązania każdego typu zadania jest wcześniejsze przerobienie
zadań. Zajrzyj do książek z przykładowymi zadaniami i przerób każdy
ich typ ze zrozumieniem. To sprawi, że na zaliczeniu nic Cię nie
zaskoczy.
Dobre rady od SKN Statystyki  cd.
• ZAPANUJ NAD STRESEM! Podczas zaliczenia nie myśl o tym, że nie
zdasz, czy o tym, ile czasu Ci zostało – skup się na rozwiązywaniu
zadań. Żeby zredukować stres (i zwiększyć szansę na zdanie) zacznij od
zadań, które wiesz jak rozwiązać, potem zajmij się tymi trudniejszymi.
PYTANIA?
DZIĘKUJEMY ZA UWAGĘ!
Martyna Fira
Aleksandra Petrykiewicz
Download