3. Rozkład z próby

advertisement
WIELKA SGH-OWA
POWTÓRKA ZE STATYSTYKI
ROZKŁAD STATYSTYK Z PRÓBY
Próba losowa prosta
• To taki dobór elementów z populacji, że każdy
element miał takie samo
prawdopodobieństwo znalezienia się w próbie
• Niezależne losowanie (czyli raz wylosowany
element wraca do populacji i może ponownie
brać udział w losowaniu)
• Musi być reprezentatywna
Przestrzeń próby losowej
Zbiór wszystkich możliwych konkretnych prób
losowych
Statystyka z próby
To zmienna losowa 𝑍𝑛 , która jest funkcją
zmiennych𝑋1 , 𝑋2 , 𝑋3 … , 𝑋𝑛 , stanowiących próbę
losową
Np.:
Średnia z próby
wariancja z próby
Rozkład z próby
Statystyka sama jest zmienną losową, czyli ma
pewien rozkład
Dokładny
- Mała próba
- Ustalone n
Graniczny
- Duża próba
- n→∞
Rozkład graniczny
• Inny rozkład niż normalny, często nieznany
• Zależny od liczebności próby i często zbieżny
do rozkładu granicznego
• Przy dużej próbie upodabnia się do rozkładu
δ
normalnego o postaci 𝑁(𝑚; )
𝑛
Rozkład graniczny dla rozkładu
dwumianowego
• Duża próba dla rozkładu dwumianowego
• Rozkład ma w przybliżeniu postać rozkładu
normalnego
• 𝑁 𝑝;
𝑝 1−𝑝
𝑛
Rozkład średniej arytmetycznej
Rozważmy cechę 𝑋 która ma rozkład normalny 𝑋: 𝑁(𝑚, δ)
Losujemy próbę o wielkości 𝑛
• 𝐸(𝑋) =
• 𝐷
2
1
𝐸(
𝑛
2 1
(𝑋)=𝐷 (
𝑛
• 𝐷 𝑋 =
• 𝑋: 𝑁(𝑚;
δ
𝑛
𝑖=1 𝑋𝑖 )
𝑛
𝑖=1 𝑋𝑖 )
2
𝑛
𝛿
)
𝑛
=
δ
𝑛
=
=
1
𝑛
1
𝑛2
1
𝑛
𝑖=1 𝐸(𝑋𝑖 )=𝑛 nm
𝑛
2
𝐷
𝑖=1
𝑋𝑖 =
=m
1
2
𝑛δ
𝑛2
=
δ
2
𝑛
Rozkład średniej arytmetycznej z
nieznanym odchyleniem standardowym
• 𝑋 ma rozkład normalny 𝑋: 𝑁(𝑚, δ)
• Znamy 𝑚, nie znamy δ
• Obliczamy (odczytujemy z treści zadania)
odchylenie standardowe 𝑠 dla próby
• Stopnie swobody v=n-1
Graniczny rozkład średniej z próby
Dla dowolnego rozkładu X, znane m i 𝛿, oraz
przy n→∞
• 𝑋~𝑁(𝑚;
𝛿
)
𝑛
Rozkład różnicy średnich arytmetycznych z
dwóch populacji ze znanymi odchyleniami
standardowymi
• 𝑋1 : 𝑁(𝑚1 ; δ1 )
•
𝑋2 : 𝑁(𝑚2 ; δ2 )
𝑋1 − 𝑋2 : 𝑁 𝑚1 − 𝑚2 ;
• 𝑈=
𝑋1 −𝑋2 −(𝑚1 −𝑚2 )
2
2
1+ 2)
𝑛1 𝑛2
δ δ
δ
2
1
𝑛1
+
δ
2
2
𝑛2
Rozkład różnicy średnich arytmetycznych
z dwóch populacji z nieznanymi
odchyleniami standardowymi
𝑋1 : 𝑁(𝑚1 ; δ)
𝑋2 : 𝑁(𝑚2 ; δ)
Rozkład graniczny różnicy średnich
• 𝑋1 i 𝑋2 mają dowolne rozkłady
• Znane nam są 𝑚1 , 𝑚2 , δ1 , δ2
• 𝑛1 , 𝑛2 →∞
•
𝑋1 − 𝑋2 ~𝑁 𝑚1 − 𝑚2 ;
δ
2
1
𝑛1
+
δ
2
2
𝑛2
Rozkład wariancji z próby
To pewne porównanie wariancji z próby do
wariancji rozkładu
Rozkład ilorazu wariancji
Aby porównać wariancję z dwóch prób, opieramy
się na rozkładzie ich ilorazu
Zadanie 1 (2.25/33)
Waga batoników ,,Bajkowy’’ (w gramach) jest zmienną
losową o rozkładzie N(100,2)
a) Miłośnik ,,Bajkowych’’ reklamuje produkt, gdy tylko
stwierdzi niedowagę co najmniej 5g. Jak często zdarza
mu się składać reklamację?
95 − 100
𝑃(𝑋 < 95) = P U <
= 𝑃 𝑈 < −2,5 =
2
= 1 − ϕ 2,5
= 1 − 0, 9938 = 0,0062
Odp.: Reklamacja występuje
przeciętnie 62 na 10 000 razy
b) Jakie są szanse, że klient trafi na
batonik o wadze dokładnie 100,2 g?
P(X=100,2)=0
c) Batoniki pakowane są w kartonie po 100 sztuk. Jeśli
obliczana będzie przeciętna waga batonika w kartonie, to jaki
rozkład ma taka średnia? Jakie jest prawdopodobieństwo, że
średnia ta przekroczy 100,2 g ?
𝑋: 𝑁(𝑚;
𝛿
)
𝑛
𝑋: 𝑁 100;
2
100
= 𝑋: 𝑁 100; 0,2
100,2 − 100
𝑃 𝑋 > 100,2 = P U >
=P U>1
0,2
= 1 − ϕ 1 = 1 − 0,8413 = 0,1587
Odp.: Prawdopodobieństwo, że średnia przekroczy 100,2 g
wynosi 15,87%.
Zadanie 2 (2.32/33)
W pewnym kraju dwaj kandydaci, A i B, na prezydenta cieszą
się jednakowym, 50-procentowym poparciem wyborców.
a) Jakie jest prawdopodobieństwo, że wśród 5
przypadkowych osób, zapytanych o zdanie, 3 osoby będą
popierać kandydata B, a 2 kandydata A?
B – sukces, n = 5, k = 3
5
𝑃 𝑘=3 =
∗ 0,53 ∗ 0,55−2 = 0,3125
3
Odp.: Prawdopodobieństwo, że wśród 5 przypadkowych osób,
zapytanych o zdanie, 3 osoby będą popierać kandydata B, a 2
kandydata A wynosi 31,25%
b) Jakie jest prawdopodobieństwo, że przedwyborczy sondaż
przeprowadzony na 625-osobowej losowo wybranej próbie
wyborców wskaże, że kandydat B ma poparcie wyższe niż 53%?
n=625
𝐸 𝑋 = 𝑝 = 0,5
𝐷 𝑋 =
𝑝(1 − 𝑝)
=
𝑛
0,5(1 − 0,5)
= 0,02
625
𝑋~𝑁 0,5; 0,02
0,53 − 0,5
𝑃 𝑋 > 0,53 = 𝑃 𝑈 >
= P U > 1,5 = 1 − ϕ 1,5 = 0,0668
0,02
Odp.: Prawdopodobieństwo, że przedwyborczy sondaż przeprowadzony na
625-osobowej losowo wybranej próbie wyborców wskaże, że kandydat B ma
poparcie wyższe niż 53% wynosi 6,68%.
Zadanie 3 (2.29/33)
Miesięczne zużycie wody na osobę (w 𝑚3 ) w
gospodarstwach domowych na pewnym osiedlu ma
rozkład N(10,4). Dokonano remontu sieci wodnokanalizacyjnej i zamontowano liczniki wody, co
ograniczyło jej marnotrawstwo. Ocenia się, że
miesięczne zużycie wody na osobę po remoncie ma
rozkład N(8,3).
Obliczyć prawdopodobieństwo, że średnie
miesięczne zużycie wody przez 36 losowo
wybranych osób zmniejszyło się co najmniej o
2,5𝑚2 , w porównaniu ze średnim miesięcznym
zużyciem wody przed remontem, również przez 36
innych, losowo wybranych osób.
𝑃 𝑋1 − 𝑋2 > 2,5 =?
2
𝑋1 − 𝑋2 : 𝑁 𝑚1 − 𝑚2 ;
δ1
𝑛1
2
+
δ2
𝑛2
42 32
𝑋1 − 𝑋2 : 𝑁 10 − 8;
+
36 36
5
𝑋1 − 𝑋2 : 𝑁 2;
6
2,5 − 2
𝑃 𝑈>
= 𝑃 𝑈 > 0,6 = 1 − ϕ 0,6 = 1 − 0,7257
5 6
= 0,2743
Odp.: Prawdopodobieństwo, że średnie miesięczne zużycie wody przez
36 losowo wybranych osób zmniejszyło się co najmniej o 2,5𝑚2 , w
porównaniu ze średnim miesięcznym zużyciem wody przed remontem
wynosi 27,43%.
Zadanie 4 (2.30/33)
Zmienne 𝑋1 , 𝑋2 mają rozkłady normalne – odpowiednio
N(100,10) i N(80,10). Przy założeniu, że pobrane niezależnie
próby losowe liczyły po 25 jednostek, obliczyć wartość
wyrażenia: 𝑃(17 < 𝑋1 − 𝑋2 < 23).
𝑋1 − 𝑋2 : 𝑁 100 − 80;
102 102
+
25
25
𝑋1 − 𝑋2 : 𝑁 20; 2 2
𝑃(17 < 𝑋1 − 𝑋2 < 23)
= 𝑃 𝑋1 − 𝑋2 < 23 − P(𝑋1 − 𝑋2 < 17)
=𝑃 𝑈<
23 − 20
2 2
−𝑃 𝑈<
17 − 20
2 2
=ϕ
1,06 − 1 − ϕ 1,06
= 2ϕ 1,06 − 1 = 0,7108
Odp.: 𝑃 17 < 𝑋1 − 𝑋2 < 23 = 0,7108
Zadanie 5 (2.28/33)
Zmienna losowa t Studenta jest określona przez 13 stopni
swobody. Obliczyć poniższe prawdopodobieństwa i
przedstawić graficznie:
a) 𝑃 𝑡 ≥ 𝑡α,𝑣
=α
𝑃 𝑡 ≥ 2,16 = 0,05
b) 𝑃 𝑡 < 𝑡α,𝑣
=1−α
𝑃 𝑡 < 2,16 = 0,95
c) 𝑃 𝑡 ≥ 𝑡α,𝑣
α
= 2
𝑃 𝑡 ≥ 2,16 = 0,025
d) 𝑃 𝑡 < 𝑡α,𝑣
α
=1− 2
𝑃 𝑡 < 2,16 = 0,975
Zadanie 6 (2.45/37)
Czas poświęcony na sprawdzanie pracy egzaminacyjnej ze
statystyki (𝑋 - w min) ma nieznany rozkład, ale wiadomo, że
jego wartość oczekiwana wynosi 20min, natomiast
odchylenie standardowe – 2min.
a) Jaki rozkład ma zmienna Y (łączny czas sprawdzania
egzaminu 100 studentów uczestniczących w wykładzie
ze statystyki) i jakie są parametry tego rozkładu? Jakie
jest uzasadnienie takiego rozumowania?
𝑚 = 20, 𝛿 = 2, 𝑛 = 100
(Przypomnienie)
Graniczny rozkład średniej z próby
Dla dowolnego rozkładu X i przy n→∞
• 𝑋~𝑁(𝑚,
𝛿
)
𝑛
• 𝑌 to suma z 𝑋1 , 𝑋2 , 𝑋3 ,…𝑋𝑛 ,
• 𝑌~𝑁(𝑚𝑛,
𝛿
𝑛)
𝑛
Zadanie 6 (2.45/37)
Czas poświęcony na sprawdzanie pracy egzaminacyjnej ze
statystyki (X - w min) ma nieznany rozkład, ale wiadomo, ze
jego wartość oczekiwana wynosi 20min, natomiast
odchylenie standardowe – 2min.
a) Jaki rozkład ma zmienna Y (łączny czas sprawdzania
egzaminu 100 studentów uczestniczących w wykładzie
ze statystyki) i jakie są parametry tego rozkładu? Jakie
jest uzasadnienie takiego rozumowania?
𝑚 = 20, 𝛿 = 2, 𝑛 = 100
𝑌~𝑁 20 ∗ 100;
𝑛 duże
2
100
∗ 100 => 𝑌~𝑁 2000; 20
b)Obliczyć prawdopodobieństwo, że abstrahując od
zmęczenia wykładowcy, studenci poznają wyniki po
3 dniach, jeśli wykładowca poświęci na sprawdzanie
prac 11 godzin dziennie (33 godziny=1980 min).
𝑃 𝑌 < 1980 =?
𝑃 𝑌 < 1980 = 𝑃 𝑈 <
1980−2000
0,2
=𝑃 𝑈 < −1
= 1 − ϕ(1)=0,1587
Odp.: Prawdopodobieństwo, że abstrahując od zmęczenia
wykładowcy, studenci poznają wyniki po 3 dniach, jeśli
wykładowca poświęci na sprawdzanie prac 11 godzin
dziennie wynosi 15,87%.
c) Jaki rozkład i o jakich parametrach ma
zmienna oznaczająca średni czas sprawdzania
pracy obliczony dla 100 studentów?
𝑋~𝑁(𝑚;
𝑋~𝑁(20;
𝛿
)
𝑛
2
)
100
𝑋~𝑁(20; 0,2)
d) Obliczyć prawdopodobieństwo, że średni czas
sprawdzania pracy dla 100 wylosowanych prac
nie przekroczy 19,5 min.
𝑋~𝑁(20; 0,2)
19,5 − 20
𝑃 𝑋 < 19,5 = 𝑃 𝑈 <
0,2
= 𝑃 𝑈 < −2,5 = 1 − ϕ 2,5 = 0,0062
Odp.: Prawdopodobieństwo, że średni czas sprawdzania
pracy dla 100 wylosowanych prac nie przekroczy 19,5
min wynosi 0,62%.
e) Skomentować relację między odchyleniem
standardowym zmiennej X oraz odchyleniem
standardowym średniej ze 100-elementowej
próby.
𝐷 𝑋 =2
𝐷 𝑋 = 0,2
𝑛 = 100
𝐷 𝑋
𝐷 𝑋 =
𝑛
Zadanie 7 (2.46/37)
Wielu licealistów w czasie wakacji pracuje przy zbiorach owoców.
Średni zarobek w ciągu dnia to 80 zł, przy odchyleniu
standardowym 10 zł. Obliczyć prawdopodobieństwo, że:
a) Średnia wartość danych zarobków dla 100 losowo wybranych
licealistów będzie zawierać się w przedziale od 79 do 82 zł.
𝑚 = 80, 𝛿 = 10
𝑋~𝑁(80;
10
)
100
=> 𝑋~𝑁(80; 1)
82 − 80
79 − 80
𝑃 79 < 𝑋 < 82 = 𝑃 𝑋 < 82 − P 𝑋 < 79 = P U <
−P U<
1
1
= ϕ 2 − 1 − ϕ 1 = 0,8185
Odp.: Prawdopodobieństwo, że Średnia wartość danych zarobków
dla 100 losowo wybranych licealistów będzie zawierać się w
przedziale od 79 do 82 zł wynosi 81,85%.
b) Łączne zarobki 100 losowo wybranych
licealistów przekroczą 7950 zł.
1. 𝑌~𝑁(8000; 100)
𝑃 𝑌 > 7950 =?
2. 𝑋~𝑁(80; 1)
𝑃 𝑋 > 79,5 =?
Dziękujemy za uwagę ! 
Zadania zostały zaczerpnięte ze zbioru „Statystyka. Lubię to!” dr Marii Wieczorek.
Anna Bylina
Zofia Tokaj
Download