WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD STATYSTYK Z PRÓBY Próba losowa prosta • To taki dobór elementów z populacji, że każdy element miał takie samo prawdopodobieństwo znalezienia się w próbie • Niezależne losowanie (czyli raz wylosowany element wraca do populacji i może ponownie brać udział w losowaniu) • Musi być reprezentatywna Przestrzeń próby losowej Zbiór wszystkich możliwych konkretnych prób losowych Statystyka z próby To zmienna losowa 𝑍𝑛 , która jest funkcją zmiennych𝑋1 , 𝑋2 , 𝑋3 … , 𝑋𝑛 , stanowiących próbę losową Np.: Średnia z próby wariancja z próby Rozkład z próby Statystyka sama jest zmienną losową, czyli ma pewien rozkład Dokładny - Mała próba - Ustalone n Graniczny - Duża próba - n→∞ Rozkład graniczny • Inny rozkład niż normalny, często nieznany • Zależny od liczebności próby i często zbieżny do rozkładu granicznego • Przy dużej próbie upodabnia się do rozkładu δ normalnego o postaci 𝑁(𝑚; ) 𝑛 Rozkład graniczny dla rozkładu dwumianowego • Duża próba dla rozkładu dwumianowego • Rozkład ma w przybliżeniu postać rozkładu normalnego • 𝑁 𝑝; 𝑝 1−𝑝 𝑛 Rozkład średniej arytmetycznej Rozważmy cechę 𝑋 która ma rozkład normalny 𝑋: 𝑁(𝑚, δ) Losujemy próbę o wielkości 𝑛 • 𝐸(𝑋) = • 𝐷 2 1 𝐸( 𝑛 2 1 (𝑋)=𝐷 ( 𝑛 • 𝐷 𝑋 = • 𝑋: 𝑁(𝑚; δ 𝑛 𝑖=1 𝑋𝑖 ) 𝑛 𝑖=1 𝑋𝑖 ) 2 𝑛 𝛿 ) 𝑛 = δ 𝑛 = = 1 𝑛 1 𝑛2 1 𝑛 𝑖=1 𝐸(𝑋𝑖 )=𝑛 nm 𝑛 2 𝐷 𝑖=1 𝑋𝑖 = =m 1 2 𝑛δ 𝑛2 = δ 2 𝑛 Rozkład średniej arytmetycznej z nieznanym odchyleniem standardowym • 𝑋 ma rozkład normalny 𝑋: 𝑁(𝑚, δ) • Znamy 𝑚, nie znamy δ • Obliczamy (odczytujemy z treści zadania) odchylenie standardowe 𝑠 dla próby • Stopnie swobody v=n-1 Graniczny rozkład średniej z próby Dla dowolnego rozkładu X, znane m i 𝛿, oraz przy n→∞ • 𝑋~𝑁(𝑚; 𝛿 ) 𝑛 Rozkład różnicy średnich arytmetycznych z dwóch populacji ze znanymi odchyleniami standardowymi • 𝑋1 : 𝑁(𝑚1 ; δ1 ) • 𝑋2 : 𝑁(𝑚2 ; δ2 ) 𝑋1 − 𝑋2 : 𝑁 𝑚1 − 𝑚2 ; • 𝑈= 𝑋1 −𝑋2 −(𝑚1 −𝑚2 ) 2 2 1+ 2) 𝑛1 𝑛2 δ δ δ 2 1 𝑛1 + δ 2 2 𝑛2 Rozkład różnicy średnich arytmetycznych z dwóch populacji z nieznanymi odchyleniami standardowymi 𝑋1 : 𝑁(𝑚1 ; δ) 𝑋2 : 𝑁(𝑚2 ; δ) Rozkład graniczny różnicy średnich • 𝑋1 i 𝑋2 mają dowolne rozkłady • Znane nam są 𝑚1 , 𝑚2 , δ1 , δ2 • 𝑛1 , 𝑛2 →∞ • 𝑋1 − 𝑋2 ~𝑁 𝑚1 − 𝑚2 ; δ 2 1 𝑛1 + δ 2 2 𝑛2 Rozkład wariancji z próby To pewne porównanie wariancji z próby do wariancji rozkładu Rozkład ilorazu wariancji Aby porównać wariancję z dwóch prób, opieramy się na rozkładzie ich ilorazu Zadanie 1 (2.25/33) Waga batoników ,,Bajkowy’’ (w gramach) jest zmienną losową o rozkładzie N(100,2) a) Miłośnik ,,Bajkowych’’ reklamuje produkt, gdy tylko stwierdzi niedowagę co najmniej 5g. Jak często zdarza mu się składać reklamację? 95 − 100 𝑃(𝑋 < 95) = P U < = 𝑃 𝑈 < −2,5 = 2 = 1 − ϕ 2,5 = 1 − 0, 9938 = 0,0062 Odp.: Reklamacja występuje przeciętnie 62 na 10 000 razy b) Jakie są szanse, że klient trafi na batonik o wadze dokładnie 100,2 g? P(X=100,2)=0 c) Batoniki pakowane są w kartonie po 100 sztuk. Jeśli obliczana będzie przeciętna waga batonika w kartonie, to jaki rozkład ma taka średnia? Jakie jest prawdopodobieństwo, że średnia ta przekroczy 100,2 g ? 𝑋: 𝑁(𝑚; 𝛿 ) 𝑛 𝑋: 𝑁 100; 2 100 = 𝑋: 𝑁 100; 0,2 100,2 − 100 𝑃 𝑋 > 100,2 = P U > =P U>1 0,2 = 1 − ϕ 1 = 1 − 0,8413 = 0,1587 Odp.: Prawdopodobieństwo, że średnia przekroczy 100,2 g wynosi 15,87%. Zadanie 2 (2.32/33) W pewnym kraju dwaj kandydaci, A i B, na prezydenta cieszą się jednakowym, 50-procentowym poparciem wyborców. a) Jakie jest prawdopodobieństwo, że wśród 5 przypadkowych osób, zapytanych o zdanie, 3 osoby będą popierać kandydata B, a 2 kandydata A? B – sukces, n = 5, k = 3 5 𝑃 𝑘=3 = ∗ 0,53 ∗ 0,55−2 = 0,3125 3 Odp.: Prawdopodobieństwo, że wśród 5 przypadkowych osób, zapytanych o zdanie, 3 osoby będą popierać kandydata B, a 2 kandydata A wynosi 31,25% b) Jakie jest prawdopodobieństwo, że przedwyborczy sondaż przeprowadzony na 625-osobowej losowo wybranej próbie wyborców wskaże, że kandydat B ma poparcie wyższe niż 53%? n=625 𝐸 𝑋 = 𝑝 = 0,5 𝐷 𝑋 = 𝑝(1 − 𝑝) = 𝑛 0,5(1 − 0,5) = 0,02 625 𝑋~𝑁 0,5; 0,02 0,53 − 0,5 𝑃 𝑋 > 0,53 = 𝑃 𝑈 > = P U > 1,5 = 1 − ϕ 1,5 = 0,0668 0,02 Odp.: Prawdopodobieństwo, że przedwyborczy sondaż przeprowadzony na 625-osobowej losowo wybranej próbie wyborców wskaże, że kandydat B ma poparcie wyższe niż 53% wynosi 6,68%. Zadanie 3 (2.29/33) Miesięczne zużycie wody na osobę (w 𝑚3 ) w gospodarstwach domowych na pewnym osiedlu ma rozkład N(10,4). Dokonano remontu sieci wodnokanalizacyjnej i zamontowano liczniki wody, co ograniczyło jej marnotrawstwo. Ocenia się, że miesięczne zużycie wody na osobę po remoncie ma rozkład N(8,3). Obliczyć prawdopodobieństwo, że średnie miesięczne zużycie wody przez 36 losowo wybranych osób zmniejszyło się co najmniej o 2,5𝑚2 , w porównaniu ze średnim miesięcznym zużyciem wody przed remontem, również przez 36 innych, losowo wybranych osób. 𝑃 𝑋1 − 𝑋2 > 2,5 =? 2 𝑋1 − 𝑋2 : 𝑁 𝑚1 − 𝑚2 ; δ1 𝑛1 2 + δ2 𝑛2 42 32 𝑋1 − 𝑋2 : 𝑁 10 − 8; + 36 36 5 𝑋1 − 𝑋2 : 𝑁 2; 6 2,5 − 2 𝑃 𝑈> = 𝑃 𝑈 > 0,6 = 1 − ϕ 0,6 = 1 − 0,7257 5 6 = 0,2743 Odp.: Prawdopodobieństwo, że średnie miesięczne zużycie wody przez 36 losowo wybranych osób zmniejszyło się co najmniej o 2,5𝑚2 , w porównaniu ze średnim miesięcznym zużyciem wody przed remontem wynosi 27,43%. Zadanie 4 (2.30/33) Zmienne 𝑋1 , 𝑋2 mają rozkłady normalne – odpowiednio N(100,10) i N(80,10). Przy założeniu, że pobrane niezależnie próby losowe liczyły po 25 jednostek, obliczyć wartość wyrażenia: 𝑃(17 < 𝑋1 − 𝑋2 < 23). 𝑋1 − 𝑋2 : 𝑁 100 − 80; 102 102 + 25 25 𝑋1 − 𝑋2 : 𝑁 20; 2 2 𝑃(17 < 𝑋1 − 𝑋2 < 23) = 𝑃 𝑋1 − 𝑋2 < 23 − P(𝑋1 − 𝑋2 < 17) =𝑃 𝑈< 23 − 20 2 2 −𝑃 𝑈< 17 − 20 2 2 =ϕ 1,06 − 1 − ϕ 1,06 = 2ϕ 1,06 − 1 = 0,7108 Odp.: 𝑃 17 < 𝑋1 − 𝑋2 < 23 = 0,7108 Zadanie 5 (2.28/33) Zmienna losowa t Studenta jest określona przez 13 stopni swobody. Obliczyć poniższe prawdopodobieństwa i przedstawić graficznie: a) 𝑃 𝑡 ≥ 𝑡α,𝑣 =α 𝑃 𝑡 ≥ 2,16 = 0,05 b) 𝑃 𝑡 < 𝑡α,𝑣 =1−α 𝑃 𝑡 < 2,16 = 0,95 c) 𝑃 𝑡 ≥ 𝑡α,𝑣 α = 2 𝑃 𝑡 ≥ 2,16 = 0,025 d) 𝑃 𝑡 < 𝑡α,𝑣 α =1− 2 𝑃 𝑡 < 2,16 = 0,975 Zadanie 6 (2.45/37) Czas poświęcony na sprawdzanie pracy egzaminacyjnej ze statystyki (𝑋 - w min) ma nieznany rozkład, ale wiadomo, że jego wartość oczekiwana wynosi 20min, natomiast odchylenie standardowe – 2min. a) Jaki rozkład ma zmienna Y (łączny czas sprawdzania egzaminu 100 studentów uczestniczących w wykładzie ze statystyki) i jakie są parametry tego rozkładu? Jakie jest uzasadnienie takiego rozumowania? 𝑚 = 20, 𝛿 = 2, 𝑛 = 100 (Przypomnienie) Graniczny rozkład średniej z próby Dla dowolnego rozkładu X i przy n→∞ • 𝑋~𝑁(𝑚, 𝛿 ) 𝑛 • 𝑌 to suma z 𝑋1 , 𝑋2 , 𝑋3 ,…𝑋𝑛 , • 𝑌~𝑁(𝑚𝑛, 𝛿 𝑛) 𝑛 Zadanie 6 (2.45/37) Czas poświęcony na sprawdzanie pracy egzaminacyjnej ze statystyki (X - w min) ma nieznany rozkład, ale wiadomo, ze jego wartość oczekiwana wynosi 20min, natomiast odchylenie standardowe – 2min. a) Jaki rozkład ma zmienna Y (łączny czas sprawdzania egzaminu 100 studentów uczestniczących w wykładzie ze statystyki) i jakie są parametry tego rozkładu? Jakie jest uzasadnienie takiego rozumowania? 𝑚 = 20, 𝛿 = 2, 𝑛 = 100 𝑌~𝑁 20 ∗ 100; 𝑛 duże 2 100 ∗ 100 => 𝑌~𝑁 2000; 20 b)Obliczyć prawdopodobieństwo, że abstrahując od zmęczenia wykładowcy, studenci poznają wyniki po 3 dniach, jeśli wykładowca poświęci na sprawdzanie prac 11 godzin dziennie (33 godziny=1980 min). 𝑃 𝑌 < 1980 =? 𝑃 𝑌 < 1980 = 𝑃 𝑈 < 1980−2000 0,2 =𝑃 𝑈 < −1 = 1 − ϕ(1)=0,1587 Odp.: Prawdopodobieństwo, że abstrahując od zmęczenia wykładowcy, studenci poznają wyniki po 3 dniach, jeśli wykładowca poświęci na sprawdzanie prac 11 godzin dziennie wynosi 15,87%. c) Jaki rozkład i o jakich parametrach ma zmienna oznaczająca średni czas sprawdzania pracy obliczony dla 100 studentów? 𝑋~𝑁(𝑚; 𝑋~𝑁(20; 𝛿 ) 𝑛 2 ) 100 𝑋~𝑁(20; 0,2) d) Obliczyć prawdopodobieństwo, że średni czas sprawdzania pracy dla 100 wylosowanych prac nie przekroczy 19,5 min. 𝑋~𝑁(20; 0,2) 19,5 − 20 𝑃 𝑋 < 19,5 = 𝑃 𝑈 < 0,2 = 𝑃 𝑈 < −2,5 = 1 − ϕ 2,5 = 0,0062 Odp.: Prawdopodobieństwo, że średni czas sprawdzania pracy dla 100 wylosowanych prac nie przekroczy 19,5 min wynosi 0,62%. e) Skomentować relację między odchyleniem standardowym zmiennej X oraz odchyleniem standardowym średniej ze 100-elementowej próby. 𝐷 𝑋 =2 𝐷 𝑋 = 0,2 𝑛 = 100 𝐷 𝑋 𝐷 𝑋 = 𝑛 Zadanie 7 (2.46/37) Wielu licealistów w czasie wakacji pracuje przy zbiorach owoców. Średni zarobek w ciągu dnia to 80 zł, przy odchyleniu standardowym 10 zł. Obliczyć prawdopodobieństwo, że: a) Średnia wartość danych zarobków dla 100 losowo wybranych licealistów będzie zawierać się w przedziale od 79 do 82 zł. 𝑚 = 80, 𝛿 = 10 𝑋~𝑁(80; 10 ) 100 => 𝑋~𝑁(80; 1) 82 − 80 79 − 80 𝑃 79 < 𝑋 < 82 = 𝑃 𝑋 < 82 − P 𝑋 < 79 = P U < −P U< 1 1 = ϕ 2 − 1 − ϕ 1 = 0,8185 Odp.: Prawdopodobieństwo, że Średnia wartość danych zarobków dla 100 losowo wybranych licealistów będzie zawierać się w przedziale od 79 do 82 zł wynosi 81,85%. b) Łączne zarobki 100 losowo wybranych licealistów przekroczą 7950 zł. 1. 𝑌~𝑁(8000; 100) 𝑃 𝑌 > 7950 =? 2. 𝑋~𝑁(80; 1) 𝑃 𝑋 > 79,5 =? Dziękujemy za uwagę ! Zadania zostały zaczerpnięte ze zbioru „Statystyka. Lubię to!” dr Marii Wieczorek. Anna Bylina Zofia Tokaj