WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI Zmienna losowa i jej rozkład ZMIENNA LOSOWA Funkcja X przyporządkowująca każdemu zdarzeniu elementarnemu jedną i tylko jedną liczbę x. zmienna losowa skokowa skończona lub nieskończona, ale przeliczalna liczba wartości np. liczba studentów na wykładzie ciągła wartości należą do przedziału ze zbioru liczb rzeczywistych np. zużycie paliwa w samochodzie Rozkład (prawdopodobieństwa) zmiennej losowej skokowej Jest to sposób rozdysponowania całej “masy” prawdopodobieństwa pomiędzy wartości, jakie przyjmuje dana zmienna losowa. np. Mamy zmienną losową przyjmującą wartości 0, 1, 2, 3 z odpowiednim prawdopodobieństwem. Xi 0 1 2 3 pi 0,42 0,4 0,15 0,03 Rozkład zmiennej losowej skokowej Funkcja prawdopodobieństwa: P (X= xi) = pi Funkcją prawdopodobieństwa są tutaj punkty! Rozkład zmiennej losowej ciągłej funkcja f(x) określona na zbiorze liczb rzeczywistych o następujących własnościach: f(x) ≥ 0 dla dowolnych a< b Czyli jest to nic innego, jak obliczanie pola Obliczając, otrzymujemy prawdopodobieństwo, z jakim możliwe jest uzyskanie wyniku z przedziału od a do b. P(a<X≤b) = P(X<b) – P(X≤a) = F(b) – F(a) Całe pole (zakreskowany obszar) pod funkcją gęstości wynosi zawsze 1. Prawdopodobieństwo nie może przecież być większe od 1! A co w przypadku kiedy mamy policzyć P(x=a)? P(X=a) = P(a<X≤a) = 𝑎 𝑓 𝑎 𝑥 𝑑𝑥 = 0 Policzenie „pola punktu” nie jest możliwe! Parametry rozkładu jednej zmiennej losowej • wartość oczekiwana zmiennej losowej • wariancja zmiennej losowej Wartość oczekiwana zmiennej losowej X pi funkcja prawdopodobieństwa f(x) - funkcja gęstości ● wartość przeciętna, średnia - oznacza przeciętną wartość przyjmowaną przez zmienną losową Własności wartości oczekiwanej: 1. E(b)= b 2. E(X)= E[(aX)k] = ak E(Xk) 3. E(aX) = aE(X) 4. E(aX +b) = aE(X) + b Wariancja zmiennej losowej X dla zmiennej losowej skokowej 2 dla zmiennej losowej ciągłej określa stopień rozrzutu - (zróżnicowania )2 wartości zmiennej losowej wokół wartości oczekiwanej odchylenie standardowe - pierwiastek z wariancji D(X) = 𝑫𝟐 (𝑿) Własności wariancji: 1. D2(b) = 0 2. D2(X+b)= D2(X) 3. D2(aX) = a2D2(X) Wybrane typy rozkładów Rozkład zero-jedynkowy podstawą do określenia rozkładu zero-jedynkowego jest doświadczenie, którego rezultatem mogą być dwa wzajemnie wykluczające się zdarzenia losowe: A i zdarzenie przeciwne do A zmienna przyjmuje wartość 1 z prawdopodobieństwem: 0<p<1 oraz wartość 0 z prawdopodobieństwem q= 1-p np. Rzut monetą – wypadnie orzeł lub reszka. Dystrybuanta, wartość oczekiwana, wariancja E (X) = 0 (1-p) + 1p=p D2(X) = (0- p)2(1-p) + (1-p)2 p = p(1-p) Rozkład dwumianowy n-krotne powtarzanie niezależnych doświadczeń (rezultatem pojedynczego doświadczenia może być zdarzenie A z prawdopodobieństwem p lub zdarzenie przeciwne z prawdopodobieństwem q=1-p) k - liczba sukcesów, jaką zaobserwujemy w wyniku nkrotnego powtórzenia doświadczenia, k=0,1,2,...,n Zmienna losowa ma rozkład dwumianowy, jeżeli przyjmuje wartości k=0,1,2,...,n z prawdopodobieństwami określonymi wzorem: dla k= 0,1,2,...,n Liczbę doświadczeń n oraz prawdopodobieństwo sukcesu p nazywamy parametrami tego rozkładu Parametry w rozkładzie dwumianowym Rozkład prawdopodobieństwa częstości względnej pojawiania się sukcesu Wartość oczekiwana i wariancja częstości względnej Przykład 1. Na egzaminie z Podstaw Prawa student otrzymuje 10 pytań z 3 odpowiedziami a, b, c. Tylko jedna odpowiedź jest poprawna. Do zdania egzaminu wystarczy 6 poprawnych odpowiedzi. a) Oblicz prawdopodobieństwo zdania egzaminu przy założeniu, że student wszędzie będzie strzelał. Czyli musimy zaznaczyć przynajmniej 6 poprawnych odpowiedzi w 10 zadaniach przy prawdopodobieństwie „trafienia” dobrej = 1/3. k=6 n = 10 p = 1/3 Przykład 1. a) Korzystamy ze schematu Bernoulliego. P(X≥ 6) = ? – Czyli musimy obliczyć prawdopodobieństwa uzyskania 6, 7, 8 ,9 lub 10 poprawnych odpowiedzi. _ 1 1 10! 1 2 10 P(6) =( ) x ( )6 x (1 - )10 6 = × ( )6 x ( )4 = 0,0569 3 3 6!× 10 −6 ! 3 3 6 P(7) = 0,01626 P(8) = 0,003 P(9) = 0,000339 P(10) = 0,0000169 Przykład 1. a) Teraz musimy zsumować prawdopodobieństwa uzyskania 6, 7, 8, 9 i 10 poprawnych odpowiedzi. P(X≥ 6) = 0,0569 + 0,01626 + 0,003 + 0,000339 + 0,0000169 ≈ 0,0765 Odp: Prawdopodobieństwo zdania egzaminu z Podstaw Prawa przy strzelaniu wynosi 7,65%. Przykład 1. b) Jaka jest oczekiwana liczba dobrych odpowiedzi? E(X) = 𝑥𝑖 × 𝑝𝑖 = np = 10 x 1 3 =3 𝟏 𝟑 Odp. Wartość oczekiwana dobrych odpowiedzi wynosi 1 3 3 c) Wyznacz i zinterpretuj odchylenie standardowe D2(X) = np(1-p) = 10 × D(X) = 20 9 1 3 1 3 × (1 − ) = 20 9 ≈ 1,49 Int. Liczba dobrych odpowiedzi różniła się od wartości oczekiwanej przeciętnie o 1,49. Rozkład normalny - rozkład Gaussa Zmienna losowa X ma rozkład normalny o parametrach m i σ - w skrócie X: N(m; σ), jeśli jej funkcja gęstości ma następującą postać: funkcja gęstości rozkładu normalnego Własności krzywej gęstości rozkładu normalnego 1. Symetryczna względem prostej x=m 2. Osiąga maksimum = 3. 𝑚 = 𝑑𝑜 = 𝑚𝑒 Od wartości parametru σ zależy “smukłość” krzywej Im wyższe σ tym bardziej płaska krzywa. Przykład 2. Tygodniowe obroty (w tys. zł) pewnego sklepu mają rozkład N(150;10). a) Ile wynosi prawdopodobieństwo, że w losowo wybranym tygodniu obroty osiągną wartość dokładnie 150 tys. zł? P(X=150) = 0 b) Ile wynosi prawdopodobieństwo tego, że w losowo wybranym tygodniu obroty wyniosą mniej, niż wynosi wartość dominująca w tym rozkładzie. P(X≤ 150) = 𝟏 𝟐 E(X) = m D2(X) = σ2 m- średnia zmiennej losowej X w rozkładzie normalnym σ - odchylenie standardowe Standardowy rozkład normalny Rozkład normalny ze średnią m=0 oraz odchyleniem standardowym σ=1 nazywamy standardowym rozkładem normalnym i oznaczamy N(0,1) funkcja gęstości rozkładu N(0,1) Standaryzacja( normowanie) zmiennej losowej X Przy obliczaniu prawdopodobieństw: P(a< X ≤ b) dla zmiennej losowej X o rozkładzie z parametrami m i σ Przydatne właściwości przy standaryzacji: 1. P(U ≤ a) = Փ(a) 2. P(U ≥ a) = 1 – P(U ≤ a) = 1 - Փ(a) 3. P(a < U < b) = Փ(b) - Փ(a) Przydatne właściwości przy dystrybuancie: 1. Փ(-a) = 1 – Փ(a) Reguła trzech sigm (tylko rozkład normalny) około 68,3% obserwacji mieści się w granicach jednego odchylenia standardowego około 95,5% obserwacji mieści się w granicach dwóch odchyleń standardowych około 99,7% obserwacji mieści się w granicach trzech odchyleń standardowych Niemal wszystkie obserwacje dokonywane na zmiennej losowej o rozkładzie normalnym mieszczą się w przedziale [m-3σ; m+3σ] Reguła trzech sigm – dowód P(𝑚 - 𝜎 < X < 𝑚 + σ) =P( P −𝜎 ( 𝜎 <U< 𝜎 ) 𝜎 𝑚−𝜎−𝑚 𝑚+𝜎−𝑚 <U< ) 𝜎 𝜎 = = P(-1 < U < 1) = Փ(1) – Փ(-1) = = Փ(1) – (1 – Փ(1))= 2 x Փ(1) – 1 = = 2 x (0,8413) – 1 = 0,6826 Int. Oznacza to, że około 68,3% obserwacji znajduje się w granicach jednego odchylenia standardowego. Analogicznie przeprowadzamy dowód dla dwóch i trzech sigm. PRZYKŁADOWE ZADANIA Zadanie 1. Zmienna losowa X przyjmuje wartości: 10, 20, 30, 40 odpowiednio z prawdopodobieństwem: 0,1; 0,2; 0,2; 0,5. a) Obliczyć wartość oczekiwaną i wariancję zmiennej c) Ile wynosi dominanta w tym rozkładzie? Zadanie 1 ppkt. a) • Wartość oczekiwana E(X) = ? E(X) = 𝑥𝑖 × 𝑝𝑖 = 10 x 0,1 + 20 x 0,2 + 30 x 0,2 + 40 x 0,5 = 31 • Wariancja D2(X) = ? D2(X) =Σ (𝑥𝑖 − 𝐸 𝑋 )2 × 𝑝𝑖 = E(X2) – (E(X))2 Zadanie 1. ppkt. a) • Wariancja D2(X) = ? D2(X) =Σ (𝑥𝑖 − 𝐸 𝑋 )2 × 𝑝𝑖 = E(X2) – (E(X))2 D2(X) = (10 – 31)2 x 0,1 + (20 – 31)2 x 0,2 + (30 – 31)2 x 0,2 + (40 – 31)2 x 0,5 = 44,1 + 24,2 + 0,2 + 40,5 = 109 D2(X) = E(X2) – (E(X))2 = … E(X2) = 𝑥𝑖2 × 𝑝𝑖 Zadanie 1. ppkt. a) i c) Xi 10 20 30 40 pi 0,1 0,2 0,2 0,5 D2(X) = E(X2) – (E(X))2 = … E(X2) = 𝑥𝑖2 × 𝑝𝑖 E(X2) = 102 × 0,1 + 202 × 0,2 + 302 × 0,2 + 402 × 0,5 = 1070 D2(X) = E(X2) – (E(X))2 = 1070 – 312 = 1070 – 961 = 109 Zadanie 1. ppkt. a) i c) Odpowiedź do ppkt. a) Wartość oczekiwana E(X) wynosi 31, natomiast wariancja D2(X) wynosi 109. c) Ile wynosi dominanta? Dominanta, czyli najczęściej występująca wartość wynosi 40, ponieważ prawdopodobieństwo uzyskania zmiennej losowej X4 wynosi 0,5 i jest najwyższe ze wszystkich możliwych. Zadanie 2. Trener piłkarzy szacuje, że w przypadku wykonywania rzutu karnego przez jego podopiecznych prawdopodobieństwo strzelenia gola przez każdego z nich wynosi 0,8, obronienia strzału przez bramkarza – 0,1, natomiast nietrafienia przez strzelającego w światło bramki – także 0,1. Piłkarz dostaje 10 PLN za strzelonego gola z karnego, ale płaci karę 8 PLN, jeżeli bramkarz obroni, a także płaci 30 PLN, jeżeli nie trafi w bramkę. Bramkarz natomiast dostaje 50 PLN za obroniony strzał lub płaci 1 PLN za gola. Strzał poza bramkę nie przynosi ani nagrody, ani straty dla bramkarza. Zadanie 2. a) Podać dwie funkcje prawdopodobieństwa uzyskanych premii (nagród i kar) na konkursie: dla zawodnika strzelającego (X) i dla bramkarza (Y) • Piłkarz (X) Xi 10 -8 - 30 Pi 0,8 0,1 0,1 • Bramkarz (Y) Yi -1 50 0 Pi 0,8 0,1 0,1 Zadanie 2. b) Wiedząc, że te grę finansują rodzice młodych piłkarzy, odpowiedzieć, czy na dłuższą metę jest ona bardziej „kosztowna” dla rodziców dzieci grających w polu czy dla rodziców bramkarzy. • Piłkarz (X) E(X) = 𝑥𝑖 × 𝑝𝑖 = 10 x 0,8 + (-8) x 0,1 + (-30) x 0,1 = 4,2 • Bramkarz (Y) E(Y) = 𝑦𝑖 × 𝑝𝑖 = (-1) x 0,8 + 50 x 0,1 + 0 x 0,1 = 4,2 Odp: Gra jest równie kosztowna dla rodziców piłkarzy z pola i bramkarzy. Zadanie 2. c) Czy zróżnicowanie rozkładu premii finansowej zawodników grających w polu i na bramce jest identyczne? • Piłkarz (X) D2(X) = Σ (𝑥𝑖 − 𝐸 𝑋 )2 × 𝑝𝑖 = (10 – 4,2)2 x 0,8 + ((-8) – 4,2)2 x 0,1 + ((-30) – 4,2)2 x 0,1 = 158,76 ALE! Musimy obliczyć odchylenie standardowe! D(X) = 𝟏𝟓𝟖, 𝟕𝟔 = 𝟏𝟐, 𝟔 • Bramkarz (Y) D2(Y) = Σ (𝑦𝑖 − 𝐸 𝑌 )2 × 𝑝𝑖 = (50 – 4,2)2 x 0,1 + (-1 – 4,2)2 x 0,8 + (0 – 4,2)2 x 0,1 = 233,16 D(Y) = 233,16 = 𝟏𝟓, 𝟐𝟕 Odp.: Zróżnicowanie rozkładu premii finansowej nie jest identyczne. Zadanie 3. Poziom cholesterolu we krwi dorosłej osoby jest zmienną losową o rozkładzie N(200,30). a) Jaki odsetek ludzi ma poziom cholesterolu nieprzekraczający 185? P(X ≤ 185) = P ( U ≤ 1 2 𝑥 −𝑚 ) 𝜎 = P(U≤ 185−200 ) 30 = 1 - Փ( ) = 1 – 0,6915 = 0,3085 = 30,85%. Odp: 30,85% ludzi ma poziom cholesterolu nieprzekraczający 185. 1 2 1 2 = P(U≤ - ) = Փ(- ) Zadanie 3. b) Jaka jest granica poziomu cholesterolu, powyżej którego znajduje się 15% osób o najwyższym jego poziomie? Jak w statystyce nazywa się ta miara? m=200 𝜎 = 30 a – poziom cholesterolu P(X≥a) = 0,15 P(X≤a) = 1 - 0,15 = 0,85 𝑎−𝑚 P(U≤ 𝜎 ) = 0,85 𝑎−𝑚 𝜎 = 1,04 a = 1,04 x 𝜎 + m a = 231,2 Odp.: 15% osób ma poziom cholesterolu powyżej 231,2. W statystyce ta miara nazywa się kwantylem rzędu 85. Zadanie 4. Średnice zwierciadeł w teleskopach produkowanych przez firmę Skywatcher są zmiennymi losowymi o rozkładzie N(15cm; 0,05cm). a) Jaki procent zwierciadeł ma średnicę większą niż 14,9cm? P(X>14,9) = P(U > 𝑥−𝑚 ) 𝜎 = P(U > 14,9−15 ) 0,05 = P(U > −0,1 ) 0,05 = P(U> -2) = = 1 – P (U≤ −2) = 1 − Փ(-2) = 1 – (1 – Փ(2)) = Փ(2) = 0,97725. Odp.: 97,72% zwierciadeł ma średnicę większą niż 14,9 cm. Zadanie 4. b) Jakie jest prawdopodobieństwo kupienia teleskopu ze zwierciadłem o średnicy równej 15cm z dokładnością do 0,001 cm? P(15-0,001 < X < 15+0,001) = P(14,999<X<15,001) = 14,999 −15 15,001 −15 −0,001 0,001 = P( <U< ) = P( <U< ) = P(-0,02<U<0,02) = 0,05 0,05 0,05 0,05 = Փ(0,02) - Փ (-0,02) = Փ(0,02) – (1 – Փ(0,02)) = 2 x Փ(0,02) – 1 = 2 x 0,5080 – 1 = 1,016 – 1 = 0,016. Odp.: Prawdopodobieństwo kupienia teleskopu ze zwierciadłem o średnicy 15cm z dokładnością do 0,001cm wynosi 1,6%. Zadanie 5*. Maszyna produkuje tulejki, których długość (w mm) ma rozkład N(25,1). a) Jaką wartość osiąga funkcja gęstości prawdopodobieństwa tej zmiennej losowej dla x=25? f(x) = 1 1× 2𝜋 × 𝑒− 25−25 2∗1 2 = 1 2𝜋 x e0 = 0,3989 Odp. Funkcja gęstości prawdopodobieństwa tej zmiennej losowej dla x=25 wynosi 0,3989. Pytania egzaminacyjne - zmienna losowa 1. Jeżeli zmienna X ma rozkład normalny, to: a) wszystkie jej wartości znajdują się w przedziale [m-3σ; m+3σ] b) mediana zmiennej jest równa jej wartości oczekiwanej c) wartość oczekiwana zmiennej wynosi 0 Pytania egzaminacyjne - zmienna losowa 1. Jeżeli zmienna X ma rozkład normalny, to: a) wszystkie jej wartości znajdują się w przedziale [m-3σ; m+3σ] - NIE b) mediana zmiennej jest równa jej wartości oczekiwanej –TAK c) wartość oczekiwana zmiennej wynosi 0 - NIE Pytania egzaminacyjne - zmienna losowa 2. Wykresy zmiennych losowych X: N(0;1) i Y: N(0;0,5): a) Różnią się położeniem na osi odciętych b) Mają wspólną oś symetrii c) Różnią się kształtem (spłaszczeniem) Pytania egzaminacyjne - zmienna losowa 2. Wykresy zmiennych losowych X: N(0;1) i Y: N(0;0,5): a) Różnią się położeniem na osi odciętych - NIE b) Mają wspólną oś symetrii - TAK c) Różnią się kształtem (spłaszczeniem) - TAK Zadania otwarte zostały zaczerpnięte ze zbioru „Statystyka. Lubię to!” dr Marii Wieczorek. 2.2; 2.4; 2.17; 2.19. Pytania zamknięte zostały zaczerpnięte z książeczki dr Marii Wieczorek, które przygotowują studentów do egzaminu ze statystyki. W niektórych zadaniach zostały zmienione dane oraz niektóre zadania zostały wymyślone przez członków SKN Statystyki . PYTANIA? Dziękujemy za uwagę! Katarzyna Kajta Marcin Sapko