Wnioskowanie statystyczne dr Urszula Gierałtowska Katedra Ubezpieczeń i Rynków Kapitałowych e-mail: [email protected] Tel. (91) 444 19 63 Konsultacje: wtorek/środa godz. 1200–1330, pok. 212 Wnioskowanie statystyczne Literatura: 1. Hozer J., Kolanko E., Korol M., Lasota B., Witek M., Statystyka. Część II. Wnioskowanie statystyczne, Wydawnictwo Naukowe Uniwersytetu Szczecińskiego, Szczecin 1994. 2. 3. Jóźwiak J., Podgórski J., Statystyka od podstaw, PWE, Warszawa 2006, Aczel A. D., Statystyka w zarządzaniu, PWN, Warszawa 2000 . 4. 5. Greń J., Statystyka matematyczna, modele i zadania, PWN, Warszawa 1987 Balicki A., Makać W., Metody wnioskowania statystycznego, Wydawnictwo Uniwersytetu Gdańskiego, 6. Gdańsk 2007. Luszniewicz A., Statystyka nie jest trudna. Metody wnioskowania statystycznego, PWE, Warszawa 1999. 7. 8. Domański C.,Testy statystyczne, PWE, Warszawa 1990. Fisz M., Rachunek prawdopodobieństwa i statystyka matematyczna, PWN, Warszawa 1976. 9. Domański C., Pruska K., Nieklasyczne metody statystyczne, PWE, Warszawa 2000. 10. Bąk I., Markowicz I., Mojsiewicz M., Wawrzyniak K., Statystyka w zadaniach. Cz. II, Wydawnictwo Naukowo-Techniczne, Warszawa 2001. 11. Krysicki W., Bartos J., Dyczka W., Królikowska K., Wasilewski M., Rachunek prawdopodobieństwa i statystyka matematyczna w zadaniach. Część 2. Statystyka matematyczna, Wydawnictwo Naukowe PWN, Warszawa 2002. 12. Bąk I., Markowicz I., Mojsiewicz M., Wawrzyniak K., Wzory i tablice statystyczne, Katedra Ekonometrii i Statystyki US, Stowarzyszenie Pomoc i Rozwój, Szczecin 1997. Wnioskowanie statystyczne Elementarne zagadnienia rachunku prawdopodobieństwa Prawdopodobieństwo – jest ilościową miarą niepewności, jest to liczba, która wyraża siłę przekonania o tym, że zajdzie niepewne zdarzenie. Twórcy: Blaise Pascal (1623-1662), Pierre de Fermat (1601-1665), Galileo Galileusz (1564-1642), Abraham de Moivre’a (1667-1754) Rachunek prawdopodobieństwa (probabilistyka, od łacińskiego słowa probabilitis oznaczającego prawdopodobny) zajmuje się badaniem praw rządzących zdarzeniami losowymi. Pojęciami pierwotnymi są: zdarzenia elementarne w i przestrzeń zdarzeń elementarnych W związane z doświadczeniem losowym D. Zdarzenie (zdarzenie losowe) – wynik pewnej obserwacji lub doświadczenia (może być ilościowy lub jakościowy). Zdarzenie, którego zajście leży całkowicie lub częściowo poza zasięgiem kontroli. Zdarzenie elementarne – najprostszy wynik doświadczenia losowego, tzn. zdarzenie losowe, którego nie da się rozłożyć na zdarzenia prostsze. W - zbiór wszystkich zdarzeń elementarnych w danym doświadczeniu lub obserwacji (przestrzeń zdarzeń elementarnych). Wnioskowanie statystyczne Zdarzeniami losowymi są takie zdarzenia, które w danym układzie zupełnym zdarzeń: – wzajemnie się wykluczają; – jedno ze zdarzeń się realizuje; – realizacja zdarzeń ma charakter losowy. Oceny ilościowej zdarzeń i zjawisk losowych dokonuje się za pomocą pewnej charakterystyki, zwanej prawdopodobieństwem. Istnieje szereg definicji prawdopodobieństwa, opartych na różnych teoriach: częstościowej, mnogościowej, logicznej; szczególne miejsce zajmuje aksjomatyczna definicja prawdopodobieństwa Kołmogorowa. Klasyczna definicja prawdopodobieństwa Jeżeli przestrzeń W składa się z n zdarzeń elementowych jednakowo prawdopodobnych, to prawdopodobieństwo zajścia zdarzenia A jest ilorazem liczby zdarzeń elementarnych sprzyjających zajściu zdarzenia A przez liczbę wszystkich zdarzeń elementarnych, tzn.: P(A) gdzie: P(A) – prawdopodobieństwo zdarzenia A, m – liczba zdarzeń sprzyjających, n – liczba wszystkich zdarzeń. m n Wnioskowanie statystyczne Właściwości prawdopodobieństwa: (c) (b) (a) A A AiB A*B B A lub B (A+B) ~A A+(~A)=W (d) A (e) B Zdarzenia rozłączne A, B W Zdarzenie pewne W (suma wszystkich zdarzeń możliwych) Jeśli A, B, .. są zdarzeniami rozłącznymi (wykluczają się wzajemnie) to P(A B …) = P(A) + P(B) + ... (patrz rysunek d) Jeśli W jest zdarzeniem pewnym to P(W) = 1 (patrz rysunek e) Stąd wynika, że dla dowolnego zdarzenia A 0 P(A) 1 P(A’) = 1 - P(A) (patrz rysunek a) Dla dowolnych zdarzeń A i B P(A B) = P(A) + P(B) – P(A B) (patrz rysunki b, c) Wnioskowanie statystyczne Definicja prawdopodobieństwa statystycznego (częstościowa): Prawdopodobieństwem pojawienia się zdarzenia sprzyjającego zjawisku A nazywa się granicę, do której dąży empiryczny stosunek liczności zrealizowanych zdarzeń losowych sprzyjających danemu zjawisku m do liczności wszystkich zrealizowanych zdarzeń losowych z pewnego układu zupełnego zdarzeń (n), gdy n dąży do nieskończoności. P(A ) lim n m m . n n Przykład 1. W sklepie znajdują się magnetowidy trzech firm: I, II, III: 3 razy tyle magnetowidów firmy I co magnetowidów firmy II, a 5 razy tyle magnetowidów firmy I co magnetowidów firmy III. Jakie jest prawdopodobieństwo, że wybierając losowo magnetowid, trafimy na magnetowid firmy II? 2. Rzucamy kostką do gry. Jakie jest prawdopodobieństwo, że wypadnie parzysta liczba oczek? Wnioskowanie statystyczne Prawdopodobieństwo warunkowe Prawdopodobieństwem warunkowym zajścia zdarzenia A, pod warunkiem, że zajdzie zdarzenie B nazywamy liczbę: gdzie A, B W i P(B) > 0 Prawdopodobieństwo całkowite Jeżeli A W jest dowolnym zdarzeniem, natomiast B1, B2, B3, ..., Bn W spełniają warunki: 1. B1 B2 … Bn = W 2. wykluczają się parami 3. mają dodatnie prawdopodobieństwa, to P(A) = P(A|B1) · P(B1) + P(A|B2) · P(B2) + ... + P(A|Bn) · P(Bn) Zdarzenia niezależne Zdarzenia losowe A i B nazywamy niezależnymi jeżeli P(AB) = P(A) Zdarzenia losowe A i B są niezależne, wtedy i tylko wtedy, gdy P(A) · P(B) = P(A B) Wnioskowanie statystyczne Twierdzenie Bayesa Jeżeli zdarzenia B1, B2, … tworzą podział przestrzeni W i P(Bi ) > 0, i = 1, 2, …, dla dowolnego to dla zdarzenia A takiego, ze P(A)>0, to dla każdego i PB i A PB i PA B i PB PA B j1 j j Jest to wzór na prawdopodobieństwo á posteriori, gdyż dotyczy prawdopodobieństwa zajścia zdarzenia Bi po zajściu zdarzenia A. Prawdopodobieństwa Bi noszą nazwę prawdopodobieństw á priori lub prawdopodobieństw subiektywnych. Przykład Żarówki są produkowane w 3 fabrykach. Z fabryki pierwszej pochodzi 25% produkcji, z fabryki drugiej 35% produkcji a z trzeciej 40%. Produkcja wadliwa wynosi odpowiednio: dla fabryki I – 5%, dla fabryki II – 4%, dla fabryki III – 2%. Wybrana żarówka okazała się wadliwa – jakie jest prawdopodobieństwo, że pochodzi ona z fabryki pierwszej? Wnioskowanie statystyczne Zmienna losowa zmienna, która w wyniku doświadczenia może przyjąć wartości z pewnego zbiory liczb rzeczywistych, z określonym prawdopodobieństwem. Zmienną losową nazywamy każdą funkcję X określoną na przestrzeni zdarzeń elementarnych W, przyjmującą wartości rzeczywiste, taką, że dla każdej liczby rzeczywistej x zbiór zdarzeń elementarnych w spełniających warunek X(w) < x jest zdarzeniem losowym, tzn. należy do rodziny F. X:W nazywamy zmienną losową, jeżeli w W : Xw xF x Zmienne losowe dzielą się na skokowe i ciągłe. – Zmienną nazywamy skokową (dyskretną), jeżeli jej zbiór wartości jest przeliczalny (lub skończony). Zmienna tego rodzaju przyjmuje wartości z pewnego przedziału liczbowego. Szczególnym przypadkiem zmiennej skokowej jest tzw. zmienna zero–jedynkowa, używana w przypadku cech dychotomicznych, która może przyjmować tylko dwie wartości: 0 lub 1. – Zmienną losową nazywamy ciągłą, jeżeli może ona przybierać każdą wartość z pewnego przedziału liczbowego. Wnioskowanie statystyczne Dystrybuanta zmiennej losowej Dystrybuantą rozkładu prawdopodobieństwa zmiennej losowej X: W → R nazywamy funkcję Fx: R → R określoną wzorem: Fx(x)=P({w W: X(w) < x}) zatem wartość dystrybuanty Fx(x) jest równa prawdopodobieństwu zdarzenia, że zmienna losowa przyjmuje wartości należące do przedziału (-∞, x>. W szczególności dystrybuantę zmiennej losowej X będziemy zapisywali w postaci F(x) = P(X < x). Własności dystrybuanty – F jest funkcją niemalejącą, tzn. jeżeli x1 < x2, to F(x1) < F(x2) – F jest funkcja lewostronnie ciągłą, tzn. dla każdego a R lim- Fx Fa x a – lim Fx 0, lim Fx 1, x - x – jeżeli a < b, to P (a ≤ X < b) = F(b) – F(a), – jeżeli x jest liczbą skończoną, to P(X ≥ x) = 1 − F(x) Zmienne losowe są opisywane za pomocą funkcji (rozkładów). W zależności od rodzaju zmiennej są to: 1. funkcja prawdopodobieństwa (zmienne losowe skokowe), 2. funkcja gęstości (zmienne losowe ciągłe). Wnioskowanie statystyczne Zmienna losowa typu skokowego (dyskretnego) Zmienna losowa X jest typu skokowego (dyskretnego), jeśli przyjmuje skończoną lub nieskończoną, ale przeliczalną liczbę wartości, tzn. XWx1, x2, …,xi,...]. Funkcję pi = P(X = xi) = P ({w: X(w) = xi}) przyporządkowującą wartościom x1, x2, . . . , xk, . . . zmiennej losowej X odpowiednie prawdopodobieństwa p1, p2, . . . , pk, . . . nazywamy funkcją prawdopodobieństwa zmiennej losowej X typu skokowego. Przy czym n pi > 0 oraz p i 1 i 1 Dystrybuantą zmiennej losowej skokowej X jest funkcja F określona wzorem . Fx PX x p - x i x i gdzie sumowanie odbywa się po tych xi, które spełniają nierówności -∞ < xi < x. Wnioskowanie statystyczne Przykład 1. W pudełku jest 10 losów ponumerowanych od 1 do 10. Na los z numerem 1 pada główna wygrana 10 zł, na losy z numerami 2 i 3 wygrana pocieszenia w wysokości 1 zł, a za wyciągnięcie pozostałych płacimy 2 zł. Załóżmy, że wyciągnięcie każdego z losów jest jednakowo prawdopodobne. Doświadczenie polega na wyciągnięciu jednego losu. 2. Dana jest dystrybuanta zmiennej losowej X x F(x) (– ∞, 0] (0, 1] (1, 3] (3, 6] (6, +∞) 0 1/3 1/2 5/6 1 Znaleźć rozkład prawdopodobieństwa zmiennej losowej X. Wnioskowanie statystyczne Podstawowe charakterystyki liczbowe zmiennej losowej skokowej Funkcja rozkładu prawdopodobieństwa bądź dystrybuanta zmiennej losowej w sposób dokładny charakteryzują zmienną losową. Nie zawsze znajomość tych funkcji jest niezbędna. W większości przypadków wystarczy znać pewne charakterystyki, które w wystarczający sposób opisują rozkłady zmiennych losowych. Podstawowymi charakterystykami zmiennej losowej jednowymiarowej są: wartość oczekiwana i odchylenie standardowe (średni błąd). Wartością oczekiwaną (wartością przeciętną, wartością średnią, nadzieją matematyczną) zmiennej losowej skokowej X nazywamy liczbę n E(X) x i p i x1p1 x n p n i 1 Wartość oczekiwana jest to więc pewna średnia ważona wartości zmiennej losowej. Własności wartości oczekiwanej . 1. Ec c 2. EaX aE(X) 4. EX Y E(X) E(Y) 5. EX - E(X) 0 6. EaX bY aE(X) bE(Y) 3. E(X b) E(X) b Wnioskowanie statystyczne Wariancją zmiennej losowej X nazywamy wartość oczekiwaną kwadratu odchylenia zmiennej losowej X od jej wartości oczekiwanej – E(X), tzn. D2(X) = E(X – E(X))2. Inaczej n D ( X ) x i - E ( X ) p i x 1 - E ( X ) p 1 x n - E ( X ) p n 2 2 2 2 i 1 D (X ) E (X ) - E X 2 2 2 n gdzie E (X ) x i2 p i 2 i 1 Wariancja jest to miara rozrzutu zmiennej losowej X. Własności wariancji: 1. D2 c 0 2. D2 aX a 2 D2 (X) 3. D2 X b D2 (X) 4. D2 X Y D2 (X) D2 (Y) Przykład W loterii wypuszczono 500 losów, w tym jeden los z wygraną 1000 zł, pięć losów z wygraną po 200 zł i dwadzieścia losów – po 50 zł. Określić rozkład zmiennej losowej X, będącej wielkością możliwej wygranej osoby, która kupiła jeden los. Obliczyć wartość oczekiwaną i odchylenie standardowe tak określonej zmiennej losowej. Wnioskowanie statystyczne Wybrane rozkłady zmiennej losowej skokowej Typ rozkładu zero – jedynkowy dwumianowy Poissona hipergeometryczny Funkcja rozkładu P( X x i ) Dystrybuanta Parametry E(X), D(X) p p(1 - p) P ( X x) P( X 1) p P( X 0) q 1 - p P( X k ) nk p k q n - k k - P( X k ) e k! Mk Nn -- kM P( X k ) Nn P( X k ) k -1 r0 p q n r r n-r k -1 r - P( X k ) e r ! r0 P( X k ) r0 Nn k -1 M r np npq np N-M n-r np N-n N -1 Wnioskowanie statystyczne Rozkład dwumianowy (Bernoulliego) Schemat Bernoulliego polega na realizacji n niezależnych zdarzeń losowych, z których każde może zakończyć się „sukcesem” z prawdopodobieństwem p lub „porażką” 1 – p = q. W wyniku realizacji n zdarzeń losowych, zdarzenie A pojawić się może 0, 1, ..., n razy, stąd zmienna skokowa X może przybierać wartości k = 0, 1, ..., n. Rozkład dwumianowy można przybliżać innymi rozkładami: – gdy np > 5 i n(1 − p) > 5, to przybliżamy rozkładem normalnym o μ = np i s = np(1 − p) – gdy N jest duże, a p małe, to przybliżamy rozkładem Poissona = np Przykład Pewna firma posiada pięć jednakowych komputerów pracujących niezależnie od siebie. Prawdopodobieństwo tego, że w ciągu dnia roboczego komputer ulegnie awarii wynosi 0,1. Zakładamy, że awarię usuwa się dopiero następnego dnia. Jaki jest rozkład liczby komputerów ulegających awarii w ciągu dnia roboczego i jakie jest prawdopodobieństwo tego, że w ciągu dnia awarii ulegną więcej niż dwa komputery? Wnioskowanie statystyczne Rozkład Poissona Rozkład Poissona jest rozkładem zmiennej losowej skokowej, który stosuje się w przypadku określania prawdopodobieństwa zajścia zdarzeń stosunkowo rzadkich i niezależnych od siebie przy występowaniu dużej ilości doświadczeń. Rozkład Poissona jest przybliżeniem rozkładu Bernoulliego dla dużych prób i przy małym prawdopodobieństwie zajścia zdarzenia sprzyjającego. k n k n -k - p q e k! k gdzie np . Przybliżenie to jest w miarę dokładne, gdy n 50 (czasem przyjmuje się, że n 100 ) i p 0,1 , np 10 (czasem przyjmuje się, że 0.1 , 10 , czyli gdy liczba prób jest większa lub równa 50, zaś prawdopodobieństwo sukcesu w jednej próbie nie przekracza 1 oraz np 10 . 10 Rozkład Poissona różni się od dwumianowego: – na rozkład dwumianowym ma wpływ zarówno liczba prób N jak i prawdopodobieństwo p, a na rozkład Poissona wpływa jedynie , – możliwe wartości zmiennej o rozkładzie dwumianowym to 0, 1, . . .N, a w rozkładzie Poissona nie ma górnego ograniczenia tzn., zmienna przyjmuje wartości 1, 2, 3, . . . Przykład Obliczyć prawdopodobieństwo wylosowania co najwyżej trzech osób leworęcznych w 200 losowaniach, jeśli wiadomo, że prawdopodobieństwo spotkania osoby leworęcznej w pewnej populacji ludzi wynosi 0,05. Wnioskowanie statystyczne Zmienna losowa typu ciągłego Zmienna losowa X jest ciągła, tzn. przyjmuje nieprzeliczalną ilość wartości, to prawdopodobieństwo, że przyjmuje ona konkretną wartość x jest równa zeru. Z tego względu określa się jedynie prawdopodobieństwo, że ciągła zmienna losowa X jest zawarta w pewnym przedziale wartości. Funkcją gęstości zmiennej losowej X typu ciągłego nazywamy funkcję f : R → R określoną Px X x x x 0 x f x lim b P(aX b) P(aX b)P(aX b) P(aX b) f ( x )dx a Graficzną interpretacją całki jest pole obszaru ograniczonego wykresem funkcji f(x), osią odciętych i prostymi x = a, x = b. Wnioskowanie statystyczne Jeżeli f : R → R jest funkcją gęstości prawdopodobieństwa zmiennej losowej typu ciągłego, to: f (x)dx P- X 1 - a PX a PX a f ( x )dx - PX a PX a f ( x)dx a Dystrybuantę zmiennej losowej ciągłej X można przedstawić w postaci: x F( x ) f ( x )dx , - gdzie f(x) jest nieujemną funkcją gęstości. Wykresem dystrybuanty zmiennej losowej typu ciągłego jest linia ciągła. Z definicji pochodnej, w punkcie ciągłości funkcji f(x) mamy Px X x x Fx x - Fx lim Fx x 0 x 0 x x f x lim czyli funkcja gęstości f(x) zmiennej losowej jest pochodną dystrybuanty F(x). Wnioskowanie statystyczne Podstawowe charakterystyki liczbowe zmiennej losowej ciągłej Wartość oczekiwana b E( X) xf ( x)dx. a Odchylenie standardowe D( X) ( x - E( X)) 2 f ( x)dx a b 2 D( X) E( X ) - ( E( X)) 2 1 2 , 1 2 b E( X ) x 2 f ( x)dx. 2 a Wnioskowanie statystyczne Wybrane rozkłady zmiennej losowej ciągłej Typ rozkładu równomierny Funkcja gęstości f(x) Dystrybuanta F(x) 1 ,a x b f ( x) b - a 0, dla pozosta ł ych x 0, xa x - a F( x) ,axb b a 1, xb -x 1 -x F( x) 1 - e , x 0 f ( x) e , x 0 wykładniczy 0 , poza tym 0 , dla pozosta ł ych x -( x - )2 normalny f ( x) 1 s 2 e 2s2 - x F( x) 1 s 2 2 x - ( x- ) 2 e 2s dx - Parametry E(X), D(X) ab 2 (b - a)2 12 , s Wnioskowanie statystyczne Rozkład równomierny (prostokątny, jednostajny) jest najprostszym rozkładem zmiennej losowej typu ciągłego. Rozkład ten bywa czasem stosowany w sytuacji, gdy można przypuszczać, że każda wartość zmiennej w pewnym przedziale liczbowym jest jednakowo możliwa. Rozkład wykładniczy jest jedynym rozkładem ciągłym, który ma własność zwaną brakiem pamięci. Własność tę można interpretować następująco: jeżeli zmienna losowa X jest czasem bezawaryjnej pracy pewnego elementu o rozkładzie wykładniczym, to niezależnie od dotychczasowego czasu pracy elementu, dalszy czas pracy nie zależy od „przeszłości” i ma taki sam rozkład, co całkowity czas pracy elementu. Wnioskowanie statystyczne Rozkład normalny (rozkład Gaussa) jest rozkładem, któremu podlega wiele zjawisk świata fizycznego, np. waga oraz wzrost populacji ludzi. Rozkład normalny jest interpretowany, jako wyraz równowagi dynamicznej trwałej układu względnie izolowanego, w którym zachodzące zmiany są samoregulowane poprzez działanie sprzężenia zwrotnego ujemnego. Rozkład normalny został po raz pierwszy przedstawiony przez de Moivre’a w artykule w 1773 w kontekście aproksymacji niektórych rozkładów dwumianowych dla dużych n. Wyniki tych badań zostały rozwinięte przez Laplace’a, a w statystyce funkcjonują jako twierdzenie de Moivre'aLaplace'a. Wnioskowanie statystyczne Zmienna losowa X ma rozkład normalny o parametrach oraz s, co w skrócie zapisuje się jako X: N(, s), jeżeli jej funkcja gęstości wyraża się wzorem: f unkcja gęstości 1 e s 2 ( x - ) 2 s2 0,4 , gdzie - x i s 0 0,3 f(x) f (x) - 2 0,2 0,1 0 -4 -3 -2 Dystrybuantą zmiennej losowej X mającej rozkład normalny jest funkcją F(x) określona na zbiorze liczb rzeczywistych o postaci: -1 0 1 2 3 4 dystrybuanta rozkładu normalnego 1 0,8 x 1 F( x ) e s 2 - - f(x) 0,6 ( t - )2 2 s2 0,4 dt 0,2 0 -4 -3 -2 -1 0 1 2 3 4 Wnioskowanie statystyczne Funkcja gęstości w rozkładzie normalnym: – jest symetryczna względem prostej x = (osią symetrii jest prosta pionowa przechodząca przez punkt x = μ), jest rosnąca dla x < μ, a malejąca dla x > μ – w punkcie x = osiąga wartość maksymalną – ramiona funkcji mają punkty przegięcia dla x = - σ oraz x = + σ – kształt funkcji gęstości zależy od wartości parametrów: i σ. Parametr decyduje o przesunięciu krzywej, natomiast parametr σ decyduje o „smukłości” krzywej (im mniejsza jest wariancja/odchylenie standardowe, tym wykres gęstości prawdopodobieństwa jest bardziej wysmukły) 0,5 N(0,1) N(3,1) N(0,2) N(3,2) 0 -4 -3 -2 -1 0 1 2 3 4 Wnioskowanie statystyczne Wartość oczekiwana i wariancja dla rozkładu normalnego wyrażane są następującymi wzorami: E(X) x - 1 e s 2 D 2 ( X ) ( x - ) 2 - - ( x - ) 2 2s2 dx 1 e s 2 - ( x - ) 2 2s2 dx s 2 Wartość jest to taka wartość zmiennej losowej X, wokół której skupiają się wyniki wielokrotnych realizacji tej zmiennej. Innymi słowy, oczekuje się (ma się nadzieję), że wielokrotne realizacje zmiennej losowej X będą skupiały się wokół liczby . Wnioskowanie statystyczne Reguła trzech sigm Funkcja gęstości rozkładu normalnego ma zastosowanie do reguły „trzech sigma”, którą następnie rozwinięto na regułę „sześć sigma” – stosowaną w kontroli jakości, przede wszystkim w USA (np. General Electric, General Motors Company) Reguła trzech sigma – jeżeli zmienna losowa ma rozkład normalny to: – 68,3 % populacji mieści się w przedziale ( - σ; + σ) – 95,5 % populacji mieści się w przedziale ( - 2σ; + 2σ) – 99,7 % populacji mieści się w przedziale ( - 3σ; + 3σ) Reguła ta ma duże znaczenie w teorii błędów obserwacji, bowiem błędy przypadkowe pomiarów tej samej wielkości fizycznej zwykle tak się rozkładają, że wyniki tych pomiarów mają rozkład normalny. Rozkład ten nie wystąpi, gdy popełniony zostanie tendencyjny błąd systematyczny. Wnioskowanie statystyczne Standaryzacja Jeżeli zmienna losowa X ma rozkład N (, s), to zmienna losowa (X – )/s ma rozkład N(0, 1), zwany standardowym rozkładem normalnym. Standaryzacja polega na sprowadzeniu dowolnego rozkładu normalnego o danych parametrach i σ do rozkładu standaryzowanego o wartości oczekiwanej = 0 i odchyleniu standardowym σ = 1. Zmienną losową X zastępujemy zmienną standaryzowaną u, która ma rozkład N(0,1), jej funkcję gęstości oznaczamy φ(u), natomiast dystrybuantę Φ(u): u Gęstość dla zmiennej standaryzowanej u określa wzór: u a dystrybuantę: X - s ( u) 1 2 e - u2 2 , t2 1 2 (u ) e dt 2 - Wartości funkcji gęstości oraz dystrybuanty dla różnych wartości u są stabilicowane. Ze względu na symetrię funkcji względem prostej u = 0 w tablicach są podane często wartości obu funkcji jedynie dla dodatnich u. Przy wyznaczaniu wartości i korzysta się wtedy z własności tych funkcji ( - u) ( u), ( - u) 1 - ( u). Wnioskowanie statystyczne Tablica dystrybuanty rozkładu normalnego N(0, 1) → dla u =1,64 u = 1,64) = Fu = 1,64 = 0,949497 u 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3 0 0,500000 0,539828 0,579260 0,617911 0,655422 0,691462 0,725747 0,758036 0,788145 0,815940 0,841345 0,864334 0,884930 0,903199 0,919243 0,933193 0,945201 0,955435 0,964070 0,971284 0,977250 0,982136 0,986097 0,989276 0,991802 0,993790 0,995339 0,996533 0,997445 0,998134 0,998650 0,01 0,503989 0,543795 0,583166 0,621719 0,659097 0,694974 0,729069 0,761148 0,791030 0,818589 0,843752 0,866500 0,886860 0,904902 0,920730 0,934478 0,946301 0,956367 0,964852 0,971933 0,977784 0,982571 0,986447 0,989556 0,992024 0,993963 0,995473 0,996636 0,997523 0,998193 0,998694 0,02 0,507978 0,547758 0,587064 0,625516 0,662757 0,698468 0,732371 0,764238 0,793892 0,821214 0,846136 0,868643 0,888767 0,906582 0,922196 0,935744 0,947384 0,957284 0,965621 0,972571 0,978308 0,982997 0,986791 0,989830 0,992240 0,994132 0,995603 0,996736 0,997599 0,998250 0,998736 0,03 0,511967 0,551717 0,590954 0,629300 0,666402 0,701944 0,735653 0,767305 0,796731 0,823814 0,848495 0,870762 0,890651 0,908241 0,923641 0,936992 0,948449 0,958185 0,966375 0,973197 0,978822 0,983414 0,987126 0,990097 0,992451 0,994297 0,995731 0,996833 0,997673 0,998305 0,998777 0,04 0,515953 0,555670 0,594835 0,633072 0,670031 0,705402 0,738914 0,770350 0,799546 0,826391 0,850830 0,872857 0,892512 0,909877 0,925066 0,938220 0,949497 0,959071 0,967116 0,973810 0,979325 0,983823 0,987455 0,990358 0,992656 0,994457 0,995855 0,996928 0,997744 0,998359 0,998817 0,05 0,519939 0,559618 0,598706 0,636831 0,673645 0,708840 0,742154 0,773373 0,802338 0,828944 0,853141 0,874928 0,894350 0,911492 0,926471 0,939429 0,950529 0,959941 0,967843 0,974412 0,979818 0,984222 0,987776 0,990613 0,992857 0,994614 0,995975 0,997020 0,997814 0,998411 0,998856 0,06 0,523922 0,563559 0,602568 0,640576 0,677242 0,712260 0,745373 0,776373 0,805106 0,831472 0,855428 0,876976 0,896165 0,913085 0,927855 0,940620 0,951543 0,960796 0,968557 0,975002 0,980301 0,984614 0,988089 0,990863 0,993053 0,994766 0,996093 0,997110 0,997882 0,998462 0,998893 0,07 0,527903 0,567495 0,606420 0,644309 0,680822 0,715661 0,748571 0,779350 0,807850 0,833977 0,857690 0,878999 0,897958 0,914656 0,929219 0,941792 0,952540 0,961636 0,969258 0,975581 0,980774 0,984997 0,988396 0,991106 0,993244 0,994915 0,996207 0,997197 0,997948 0,998511 0,998930 0,08 0,531881 0,571424 0,610261 0,648027 0,684386 0,719043 0,751748 0,782305 0,810570 0,836457 0,859929 0,881000 0,899727 0,916207 0,930563 0,942947 0,953521 0,962462 0,969946 0,976148 0,981237 0,985371 0,988696 0,991344 0,993431 0,995060 0,996319 0,997282 0,998012 0,998559 0,998965 0,09 0,535856 0,575345 0,614092 0,651732 0,687933 0,722405 0,754903 0,785236 0,813267 0,838913 0,862143 0,882977 0,901475 0,917736 0,931888 0,944083 0,954486 0,963273 0,970621 0,976705 0,981691 0,985738 0,988989 0,991576 0,993613 0,995201 0,996427 0,997365 0,998074 0,998605 0,998999 Wnioskowanie statystyczne W celu obliczenia prawdopodobieństwa P(a < X b) należy skorzystać ze standaryzacji. Jeśli zmienna losowa X ma rozkład N( s) to zmienna standaryzowana u ma rozkład N(0,1), czyli: a - X - b - b - a - P ( a x b) P - . s s s s s b - a - należy odczytać w tablicach dystrybuanty standaryzowanego Wartości oraz s s rozkładu normalnego. Przykład 1. Dany jest rozkład zmiennej losowej X o parametrach N(15; 5). Obliczyć: a) P(X<12) b) P(X>14) c) P{12 < X < 14} 2. Wzrost kobiet w pewnej populacji ma rozkład normalny N(165,15). Oznacza to, iż zmienna losowa jaką jest wzrost kobiet ma rozkład normalny ze średnią równą 165 cm i odchyleniem standardowym równym 15 cm. Jaki jest udział w populacji kobiet o wzroście: a) do 160 cm, b) w przedziale 165-170 cm, c) powyżej 175 cm. Wnioskowanie statystyczne Rozkład chi – kwadrat (c2) Danych jest k ciągłych zmiennych losowych o rozkładzie normalnym z wartością oczekiwana 0 i odchyleniem standardowym 1, tj. każda zmienna Xi: N(0; 1) (i = 1 ,2, ..., k). Zdefiniujemy nowa zmienna losowa o nazwie chi-kwadrat (c2): c 2 X12 X 22 ... X 2k Rozkład chi kwadrat to rozkład zmiennej losowej, która jest sumą k kwadratów niezależnych zmiennych losowych o standardowym rozkładzie normalnym. Liczbę naturalną k nazywa się liczbą stopni swobody rozkładu zmiennej losowej. Liczba stopni swobody jest liczbą niezależnych wyników obserwacji pomniejszoną o liczbę związków, które łączą te wyniki ze sobą. Wykres funkcji gęstości (dla k>2) Rozkład zmiennej losowej c2 o k stopniach swobody ma następujące parametry: – nadzieja matematyczna – wariancja D c 2k E c2 k 2 2 Wnioskowanie statystyczne Rozkład zmiennej losowej c2 o k stopniach swobody jest rozkładem pomocniczym używanym we wnioskowaniu statystycznym. Tablice rozkładu zmiennej losowej c2 o k stopniach swobody zostały opracowane tak, że podają przy założonym prawdopodobieństwie a taką wartość (oznaczmy ja c2ak) zmiennej losowej c2, dla której: P c 2 c a2 ,k a Wnioskowanie statystyczne poziom istotności l.ss 1 2 3 4 5 0,99 0,975 0,95 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,05 0,025 0,01 0,005 0,000 0,020 0,115 0,297 0,554 0,001 0,051 0,216 0,484 0,831 0,004 0,103 0,352 0,711 1,145 0,016 0,211 0,584 1,064 1,610 0,064 0,446 1,005 1,649 2,343 0,148 0,713 1,424 2,195 3,000 0,275 1,022 1,869 2,753 3,656 0,455 1,386 2,366 3,357 4,351 0,708 1,833 2,946 4,045 5,132 1,074 2,408 3,665 4,878 6,064 1,642 3,219 4,642 5,989 7,289 2,706 4,605 6,251 7,779 9,236 3,841 5,991 7,815 9,488 11,070 5,024 7,378 9,348 11,143 12,832 6,635 9,210 11,345 13,277 15,086 5,024 7,378 9,348 11,143 12,832 6 7 8 9 10 0,872 1,239 1,647 2,088 2,558 1,237 1,690 2,180 2,700 3,247 1,635 2,167 2,733 3,325 3,940 2,204 2,833 3,490 4,168 4,865 3,070 3,822 4,594 5,380 6,179 3,828 4,671 5,527 6,393 7,267 4,570 5,493 6,423 7,357 8,295 5,348 6,346 7,344 8,343 9,342 6,211 7,283 8,351 9,414 10,473 7,231 8,383 9,524 10,656 11,781 8,558 9,803 11,030 12,242 13,442 10,645 12,017 13,362 14,684 15,987 12,592 14,067 15,507 16,919 18,307 14,449 16,013 17,535 19,023 20,483 16,812 18,475 20,090 21,666 23,209 14,449 16,013 17,535 19,023 20,483 11 12 13 14 15 3,053 3,571 4,107 4,660 5,229 3,816 4,404 5,009 5,629 6,262 4,575 5,226 5,892 6,571 7,261 5,578 6,304 7,041 7,790 8,547 6,989 7,807 8,634 9,467 10,307 8,148 9,034 9,926 10,821 11,721 9,237 10,182 11,129 12,078 13,030 10,341 11,340 12,340 13,339 14,339 11,530 12,584 13,636 14,685 15,733 12,899 14,011 15,119 16,222 17,322 14,631 15,812 16,985 18,151 19,311 17,275 18,549 19,812 21,064 22,307 19,675 21,026 22,362 23,685 24,996 21,920 23,337 24,736 26,119 27,488 24,725 26,217 27,688 29,141 30,578 21,920 23,337 24,736 26,119 27,488 16 17 18 19 20 5,812 6,408 7,015 7,633 8,260 6,908 7,564 8,231 8,907 9,591 7,962 8,672 9,390 10,117 10,851 9,312 10,085 10,865 11,651 12,443 11,152 12,002 12,857 13,716 14,578 12,624 13,531 14,440 15,352 16,266 13,983 14,937 15,893 16,850 17,809 15,338 16,338 17,338 18,338 19,337 16,780 17,824 18,868 19,910 20,951 18,418 19,511 20,601 21,689 22,775 20,465 21,615 22,760 23,900 25,038 23,542 24,769 25,989 27,204 28,412 26,296 27,587 28,869 30,144 31,410 28,845 30,191 31,526 32,852 34,170 32,000 33,409 34,805 36,191 37,566 28,845 30,191 31,526 32,852 34,170 Wnioskowanie statystyczne Rozkład t – Studenta Rozkład Studenta zwany rozkładem t lub rozkładem t-Studenta to ciągły rozkład prawdopodobieństwa często stosowany w statystyce podczas testowania hipotez i przy ocenie błędów pomiaru. Rozkład t jest symetryczny względem prostej x = 0 oraz bardzo zbliżony kształtem do rozkładu normalnego standaryzowanego. Rozkładem zmiennej losowej t-Studenta o k stopniach swobody nazywamy rozkład zmiennej t zdefiniowanej jako: t u c 2 k gdzie u zmienna losowa o rozkładzie normalnym N(0; 1) oraz c2 zmienna losowa o rozkładzie c2 o k stopniach swobody. Wykres funkcji gęstości Rozkład zmiennej losowej c2 o k stopniach swobody ma następujące parametry: – nadzieja matematyczna Et 0 – wariancja D 2 t k k-2 Wnioskowanie statystyczne Rozkład zmiennej losowej t-Studenta o k stopniach swobody jest rozkładem pomocniczym używanym we wnioskowaniu statystycznym. Tablice zmiennej losowej t-Studenta o k stopniach swobody zostały opracowane tak, że podają przy założonym prawdopodobieństwie a taka wartość (oznaczamy ją ta,k ) zmiennej losowej t , dla której: P t ,k t a,k a f (t) 1/2 a P ( t ta, n) = a 1/2 a t Wnioskowanie statystyczne α 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,02 0,01 0,001 k 1 0 , 1 5 8 0 , 3 2 5 0 , 5 1 0 0 , 7 2 7 1 , 0 0 0 1 , 3 7 6 1 , 9 6 3 3 , 0 7 8 6 , 3 1 4 7 , 0 2 6 7 , 9 1 6 9 , 0 5 8 2 0 , 1 4 2 0 , 2 8 9 0 , 4 4 5 0 , 6 1 7 0 , 8 1 6 1 , 0 6 1 1 , 3 8 6 1 , 8 8 6 2 , 9 2 0 3 , 1 0 4 3 , 3 2 0 3 , 5 7 8 1 3 0 , 8 , 5 9 7 6 9 1 4 2 , 3 , 7 0 0 3 6 1 4 5 , 8 , 8 4 9 9 4 2 5 1 , 6 , 2 4 0 3 5 3 6 1 , 9 , 8 6 2 5 1 6 9 3 , 9 , 6 2 5 5 6 6 3 3 6 3 0 , 1 3 7 0 , 2 7 7 0 , 4 2 4 0 , 5 8 4 0 , 7 6 5 0 , 9 7 8 1 , 2 5 0 1 , 6 3 8 2 , 3 5 3 2 , 4 7 1 2 , 6 0 5 2 , 7 6 3 2 , 9 5 1 3 , 1 8 2 3 , 4 8 2 3 , 8 9 6 4 , 5 4 1 5 , 8 4 1 1 4 0 , 1 3 4 0 , 2 7 1 0 , 4 1 4 0 , 5 6 9 0 , 7 4 1 0 , 9 4 1 1 , 1 9 0 1 , 5 3 3 2 , 1 3 2 2 , 2 2 6 2 , 3 3 3 2 , 4 5 6 2 , 6 0 1 2 , 7 7 6 2 , 9 9 9 3 , 2 9 8 3 , 7 4 7 4 , 6 0 4 8 , 6 1 0 5 0 , 1 3 2 0 , 2 6 7 0 , 4 0 8 0 , 5 5 9 0 , 7 2 7 0 , 9 2 0 1 , 1 5 6 1 , 4 7 6 2 , 0 1 5 2 , 0 9 8 2 , 1 9 1 2 , 2 9 7 2 , 4 2 2 2 , 5 7 1 2 , 7 5 7 3 , 0 0 3 3 , 3 6 5 4 , 0 3 2 6 , 8 6 9 6 0 , 1 3 1 0 , 2 6 5 0 , 4 0 4 0 , 5 5 3 0 , 7 1 8 0 , 9 0 6 1 , 1 3 4 1 , 4 4 0 1 , 9 4 3 2 , 0 1 9 2 , 1 0 4 2 , 2 0 1 2 , 3 1 3 2 , 4 4 7 2 , 6 1 2 2 , 8 2 9 3 , 1 4 3 3 , 7 0 7 5 , 9 5 9 7 0 , 1 3 0 0 , 2 6 3 0 , 4 0 2 0 , 5 4 9 0 , 7 1 1 0 , 8 9 6 1 , 1 1 9 1 , 4 1 5 1 , 8 9 5 1 , 9 6 6 2 , 0 4 6 2 , 1 3 6 2 , 2 4 1 2 , 3 6 5 2 , 5 1 7 2 , 7 1 5 2 , 9 9 8 3 , 4 9 9 5 , 4 0 8 8 0 , 1 3 0 0 , 2 6 2 0 , 3 9 9 0 , 5 4 6 0 , 7 0 6 0 , 8 8 9 1 , 1 0 8 1 , 3 9 7 1 , 8 6 0 1 , 9 2 8 2 , 0 0 4 2 , 0 9 0 2 , 1 8 9 2 , 3 0 6 2 , 4 4 9 2 , 6 3 4 2 , 8 9 6 3 , 3 5 5 5 , 0 4 1 9 0 , 1 2 9 0 , 2 6 1 0 , 3 9 8 0 , 5 4 3 0 , 7 0 3 0 , 8 8 3 1 , 1 0 0 1 , 3 8 3 1 , 8 3 3 1 , 8 9 9 1 , 9 7 3 2 , 0 5 5 2 , 1 5 0 2 , 2 6 2 2 , 3 9 8 2 , 5 7 4 2 , 8 2 1 3 , 2 5 0 4 , 7 8 1 1 2 , , 6 , 9 5 7 0 8 0 2 4 1 0 0 , 1 2 9 0 , 2 6 0 0 , 3 9 7 0 , 5 4 2 0 , 7 0 0 0 , 8 7 9 1 , 0 9 3 1 , 3 7 2 1 , 8 1 2 1 , 8 7 7 1 , 9 4 8 2 , 0 2 8 2 , 1 2 0 2 , 2 2 8 2 , 3 5 9 2 , 5 2 7 2 , 7 6 4 3 , 1 6 9 4 , 5 8 7 1 1 0 , 1 2 9 0 , 2 6 0 0 , 3 9 6 0 , 5 4 0 0 , 6 9 7 0 , 8 7 6 1 , 0 8 8 1 , 3 6 3 1 , 7 9 6 1 , 8 5 9 1 , 9 2 8 2 , 0 0 7 2 , 0 9 6 2 , 2 0 1 2 , 3 2 8 2 , 4 9 1 2 , 7 1 8 3 , 1 0 6 4 , 4 3 7 1 2 0 , 1 2 8 0 , 2 5 9 0 , 3 9 5 0 , 5 3 9 0 , 6 9 5 0 , 8 7 3 1 , 0 8 3 1 , 3 5 6 1 , 7 8 2 1 , 8 4 4 1 , 9 1 2 1 , 9 8 9 2 , 0 7 6 2 , 1 7 9 2 , 3 0 3 2 , 4 6 1 2 , 6 8 1 3 , 0 5 5 4 , 3 1 8 1 3 0 , 1 2 8 0 , 2 5 9 0 , 3 9 4 0 , 5 3 8 0 , 6 9 4 0 , 8 7 0 1 , 0 7 9 1 , 3 5 0 1 , 7 7 1 1 , 8 3 2 1 , 8 9 9 1 , 9 7 4 2 , 0 6 0 2 , 1 6 0 2 , 2 8 2 2 , 4 3 6 2 , 6 5 0 3 , 0 1 2 4 , 2 2 1 1 4 0 , 1 2 8 0 , 2 5 8 0 , 3 9 3 0 , 5 3 7 0 , 6 9 2 0 , 8 6 8 1 , 0 7 6 1 , 3 4 5 1 , 7 6 1 1 , 8 2 1 1 , 8 8 7 1 , 9 6 2 2 , 0 4 6 2 , 1 4 5 2 , 2 6 4 2 , 4 1 5 2 , 6 2 4 2 , 9 7 7 4 , 1 4 0 1 5 0 , 1 2 8 0 , 2 5 8 0 , 3 9 3 0 , 5 3 6 0 , 6 9 1 0 , 8 6 6 1 , 0 7 4 1 , 3 4 1 1 , 7 5 3 1 , 8 1 2 1 , 8 7 8 1 , 9 5 1 2 , 0 3 4 2 , 1 3 1 2 , 2 4 9 2 , 3 9 7 2 , 6 0 2 2 , 9 4 7 4 , 0 7 3 1 6 0 , 1 2 8 0 , 2 5 8 0 , 3 9 2 0 , 5 3 5 0 , 6 9 0 0 , 8 6 5 1 , 0 7 1 1 , 3 3 7 1 , 7 4 6 1 , 8 0 5 1 , 8 6 9 1 , 9 4 2 2 , 0 2 4 2 , 1 2 0 2 , 2 3 5 2 , 3 8 2 2 , 5 8 3 2 , 9 2 1 4 , 0 1 5 1 7 0 , 1 2 8 0 , 2 5 7 0 , 3 9 2 0 , 5 3 4 0 , 6 8 9 0 , 8 6 3 1 , 0 6 9 1 , 3 3 3 1 , 7 4 0 1 , 7 9 8 1 , 8 6 2 1 , 9 3 4 2 , 0 1 5 2 , 1 1 0 2 , 2 2 4 2 , 3 6 8 2 , 5 6 7 2 , 8 9 8 3 , 9 6 5 1 8 0 , 1 2 7 0 , 2 5 7 0 , 3 9 2 0 , 5 3 4 0 , 6 8 8 0 , 8 6 2 1 , 0 6 7 1 , 3 3 0 1 , 7 3 4 1 , 7 9 2 1 , 8 5 5 1 , 9 2 6 2 , 0 0 7 2 , 1 0 1 2 , 2 1 4 2 , 3 5 6 2 , 5 5 2 2 , 8 7 8 3 , 9 2 2 1 9 0 , 1 2 7 0 , 2 5 7 0 , 3 9 1 0 , 5 3 3 0 , 6 8 8 0 , 8 6 1 1 , 0 6 6 1 , 3 2 8 1 , 7 2 9 1 , 7 8 6 1 , 8 5 0 1 , 9 2 0 2 , 0 0 0 2 , 0 9 3 2 , 2 0 5 2 , 3 4 6 2 , 5 3 9 2 , 8 6 1 3 , 8 8 3 2 0 0 , 1 2 7 0 , 2 5 7 0 , 3 9 1 0 , 5 3 3 0 , 6 8 7 0 , 8 6 0 1 , 0 6 4 1 , 3 2 5 1 , 7 2 5 1 , 7 8 2 1 , 8 4 4 1 , 9 1 4 1 , 9 9 4 2 , 0 8 6 2 , 1 9 7 2 , 3 3 6 2 , 5 2 8 2 , 8 4 5 3 , 8 5 0 Wnioskowanie statystyczne Twierdzenia graniczne a prawa wielkich liczb W twierdzeniach granicznych rozpatruje się ciągi zmiennych losowych {Xn}, których rozkłady przy wzroście wskaźnika n do nieskończoności mogą być zbieżne do pewnego rozkładu. Jeżeli takie zjawisko występuje, to taki rozkład nazywamy rozkładem granicznym (asymptotycznym) ciągu zmiennych losowych {Xn}. Mówi się wtedy również, że zmienna losowa Xn ma graniczny rozkład o określonej postaci. Twierdzenia graniczne formułują warunki, przy których dla ciągu zmiennych losowych istnieje asymptotyczny rozkład oraz określają, jaka jest postać tego rozkładu. Twierdzenia, które mówią o zbieżności ciągu funkcji prawdopodobieństwa (lub funkcji gęstości), są nazywane lokalnymi twierdzeniami granicznymi, zaś te które rozpatrują zbieżność ciągu dystrybuant, nazywane są integralnymi twierdzeniami granicznymi. Osobną klasą twierdzeń granicznych stanowią prawa wielkich liczb, które dotyczą zbieżności ciągu zmiennych losowych do rozkładu jednopunktowego. Wnioskowanie statystyczne Prawa wielkich liczb seria twierdzeń matematycznych (jedne z tzw. twierdzeń granicznych), opisujących związek między liczbą wykonywanych doświadczeń a faktycznym prawdopodobieństwem wystąpienia zdarzenia, którego te doświadczenia dotyczą. Najprostsza i historycznie najwcześniejsza postać prawa wielkich liczb to prawo Bernoulliego. Prawo to orzeka, że: z prawdopodobieństwem dowolnie bliskim 1 można się spodziewać, iż przy dostatecznie wielkiej liczbie prób częstość danego zdarzenia losowego będzie się dowolnie mało różniła od jego prawdopodobieństwa. Można to zapisać jako: Jeżeli X oznacza zmienną losową o rozkładzie dwumianowym (np, npq ), to dla każdej dodatniej liczby e X lim P - p e 1 n n Wnioskowanie statystyczne Wybrane prawa wielkich liczb 1. Nierówność Czebyszewa – jeżeli X jest dowolną zmienną losową o skończonej wariancji s2 , to dla dowolnej liczby e > 0 zachodzi tzw. nierówność Czebyszewa s2 PX - EX e 2 . e Nierówność Czebyszewa podaje górne ograniczenie prawdopodobieństwa zdarzenia, że wartość nieujemnej zmiennej losowej jest większa lub równa od z góry ustalonej dodatniej liczby. 2. Twierdzenie Markowa – jeżeli ciąg zmiennych losowych {Xn}nN spełnia warunek to dla każdej dodatniej liczby e 1 2 n lim 2 D X k 0 n n k 1 1 n lim Pw : X k w - EX k e 1 n n k 1 Wnioskowanie statystyczne 3. Twierdzenie Czebyszewa – jeżeli {Xn}nN jest ciągiem zmiennych losowych o wariancjach sn2 ograniczonych wspólną stałą C tzn. s12 C, s 22 C, ..., s 2n C, to dla każdej dodatniej liczby e 1 n lim Pw : X k w - EX k e 1 n n k 1 tzn. ciąg sum zmiennych losowych jest stochastycznie zbieżny do swojej wartości oczekiwanej. 4. Twierdzenie Poissona – jeżeli {Xn}nN jest ciągiem niezależnych zmiennych losowych o jednakowych wartościach oczekiwanych i wariancjach s2 ograniczonych wspólną stałą C, to dla każdej dodatniej liczby e 1 n lim Pw : X k w - e 1 n n k 1 Wnioskowanie statystyczne 5. Twierdzenie Chinczyna (dotyczy własności sumy zmiennych losowych, które mają taki sam rozkład, ale nie muszą mieć wariancji) – jeżeli ciąg losowy {Xn}nN jest ciągiem niezależnych zmiennych losowych o jednakowym rozkładzie i skończonej wartości oczekiwanej , to ciąg X n jest stochastycznie zbieżny do tzn. lim PX e 0 n n - e 1 6. Pierwsze prawo Kołmogorowa – jeżeli {Xn}nN jest ciągiem niezależnych zmiennych losowych o wariancjach sn2 i spełniony jest warunek s 2n to: 2 n 1 n 1 n P w : lim X k w - EX k 0 1 n n k 1 7. Drugie prawo Kołmogorowa – niech {Xn}nN będzie ciągiem niezależnych zmiennych losowych o jednakowym rozkładzie i skończonej wartości oczekiwanej , to ciąg X n prawdopodobieństwem 1. tzn. P lim X n 1 n nN jest zbieżny do z nN Wnioskowanie statystyczne Centralne twierdzenie graniczne – twierdzenie Lindeberga – Lévy'ego Niech X1, X2, …, Xn będzie prostą próbą losową z rozkładu o średniej i wariancji s2. Wówczas dla dużych liczności próby n rozkład prawdopodobieństwa standaryzowanej średniej (standaryzowanej sumy X1 + X2 + … + Xn) jest bliski standardowemu rozkładowi normalnemu N(0, 1), dokładniej dla dowolnych liczb a, b, - a b P (a X - b) P(a Z b) (b) - (a ), s/ n przy n → ∞. Równoważnie rozkład średniej jest bliski rozkładowi normalnemu N (, s / n ). Możliwe jest również zdefiniowanie zmiennej losowej będącej sumą X1, X2, …, Xn, wówczas rozkład sumy jest bliski rozkładowi normalnemu N(n , s n ) Szczególnym przypadkiem twierdzenia Lindeberga-Lévy'ego jest twierdzenie Moivre'a-Laplace'a dotyczące zmiennych losowych X1, X2, …, Xn o rozkładzie zerojedynkowym. Wówczas można wykazać, ze zmienna losowa Yn ma rozkład dwumianowy. Na podstawie tego twierdzenia dla dużych n, w praktyce n ≥ 100 można rozkład dwumianowy zastąpić rozkładem normalny. Wnioskowanie statystyczne Centralne twierdzenie graniczne – twierdzenie de Moivre’a-Laplace’a Twierdzenie de Moivre’a-Laplace’a mówi o tym, ze liczba sukcesów w n próbach Bernoulliego z prawdopodobieństwem sukcesu p po standaryzacji (tzn. unormowaniu do zmiennej losowej o średniej = 0 i wariancji s2 = 1) dąży według rozkładu do standardowego rozkładu normalnego, gdy n → ∞. Zatem dla dużych n liczba sukcesów w n próbach Bernoulliego z prawdopodobieństwem sukcesu p ma asymptotycznie rozkład normalny N(n p, npq ) Równoważnie, częstość występowania sukcesów Sn/n (średnia) ma asymptotycznie rozkład normalny pq . N p, n Wnioskowanie statystyczne Przykłady 1. W grupie studentów przeprowadzono test ze statystyki , gdzie zmienna losowa Xk oznaczała liczbę zdobytych punktów (od 0 do 100, gdzie k – jest liczbą studentów). Rozkład zmiennej Xk jest identyczny dla wszystkich studentów – E(Xk) = 70; D(Xk) = 20. Obliczyć prawdopodobieństwo tego, że: a) suma punktów uzyskanych przez 100 studentów będzie wyższa od 7500 punktów, b) przeciętna liczba zdobytych punktów w 100–osobowej grupie studentów będzie w przedziale 65–70 pkt. 2. Pewien towar produkowany jest w 2 gatunkach. 40 % produkcji stanowi gatunek 1, natomiast 60 % – drugi. Jakie jest prawdopodobieństwo, że w niezależnie pobranej partii towaru liczącej 50 sztuk, liczba sztuk 1–go gatunku będzie większa od 24. 3. Prawdopodobieństwo wylosowania wyrobu 1–go gatunku wynosi 0,25. Obliczyć prawdopodobieństwo tego, że częstość wystąpienia sztuk I gatunku wśród 400 wylosowanych wyrobów wyniesie nie więcej niż 30 %.