Rozkłady wywodzące się z rozkładu normalnego standardowego Bardzo ważną rolę w statystyce odgrywają trzy rozkłady zmiennych losowych bazujące na zmiennych o standardowych rozkładach normalnych. Są to następujące rozkłady: 1. 2 - (Chi-kwadrat) 2. t-Studenta 3. F-Fishera-Snedecora. Ze statystykami opartymi na tych rozkładach związane są takie działy statystyki jak: przedziały ufności, weryfikacja hipotez, analiza wariancji i regresji. 1 Rozkład Chi-kwadrat Zmienna losowa X ma rozkład Chi-kwadrat Pearsona, jeżeli jej funkcja gęstości prawdopodobieństwa dana jest wzorem: dla x 0 0 f ( x) 2v 1 v 2v 1 2x dla x 0 2 2 x e Wielkość v występująca w podanym wyżej wzorze jest jednocześnie wartością oczekiwaną tej zmiennej, a jej podwojona wartość jest wariancją zmiennej: E 2 v D2 2 2v 2 Rozkład Chi-kwadrat (c.d.) Jeżeli zmienne xi mają wszystkie standardowy rozkład normalny N(0; 1) i są niezależne, to zmienna: v 2v xi2 dla i 1, 2, . . . , v i 1 ma rozkład chi-kwadrat. Liczbę v nazywamy liczbą stopni swobody, wskazuje ona liczbę niezależnych składników zmiennej 2v , jest jednocześnie wartością oczekiwaną tej zmiennej losowej. Wariancja tej zmiennej jest równa 2v. 3 Rozkład Chi-kwadrat (c.d.) Poniżej podane są wykresy funkcji gęstości prawdopodo- bieństwa zmiennej dla trzech wybranych stopni swobody. 4 Rozkład t-Studenta Zmienna losowa t ma rozkład t-Studenta, jeśli jej funkcja gęstości prawdopodobieństwa dana jest wzorem: 1 ( v v1 ) t f v (t ) 1 v v v ( 2 ) 2 vv1 dla t R i v N Liczba v jest liczbą stopni swobody, a parametrami rozkładu tej zmiennej losowej są odpowiednio: Et 0 dla v 1 v Dt v2 2 dla v 2 5 Rozkład t-Studenta (c.d.) Jeżeli zmienne losowe X 0 , X 1 , X 2 , . . . , X v są niezależnymi zmiennymi losowymi o standardowym rozkładzie normalnym, to zmienna: X0 t v 1 v 2 X i i 1 ma rozkład t-Studenta z liczbą stopni swobody v. 6 Rozkład t-Studenta (c.d.) Poniżej podane są przykładowe wykresy funkcji gęstości rozkładu t-Studenta dla trzech wybranych stopni swobody. 0.4 v=30 v=4 0.3 v=1 0.2 0.1 0 -3 -2 -1 0 1 2 3 7 Rozkład F-Fishera-Snedecora Zmienna losowa X ma rozkład F-Fishera-Snedecora, jeżeli jej funkcja gęstości prawdopodobieństwa dana jest wzorem: 0 u 1 u v uv x2 f u ,v ( x ) 2 2 2 uv uv u v 2 ( ux v ) 2 2 dla x0 dla x0 gdzie u i v są liczbami stopni swobody. Parametrami zmiennej losowej F-Fishera-Snedecora są odpowiednio: v EF v2 dla v 2 2 2 v (u v 2) D2 F u(v 2) 2 (v 4) dla v 4 8 Rozkład F-Fishera-Snedecora (c.d.) Jeżeli zmienne losowe X 1 , X 2 , . . . , X u i Y1 , Y2 , . . . , Yv są niezależnymi zmiennymi losowymi o standardowym rozkładzie normalnym, to zmienna: u 1 u 2 X i i 1 v 1 v Y 2 i i 1 ma rozkład F-Fishera-Snedecora z liczbami stopni swobody u i v. 9 Rozkład F-Fishera-Snedecora (c.d.) Poniżej podane są przykładowe wykresy funkcji gęstości rozkładu F-Fischera-Snedecora dla trzech wybranych par stopni swobody 10 Wielowymiarowe zmienne losowe 11 Wprowadzenie Niech E będzie zbiorem zdarzeń elementarnych danego eksperymentu. Układ n funkcji (X1, X2, ..., Xn) przyporządkowujących każdemu zdarzeniu elementarnemu eE n liczb rzeczywistych (x1, x2, ..., xn) nazywamy zmienną losową n-wymiarową. Przykład: W badaniach sytuacji finansowej rodzin analizujemy takie cechy jak: x1 - liczbę członków rodziny; x2 - dochód na członka; x3 - liczbę izb w mieszkaniu. Wyniki pomiarów dla poszczególnych rodzin, uporządkowane w podany wyżej sposób można traktować jako realizację 3-wymiarowej zmiennej losowej (X1, X2, X3). 12 Dwuwymiarowe zmienne losowe Zmienne losowe (dwuwymiarowe) wielowymiarowe mogą być zarówno skokowe jak i ciągłe. Dwuwymiarowa zmienna losowa (X, Y) jest typu skokowego, jeżeli przyjmuje skończoną lub przeliczalną liczbę wartości (xi, yj) z odpowiednimi prawdopodobieństwami pij. Rozkład dwuwymiarowej zmiennej losowej typu skokowego może być określony funkcją rozkładu prawdopodobieństwa: P( X xi Y y j ) pij gdzie pij 1 i, j 13 Dwuwymiarowe zmienne losowe Rozkład dwuwymiarowej zmiennej losowej typu skokowego może być także określony funkcją dystrybuanty: F ( x , y ) P( X x Y y ) P( X xi Y y j ) xi x y j y 14 Przykład liczbowy Rozpatrzmy dwuwymiarową zmienną losową (X,Y), gdzie X jest liczbą osób w rodzinie, a Y liczbą izb w mieszkaniu. Niech f.r.p. tej zmiennej będzie dana tabelką X 1 2 3 4 p.j Y 1 0,06 0,07 0,07 0,05 0,25 2 0,03 0,04 0,06 0,12 0,25 3 0,04 0,13 0,20 0,13 0,50 pi. 0,13 0,24 0,33 0,30 1,00 15 Rozkłady brzegowe Rozkład jednej tylko zmiennej, X lub Y, bez względu na rozkład drugiej, będziemy nazywali rozkładem brzegowym tej zmiennej. Rozkłady brzegowe są rozkładami jednowymiarowymi, a ich f.r.p. określone są następująco: P ( X xi ) pi . pij j P (Y y j ) p. j pij i 16 Niezależność zmiennych losowych Dwuwymiarowe zmienne losowe skokowe (X,Y) są niezależne, jeżeli: dla każdego i,j. pij pi . p. j Dla dwuwymiarowych zmiennych losowych dowolnego typu warunek niezależności można zdefiniować następująco: zmienne losowe (X,Y) są niezależne wtedy i tylko wtedy, gdy F(x,y)=F(x)F(y) 17 Rozkłady warunkowe W przypadku rozkładów dwuwymiarowych istnieje możliwość określenia rozkładu jednej zmiennej pod warunkiem, że druga zmienna przyjmie określone wartości. Warunkowe funkcje rozkładu prawdopodobieństwa określone są następująco: P ( X xi Y y j ) P (Y y j X xi ) pij p. j pij pi . 18 Warunkowe funkcje prawdopodobieństwa Obliczając warunkowe f.r.p. dla zmiennej losowej Y w naszym przykładzie otrzymamy: pij Y X xi 1 2 3 4 1 0,46 0,29 0,21 0,17 2 0,23 0,17 0,18 0,40 3 0,31 0,54 0,61 0,43 j pi . 1 1 1 1 19 Parametry rozkładu dwuwymiarowej zmiennej losowej Momentem zwykłym rzędu k+l (k, l = 0, 1,...) dwuwymiarowej zmiennej losowej (X,Y) typu skokowego nazywamy wyrażenie: mkl EX k Y l xik y lj pij i j Z powyższego wynika, że istnieją dwa momenty rzędu pierwszego m10 i m01, przy czym m10=EX oraz m01=EY, tym samym momenty te są wartościami oczekiwanymi w rozkładach brzegowych zmiennych X i Y. 20 Parametry rozkładu (c.d.) Podobnie istnieją trzy momenty rzędu drugiego: m20=EX2; m02=EY2; m11=EXY Przykład: Obliczając momenty rzędu pierwszego i drugiego w naszym przykładzie otrzymujemy: m10=EX=1 • 0,13 + 2 • 0,24 + 3 • 0,33 + 4 • 0,30 = 2,8 m01=EY=1 • 0,25 + 2 • 0,25 + 3 • 0,50 = 2,25 m20=EX2=12 • 0,13+22 • 0,24+32 • 0,33+42 • 0,30 = 0,13+0,96+2,97+4,80 = 8,86 m02=EY2=12 • 0,25 + 22 • 0,25 + 32 • 0,50 = 0,25 + 1,00 + 4,50 = 5,75 m11=EXY=1 • 1 • 0,06 + 1 • 2 • 0,03 +1 • 3 • 0,04+2 • 1 • 0,07+ 2 • 2 • 0,04 + + 2 • 3 • 0,13 +3 • 1 • 0,07 +3 • 2 • 0,06 +3 • 3 • 0,20+ + 4 • 1 • 0,05 + 4 • 2 • 0,12 + 4 • 3 • 0,13 = 0,24 + 1,08 + 2,37 + 2,72 = 6,41 21 Parametry rozkładu (c.d.) Momentem centralnym rzędu k+l (k, l = 0, 1,...) dwuwymiarowego rozkładu zmiennej losowej (X,Y) typu skokowego nazywamy wyrażenie: kl E ( X m10 ) k (Y m01 ) l ( xi m10 ) k ( y j m01 ) l pij i j 22 Obliczanie momentów centralnych Z definicji momentu centralnego wynika, że: 10 E ( X m10 ) 0, 01 E (Y m01 ) 0 20 E ( X m10 ) 2 D2 X , 02 E (Y m02 ) 2 D2Y Istnieje jeszcze jeden moment centralny rzędu drugiego: 11 E ( X m10 )(Y m01 ) Moment ten nazywamy kowariancją i oznaczamy symbolem CXY. 23 Związki między momentami Między momentami zachodzą związki: centralnymi a zwykłymi 20 m20 m102 02 m02 m012 11 m11 m10m01 EXY EX EY Można udowodnić, że jeżeli zmienne losowe (X,Y) są niezależne, to kowariancja jest równa zero. O zmiennych (X,Y), dla których CXY=0 mówimy, że są nieskorelowane. 24 Współczynnik korelacji Z kowariancją związany jest jeszcze jeden parametr rozkładu dwuwymiarowego, tzw. współczynnik korelacji zmiennych losowych (X,Y): CXY DX DY Z własności kowariancji wynika następująca własność współczynnika korelacji: 1 1 Współczynnik korelacji jest miarą siły związku między zmiennymi losowymi. 25 Obliczenia momentów centralnych i współczynnika korelacji Korzystając ze związków między momentami otrzymujemy w naszym przykładzie: 20 8,86 2,82 8,86 7,84 1,02 02 5,75 2,252 5,75 5,0625 0,6875 11 6,41 2,8 2,25 6,41 6,3 0,11 Możemy już obliczyć współczynnik korelacji: 0,11 0,11 0,131 1,02 0,6815 0,834 26 Warunkowe wartości oczekiwane Warunkową wartością oczekiwaną zmiennej losowej Y przy warunku, że zmienna X = xi nazywamy wyrażenie: E (Y X xi ) y j j pij pi . Analogicznie definiujemy warunkową wartość oczekiwaną zmiennej X: E ( X Y y j ) xi i pij p. j 27 Obliczanie warunkowych wartości oczekiwanych Obliczmy warunkowe wartości oczekiwane zmiennej losowej Y w naszym przykładzie. Kolejno otrzymujemy: E(Y/X=1)=10,46+20,23+30,31=1,85 E(Y/X=2)=10,29+20,17+30,54=2,25 E(Y/X=3)=10,21+20,18+30,61=2,40 E(Y/X=4)=10,17+20,40+30,43=2,26 28 Funkcja regresji I rodzaju Warunkowe wartości oczekiwane zmiennej Y zależą od wartości zmiennej X, są pewną funkcją tej zmiennej. Funkcję tę możemy zapisać następująco: E (Y X xi ) m( x ) Tak określoną funkcję nazywamy funkcją regresji I rodzaju zmiennej losowej Y względem zmiennej losowej X. W naszym przykładzie funkcję tę można zapisać następująco: 1,85 dla x 1 2,25 dla x 2 m( x ) 2,40 dla x 3 2,26 dla x 4 29 Wykres funkcji regresji I rodzaju 2.50 2.00 1.50 1.00 0.50 0.00 0 1 2 3 4 30 Funkcja regresji II rodzaju W praktyce najwygodniej jest zastąpić nieliniowe krzywe regresji I rodzaju funkcjami liniowymi, jeżeli tylko takie przybliżenie jest wystarczające. Spośród wszystkich możliwych prostych wybieramy taką, dla której średnie odchylenie kwadratowe wartości danej zmiennej od tej prostej jest minimalne: E {[Y ( a bX )] 2 } min 31 Funkcja regresji II rodzaju (c.d.) Rozwiązując ten warunek otrzymujemy: CXY b 2 a EY bEX D X Parametr b nazywamy współczynnikiem regresji liniowej zmiennej Y względem X. W naszym przykładzie otrzymujemy: 0,11 b 0,1078 oraz 1,02 a 2,25 0,1078 2,8 1,9481 Tym samym prosta regresji ma postać: ~ Y 0,1078 X 1,9481 32 Wykres funkcji regresji II rodzaju 2.5 2 1.5 1 Ir II r 0.5 0 0 1 2 3 4 33