1 1.1 Zmienne losowe wielowymiarowe. Definicja i przykłady. • Definicja 1.1. Wektorem losowym n-wymiarowym (Zmienna֒ losowa֒ n-wymiarowa֒) nazy- wamy wektor n-wymiarowy, którego składowymi są zmienne losowe Xi dla i = 1, 2, . . . , n, X(ω)=(X1(ω), X2 (ω), . . . , Xk (ω)) • Definicja 1.2. Dystrybuanta֒ n-wymiarowej zmiennej losowej X nazywamy funkcję FX (t1 , t2 , . . . , tn ) : IRn −→ IR określoną wzorem FX (t1 , t2 , . . . , tn ) = P (X1 < t1 , X2 < t2 , . . . , Xn < tn ) Zajmiemy się bliżej zmiennymi losowymi dwuwymiarowymi. Dwuwymiarową zmienną losową (X,Y) przyjmującą co najwyżej przeliczalnie wiele wartości {(xi , yj ) : i ∈ I, j ∈ J} nazywamy dwuwymiarową zmienną losową dyskretną. Rozkład prawdopodobieństwa takiej zmiennej można przedstawić w postaci {((xi , yj ), pij )}, gdzie pij = P (X = xi , Y = yj ), dla i ∈ I, j ∈ J. Dla zbiorów I, J skończonych wygodnie przedstawia się rozkład prawdopodobieństwa w postaci tabeli X\Y y1 y2 . . . yn x1 p11 p12 . . . p1n x2 p21 p22 . . . p2n .. . xm pm1 pm2 . . . pmn Dystrybuanta takiej zmiennej jest funkcją schodkową F (x, y) = P (X < x, Y < y) = X pij . i,j;xi <x,yj <y • Przykład 1.1. Rzucamy 3 razy monetą. Niech zmienna losowa X oznacza liczbę wyrzuconych orłów a zmienna losowa Y numer rzutu, w którym orzeł pojawił się po raz pierwszy. Łączny rozkład prawdopodobieństwa wektora losowego (X, Y ) przedstawia następujaca tabela. X\Y 0 1 2 3 1 2 3 0.125 0 0 0.125 0.125 0.125 0.25 0.125 0 0.125 0 0 1 Mówimy, że zmienna losowa (X, Y ) jest typu ciągłego, jeżeli istnieje nieujemna funkcja całkowalna f (x, y) taka, że dystrybuanta ma postać F (x, y) = Zx Zy f (u, v))dudv. −∞ −∞ W punktach ciągłości (x0 , y0 ) funkcji f (x, y) ∂2F (x0 , y0) = f (x0 , y0 ). ∂x∂y Dla borelowskiego zbioru A ⊂ IR2 mamy P ((X, Y ) ∈ A) = ZZ f (x, y))dxdy. A Następujące twierdzenie charakteryzuje dystrybuantę zmiennej losowej dwuwymiarowej • Twierdzenie 1.1. Funkcja F (x, y) jest dystrybuantą pewnej zmiennej losowej (X, Y )wtedy i tylko wtedy, gdy : • F (x, y) jest niemalejąca ze względu na każdą ze zmiennych, • F (x, y) jest lewostronnie ciągła ze względu na każdą ze zmiennych, • dla każdego x i każdego y lim F (x, y) = 0, x→−∞ oraz lim F (x, y) = 0 y→−∞ lim F (x, y) = 1. x,y→+∞ • dla każdych x1 < x2 , y1 < y2 F (x2 , y2) − F (x1 , y2) − F (x2 , y1) + F (x1 , y1 ) ­ 0. Wnioskiem z twierdzenia 1.1 jest następująca charakteryzacja funkcji gęstości. • Twierdzenie 1.2. Funkcja f (x, y) jest gęstością rozkładu prawdopodobieństwa pewnego wektora losowego wtedy i tylko wtedy, gdy : • f (x, y) ­ 0 dla każdego (x, y) ∈ IR2 , • +∞ R R +∞ f (x, y)dxdy = 1. −∞ −∞ Znając rozkład prawdopodobieństwa wektora (X, Y ) możemy wyznaczyć rozkłady prawdopodobieństwa zmiennych X, Y . Nazywamy je rozkładami brzegowymi. W przypadku zmiennej losowej dwuwymiarowej dyskretnej (X, Y ) są one określone wzorami: pi· = P (X = xi ) = X pij , j oraz p·j = P (Y = yj ) = X pij i Dla zmiennej dwuwymiarowej ciągłej (X, Y ) tzw. gęstości brzegowe są następujące: fX (x) = Z∞ f (x, y)dy, fY (y) = −∞ Z∞ f (x, y)dx. −∞ Rozkład wektora losowego (mówimy czasem rozkład łączny) wyznacza jednoznacznie rozkłady brzegowe, ale nie na odwrót. Rozkłady brzegowe wyznaczają rozkład łączny, gdy składowe wektora losowego są zmiennymi niezależnymi. 2 • Twierdzenie 1.3. Zmienne losowe X, Y są niezależne wtedy i tylko wtedy, gdy F(X,Y ) (x, y) = FX (x) · FY (y). W przypadku zmiennych dyskretnych warunek ten równoważny jest warunkowi pik = pi· p·k dla wszystkich i, k a dla zmiennych typu ciągłego – warunkowi f(X,Y ) (x, y) = fX (x)fY (y) dla wszystkich x, y ∈ IR. Powyższe twierdzenie jest prawdziwe dla dowolnej skończonej ilości zmiennych losowych X1 , X2 , . . . , Xn . • Przykład 1.2. Zmienna losowa X jest liczbą spalonych zasilaczy w pracowni w ciagu dnia, zmienna losowa Y jest liczbą przepięć w sieci energetycznej. Łączny rozkład wektora losowego (X, Y ) opisuje tabela X\Y 0 1 2 0 1 0.8 0.01 0 0.07 0.02 0.1 a) Obliczyć P ((X, Y ) ∈ {(2, 0), (2, 1)}). b) Wyznaczyć rozkłady brzegowe zmiennej losowej X oraz Y . Ile wynosi P (X = 1), P (Y = 0). Obliczyć EX, EY . c) Czy zmienne losowe X, Y są niezależne? R o z w i ą z a n i e. a) Na podstawie tabeli podanego rozkładu łącznego wektora (X, Y ) mamy P ((X, Y ) ∈ {(2, 0), (2, 1)}) = 0.02 + 0.1 = 0.12. b) Rozkład brzegowy zmiennej losowej X wyznaczamy sumując wiersze tabeli prawdopodobieństw rozkładu łącznego (X, Y ), rozkład brzegowy zmiennej losowej Y wyznaczamy sumując kolumny tabeli prawdopodobieństw rozkładu łącznego (X, Y ) X\Y 0 1 2 r.brzegowy Y 0 0.8 0 0.02 0.82 1 0.01 0.07 0.1 0.18 r.brzegowy X 0.81 0.07 0.12 Mamy wtedy: P (X = 1) = 0.07, P (Y = 0) = 0.82 oraz EX = 0 · 0.81 + 1 · 0.07 + 2 · 0.12 = 0.31 EY = 0 · 0.82 + 1 · 0.18 = 0.18 c)W twierdzeniu 1.3 podany jest warunek konieczny i wystarczajacy niezależności zmiennych losowych. Zmienne losowe X, Y nie są niezależne bo na przykład P (X = 0, Y = 0) = 0.8 6= 0.81 · 0.82 = P (X = 0) · P (Y = 0). 3 • Przykład 1.3. Wektor losowy (X, Y ) ma rozkład o gęstości f (x, y) = cxy dla 0 ¬ x ¬ 1, 0 ¬ y ¬ ( 0 √ x poza tym a) Wyznaczyć stałą c. b) Wyznaczyć rozkłady brzegowe. c) Czy zmienne losowe X, Y są niezależne? d) Obliczyć P (0.25 < X < 0.5, Y > 0.5). e) Obliczyć P (0.5 < X < 1, Y ­ X). R o z w i ą z a n i e. a) Funkcja f (x, y) jest gęstością wtedy i tylko wtedy gdy f (x, y) ­ 0 dla (x, y) ∈ R2 i Z ∞ −∞ ∞ Z −∞ f (x, y)dxdy = 1. Mamy zatem c ­ 0 oraz Z ∞ −∞ Z ∞ −∞ 1 Z f (x, y)dxdy = dx 0 √ Z x cxydy = c 0 Z 1 0 x2 c dx = = 1 2 6 czyli c = 6. b) rozkłady brzegowe zmiennych losowych X, Y są następujące: fX (x) = fY (y) = ∞ Z −∞ Z ∞ −∞ f (x, y)dy = f (x, y)dx = ( ( R √x 0 R1 y2 0, x ¬ 0, x ­ 1 , 6xydy = 3x2 , gdy 0 < x < 1 0, y ¬ 0, y ­ 1 6xydx = 3y − 3y 5 , gdy 0 < y < 1 c) Zmienne losowe X, Y nie są niezależne bo nie jest spełniony warunek f (x, y) = fX (x) · fY (y) dla każdego (x, y) ∈ R2 ; na przykład f ( 21 , 21 ) = 3 2 6= 3 4 d) P (0.25<X<0.5, Y >0.5) = e) P (0.5< X< 1, Y ­X) = • Przykład 1.4. R1 · 45 32 R 0.5 = fX ( 21 ) · fY ( 12 ). dx 0.25 0.5 dx R √x R √x x 0.5 6xydy = 3 6xydy = 6 R1 R 0.5 0.25 0.5 xdx x(x − 0.25)dx = R √x x ydy = 3 Gęstość wektora losowego (X, Y ) dana jest wzorem f (x, y) = R1 1 −x e 2π 0.5 x(x − x2 )dx = 2 +y 2 2 5 128 . a) Czy zmienne losowe X, Y są niezależne? b) Obliczyć P (X > 1). c) Obliczyć P ((X, Y ) ∈ A), gdzie A = {(x, y) : x2 + y 2 < 1}. R o z w i ą z a n i e. a) Wyznaczmy gęstość brzegowa zmiennej losowej X fX (x) = 1 2π Z ∞ −∞ e− x2 +y 2 2 dy = 1 − x2 e 2 2π 4 y2 x2 1 e− 2 dy = √ e− 2 , x ∈ R −∞ 2π Z ∞ 11 . 64 W obliczeniach wykorzystaliśmy znany nam fakt,że Podobnie obliczając mamy: y2 1 fY (y) = √ e− 2 , 2π R∞ y2 − 2 dy = −∞ e √ 2π. y ∈ R. Równość f (x, y) = fX (x) · fY (y) zachodzi dla każdego (x, y) ∈ R2 zatem zmienne losowe X, Y sa niezależne. Zauważmy, że X oraz Y są zmiennymi losowymi o rozkładzie normalnym N(0, 1). Podana gęstość wektora losowego (X, Y ) jest szczególnym przypadkiem gęstości dwuwymiarowego rozkładu normalnego. b) Zmienna losowa X ma rozkład N(0, 1) zatem P (X > 1) = 1 − Φ(1) = 0.1587. x2 +y 2 1 − 2 dxdy i wykorzystując współrzędne biegunowe otrzyc) P ((X, Y ) ∈ A) = 2π Ae mujemy Z 1 1 Z Z − x2 +y2 r2 1 Z 2π 1 2 dϕ re− 2 dr = 1 − √ . e dxdy = 2π 2π 0 e 0 A RR 1.2 Parametry rozkładu wektorów losowych Gdy dany jest rozkład wektora losowego (X, Y ) oraz h : IR2 −→ IR jest funkcją całkowalną, to dla Z = h(X, Y ) EZ = Eh(X, Y ) = ∞ ∞ R R h(x, y)f (x, y)dxdy −∞ −∞ P h(xi , yk )pi,k dla wektora losowego typu ciągłego dla wektora losowego typu dyskretnego i,k • Definicja 1.3. Dla wektora losowego (X, Y ) kowariancja֒ zmiennych X, Y nazywamy liczbe֒ Cov(X, Y ) = E(X − EX)(Y − EY ) = EXY − EXEY. Jeżeli VarX > 0, VarY > 0, to definiujemy ważny parametr zwany współczynnikiem korelacji. Cov(X, Y ) ρ(X,Y ) = √ . VarX · VarY • Twierdzenie 1.4. (Własności współczynnika korelacji): 1. |ρ(X, Y )| ¬ 1 2.Jeżeli zmienne losowe są niezależne, to ρ(X, Y ) = 0. 3. ρ(aX + b, cY + d) = sgn(ac)ρ(X, Y ). 4. ρ(X, Y ) = ±1 wtedy i tylko wtedy, gdy istnieją stałe a, b takie, że P (Y = aX + b) = 1. Współczynnik korelacji jest miarą zależności liniowej zmiennych X i Y . W przypadku, gdy ρ = 0, zmienne losowe nazywamy nieskorelowanymi. Jeżeli ρ(X, Y ) = 0, to zmienne losowe moga być zależne. Świadczy o tym poniższy przykład. 5 • Przykład 1.5. Zmienna losowa X ma rozkład N(0, σ) i niech Y = X 2 . Sprawdzić, że Cov(X, Y ) = 0, a zmienne X, Y są zależne. R o z w i ą z a n i e. Zmienna losowa o rozkładzie N(0, σ) ma wszystkie momemty stopnia nieparzystego równe 0. W szczególności EX = 0, EX 3 = 0, zaś EY = V arX = σ 2 . Mamy zatem Cov(X, Y ) = Cov(X, X 2) = EX 3 − EX · EX 2 = 0. • Definicja 1.4. Dla wektora losowego (X1, X2, . . . , Xn) określamy macierz kowariacji Cn×n , w której cij = Cov(Xi , Xj ), i, j = 1, 2, . . . , n Macierz C jest macierzą symetryczną , cii ­ 0. • Przykład 1.6. Gęstość wektora losowego (X, Y ) dana jest wzorem f (x, y) = ( − 83 y 2 cos x dla 0 π 2 ¬ x ¬ π, 0 ¬ y ¬ 2 poza tym a) Znaleźć rozkłady brzegowe b) Wyznaczyć kowariancję oraz współczynnik korelacji zmiennych X, Y . Czy X, Y są niezależne? R o z w i ą z a n i e. a) Rozkłady brzegowe zmiennych X oraz Y są następujące: fX (x) = Z ∞ −∞ fY (y) = Z f (x, y)dy = ∞ −∞ ( f (x, y)dx = − 83 ( R2 0 − 38 0, x ¬ π2 , x ­ π , y 2 cos xdy = − cos x, gdy π2 < x < π Rπ π 2 0, y ¬ 0, y ­ 2 y 2 cos xdx = 38 y 2 , gdy 0 < y < 2 b) Zauważmy, że zmienne losowe X, Y są niezależne ( ponieważ f (x, y) = fX (x) · fY (y) dla każdego (x, y)) zatem Cov(X, Y ) = 0 oraz ρ(X, Y ) = 0. • Przykład 1.7. Wektor losowy (X, Y ) ma następującą funkcję gęstości f (x, y) = ( 1 xy, 2 gdy 0 < x < 2, 0 < y < x 0, poza tym a) Wyznaczyć kowariancję oraz współczynnik korelacji zmiennych X, Y . b) Napisać macierz kowariancji wektora losowego (X, Y ). 6 R o z w i ą z a n i e. a) Cov(X, Y ) = EXY − EX · EY Obliczmy najpierw EXY . EXY = Z 0 2 dx Z x 0 1 1 xy xydy = 2 6 Z 2 0 x5 dx = 16 . 9 Do obliczenia pozostałych wielkości potrzebna jest znajomość funkcji gęstości zmiennych X oraz Y . fX (x) = fY (y) = Z Z ∞ −∞ ∞ −∞ f (x, y)dy = f (x, y)dx = Obliczmy jeszcze; ( ( 0, Rx 1 0 2 xydy = 1 3 x, 4 x ¬ 0, x ­ 2 , gdy 0 < x < 2 0, R2 1 y 2 xydx =y− 1 3 y , 4 y ¬ 0, y ­ 2 gdy 0 < y < 2 x3 dx = 85 4 R 3 16 EY = 02 y(y − y4 )dy = 15 R 3 EX 2 = 02 x2 · x4 dx = 38 8 V arX = EX 2 − (EX)2 = 75 R 3 EY 2 = 02 y 2 (y − y4 )dy = 34 44 V arY = EY 2 − (EY )2 = 225 EX = R2 0 x· Mamy zatem: 16 16 16 − 58 · 15 = 225 9 √ Cov(X,Y ) = √466 . V arX·V arY Cov(X, Y ) = ρ(X, Y ) = b) Macierz kowariancji C wektora losowego X, Y , gdzie c12 = c21 = Cov(X, Y ), c11 = V arX, c22 = V arY jest nastepująca: C= 8 75 16 225 16 225 44 225 • Przykład 1.8. Współczynnik korelacji zmiennych losowych X, Y wynosi 0.25. Jaki współczynnik korelacji mają zmienne losowe 4X − 3 oraz −2Y + 4? R o z w i ą z a n i e. Wykorzystując własności współczynnika korelacji mamy ρ(4X − 3, −2Y + 4) = sgn(−8)ρ(X, Y ) = −0.25 7 1.2.1 Rozkłady warunkowe W rozdziale 2 rozważaliśmy prawdopodobieństwo warunkowe ( warunek był zdarzeniem o prawdopodobieństwie dodatnim). Dla wektora losowego (X, Y ) interesujące jest pytanie jak wartości jednej składowej wpływają na prawdopodobieństwo przyjmowania wartości przez drugą składową. Zależności te opisują rozkłady warunkowe. • Definicja 1.5. Dla dyskretnego wektora losowego (X, Y ) warunkowy rozkład zmiennej X przy warunku (Y = yk ), P (Y = yk ) 6= 0 określamy jako (xi , P (X = xi |Y = yk )), i ∈ I i analogicznie warunkowy rozkład zmiennej Y przy warunku (X = xi ), P (X = xi ) 6= 0 to (yk , P (Y = yk |X = xi )) , k ∈ J . • Definicja 1.6. Dla wektora losowego (X, Y ) typu ciągłego gęstością warunkową zmiennej losowej X przy warunku (Y = y), fY (y) > 0 nazywamy funkcję fX|Y (x|y) = f (x, y) fY (y) i analogicznie gęstościa warunkową zmiennej losowej Y przy warunku (X = x), fX (x) > 0 nazywamy funkcję f (x, y) . fY |X (y|x) = fX (x) Zauważmy, że bezpośrednio z definicji wynika,że rozkład warunkowy jest prawdopodobieństwem, gęstośc warunkowa jest funkcją gęstości. Ponadto dla niezależnych zmiennych losowych X, Y prawdopodobieństwa warunkowe są prawdopodobieństwami brzegowymi, gęstości warunkowe są gęstościami brzegowymi. Możemy zatem obliczać wartość oczekiwaną rozkładu warunkowego. • Definicja 1.7. Warunkową wartość oczekiwaną zmiennej losowej X przy warunku (Y = yk ) określamy następujaco: E(X|Y = yk ) = ( P i∈I xi P (X = xi |Y = yk ), gdy (X, Y ) jest dyskretny R∞ −∞ xf (x|yk )dx, gdy (X, Y ) jest typu ciagłego i analogicznie warunkową wartość oczekiwaną zmiennej losowej Y przy warunku (X = xi ) określamy następujaco: E(Y |X = xi ) = ( P k∈J yk P (YR = yk |X = xi ), gdy (X, Y ) jest dyskretny ∞ −∞ yf (y|xi)dx, gdy (X, Y ) jest typu ciagłego 8 • Twierdzenie 1.5. Jeśli istnieje EX to istnieje E(X|Y = y). W zastosowaniach rachunku prawdopodobieństwa, posługujemy się pojęciem warunkowej wartości oczekiwanej zmiennej losowej Y względem zmiennej losowej X, oznaczanej przez E(Y |X). E(Y |X) to nowa zmienna losowa postaci mY (X). Najczęściej podajemy warunkową wartość oczekiwaną zmiennej losowej Y względem zmiennej losowej X poprzez wzór na funkcję : mY (x) = E(Y |X = x). Funkcję mY (X) nazywamy funkcją regresji zmiennej losowj Y względem zmiennej losowej X. Analogicznie określamy warunkową wartość oczekiwaną zmiennej losowej X względem zmiennej losowej Y i oznaczamy E(X|Y ). • Twierdzenie 1.6. Jeśli V arX < ∞, V arY < ∞ to dla mY (X) = E(Y |X) zachodzi minh E(Y − h(X))2 = E(Y − mY (X))2 , gdzie h(x) jest dowolną funkcją borelowską, że Eh2 (X) < ∞. • Twierdzenie 1.7. Niech (X, Y ) będzie wektorem losowym i istnieje EX to: 1. E(E(X|Y )) = EX 2. dla niezależnych zmiennych X, Y mamy E(X|Y ) = EX. • Przykład 1.9. Dla zmiennych losowych X, Y opisanych w rozwiązaniu Przykładu 3.9 wyznaczyć: a) rozkład warunkowy zmiennej losowej Y przy warunku (X = k), b) rozkład łączny wektora (X, Y ), rozkłady brzegowe, c) funkcję regresji zmiennej losowej Y względem X i narysować jej wykres. • Przykład 1.10. Dwuwymiarowa zmienna losowa (X, Y ) ma rozkład jednostajny na zbiorze D = {(x, y) : x2 + y 2 ¬ 9, y ­ 0}, to znaczy f (x, y) = ( c, gdy (x, y) ∈ D 0, poza tym a) Wyznaczyć stałą c. b) Wyznaczyć rozkłady brzegowe zmiennych losowych X, Y. c) Wyznaczyć gęstości warunkowe fX|Y , fY |X . d) Czy zmienne losowe X,Y są niezależne ? e) Wyznaczyć funkcję regresji zmiennej losowej Y względem X. 9 • Przykład 1.11. Gęstością wektora losowego (X, Y ) jest funkcja f (x, y) = ( 1 xy, 2 gdy 0 < x < 2, 0 < y < x 0, poza tym a) Wyznaczyć gęstości warunkowe fX|Y , fY |X . Czy zmienne losowe X,Y są niezależne. b) Wyznaczyć i narysować funkcję regresji zmiennej losowej Y względem zmiennej losowej X. • Definicja 1.8. Mówimy ,że wektor losowy (X, Y ) ma dwuwymiarowy rozkład normalny, jeśli jego funkcja gęstości ma postać f (x, y) = gdzie 1 √ 2πσx σy 1 − ρ2 − e 1 2(1−ρ2 ) h (y−my )2 2ρ(x−mx )(y−my ) (x−mx )2 + − 2 2 σx σy σx σy i 2 EX = mX , EY = mY , V arX = σX , V arY = σY2 , ρ(X, Y ) = ρ. Jeśli wektor losowy (X, Y ) ma dwuwymiarowy rozkład normalny i Cov(X, Y ) = 0 to zmienne losowe X, Y są niezależne. • Przykład 1.12. Badano wpływ zawartości pewnego składnika, zawartość składnika opisuje zmienna losowa X, na wytrzymałość Y tworzywa i stwierdzono, że łączny rozkład zmiennych losowych (X,Y) dobrze opisuje dwuwymiarowy rozkład normalny o parametrach mX = 3, mY = 1.6, σX = 1, σY = 0.4, ρ = 0.9. a) Wyznaczyć i narysować funkcję regresji Y względem X. b) Obliczyć, ile wynosi najmniejsza zawartość składnika X, przy której wytrzymałość tworzywa Y przekroczy 2, z prawdopodobieństwem 0.9? W praktycznych zagadnieniach trzeba nieraz wyznaczyć taką prostą, że spośród wszystkich prostych leżących na płaszczyżnie xOy średnie odchylenie kwadratowe zmiennej losowej Y od tej prostej jest najmniejsze. • Definicja 1.9. Prostą y = a0 x + b0 dla której zachodzi E(Y − (a0 X + b0 ))2 = mina,b E(Y − (aX + b))2 nazywamy prostą regresji zmiennej losowej Y względem zmiennej X. 10 Nietrudno uzasadnić następujący fakt. Jeśli V arX, V arY są skończone to prosta y = a0 x + b0 gdzie Cov(X, Y ) , b0 = EY − a0 EX V arX jest prostą regresji zmiennej losowej Y względem X. a0 = Równoważne równanie prostej regresji zmiennej losowej Y względem X ma postać y − EY x − EX √ = ρ(X, Y ) √ V arX V arY Dla wektora losowego (X, Y ) o dwuwymiarowym rozkładzie normalnym funkcje regresji pokrywaja się z prostymi regresji. • Przykład 1.13. Dla wektora losowego opisanego w Przykładzie 3 tego rozdziału wyznaczyć prostą regresji zmiennej losowej Y względem zmiennej losowej X oraz prostą regresji X względem Y. 11