Rachunek prawdopodobieństwa Stanisław Jaworski Rachunek prawdopodobieństwa: dział matematyki zajmujący się badaniem modeli zjawisk losowych (przypadkowych) i praw nimi rządzących (Encyklopedia Popularna PWN, 1998) Rachunek prawdopodobieństwa zajmuje się zdarzeniami, pojawiającymi się przy wykonywaniu doświadczeń, których wyniku nie da się z góry przewidzieć, a jednocześnie dających się powtarzać w tych samych warunkach. Pojęciem pierwotnym w rachunku prawdopodobieństwa jest przestrzeń zdarzeń elementarnych. Będziemy ją oznaczać przez Ω. 1 Przykład. Rzut monetą. Ω = {O, R} ¥ Przykład. Rzut kostką. Ω = {1, 2, 3, 4, 5, 6} ¥ Przykład. Rzut monetą do chwili pojawienia się orła. Ω = {ω1 , ω2 , . . . , ωn , . . . }, gdzie ωn oznacza, że w pierwszych n − 1 rzutach wypadły reszki, a za n – tym razem wypadł orzeł. Możliwych wyników jest nieskończenie wiele. Dadzą się ustawić w ciąg, tzn. że jest ich przeliczalnie wiele. ¥ 2 Przykład. Ze zbioru n ponumerowanych elementów losujemy dwa elementy. Ω = {(ωi , ωj )| i, j = 1, 2, . . . , n, i < j} ωi oznacza wylosowanie elementu o numerze i. ¥ Przykład. Czas oczekiwania na autobus. Ω = [0, ∞) ¥ Przykład. Niech Tk ∈ h[0, 45], k = 1, 2, . . . , 10, oznacza spóźnienie k – tego studenta na losowo wybrany wykład (w minutach). (T1 , T2 , . . . , T10 ) ∈ Ω Ω = [0, 45] × [0, 45] × . . . × [0, 45] = [0, 45]10 ¥ 3 Podstawowe pojęcia rachunku prawdopodobieństwa Definicja. Rodzinę F spełniającą warunki 1. F 6= ∅ 2. Jeśli A ∈ F , to Ω \ A ∈ F ∞ S 3. Jeśli Ai ∈ F dla i = 1, 2, . . . , to Ai ∈ F i=1 nazywamy σ – ciałem podzbiorów zbioru Ω. Zdarzenie losowe jest elementem rodziny F Definicja. Prawdopodobieństwem nazywamy dowolną funkcję P , określoną na σ−ciele zdarzeń F ⊆ 2Ω , spełniającą warunki A1. P : F → R+ ; A2. P (Ω) = 1 A3. Jeśli Ai ∈ F, i = 1, 2, . . . oraz Ai ∩ Aj = ∅ dla i 6= j, to ! ∞ ∞ [ X P Ai = P (Ai ) i=1 i=1 Mówimy, że matematyczny model doświadczenia losowego to trójka (Ω, F, P ), którą nazywamy przestrzenią probabilistyczną 4 Przykład. Rozkład prawdopodobieństwa w skończonej przestrzeni zdarzeń Niech Ω = {ω1 , ω2 , . . . , ωn }. Niech pi > 0, i = 1, 2, . . . , n, będą tak dobrane, że n X pi = 1 i=1 Wówczas funkcję P określamy w następujący sposób: P ({ωi }) = pi oraz dla A ⊆ Ω postaci A = {ωi1 , ωi2 , . . . , ωik } P (A) = pi1 + pi2 + . . . + pik Tak określona funkcja spełnia układ aksjomatów Kołmogorowa dla F = 2Ω ¥ 5 Przykład. Rzut kostką. ωi pi 1 1/6 2 1/6 3 1/6 4 1/6 5 1/6 6 1/6 P ({1, 2, 5}) = 1/6 + 1/6 + 1/6 = 3/6 = 1/2 ωi pi 1 1/12 2 1/12 3 1/12 4 3/12 5 3/12 6 3/12 P ({1, 2, 5}) = 1/12 + 1/12 + 3/12 = 5/12 < 1/2 ¥ Przykład. Przeliczalna przestrzeni zdarzeń Ω = {ω1 , ω2 , . . . } pi > 0, ∞ X pi = 1 i=1 P ({ωi }) = pi , P (A) = X pj j:ωj ∈A (?) Tak określona funkcja spełnia układ aksjomatów Kołmogorowa dla F = 2Ω ¥ 6 Przykład. Liczba zarejestrowanych cząstek w odcinku czasu [0, t]. Ω = {0, 1, . . . } k −αt (αt) P ({k}) = e (?) Zachodzi ∞ P k=0 e k! −αt (αt) , k = 0, 1, . . . k k! =1 ¥ Ciągła przestrzeń zdarzeń Przykład. Czas oczekiwania na pierwszą cząstkę. Ω = [0, ∞) Zdarzenie (t, ∞): pierwsza cząstka pojawi się później niż w chwili t P ((t, ∞)) = e −αt (αt) 0! 0 = e−αt Stąd dla dowolnych s < t P ((s, t]) = e−αs − e−αt ¥ 7 Przykład. Rzut strzałką do tarczy o promieniu 1. Model 1. Ω = {(x, y) : x2 + y 2 ≤ 1} (x, y)– współrzędne kartezjańskie punktu trafienia strzałki w tarczę Szansa trafienia w zbiór A ⊆ Ω P (A) = pole A |A| |A| = = pole Ω |Ω| π Zdarzenie Ar = {(x, y) : x2 + y 2 ≤ r2 }: trafienie w dziesiątkę πr2 P (Ar ) = = r2 π 8 Model 2. Ω = {(%, φ) : 0 ≤ % ≤ 1, 0 ≤ φ ≤ 2π} = [0, 1] × [0, 2π] (%, φ)– współrzędne biegunowe punktu trafienia strzałki w tarczę Szansa trafienia w zbiór A ⊆ Ω: pole A |A| |A| P (A) = = = pole Ω |Ω| 2π Zdarzenie Ar = {(%, φ) : % ≤ r}: trafienie w dziesiątkę 2πr =r P (Ar ) = 2π ¥ 9 Model 3. Ω = {% : 0 ≤ % ≤ 1} = [0, 1] %– odległość punktu trafienia od środka tarczy Zdarzenie Ar = {% : % ≤ r}: trafienie w dziesiątkę πr2 P (Ar ) = = r2 π Zdarzenie Ark = {% : r < % ≤ k}: trafienie w dziewiątkę k+r P (Ark ) = k − r = 2(k − r) 2 2 2 10 Co łączy podane przykłady dla przestrzeni ciągłych? Z P (A) = f, gdzie f ≥ 0 A Czas oczekiwania na pierwszą cząstkę f (x) = αxe−αx , ? Zt P ((s, t]) = f (x) dx s Rzut strzałką do tarczy (Model 1.) Z 1 ? f (x, y) = , P (Ar ) = f (x, y) dx dy π Ar Rzut strzałką do tarczy (Model 2.) Z 1 ? f (%, φ) = , P (Ar ) = f (%, φ) d% dφ 2π Ar Rzut strzałką do tarczy (Model 3.) Z ? f (%) = 2%, P (Ar ) = f (%) d% Ar 11 Problem: Jak określić F ? Czas oczekiwania na pierwszą cząstkę F = B(R+ ) Rzut strzałką do tarczy (Model 1.) F = B(K(0, 1)) Rzut strzałką do tarczy (Model 2.) F = B([0, 1] × [0, 2π]) Rzut strzałką do tarczy (Model 3.) F = B([0, 1]) 12 Własności prawdopodobieństwa Twierdzenie 1. Jeśli (Ω, F, P ) jest przestrzenią probabilistyczną i A, B, A1 , A2 , . . . , An ∈ F , to: W1. P (∅) = 0 W2. Jeśli A1 , A2 , . . . , An wykluczają się wzajemnie, tj. Ai ∩ Aj = ∅ dla i 6= j, to P n [ ! Ai i=1 = n X P (Ai ) i=1 W3. P (A0 ) = 1 − P (A), gdzie A0 = Ω \ A W4. Jeśli A ⊆ B, to P (B \ A) = P (B) − P (A) W5. Jeśli A ⊆ B, to P (A) 6 P (B) W6. P (A) 6 1 W7. P (A ∪ B) = P (A) + P (B) − P (A ∩ B) 13 Dowód. ad W1. Niech A1 = Ω, Ai = ∅ dla i = 2, 3, . . . ⇓ aksjomat A3. ∞ X P (∅) P (Ω) = P (Ω) + i=2 ⇓ aksjomat A1. P (∅) = 0 ad W2. Niech Ak = ∅, dla k > n ⇓ aksjomat A3. oraz własność W1. ! n n [ X P Ai = P (Ai ) i=1 i=1 ad W3. W2. 1 = P (Ω) = P (A ∪ A0 ) = P (A) + P (A0 ) ad W4. Jeśli A ⊂ B, to B = A ∪ (B \ A). Zatem W2. P (B) = P (A) + P (B \ A) 14 ad W5. W4. A1. P (B) − P (A) = P (B \ A) > 0 ad W6. Wystarczy zastosować W5. dla B = Ω ad W7. A ∪ B = [A \ (A ∩ B)] ∪ (A ∩ B) ∪ [B \ (A ∩ B)] ⇓ W2, W4. P (A ∪ B) = P (A) − P (A ∪ B)+ + P (A ∩ B) + P (B) − P (A ∩ B) = = P (A) + P (B) − P (A ∩ B) ¥ Zauważmy, że A ∪ B = [A ∩ B 0 ] ∪ [A ∩ B] ∪ [A0 ∩ B] | {z } trzy składowe sumy Zatem każda składowa sumy A1 ∪ A2 ∪ . . . ∪ An da się przedstawić, po odpowiednim przenumerowaniu zbiorów, w postaci A1 ∩ A2 ∩ . . . ∩ Ak ∩ A0k+1 ∩ A0k+2 ∩ . . . ∩ A0n , gdzie k > 1 15 Twierdzenie 2. (Wzór włączeń i wyłączeń) P (A1 ∪ A2 ∪ . . . ∪ An ) X X = P (Ai ) − P (Ai1 ∩ Ai2 )+ 16i1 6i2 6n 16i6n . . . + (−1)n+1 P (A1 ∩ A2 ∩ . . . ∩ An ) Dowód. Zbiór A1 ∪ A2 ∪ . . . ∪ An daje się zapisać w postaci sumy rozłącznych składowych. Zatem Lewa strona równania włącza każdą składową dokładnie raz. Musimy pokazać, że prawa strona równania wprowadza każdą składową też dokładnie raz. W pierwszym składniku wzoru, czyli X P (Ai ) 16i6n każda składowa postaci A1 ∩ A2 ∩ . . . ∩ Ak ∩ A0k+1 ∩ A0k+2 ∩ . . . ∩ A0n zostanie włączona k razy, w drugim, czyli X P (Ai1 ∩ Ai2 ), 16i1 6i2 6n 16 wyłączona wyniesie k 2 razy, itd. Ostatecznie liczba włączeń k k k k − + + . . . (−1)k+1 = 1. 1 2 3 k Uwaga. Korzystam ze wzoru dwumianowego Newtona: k X k k−i i (a + b)k = a b i i=0 ¥ Przykład. n listów losowo wkładamy do kopert. Jakie jest prawdopodobieństwo, że choć jeden list dotrze do adresata? Niech Ai oznacza zdarzenie, że i−ty list dotrze do adresata. Zatem P n [ i=1 ! Ai P (A1 ∩A2 ) P (A1 ) z }| { z }| { (n − 1)! n (n − 2)! =n − +... n! 2 n! n 1 1 + (−1)n + (−1)n+1 = n − 1 n! n! 17 1 1 1 n n+1 1 = 1 − + + . . . + (−1) + (−1) 2! 3! (n − 1)! n! n n n X X X (−1)i+1 (−1)i+1 (−1)i = =1+ =1− i! i! i! i=1 i=0 i=0 ≈ 1 − e−1 Błąd oszacowania ! n [ 1 Ai − (1 − e−1 ) 6 P (n + 1)! i=1 Skorzystałem z oszacowania: n i |x|n+1 x Xx e − 6 i! (n + 1)! i=0 ¥ 18 Twierdzenie 3. (O ciągłości). Niech(Ω, F, P ) będzie przestrzenią probabilistyczną. (i) Jeśli (An )∞ n=1 jest wstępującą rodziną zdarzeń ∞ S oraz An = A, to n=1 P (A) = lim P (An ). n→∞ (ii) Jeśli (An )∞ n=1 jest zstępującą rodziną zdarzeń ∞ T oraz An = A, to n=1 P (A) = lim P (An ). n→∞ Rodzinę zdarzeń Ai nazywamy wstępującą, jeśli A1 ⊆ A2 ⊆ . . . ⊂ An ⊆ An+1 · · · i zstępującą, jeśli A1 ⊇ A2 ⊇ . . . ⊃ An ⊇ An+1 · · · 19 Dowód. (i) Niech B1 = A1 , B2 = A2 \ A1 i ogólnie: Bn = An \ An−1 Wtedy zdarzenia Bi wykluczają się, n [ Bi = i=1 n [ Ai = An , i=1 S∞ a także i=1 Bi = A. Z przeliczalnej addytywności wynika, że P (A) = P ∞ [ ! Bi = i=1 ∞ X P (Bi ) = i=1 n X = lim n→∞ P (Bi ) = lim P (An ) n→∞ i=1 (ii) Rozpatrzmy rodzinę wstępującą (Cn )∞ n=1 , gdzie Cn = A0n . Wtedy ∞ [ n=1 Cn = ∞ [ " A0n = ∞ \ #0 An = A0 n=1 n=1 i wystarczy skorzystać z (i) 20 ¥ Prawdopodobieństwo warunkowe Definicja. Prawdopodobieństwem warunkowym zajścia zdarzenia A pod warunkiem zajścia zdarzenia B, gdzie P (B) > 0, nazywamy liczbę P (A|B) = (?) P (A ∩ B) P (B) Uwaga. Przy ustalonym B prawdopodobieństwo warunkowe P (A|B) jest zwykłym prawdopodobieństwem na (Ω, F), a także na (B, FB ), gdzie FB = {A ∩ B : A ∈ F } (?) Wzór łańcuchowy. Jeśli P (A1 ∩ . . . ∩ An−1 ) > 0, to P (A1 ∩ . . . ∩ An ) = P (A1 )P (A2 |A1 )× × P (A3 |A1 ∩ A2 ) · . . . · P (An |A1 ∩ . . . ∩ An−1 ) 21 Definicja. Rozbiciem przestrzeni Ω nazywamy rodzinę zdarzeń {Hi }i∈I , które wzajemnie wykluczają się, zaś ich suma jest równa Ω. Twierdzenie 4. Jeżeli {H1 , H2 , . . . , Hn } jest rozbiciem Ω na zdarzenia o dodatnim prawdopodobieństwie, to dla dowolnego zdarzenia A P (A) = n X P (A|Hi )P (Hi ) i=1 Dowód. P (A) = P ( n [ (A ∩ Hi )) = i=1 n X P (A|Hi )P (Hi ) i=1 ¥ (?) Uwaga.Twierdzenie jest prawdziwe i dla rozbicia Ω na przeliczalną liczbę zdarzeń Hi , i = 1, 2, . . . . 22 Przykład. W loterii fantowej szansa wygranej jest równa p, przegranej – q, a z prawdopodobieństwem r wyciągamy los „graj dalej”. Los „graj dalej” wrzucamy z powrotem do urny i dokonujemy ponownego losowania. Jakie jest prawdopodobieństwo wygranej? A−wyciągneliśmy los wygrywający B−wyciągneliśmy los przegrywający C−wyciągneliśmy los „graj dalej” W −wygraliśmy na loterii P (W ) = P (W |A)P (A) + P (W |B)P (B)+ + P (W |C)P (C) = 1 · p + 0 · q + P (W ) · r Stąd P (W ) = p p = 1−r p+q ¥ Twierdzenie 5. Niech {Hi }i∈I będzie rozbiciem Ω na zdarzenia o dodatnim prawdopodobieństwie. Gdy P (B) > 0, to P (A|B) = X P (A|B ∩ Hi )P (Hi |B), i∈I gdzie zbiór indeksów I jest skończony lub przeliczalny. 23 Przykład. Grześ i Jaś rzucają na przemian monetą. Jaś wygrywa, gdy pojawią się kolejno OOR, Grześ – gdy ROR. Jakie są prawdopodobieństwa wygranej dla obu chłopców? Niech W1 – wygra Jaś, W2 – wygra Grześ, Ok – w k-tym rzucie wypadł orzeł, Rk – w k-tym rzucie wypadła reszka. x = P (W1 |O1 ∩ O2 ) y = P (W1 |O1 ∩ R2 ) z = P (W1 |R1 ∩ O2 ) w = P (W1 |R1 ∩ R2 ) Zatem y =P (W1 |O1 ∩ R2 ∩ O3 )P (O3 |O1 ∩ R2 )+ + P (W1 |O1 ∩ R2 ∩ R3 )P (R3 |O1 ∩ R2 ) 1 1 =z + w 2 2 Analogicznie x= 1 1 1 1 1 x + · 1, z = x + 0, w = w + z 2 2 2 2 2 Stąd P (W1 ) = (x + y + z + w)/4 = 5/8. 24 ¥ Twierdzenie 6. Wzór Bayesa. Niech {Hi }i∈I będzie rozbiciem Ω na zdarzenia o dodatnim prawdopodobieństwie i P (A) > 0, to dla dowolnego j ∈ I mamy P (Hj |A) = P P (A|Hj )P (Hj ) i∈I P (A|Hi )P (Hi ) Przykład. Amperomierze pochodzą z trzech taśm produkcyjnych w stosunku 1:1:1. Dostawy z pierwszej taśmy zawierają 0.5% braków, z drugiej 0.7%, a z trzeciej 1%. Wybrany losowo amperomierz okazał się brakiem. Obliczyć prawdopodobieństwo, że został on wyprodukowany na taśmie drugiej. A−amperomierz jest brakiem Hi −amperomierz pochodzi z i−tej taśmy P (H1 ) = P (H2 ) = P (H3 ) = 1/3 P (A|H1 ) = 0.005; P (A|H2 ) = 0.007; P (A|H3 ) = 0.01 Stąd 1 0.022 (0.005 + 0.007 + 0.01) = 3 3 1 0.007 P (H2 )P (A|H2 ) 7 3 P (H2 |A) = = = 1 P (A) 22 0.022 3 P (A) = ¥ 25 Niezależność zdarzeń. Zdarzenie B nie zależy od zdarzenia A, gdy wiedza o tym, że zaszło A nie wpływa na prawdopodobieństwo zajścia B. P (B|A) = P (B), ⇓ P (A) > 0 P (A ∩ B) = P (A)P (B) Definicja. Zdarzenia A oraz B nazywamy niezależnymi, gdy P (A ∩ B) = P (A)P (B) Definicja. Zdarzenia A1 , A2 , . . . , An nazywamy niezależnymi, gdy P (Ai 1 ∩ Ai 2 ∩ . . . ∩ Ai k ) = P (Ai1 ) . . . P (Aik ) dla 1 ≤ ii < i2 , . . . < ik ≤ n, k = 2, 3, . . . , n 26 Przykład. Spośród rodzin mających n dzieci wybieramy jedną rodzinę. Niech zdarzenie A polega na tym, że w losowo wybranej rodzinie jest co najwyżej jedna dziewczynka, B – w rodzinie są dziewczynki i chłopcy. Czy zdarzenia A i B są niezależne? Przestrzeń probabilistyczną tworzą ciągi n− elementowe – uporządkowane według starszeństwa dzieci. P (A ∩ B) = P (A)P (B) ⇔ n = n 2 n+1 2n n 2 −2 2n ⇔n=3 ¥ Przykład. W urnie są cztery kule – niebieska, zielona, czerwona i pstrokata (niebiesko-zielono-czerwona). Zdarzenia An – wyciągneliśmy kulę z kolorem niebieskim Az – wyciągneliśmy kulę z kolorem zielonym An – wyciągneliśmy kulę z kolorem czerwonym Mamy P (An ) = P (Az ) = P (Ac ) = 1/2 P (An ∩ Az ) = P (An ∩ Ac ) = P (Az ∩ Ac ) = 1/4 Zatem rozważane zdarzenia są parami niezależne. 27 Zauważmy jednak, że 1 1 P (An ∩ Az ∩ Ac ) = = 6 = P (An )P (Az )P (Ac ) 4 8 ¥ Przykład. Ω = [0, 1]2 , F = B([0, 1]2 ), P − rozkład równomierny na [0, 1]2 . Zdarzenia 2 A = B = (x, y) ∈ [0, 1] : x > y 2 C = (x, y) ∈ [0, 1] : x < 0.5 Zauważmy, że P (A ∩ B ∩ C) = 1 = P (A)P (B)P (C) 8 natomiast żadne dwa nie są niezależne 28 ¥ Przyjmijmy konwencję: A0 = A, A1 = A0 Twierdzenie 7. Następujące warunki są równoważne: (i) Zdarzenia A1 , A2 , . . . , An są niezależne; (ii) Dla każdego ciągu ε1 , ε2 , . . . , εn , gdzie εi ∈ {0, 1}, i = 1, 2, . . . , n, zdarzenia Aε11 , . . . , Aεnn są niezależne; (iii) Dla każdego ciągu ε1 , ε2 , . . . , εn , gdzie εi ∈ {0, 1}, i = 1, 2, . . . , n, zachodzi równość P (Aε11 ∩ . . . ∩ Aεnn ) = P (Aε11 ) . . . P (Aεnn ) Dowód. (i) ⇒ (ii) (indukcja względem n) (1o ) Pokażemy dla n = 2 (2o ) Założymy, że tw. jest prawdziwe dla n − 1 (3o ) Pokażemy, że A1 , . . . , An−1 , An niezależne ⇓ A1 , . . . , An−1 , A0n niezależne (4o ) Zauważymy, że z 3o wynika ε n−1 , Aεnn niezależne Aε11 , . . . , An−1 29 Dla n = 2 P (A1 ∩ A02 ) = P (A1 \ A1 ∩ A2 ) = = P (A1 ) − P (A1 ∩ A2 ) = = P (A1 )[1 − P (A2 )] = P (A1 )P (A02 ) Zatem A1 , A02 są niezależne. Na mocy symetrii także A01 , A2 są niezależne. Stosując jeszcze raz powyższe rozumowanie do A01 , A2 , otrzymujemy niezależność A01 , A02 Zakładamy, że tw. jest prawdziwe dla n − 1 i dowodzimy dla n. W tym celu wystarczy pokazać: P (A1 ∩ . . . ∩ An−1 ∩ A0n ) = = P (A1 ∩ . . . ∩ An−1 \ A1 ∩ . . . ∩ An−1 ∩ An ) = = P (A1 ∩ . . . ∩ An−1 ) − P (A1 ∩ . . . ∩ An ) = = P (A1 ∩ . . . ∩ An−1 )[1 − P (An )] = P (A1 ) . . . P (An−1 )P (A0n ) ¥ Definicja. Zdarzenia A1 , A2 , . . . nazywamy niezależnymi, gdy dla każdego n zdarzenia A1 , A2 , . . . , An są niezależne. 30 Zmienne losowe. Cel: Ujednolicić sposób rozważań dla różnych przestrzeni zdarzeń elementarnych. Definicja. Zmienna losowa jest to funkcja rzeczywista X:Ω→X o własności: ^ {ω ∈ Ω : X(ω) ≤ x} ∈ F x∈R X – zbiór wartości zmiennej losowej Często X = {0, 1, . . . }, X = [0, ∞), X = [a, b], X = R 31 Definicja. Rozkładem prawdopodobieństwa zmiennej losowej X nazywamy rozkład prawdopodobieństwa PX określony wzorem PX (A) = P ({ω ∈ Ω : X(ω) ∈ A}) dla A ⊂ X = P (X −1 (A)) ! dokładniej dla A ∈ B(X ) Definicja. Trójkę (X , B(X ), PX ) nazywamy modelem probabilistycznym. Przykład. Ze zbioru pięciu ponumerowanych elementów losujemy jeden element Ω = {ω1 , . . . , ω5 } P ({ωi } = 1/5) ωi −wylosowano i−ty element Wtedy dla X(ωi ) = i mamy X = {1, 2, 3, 4, 5} oraz PX (i) = 1/5, i = 1, 2, 3, 4, 5 X PX (A) = PX (i), dla A ⊂ X i∈A ¥ 32 Definicja. Dystrybuanta zmiennej losowej X, jest to funkcj F : R → [0, 1] określona wzorem FX (x) = P (X ≤ x) Własności dystrybuanty W1. F jest niemalejąca x1 < x2 , A = (−∞, x1 ], B = (−∞, x2 ], A ⊂ B F (x1 ) = P (A) 6 P (B) = F (x2 ) W2. lim F (x) = 0, x→−∞ lim F (x) = 1 x→∞ {xn } % ∞ lim F (x) = lim F (xn ) = P x→∞ n→∞ [ (−∞, xn ] ! n = P ((−∞, ∞)) = 1 33 {xn } & ∞ lim F (x) = lim F (xn ) = P x→−∞ \ n→∞ ! (−∞, xn ] n = P (∅) = 0. W3. F jest prawostronnie ciągła {xn } & x0 lim F (x) = lim F (xn ) = P x→x+ 0 n→∞ \ (−∞, xn ] n = P ((−∞, x0 ]) = F (x0 ), 34 ! Twierdzenie 8. Każda funkcja F : R → [0, 1] o własnościach 1–3 jest dystrybuantą pewnej zmiennej losowej. Dowód. F −1 (u) := inf{x : F (x) ≥ u} F −1 (u) ≤ x ⇔ dla 0 < u < 1 u ≤ F (x) Niech U oznacza zmienną losową o rozkładzie równomiernym na zbiorze (0, 1): FU (u) = P (U ≤ u) = u Niech X = F −1 (U ). FX (x) = P (X ≤ x) = P (F −1 (U ) ≤ x) = P (U ≤ F (x)) = F (x) ¥ 35 Własności dystrybuanty, ciąg dalszy oznaczmy F (a+) := lim F (x) x→a+ (?) (i) (ii) (iii) (iv) P (a < X ≤ b) = F (b) − F (a) P (X = a) = F (a) − F (a−) P (a ≤ X ≤ b) = F (b) − F (a−) P (a < X < b) = F (b−) − F (a) F (b) .......... ................. ....... ....... ....... ....... ....... ....... ....... ....... .................... ..... ...... ... . . . . . . ..... ..... . . . ... .. . .... . . . ... . . . ... . . ..... . . . . .... . . . ... . .. . ..... . . . . . . ....... ....... ......................... ....... ....... ....... ....... ........ . . .. . ........................ .. . F (a) •.. .. .. .. .. P (a < X ≤ b) .. .. ◦ a b 36 Zmienne losowe typu skokowego Definicja. Mówimy, że zmienna losowa jest typu skokowego (dyskretna), jeżeli istnieje zbiór skończony lub przeliczalny X ⊂ R taki, że PX (X ) = 1 Przykłady zmiennych losowych typu skokowego: • • • • rozkład rozkład rozkład rozkład dwumianowy Poissona ujemny dwumianowy wielomianowy 37 Rozkład dwumianowy Powtarzające się i niezależne próby nazywamy próbami Bernoulliego, jeżeli każda próba ma tylko dwa możliwe wyniki: „sukces” z prawdopodobieństwem p oraz „porażka” z prawdopodobieństwem q Niech X oznacza ilość sukcesów osiągniętych w ciągu n prób Bernoulliego. Zmienna losowa X ma następujący rozkład prawdopodobieństwa: n k n−k P (X = k) = p q , k gdzie p ∈ (0, 1) oraz k = 0, 1, . . . , n. O zmiennej losowej X mówimy, że ma rozkład dwumianowy (X ∼ B(n, p)). 38 Przykład. Dziesięciu robotników używa z przerwami energię elektryczną. Jakiego należy oczekiwać obciążenia, jeżeli 1. W każdej danej chwili każdy robotnik ma to samo prawdopodobieństwo p zapotrzebowania na jednostkę energii. 2. Robotnicy pracują niezależnie od siebie. 3. Przeciętnie jeden robotnik używa dostarczanej energii w ciągu 12 minut na godzinę. Niech X oznacza liczbę robotników, którzy potrzebują energii w tym samym czasie. X ∼ B(10, 1/5). Wówczas, jeżeli dopływ energii jest ustalony na poziomie sześciu jednostek, to przeciążenie ma szanse: P (X > 7) = 0.0008643584 (?) W ciągu 20 godzin powinno trwać łącznie przez około minutę. ¥ 39 Rozkład Poissona Zmienna losowa X ma rozkład Poissona z parametrem λ > 0 (X ∼ P0 (λ)), jeżeli: e−λ λk , P (X = k) = k! k = 0, 1, . . . Rozkład Poissona a rozkład dwumianowy. Załóżmy, że liczba doświadczeń n w poszczególnych seriach schematu Bernoulliego wzrasta dążąc do nieskończoności a prawdopodobieństwo p dąży do zera tak, że iloczyn np jest wielkością stałą równą λ > 0. Wtedy zachodzi n k e−λ λk n−k p (1 − p) lim = . n→∞ k k! Wynika to z rozpisania: n k k p (1 − p)n−k = k n−k 1 λ λ = (n − k + 1)(n − k + 2) . . . n 1− k! n n λk k−1 k−2 = 1− 1− ... k! n n n−k 1 λ ... 1 − 1 1− n n 40 Przykład. Jakie jest prawdopodobieństwo pk , że wśród 500 ludzi dokładnie k będzie miało urodziny w dniu Nowego Roku? Jeżeli 500 ludzi zostało wybranych losowo, to możemy zastosować schemat 500 prób Bernoulliego z prawdopodobieństwem sukcesu 1/365. Wówczas p0 = (364/365)500 = 0.2537 . . . Dla przybliżenia Poissona bierzemy λ = 500/365 = 1.3699 . . . Wtedy e−1.3699 1.36990 ≈ 0.2541 p0 ≈ 0! ¥ 41 Ujemny rozkład dwumianowy. Prowadzimy doświadczenia według schematu Bernoulliego do momentu pojawienia się r−tego sukcesu. Niech X oznacza liczbę porażek poprzedzających r−ty sukces. r + k − 1 r−1 k r+k−1 r k p q ·p = p q P (X = k)= k k gdzie q = 1 − p, k = 0, 1, . . . O zmiennej losowej X mówimy, że ma ujemny rozkład dwumianowy (X ∼ f (r, p)). Zakładamy, że r > 0 oraz 0 < p < 1. Uwaga. Możemy przyjąć, że r > 0 nie musi być liczbą całkowitą. Wtedy przyjmujemy następującą definicję symbolu Newtona (dla a ∈ R oraz k > 0) a(a − 1)(a − 2) . . . (a − (k − 1)) k! a := k 1 0 42 ,k ∈ N ,k = 0 ,k ∈ /Z Przykład. Zadanie Banacha o pudełkach zapałek. Mamy dwa pudełka zapałek – jedno w prawej kieszeni i jedno w lewej. Kiedy potrzebujemy zapałkę, wybieramy jedną z kieszeni losowo. Przypuśćmy, że początkowo każde z pudełek zawiera N zapałek. Ile wynosi prawdopodobieństwo, że gdy wyciągniemy puste pudełko, w drugim będzie dokładnie m zapałek. X – liczba wyciągnięć pudełka z prawej kieszeni do momentu aż w drugim pudełku będzie m zapałek Y – . . . z lewej kieszeni . . . X ∼ f (N − m, 0.5), Y ∼ f (N − m, 0.5) Poszukiwane prawdopodobieństwo wynosi P ({X = N + 1} ∪ {Y = N + 1}) = = P (X = N + 1) + P (Y = N + 1) ¥ 43 Rozkład wielomianowy uogólnienie rozkładu dwumianowego Wykonujemy serię n niezależnych prób. Każda próba może mieć jeden z kilku wyników, np. E1, E2, . . . , Er . Prawdopodobieństwo realizacji Ei w każdej próbie wynosi pi , i = 1, 2, . . . , r. Prawdopodobieństwo, że w n próbach E1 występuje k1 razy, E2 występuje k2 razy itd. wynosi n! pk11 pk22 . . . pkr r k1 !k2 ! . . . kr ! 44 Zmienne losowe typu ciągłego Definicja. Mówimy, że zmienna losowa o dystrybuancie F jest typu ciągłego, jeżeli istnieje taka funkcja f ≥ 0, że dla każdego x zachodzi równość Zx F (x) = f (u) du −∞ Funkcję f nazywamy gęstością prawdopodobieństwa zmiennej losowej X lub w skrócie gęstością Uwagi (1) W punktach, w których f jest ciągła zachodzi d F (x) = f (x) dx R∞ (2) −∞ f (x) dx = 1 (3) Każda funkcja f nieujemna i spełniająca (2) wyznacza dystrybuantę F za pomocą wzoru Zx F (x) = f (u) du −∞ 45 Przykład. Sprawdzić, czy funkcja f określona wzorem 0 dla x < 0 f (x) = e−x dla x ≥ 0 jest gęstością. Z∞ Z∞ f (x) dx = −∞ e −x −x ∞ dx = −e =1 0 0 ¥ Przykłady zmiennych losowych ciągłych: • • • • • rozkład rozkład rozkład rozkład rozkład normalny N (µ, σ 2 ) jednostajny U (a, b) gamma G(b, p) beta B(p, q) Cauchyego C(µ, λ) 46 N (µ, σ 2 ), σ > 0 1 −(x − µ)2 f (x) = √ exp 2σ 2 σ 2π U (a, b), a < b 1 , x ∈ [a, b], b−a f (x) = 0, x∈ / [a, b] G(b, p), b > 0, p > 0 p b xp−1 e−bx , x > 0 Γ(p) f (x) = 0, x≤0 gdzie Z∞ xp−1 e−x dx Γ(p) = 0 47 B(p, q), b > 0, p > 0 1 xp−1 (1 − x)q−1 , x ∈ (0, 1) B(p, q) f (x) = 0, x∈ / (0, 1) gdzie Z1 xp−1 (1 − x)q−1 dx B(p, q) = 0 a także B(p, q) = Γ(p)Γ(q) Γ(p + q) C(µ, λ), λ > 0 f (x) = λ 1 π λ2 + (x − µ)2 48 Przykład. Sprawdzimy, że rozkład N (µ, σ 2 ) jest rzeczywiście rozkładem prawdopodobieństwa: Z∞ −∞ 1 −(x − µ)2 √ exp dx = 2 2σ σ 2π podstawienie: y = (x − µ)/σ Z∞ 1 y2 =√ exp − dy = 2 2π −∞ Należy zatem sprawdzić, że ostatnia całka równa jest √ 2π. Ponadto zauważmy, że przy okazji otrzymaliśmy następujący fakt X ∼ N (µ, σ 2 ) ⇒ X −µ ∼ N (0, 1) σ 49 Z∞ exp − −∞ Z∞ = −∞ Z∞ y 2 2 2 dy = Z∞ 2 2 x y exp − dx · exp − dy = 2 2 −∞ Z∞ = 2 exp − −∞ −∞ x +y 2 2 dx dy = przejście na współrzędne biegunowe: ϕ(r, t) = (r cos t, r sin t) cos(t) −r sin(t) =r Jϕ(r, t) = sin(t) r cos(t) Z∞ Z2π = exp − 0 0 = 2π − exp 2 r 2 −r 2 Z∞ r dr dt = 2π 0 2 ∞ 2 r exp − r dr = 2 = 2π 0 ¥ 50 Funkcje zmiennej losowej Przykład. Niech Y = aX + b, gdzie a 6= 0 oraz X jest zmienną losową o rozkładzie P (X = 0) = 1/4, P (X = 1) = 3/4. Chcemy znaleźć rozkład zmiennej losowej Y . P (X = 0) = P (Y = b) = 1/4 P (X = 1) = P (Y = a + b) = 3/4 ¥ Przykład. Niech X będzie zmienną losową typu ciągłego o gęstości fX , dystrybuancie FX oraz niech Y = aX + b, a < 0. Chcemy znaleźć rozkład Y y−b )= FY (y) = P (Y ≤ y) = P (X ≥ a y−b y−b =1−P X < = 1 − FX a a Zatem fY (y) = d 1 FY (y) = − fX dy a 51 y−b a ¥ Przykład. Niech X oznacza zmienną losową ciągłą o dystrybuancie FX oraz gęstości fX . Niech fX jest funkcją ciągłą, a g funkcją ściśle monotoniczną oraz niech h = g −1 . Wtedy dystrybuantą zmiennej losowej Y = g(X) jest: (dla g - rosnącej) FY (y) = P (Y ≤ y) = P (g(X) ≤ y) = P (X ≤ h(y)) = FX (h(y)) Jeżeli h jest funkcją różniczkowalną, to d FY (y) = fX (h(y))h0 (y) dy jest gęstością zmiennej losowej Y = g(X) (dla g - malejącej) FY (y) = P (Y ≤ y) = P (g(X) ≤ y) = P (X ≥ h(y)) = 1 − FX (h(y)) Jeżeli h jest funkcją różniczkowalną, to d FY (y) = fX (h(y))(−h0 (y)) dy jest gęstością zmiennej losowej Y = g(X) 52 Zatem w obu przypadkach fY (y) = fX (h(y))|h0 (y)| ¥ Przykład. Niech X losowa typu √– nieujemna zmienna ciągłego oraz Y = X. Zatem h(y) = y 2 oraz fY (y) = 2y · fX (y 2 ) · I(0,∞) (y) Uwaga. IA (x) = 1, 0, x∈A x∈ /A ¥ Przykład. Niech X – zmienna losowa typu ciągłego oraz Y = X 2 . √ √ 2 FY (y) = P (X ≤ y) = P (− y ≤ X ≤ y) = √ √ = P (X ≤ y) − P (X ≤ − y) √ √ = FX ( y) − FX (− y) d d √ √ FY (y) = (FX ( y) − F (− y)) = fY (y) = dy dy 1 √ √ = √ (fX ( y) + fX (− y)) 2 y ¥ 53 Twierdzenie 9. Niech X będzie zmienną losową typu ciągłego. Niech g będzie funkcją określoną na zbiorze n [ [ak , bk ], k=1 która na każdym przedziale otwartym (ak , bk ) jest funkcją ściśle monotoniczną oraz ma ciągłą pochodną g(x)0 6= 0. Niech hk (y) będzie funkcją odwrotną do funkcji g(x) na przedziale Ik = g((ak , bk )) = {y : x ∈ (ak , bk ), g(x) = y}. Wówczas funkcja gęstości zmiennej losowej Y = g(X) ma następującą postać fY (y) = n X fX (hk (y)) · |h0 (y)| · IIk (y) k=1 Przykład. X− ciągła, Y = X 2 . Wtedy g(x) = x2 , √ √ ¥ h1 (y) = − y, h2 (y) = y, I1 = I2 = (0, ∞). 54 Dowód. Niech A ∈ B(R) P (Y ∈ A) = P (g(X) ∈ A) = P (X ∈ g −1 (A)) n X = P (X ∈ (ak , bk ) ∩ g −1 (A)) = = = = k=1 n X k=1 n X k=1 n X = P (X ∈ g −1 (Ik ∩ A)) P (X ∈ hk (Ik ∩ A)) k=1 n X k=1 = P (X ∈ g −1 (Ik ) ∩ g −1 (A)) Z fX (x) dx hk (Ik ∩A) Z n X fX (hk (y)) · |h0k (y)| dy k=1 I ∩A k Z X n fX (hk (y)) · |h0k (y)| · IIk dy A k=1 Pytanie: Czy coś by się zmieniło, gdyby n = ∞? ¥ 55 Wektory losowe Definicja. Wektor losowy X = (X1 , . . . , Xn ) to odwzorowanie X : Ω → X ⊆ Rn o własności: {ω ∈ Ω : X1 (ω) ≤ x1 , . . . , Xn (ω) ≤ xn } ∈ F dla dowolnego (x1 , x2 , . . . , xn ) ∈ Rn X – zbiór wartości wektora losowego Często X = {0, 1, . . . }n , X = [0, ∞)n , X = [a, b]n , X = Rn Definicja. Rozkładem prawdopodobieństwa wektora losowego X nazywamy rozkład prawdopodobieństwa PX określony wzorem PX (A) = P ({ω ∈ Ω : X(ω) ∈ A}) dla A ∈ B(X ) 56 Definicja. Trójkę (X , B(X ), PX ) nazywamy modelem probabilistycznym. Definicja. Funkcja FX : Rn → [0, 1] postaci FX (x1 , . . . , xn ) = P (X1 ≤ x1 , . . . , Xn ≤ xn ) nazywamy dystrybuantą wektora losowego X Definicja. Wektor losowy jest typu skokowego, jeżeli istnieje zbiór przeliczalny X ⊂ Rn , taki że PX (X ) = 1 Definicja. Wektor losowy jest typu ciągłego, jeżeli istnieje nieujemna funkcja fX (x1 , x2 , . . . , xn ), zwana gęstością, taka że dla każdego x = (x1 , x2 , . . . , xn ) ∈ Rn Zx1 FX (x) = Zx2 ··· −∞ fX (u1 , . . . , un ) du1 . . . dun −∞ 57 Uwagi Prawie wszędzie ma miejsce równość ∂FX (x1 , . . . , xn ) = fX (x1 , . . . , xn ) ∂x1 , . . . , ∂xn Dla dowolnego A ∈ B(Rn ) zachodzi Z fX (x) dx A Zauważmy, że P (X1 ∈ A) = P (X1 ∈ A, X2 ∈ R, . . . , Xn ∈ R) Z Z∞ Z∞ = ··· fX (x1 , . . . , xn ) dx1 . . . dxn A −∞ Z −∞ Z∞ = A Z∞ fX (x1 , . . . , xn ) dx2 . . . dxn dx1 ··· −∞ −∞ Zatem Z∞ fX1 (x1 ) = Z∞ ··· −∞ fX (x1 , . . . , xn ) dx2 . . . dxn −∞ Jest to tzw. brzegowa gęstość prawdopodobieństwa. 58 Dla rozkładów brzegowych wielowymiarowych mamy: f(X1 ,X2 ) (x1 , x2 ) = Z∞ Z∞ ··· fX (x1 , . . . , xn ) dx3 . . . dxn = −∞ −∞ f(X1 ,X2 ,X3 ) (x1 , x2 , x3 ) = Z∞ Z∞ = ··· fX (x1 , . . . , xn ) dx4 . . . dxn −∞ −∞ itd. Podobnie postępuje się przy rozkładach skokowych: Przykład. Niech wektor losowy (X, Y ) ma rozkład określony liczbami pik = P (X = xi , Y = yk ), gdzie i ∈ I, k ∈ K. Wówczas rozkład zmiennej losowej X określają liczby pi = P (X = xi ) = X pik , gdzie i ∈ I k∈K ¥ 59 Przykład. Niech (X, Y ) ma rozkład równomierny na Ω = [0, 2] × [0, 3]: fX,Y (x, y) = 1 IΩ (x, y). 6 Wówczas Z∞ fX (x) = −∞ 1 = 6 = 1 fX,Y (x, y) dy = 6 Z∞ IΩ (x, y) dy = −∞ Z∞ I[0,2] (x) · I[0,3] (y) dy = −∞ 1 I[0,2] (x) 6 Z∞ I[0,3] (y) = −∞ 1 I[0,2] (x) 2 ¥ 60 Przykład. Niech (X1 , X2 ) ma dwuwymiarowy rozkład normalny, tzn: 1 fX1 ,X2 (x1 , x2 ) = 1 %2 ) 2 · 2πσ1 σ2 (1 − " 2 x1 − µ1 1 · exp − + 2(1 − %2 ) σ1 #) 2 x2 − µ2 (x1 − µ1 )(x2 − µ2 ) + − 2% σ2 σ1 σ2 ( gdzie σ1 , σ2 > 0 oraz % ∈ (−1, 1) Rozpisujemy wyrażenie w nawiasie kwadratowym: 2 2 x1 − µ1 (x1 − µ1 )(x2 − µ2 ) x2 − µ2 + − 2% = σ1 σ2 σ1 σ2 2 2 x1 − µ1 x2 − µ2 = + σ1 σ2 2 2 2 (x2 − µ2 ) 2 (x2 − µ2 ) −% +% 2 σ2 σ22 (x1 − µ1 )(x2 − µ2 ) − 2% = σ1 σ2 61 2 2 x1 − µ1 x2 − µ2 2 (x2 − µ2 ) = −% + (1 − % ) = 2 σ1 σ2 σ2 2 2 1 σ1 2 (x2 − µ2 ) = 2 x1 − µ1 − % (x2 − µ2 ) + (1 − % ) σ1 σ2 σ22 Zatem wyrażenie w nawiasie klamrowym ma postać: h(x1 ,x2 ) z }| { 2 1 σ1 − x1 − µ1 − % (x2 − µ2 ) − 2(1 − %2 )σ12 σ2 1 − 2 (x2 − µ2 )2 2σ2 Zatem fX1 ,X2 (x1 , x2 ) = 1 1 %2 ) 2 · 2πσ1 σ2 (1 − 1 · exp h(x1 , x2 ) − 2 (x2 − µ2 )2 2σ2 62 Zauważmy, że 1 p g(x1 ) := exp(h(x1 , x2 )) 2 2π(1 − % )σ1 jest gęstością rozkładu N σ1 µ1 + % (x2 − µ2 ), (1 − %2 )σ12 σ2 Zatem Z∞ fX2 (x2 ) = fX1 ,X2 (x1 , x2 ) dx1 = −∞ =√ 1 exp 2πσ2 1 2 (x − µ ) 2 2 2σ22 Z∞ g(x1 ) dx1 −∞ | {z } =1 Wniosek: Rozkład brzegowy dwuwymiarowego rozkładu normalnego jest jednowymiarowym rozkładem normalnym ¥ 63 Niezależność zmiennych losowych Definicja. Niech (Ω, F, P ) będzie przestrzenią probabilistyczną, a X1 , X2 , . . . , Xn będą zmiennymi losowymi określonymi na tej przestrzeni. Mówimy, że te zmienne losowe są niezależne, jeżeli dla dowolnych zbiorów borelowskich A1 , A2 , . . . , An zachodzi: P (X1 ∈ A1 , . . . Xn , ∈ An ) = = P (X1 ∈ A1 ) . . . P (Xn ∈ An ) Definicja. Mówimy, że zmienne losowe X1 , X2 , . . . są niezależne, jeżeli każdy skończony podciąg ciągu X1 , X2 , . . . składa się z niezależnych zmiennych losowych Twierdzenie 10. Dla zmiennych losowych X1 , X2 , . . . , Xn następujące warunki są równoważne (i) zmienne losowe są niezależne (ii) dla x = (x1 , x2 , . . . , xn ) ∈ Rn FX (x) = FX1 (x1 ) . . . FXn (xn ) 64 Twierdzenie 11. Jeżeli X = (X1 , X2 , . . . , Xn ) jest wektorem losowym typu skokowego to warunkiem koniecznym i wystarczającym niezależności zmiennych losowych X1 , X2 , . . . , Xn jest: P (X1 = x1 , . . . , Xn = xn ) = = P1 (X1 = x1 ) . . . Pn (Xn = xn ), dla każdego (x1 , . . . , xn ) ∈ Rn , gdzie Pk oznacza brzegowy rozkład prawdopodobieństwa zmiennej losowej Xk (k = 1, 2, . . . , n). Twierdzenie 12. Jeżeli X = (X1 , X2 , . . . , Xn ) jest wektorem losowym typu ciągłego o gęstości fX , to warunkiem koniecznym i wystarczającym niezależności zmiennych losowych X1 , X2 , . . . , Xn jest: fX (x) = fX1 (x1 ) . . . fXn (xn ), dla każdego x = (x1 , . . . , xn ) ∈ Rn , gdzie fXk jest gęstością rozkładu brzegowego zmiennej losowej Xk (k = 1, . . . , n ) 65 Przykład. Niech X1 , X2 ma łączny rozkład normalny. Chcemy znaleźć warunek konieczny i wystarczający na niezależność zmiennych X1 oraz X2 . Z twierdzenia mamy, że powinno zachodzić fX1 ,X2 (x1 , x2 ) = fX1 (x1 )fX2 (x2 ) Ponieważ 1 fX1 ,X2 (x1 , x2 ) = 1 %2 ) 2 · 2πσ1 σ2 (1 − ( " 2 1 x1 − µ1 · exp − + 2 2(1 − % ) σ1 #) 2 (x1 − µ1 )(x2 − µ2 ) x2 − µ2 + − 2% σ2 σ1 σ2 oraz fX1 (x1 ) = fX2 (x2 ) = 1 √ σ1 2π σ2 1 √ exp 2 −(x1 − µ1 ) 2σ12 −(x2 − µ2 )2 exp 2σ22 2π zauważamy, że warunkiem tym jest % = 0 66 ¥ Przykład. Niech Xi ∼ N (µi , σi2 ), i = 1, 2, · · · , n. Wówczas n Y fXi (xi ) = i=1 " n X 2 # 1 1 (xi − µi ) = Q exp − = n √ 2 i=1 σi2 (σi 2π) i=1 1 1 =p exp − (x − µ)Σ−1 (x − µ)0 , 2 (2π)n |Σ| gdzie x = (x1 , x2 , . . . , xn ), µ = (µ1 , µ2 , . . . , µn ) oraz Σ= σ12 0 .. . σn2 0 Wniosek: Jeżeli X = (X1 , X2 , . . . , Xn ) ∼ Nn (µ, Σ), to warunkiem koniecznym i dostatecznym niezależności zmiennych losowych Xi , i = 1, 2, . . . , n jest to, aby macierz Σ była diagonalna. ¥ 67 Twierdzenie 13. (a) Jeżeli zmienne losowe X1 , X2 , . . . , Xn są niezależne oraz g1 , g2 , . . . , gn są funkcjami borelowskimi, to zmienne losowe Y1 = g1 (X1 ), . . . , Yn = gn (Xn ) są również niezależne. (b) Jeżeli X1 , . . . , Xm , Y1 , . . . , Yn są niezależnymi zmiennymi losowymi oraz f : Rm → R i g : Rn → R są funkcjami borelowskimi, to U = f (X1 , . . . , Xm ) i V = g(Y1 , . . . , Yn ) są niezależnymi zmiennymi losowymi, a także U, Y1 , . . . , Yn są niezależnymi zmiennymi losowymi. 68 Przykład. Niech Xi ∼ N (0, 1), i = 1, 2 będą zmiennymi niezależnymi. Chcemy znaleźć rozkład zmiennej losowej X12 + X22 . Ponieważ zmienne X1 , X2 są niezależne, to zmienne Y1 = X12 , Y2 = X22 też są niezależne. Zatem fY1 ,Y2 (y1 , y2 ) = fY1 (y1 )fY2 (y2 ) Ponieważ 1 √ √ fYi (yi ) = √ (fXi ( yi ) + fXi (− yi )) I(0,∞) (yi ) 2 yi oraz 2 1 −xi fXi (xi ) = √ exp 2 σ 2π mamy h y i 1 i fYi (yi ) = √ exp − I(0,∞) (yi ) 2 2πyi 69 Niech Z = X12 + X22 = Y1 + Y2 . Z FZ (z) = P (Y1 + Y2 ≤ z) = fY1 ,Y2 (y1 , y2 ) dy1 dy2 = Y1 +Y2 ≤z z−y ∞ 2 Z Z fY1 ,Y2 (y1 , y2 ) dy1 dy2 = = −∞ −∞ −∞ −∞ Z∞ z−y Z 2 = fY1 (y1 ) dy1 fY2 (y2 )dy2 = Z∞ = −∞ Zz fY1 (y1 − y2 ) dy1 fY2 (y2 )dy2 = −∞ −∞ Z∞ = Zz fY1 (y1 − y2 )fY2 (y2 ) dy2 dy1 −∞ Zmiana oznaczeń dla funkcji w nawiasach: z := y1 , x := y2 Zatem fZ (z) = R∞ −∞ fY1 (z − x)fY2 (x) dx 70 Robimy odpowiednie podstawienie i otrzymujemy dla z > 0: 1 fZ (z) = 2π Zz 0 z−x+x p exp − dx = 2 (z − x)x 1 Zz h i 1 z 1 p = exp − dx = 2π 2 (z − x)x 0 podstawienie t := x/z Z1 h i 1 z − 12 − 12 = exp − t (1 − t) dt = 2π 2 0 h zi 1 = exp − B(1/2, 1/2) = 2π 2 h z i Γ( 1 )Γ( 1 ) 1 2 2 exp − = = 1 1 2π 2 Γ( 2 + 2 ) h zi 1 = exp − 2 2 Zatem h zi 1 fZ (z) = exp − I(0,∞) (z) 2 2 71 Można pokazać przez indukcję ze względu na n, że zmienna losowa Z = X12 + . . . + Xn2 ma rozkład o gęstości fZ (z) = 1 n/2−1 −z/2 z e I(0,∞) (z) n/2 2 Γ(n/2) Jest to tzw. rozkład chi-kwadrat o n stopniach swobody. Symbolicznie piszemy X12 + . . . + Xn2 ∼ χ2 (n) Fakt. m P λi Xi2 ∼ χ2 (n), Xi2 ∼ χ2 (1) i=1 72 ⇒ m = n, λi = 1¥ Parametry rozkładów Wartość oczekiwaną (wartość przeciętna, nadzieję matematyczną) zmiennej losowej X oznaczamy symbolem E(X) i określamy w następujący sposób: Dla zmiennej losowej skokowej Jeżeli X jest zmienną losową typu skokowego, X = {x1 , x2 , . . . }, przy czym szereg X |xk |P (X = xk ) k jest zbieżny, to E(X) = X xk P (X = xk ) k Dla zmiennej losowej ciągłej Jeżeli X jest zmienną losową typu ciągłego o gęstości f i zbieżna jest całka Z |x|f (x) dx, R to Z E(X) = x f (x) dx R Ogólnie: E(X) = R Ω X(ω)dP (ω) 73 Przykład. Niech X = {0, 1}, P (X = 0) = q, P (X = 1) = p = 1 − q. Wówczas E(X) = 0 · q + 1 · p = p ¥ Przykład. Niech X ∼ B(n, p). Wówczas n X n k n−k E(X) = k p q = k = k=0 n X k=1 = np k n! pk−1 q n−k = k!(n − k)! n X k=1 (n − 1)! pk−1 q n−k = (k − 1)!(n − k)! = np (p + q)n−1 = np ¥ Przykład. Niech X ∼ Po (λ). Wówczas E(X) = ∞ X k=0 ∞ X λk−1 λk −λ −λ k· e = λe · = k! (k − 1)! = λe−λ k=1 ∞ X λr r=0 r! = λe−λ eλ = λ ¥ 74 Przykład. Niech X ∼ N (µ, σ 2 ). Wówczas Z∞ 1 −(x − µ)2 E(X) = √ dx x exp 2 2σ σ 2π −∞ Stosujemy podstawienie z = 1 E(X) = √ 2π µ √ = 2π x−µ i otrzymujemy σ Z∞ 2 − z2 (µ + σz)e −∞ Z∞ 2 − z2 e −∞ dz = σ √ dz + 2π Z∞ ze 2 − z2 dz = −∞ √ µ σ = √ · 2π + √ · 0 = µ 2π 2π ¥ Przykład. Niech X ∼ C(0, 1). Wówczas Z∞ −∞ |x| dx = 2 lim A→∞ π(1 + x2 ) ZA 0 x dx = π(1 + x2 ) 1 ln(1 + A2 ) = ∞ A→∞ 2π Wniosek: Dla rozkładu Cauchy’ego wartość oczekiwana nie istnieje. ¥ = 2 lim 75 Własności wartości oczekiwanej Jeżeli E(X) < ∞, E(Y ) < ∞, to (i) E(X + Y ) = E(X) + E(Y ) (ii) E(aX + b) = aE(X) + b, dla a, b ∈ R R∞ (iii) Jeżeli X ≥ 0, to E(X) = P (X > t) dt 0 (iv) Jeżeli X oraz Y są niezależne, to E(XY ) = E(X)E(Y ) Przykład. Niech Xi , i = 1, 2, . . . n, ma rozkład dwupunktowy: P (Xi = 0) = q, P (Xi = 1) = p Jeżeli zdarzenia Ai = {Xi = 1} są niezależne, to X= n X Xi ∼ B(n, p) k=1 Zatem E(X) = n X E(Xk ) = k=1 n X p = np k=1 ¥ 76 Twierdzenie 14. Jeżeli funkcja ϕ jest borelowska, to (i) Dla X z rozkładu skokowego X E(ϕ(X)) = ϕ(xk )P (X = xk ) k (ii) Dla X z rozkładu ciągłego o gęstości f (x) Z E(ϕ(X)) = ϕ(x)f (x) dx R Przykład. Znaleźć wartość oczekiwaną pola prostokąta, którego obwód jest równy 10, a jeden bok jest zmienną losową X o rozkładzie U [1, 10]. Pole = X(10 − X), fX (x) = 19 I[1,10] (x) Z∞ E(X(10 − X)) = x(10 − x)fX (x) dx = −∞ = 1 9 Z10 x(1 − x) dx = 18 1 ¥ 77 Problem. Jak możliwie najdokładniej zmierzyć długości dwóch prętów za pomocą zwykłej miarki, jeśli wolno mierzyć tylko dwa razy? Propozycje 1. Mierzymy osobno każdy pręt. 2. Mierzymy sumę długości prętów, składając je razem, a potem – różnicę. Miernik precyzji pomiaru. Wynik pomiaru = rzeczywista długość + błąd X =x+ε E(X − x)2 = E(ε)2 ad 1. Niech Xi oznacza pomiar i – tego pręta, i = 1, 2. Zatem Xi = xi + εi . Wielkość błędu pomiaru pierwszego pręta wynosi E(ε1 )2 , a drugiego E(ε2 )2 . Rozsądnie jest przyjąć E(ε1 )2 = E(ε2 )2 = σ 2 78 ad 2. Niech S oznacza pomiar sumy długości prętów oraz R różnicę. S = x1 + x2 + ε1 R = x1 − x2 + ε2 Jako oszacowanie x1 przyjmujemy S+R ε1 + ε2 = x1 + 2 2 Jako oszacowanie x2 przyjmujemy S−R ε1 − ε2 = x2 + 2 2 Rozsądnie jest przyjąć, że E(ε1 ) = E(ε2 ) = 0, oraz ε1 , ε2 niezależne Na mocy twierdzenia 19, 20 oraz założeń: 2 1 1 1 ε1 ± ε2 2 2 E = E(ε1 ) + E(ε2 ) ± E(ε1 )E(ε2 ) 2 4 4 2 1 1 σ2 2 2 = E(ε1 ) + E(ε2 ) ± 0 · 0 = 4 4 2 Średni kwadrat błędu jest dwa razy mniejszy niż poprzednio. 79 Zauważmy, że jeżeli E(ε) = 0 to E(X) = x. Zatem E(X − x)2 = E(X − E(X))2 Definicja. Jeżeli E(X − EX)2 < ∞, to tę liczbę nazywamy wariancją zmiennej losowej X i oznaczamy: D2 X = E(X − EX)2 . Uwaga. D2 X = E(X − EX)2 = E(X 2 − 2X · EX + (EX)2 ) = EX 2 − (EX)2 Definicja. Pierwiastek z wariancji nazywamy odchyleniem standardowym i oznaczamy przez DX. 80 Własności wariancji Jeżeli X jest zmienną losową, dla której EX 2 < ∞, to istnieje D2 X oraz: (i) D2 X ≥ 0 (ii) D2 (cX) = c2 D2 X (iii) D2 (X + a) = D2 X (iv) D2 X = 0 wtedy i tylko wtedy, gdy zmienna losowa X jest z prawdopodobieństwem 1 stała Uwaga. E(X − t)2 =E(X − EX + EX − t)2 =E(X − EX)2 + E(X − t)2 − − 2E((X − EX)(EX − t)) =E(X − EX)2 + E(X − t)2 − − 2E(X − EX) · E(EX − t) ≥E(X − EX)2 Zatem funkcja f (t) = E(X − t)2 przyjmuje minimum – równe wariancji – dla t = EX. 81 Przykład. Zagadnienie regresji liniowej. Chcemy zmienną Y w rozsądny sposób przybliżyć przy pomocy funkcji liniowej zmiennej X. Za kryterium jakości przybliżenia przyjmiemy średni kwadrat błędu: wyznaczyć takie liczby a i b, ażeby E(Y − aX − b))2 była minimalna. Na podstawie uwagi b = E(Y − aX) = EY − aEX Zatem szukamy takiego a, które minimalizuje E(Y − aX − (EY − aEX)))2 = = E(Y − EY − a(X − EX))2 = D2 Y + a2 D2 X − 2aE((Y − EY )(X − EX)) Mamy tu funkcję kwadratową względem a. Zatem E((Y − EY )(X − EX)) a= D2 X 82 Oznaczając %(X, Y ) = mamy E((Y − EY )(X − EX)) √ D2 X · D2 Y aX + b = %(X, Y ) oraz DY (X − EX) + EY DX min E(Y − aX − b)2 = (1 − %(X, Y )2 )D2 Y a,b ¥ Definicja. Kowariancją całkowalnych zmiennych losowych X, Y , spełniających warunek E|XY | < ∞, nazywamy wielkość Cov(X, Y ) = E((Y − EY )(X − EX)). Definicja. Współczynnikiem korelacji zmiennych X, Y nazywamy wielkość E((Y − EY )(X − EX)) √ %(X, Y ) = . 2 2 D X ·D Y Uwaga. Z ostatniej równości w przykładzie wynika: (i) −1 ≤ %(X, Y ) ≤ 1 (ii) |%(X, Y )| = 1 wtedy i tylko wtedy, gdy istnieją liczby a 6= 0 oraz b takie, że P (Y = aX + b) = 1 83 Wariancja sumy zmiennych losowych Jeżeli każda ze zmiennych losowych X1 , X2 , . . . , Xn ma wariancję, to istnieje wariancja sumy i 2 D (X1 +. . .+Xn ) = n X 2 D Xi +2 i=1 X Cov(Xi , Xj ) 1≤i<j≤n Definicja. Zmienne losowe X, Y , dla których Cov(X, Y ) = 0, czyli %(X, Y ) = 0, nazywamy nieskorelowanymi. Wniosek. Jeśli zmienne losowe X1 , X2 , . . . , Xn mają wariancję i są parami nieskorelowane, to D2 (X1 + . . . + Xn ) = n X D2 Xi i=1 (?) Uwaga. Jeżeli X, Y są niezależne, to są nieskorelowane. Odwrotny fakt nie zachodzi (chyba, że mamy do czynienia z rozkładem normalnym) 84 Przykład. Niech (X1 , X2 ) ma dwuwymiarowy rozkład normalny. Policzmy Cov(X1 , X2 ). Zgodnie z przekształceniami z przykładu na rozkład brzegowy dwywymiarowego rozkładu normalnego mamy: fX1 ,X2 (x1 , x2 ) = fX2 (x2 ) g(x1 , x2 ) | {z } g(x1 )−prz. gdzie fX2 (x2 ) jest gęstością rozkładu N (µ2 , σ22 ) oraz g(x1 , x2 ) traktowana jako funkcja zmiennej x1 z parametrem x2 , jest funkcją gęstości zmiennej N µ1 + % σ1 (x2 − µ2 ), (1 − %2 )σ12 σ2 Zatem Cov(X1 , X2 ) = E((X1 − µ1 )(X2 − µ2 )) = Z∞ Z∞ = (x1 − µ1 )(x2 − µ2 )fX2 (x2 )g(x1 , x2 ) dx1 dx2 = −∞ −∞ 85 Z∞ = (x2 − µ2 )fX2 (x2 )· −∞ Z∞ · (x1 − µ1 )g(x1 , x2 ) dx1 dx2 −∞ Zatem Z∞ = (x2 − µ2 )fX2 (x2 )· −∞ σ1 · µ1 + % (x2 − µ2 ) − µ1 dx2 σ2 A zatem σ1 =% σ2 Z∞ σ1 2 (x2 − µ2 ) fX2 (x2 )dx2 = % σ2 = %σ1 σ2 σ2 2 −∞ Stąd %(X, Y ) = %. Zatem X, Y niezależne ⇔ X, Y nieskorelowane. ¥ 86 Rozkłady warunkowe Przykład. Niech (X, Y ) – dwuwymiarowy wektor losowy typu skokowego X ∈ {x1 , x2 , . . . }, Y ∈ {y1 , y2 , . . . } Rozkład pij := P (X = xi , Y = yj ) Prawdopodobieństwa brzegowe X X P (X = xi ) = pik , P (Y = yk ) = pik i k Zachodzi P (X = xi |Y = yk ) ≥ 0, X P (X = xi |Y = yk ) = 1 i P (Y = yk |X = xi ) ≥ 0, X P (Y = yk |X = xi ) = 1 k ¥ Zatem dla ustalonego yk P ( · |Y = yk ) jest rozkładem prawdopodobieństwa. Podobnie P ( · |X = xi ) 87 Przykład. Rzut dwiema kostkami. X – wynik rzutu pierwszą kostką Y – wynik rzutu drugą kostką U := min{X, Y }, V := max{X, Y } u\v 1 2 3 4 5 6 P (U = u) 1 1 36 2 0 1 36 1 36 3 0 0 2 36 2 36 1 36 4 0 0 0 2 36 2 36 2 36 1 36 5 0 0 0 0 2 36 2 36 2 36 2 36 1 36 6 0 0 0 0 0 11 36 9 36 7 36 5 36 3 36 1 36 P (V = v) 1 36 3 36 5 36 7 36 9 36 2 36 2 36 2 36 2 36 2 36 1 36 11 36 1 2 3 4 5 6 suma 1 7 2 7 2 7 2 7 v P (V = v|U = 3) 0 0 33 E(V |U = 3) = 7 1 3 F (4|U = 3) = 7 ¥ 88 Przykład. Jaka jest średnia liczba sukcesów w pierwszej próbie, jeżeli wiemy, ile zaszło sukcesów w całej serii n doświadczeń według schematu Bernoulliego? Oznaczenia Sn – łączna liczba sukcesów Y – liczba sukcesów w pierwszej próbie Ak := {Sn = k}, Bk := Ak ∩ {Y = 1} X E(Y |Ak ) = Y (ω)P (ω|Ak ) = ω∈Ak X 1 Y (ω)P (ω) = = P (Ak ) ω∈Ak X 1 P (Bk ) = = P (ω) = P (Ak ) P (Ak ) ω∈Bk n−1 k−1 (n−1)−(k−1) p k−1 p q k = = n k n−k n p q k Zatem E(Y |Sn ) = Sn n oraz E(E(Y |Sn )) = E(Sn /n) = E(Sn ) np = = p = E(Y ) n n ¥ 89 Przykład. Niech f (x, y) – gęstość wektora (X, Y ). Rozkłady brzegowe Z∞ dla zmiennej X : f1 (x) := f (x, y) dy −∞ Z∞ dla zmiennej Y : f2 (y) := f (x, y) dx −∞ Niech P (x < X ≤ x + h) > 0. Wtedy P (Y ≤ y|x < X ≤ x + h) = x+h R Ry x −∞ f (x, y) dy x+h R x 90 ! f1 (x) dx dx (?) Przy założeniu, że f (x, y) . . . oraz f1 (x) . . . P (Y ≤ y|X = x) : = lim P (Y ≤ y|x < X ≤ x + h) h→0+ ! y x+h R R 1 f (x, y) dy dx h x = lim h→0+ Ry = −∞ 1 h x+h R x f (x, y) dy −∞ f1 (x) f1 (x) dx Zy = −∞ f (x, y) dy f1 (x) Oznaczając F (y|x) = P (Y ≤ y|X = x), f (y|x) = f (x, y)/f1 (x) mamy Zy F (y|x) = f (y|x) dy −∞ 91 Zauważamy, że Zy f1 (x)F (y|x) = f (x, y) dy −∞ Po scałkowaniu obu stron Z∞ f1 (x)F (y|x) dx = FY (y) −∞ Przyjmując Z∞ E(Y |x) := yf (y|x) dy −∞ mamy Z Z Z∞ E(Y |x)f1 (x) dx = −∞ yf (y|x) dy f1 (x) dx Z Z = y 92 f (x, y) dy f1 (x) dx f1 (x) Z Z yf (x, y) dy Z Z dx = y f (x, y) dx dy = Z∞ = yf2 (y) dy = E(Y ) −∞ Otrzymaliśmy E(E(Y |X)) = E(Y ) ¥ Definicja. Jeżeli (X, Y ) jest wektorem losowym o gęstości f (x, y) to funkcję ( f (y|x) = f (x,y) f1 (x) gdy f1 (x) > 0 0 w przeciwnym przypadku nazywamy gęstością warunkową zmiennej Y dla danego X = x. (?) R∞ f (y|x) dy = 1 −∞ 93 Nadal zachodzi E(E(Y |X)) = E(Y ) Ponadto rozumiemy, że Z P (Y ∈ B|x) = f (y|x) dy– rozkład warunkowy B Przyjmując Z(ω) = IB (Y (ω)) mamy Z∞ E(Z) = Z IB (y)f2 (y) dy = −∞ f2 (y) dy B = P (Y ∈ B) Z∞ Z E(Z|x) = IB (y)f (y|x) dy = f (y|x) dy −∞ B = P (Y ∈ B|x) Zatem E(P (Y ∈ B|X)) = P (Y ∈ B) 94 Dla B = (−∞, y] mamy dystrybuantę zmiennej Y FY (y) = P (Y ∈ B) dystrybuantę zmiennej Y pod warunkiem X = x F (y|x) = P (Y ∈ B|x) oraz wzór E(F (y|X)) = FY (y) Przykład. Z odcinka [0,1] wybrano losowo (zgodnie z rozkładem równomiernym) punk X, a następnie z odcinka [0, X], również losowo, punkt Y . Jaka jest średnia długość odcinka [0, Y ]? E(Y |X) = 1 X 2 1 1 E(Y ) = E(E(Y |X)) = E( X) = 2 4 ¥ 95 Przykład. Owad składa X jajeczek zgodnie z rozkładem Poissona z parametrem λ, a owad z jajeczka wylęga się z prawdopodobieństwem p, niezależnie od innych. Znaleźć średnią liczbę potomków. Niech Y oznacza liczbę potomków owada. Zatem E(Y |X) = Xp Stąd EY = E(E(Y |X)) = E(Xp) = λp Ten przykład pokazuje, jak można obliczać wartość oczekiwaną, korzystając z warunkowej wartości oczekiwanej. Właściwy wybór zmiennej losowej X często bardzo upraszcza rachunki. ¥ 96 Uwaga. Skorzystaliśmy ze wzoru EY = E(E(Y |X)), gdy X typu skokowego. Ja w takim przypadku rozumieć „gęstość łączną”? Umowa: Rb f (x, y) dy = P (X = x, a ≤ Y ≤ b) a Przy takiej umowie możemy zachować bez zmian określenia „gęstości warunkowych” f (x, y) f (x|y) = , f2 (y) f (x, y) f (y|x) = f1 (x) gdzie Z f1 (x) = f (x, y) dy, f2 (y) = X x 97 f (x, y) Rodzaje zbieżności Przykład. Niech P -rozkład jednostajny na [0, 1] oraz k k+1 1 dla ω ∈ ; ; n n Xkn (ω) = k k+1 0 dla ω ∈ Ω \ ; n n dla 0 ≤ k ≤ n − 1, n = 1, 2, . . . P (Xnk = 0) = 1 − P (|Xnk | > ε) = 1 , n P (Xnk = 1) = 1 −−−→ 0, n n→∞ 1 n dla 0 < ε < 1 O ciągu X01 , X02 , X12 , X03 , X13 , X23 , . . . powiemy, że jest zbieżny do zera według prawdopodobieństwa. Ciąg ten jest rozbieżny w każdym punkcie przedziału. Na przykład dla ω = 1/2 mamy ciąg: 0, 0, 1, 0, . . . , który na dowolnie dalekich miejscach ma zera i jedynki. ¥ 98 Definicja. Ciąg zmiennych losowych (Xn )∞ n=1 jest zbieżny do zmiennej losowej X: według prawdopodobieństwa, jeśli dla każdego ε > 0 lim P (|Xn − X| > ε) = 0, n P co oznaczamy Xn −→ X, prawie na pewno, jeśli o n =1 P ω : lim Xn (ω) = X(ω) n p.n. co oznaczamy Xn −→ X p.n. Xn −→ X ⇔ P ∞ [ ∞ \ ! {|Xn − X| ≤ ε} N =1 n=N ∞ \ ⇔ lim P N →∞ ⇔ lim P N →∞ n=N ∞ [ =1⇔ ! {|Xn − X| ≤ ε} =1⇔ ! {|Xn − X| > ε} =0⇒ n=N ⇒ lim P ({|XN − X| > ε}) = 0 ⇔ N →∞ P ⇔ Xn −→ X 99 Wniosek. Zbieżność prawie na pewno pociąga zbieżność według prawdopodobieństwa. Przykład. Niech Xn ma rozkład P (Xn = an ) = 1. Zatem FXn (t) = I[an ,∞) (t) FXn 1 FX •............... 1 ..........................................◦. a an •........................ .................................◦. a Gdy an ↓ a okazuje się, że FXn (a) ≡ 0 6= 1 = FX (a) 100 ¥ Przykład. Niech F będzie dowolną dystrybuantą. Zdefiniujmy dystrybuantę Fn (t)=F (t− n1 ), n=1, 2, . . . Wtedy Fn (t) → F (t−). Zauważmy, że F (t−) = F (t) tylko wtedy, gdy t jest punktem ciągłości t. ¥ Definicja. Ciąg zmiennych losowych (Xn )∞ n=1 jest zbieżny do zmiennej losowej X według dystrybuant, jeśli ciąg dystrybuant (FXn )∞ n=1 jest zbieżny do dystrybuanty FX w każdym punkcie jej ciągłości, co oznaczamy: D Xn −→ X Można pokazać P D ( Xn p.n. → X) ⇒ (Xn → X) ⇒ (Xn → X) 101 Prawa wielkich liczb Oznaczmy Sn = X1 +X2 +· · ·+Xn , X1 + X2 + . . . +, Xn X̄n = n Niech X1 , X2 , . . . będzie ciągiem niezależnych zmiennych losowych o tym samym rozkładzie, o wartości średniej µ i wariancji 0 < σ 2 < ∞. Wtedy dla każdego ε > 0 mamy Słabe prawo wielkich liczb X1 + X2 + · · · + Xn − µ < ε = 1 lim P n→∞ n P X̄n −→ µ Mocne prawo wielkich liczb P X1 + X2 + · · · + Xn lim =µ =1 n→∞ n p.n. X̄n −→ µ 102 Wniosek. Prawdopodobieństwo jest odpowiednikiem teoretycznym częstości. Faktycznie, jeżeli w wyniku powtórzenia niezależnie n razy doświadczenia otrzymaliśmy ω1 , ω2 , . . . , ωn , to IA (ω1 ) + IA (ω2 ) + · · · + IA (ωn ) p.n. −→ EIA = P (A) n Metoda Monte Carlo obliczania całek. Niech Xi będą niezależnymi zmiennymi losowymi o wartościach w (0,1) i o gęstości g. Wtedy z MPWL n 1 X f (Xi ) f (X1 ) Sn = −−−→ E = n i=1 g(Xi ) n→∞ g(X1 ) Z1 = 0 f (x) · g(x) dx = g(x) Z1 W szczególności, gdy Xi ∼ U (0, 1), to Z n X 1 f (Xi ) −−−→ f (x) dx n→∞ n i=1 1 0 103 f (x) dx 0 Przykład. Obliczanie liczby π przy pomocy komputera: generujemy 50 wartości z rozkładu √ U (0, 1) (kolumna x). Następnie wyliczamy y = 1 − x2 . Z kolumny y wyliczamy średnią i mnożymy ją przez cztery. Otrzymujemy wartość 3.155. Jeśli przybliżenia to nie nie jest zadowalające, można wygenerować na przykład 1000 wartości. x 0.382 0.101 0.596 0.899 0.885 0.958 0.014 0.407 0.863 0.139 0.245 0.045 0.032 0.164 0.220 0.511 0.041 y 0.924 0.995 0.803 0.438 0.466 0.285 1.000 0.913 0.505 0.990 0.970 0.999 0.999 0.986 0.976 0.859 0.999 x 0.017 0.285 0.343 0.554 0.357 0.372 0.356 0.910 0.466 0.426 0.304 0.976 0.807 0.991 0.256 0.373 0.231 y 1.000 0.959 0.939 0.833 0.934 0.928 0.935 0.414 0.885 0.905 0.953 0.219 0.591 0.132 0.967 0.928 0.973 x 0.952 0.053 0.705 0.817 0.973 0.466 0.300 0.750 0.351 0.776 0.074 0.198 0.064 0.358 0.487 0.986 y 0.307 0.999 0.709 0.577 0.233 0.885 0.954 0.661 0.936 0.631 0.997 0.980 0.998 0.934 0.873 0.167 ¥ 104 Dystrybuanta empiryczna Fn (x) Powtarzamy pewne doświadczenie niezależnie n razy. W wyniku tego otrzymujemy ciąg X1 , X2 , . . . , Xn niezależnych zmiennych losowych o nieznanej dystrybuancie F . Chcemy odtworzyć F . W tym celu dla każdego x ∈ R definiujemy n 1X Fn (x)(ω) = I{Xi ≤x} (ω) n i=1 Ponieważ E[I{X1 ≤x} ] = P (X1 ≤ x) = F (x), to z MPWL n 1X Fn (x) = I{Xi ≤x} −−−→ F (x) n→∞ n i=1 105 Centralne twierdzenie graniczne Centralne Twierdzenie Graniczne Niech X1 , X2 , . . . będą niezależnymi zmiennymi losowymi o tym samym rozkładzie, o wartości średniej µ i wariancji 0 < σ 2 < ∞. Wtedy Sn − nµ √ ≤ x − Φ(x) −−−−→ 0 sup P n−→∞ σ n x∈R X̄n − µ √ D n −→ N (0, 1) σ Twierdzenie de Moivre – Laplace’a Niech Yn ∼ B(n, p). Wtedy Y − np n sup P ≤ x − Φ(x) −−−−→ 0 √ n−→∞ npq x∈R 106 Przykład. Wykonano n = 100 niezależnych rzutów monetą. Oznaczmy przez Yn liczbę orłów w n rzutach. Obliczymy P (Yn ≥ 61) P (Yn ≥ 61) = 1 − P (Yn ≤ 60) = Yn − 100 · 0.5 60 − 100 · 0.5 =1−P ≤ = 10 · 0.5 10 · 0.5 Yn − 100 · 0.5 =1−P ≤2 ≈ 10 · 0.5 ≈ 1 − Φ(2) ≈ 0.0228 ¥ Uwaga. Dość dobre przybliżenie uzyskujemy ze wzoru: Yn − np 1 1 P a≤ √ ≤ b ∼ Φ(b + h) − Φ(a − h), npq 2 2 gdzie h = √ 1 npq 107 Szybkość zbieżności w centralnym twierdzeniu granicznym Twierdzenie Berry–Esséen’a Jeżeli X1 , X2 , . . . są niezależnymi zmiennymi losowymi o tym samym rozkładzie oraz E|X1 |3 < ∞, to 3 S − nµ E|X − EX | n 1 1 √ √ sup P ≤ x − Φ(x) ≤ C , 3 σ n σ n x∈R √ gdzie 1/ 2π ≤ C < 0.8. Dla rozkładu dwumianowego: 2 2 p + q Y − np n ≤ x − Φ(x) ≤ C √ sup P √ npq npq x∈R 108 • • p2 + q 2 √ pq •• •••••••••••••••• 0.0 0.5 p 1.0 Dla p ≈ 1 lub p ≈ 0 przybliżenie rozkładem normalnym nie musi być zadowalające. Alternatywą jest przybliżenie rozkładem Poissona: Twierdzenie 15. Niech Yn ∼ B(n, p) oraz λ = np. Wtedy dla każdego zbioru M ⊆ N mamy λ2 X λk e−λ ≤ P (Yn ∈ M ) − k! n k∈M 109 Przykład. Prawdopodobieństwo trafienia „szóstki” w Toto-Lotku jest równe 49 1/ = 1/13983816 ≈ 7.151 · 10−8 . 6 Ilu „szóstek” można się spodziewać w każdym tygodniu, jeżeli grający wypełniają kupony całkowicie losowo i niezależnie od siebie, a kuponów jest n = 107 . Liczba „szóstek” ma rozkład dwumianowy, w przybliżeniu rozkład Poissona z parametrem λ = np ≈ 0.7151. k 0 1 2 λk −λ k! e k 3 4 5 0.4891 0.3498 0.1251 λk −λ k! e 0.0298 0.0053 0.0008 Błąd przybliżenia rozkładem Poissona: λ2 /n ≤ 0.5 · 10−7 . ¥ 110 Twierdzenie Słuckiego D D Niech Xn → X oraz Yn → c, gdzie c jest pewną skończoną stałą. Wówczas: D (i) Xn + Yn → X + c D (ii) Xn Yn → cX D (iii) Xn /Yn → X/c Z twierdzenia Słuckiego wynika, że ciąg zmiennych losowych (Xn )n zbiega według rozkładu do N (µ, σ 2 ), Xn − µ jeżeli równoważnie ciąg zbiega do rozkładu σ N (0, 1). Asymptotyczna normalność Mówimy, że ciąg zmiennych (Xn )n jest asymptotycznie normalny o średniej µn i wariancji σn2 , jeżeli σn2 > 0 dla dostatecznie dużych n oraz Xn − µn → N (0, 1). σn Zapisujemy to jako: Xn jest AN (µn , σn2 ). 111 Asymptotyczna normalność przy przekształaceniach Niech Xn będzie AN (µ, σn2 ), σn → 0. Niech g będzie funkcją różniczkowalną w punkcie x = µ oraz niech g 0 (µ) 6= 0. Wówczas g(Xn ) jest AN (g(µ), (g 0 (µ))2 σn2 ) Przykład. Niech Xn ma rozkład Poissona o wartości oczekiwanej θn, gdzie θ > 0. Wówczas Xn jest AN (θn, θn) (wariancja rozkładu Poissona jest równa wartości średniej) lub równoważnie θ Xn jest AN (θ, ). n n Niech g będzie rozwiązaniem równania dg(θ) 1/2 = 1/2 . dθ θ To znaczy g(x) = x1/2 . Zatem (Xn /n)1/2 jest AN (θ1/2 , 1/(4n)) 1/2 lub równoważnie Xn jest AN ((θn)1/2 , 1/4). ¥ 112 Własności rozkładów Rozkład sumy niezależnych zmiennych losowych. Niech X, Y mają rozkłady dyskretne: X P (X = x) = 1, x∈X X P (Y = y) = 1 y∈Y Szukamy rozkładu zmiennej losowej Z = X + Y : P (Z = z) = P (X + Y = z) = X = P (X = x, Y = z − x) = x∈X = X P (X = x)P (Y = z − x) = x∈X , z−x∈Y W przypadku, gdy X = {0, 1, . . . } oraz Y = {0, 1, . . . } mamy P (X + Y = r) = r X P (X = i)P (Y = r − i) i=0 113 Przykład. X ∼ B(n1 , p), Y ∼ B(n2 , p). P (X + Y = r) = r X n1 i n2 p (1 − p)n1 −i pr−i (1 − p)n1 −r+i = r−i i i=0 r X n1 n2 = pr (1 − p)n1 +n2 −r i r−i i=0 n1 + n2 r = p (1 − p)n1 +n2 −r r Zatem X + Y ∼ B(n1 + n2 , p) Przykład. X ∼ P o(λ1 ), ¥ Y ∼ P o(λ2 ) P (X + Y = r) = r X λi1 −λ1 λr−i −λ2 = e · e i! (r − i)! i=0 r X 1 r i r−i −(λ1 +λ2 ) =e λ λ r! i=0 i 1 2 (λ1 + λ2 )r −(λ1 +λ2 ) = e r! Zatem X + Y ∼ P o(λ1 + λ2 ) 114 ¥ Niech X, Y mają rozkłady ciągłe: X ∼ fX (x), Y ∼ fY (y) Wówczas (porównać – strona 86) Z FZ (z) = P (X + Y ≤ z) = fX,Y (x, y) dxdy = X+Y ≤z Z∞ = z−y Z fX,Y (x, y) dx dy = −∞ −∞ −∞ −∞ Z∞ z−y Z = fX (x) dx fY (y)dy = z ∞ Z Z = fX (x − y) dx fY (y)dy = −∞ Zz −∞ fX (x − y)fY (y) dy dx = −∞ Zatem fZ (z) = Z∞ −∞ R∞ fX (z − y)fY (y) dy −∞ 115 Przykład. X ∼ U [0, 1], Y ∼ U [0, 1] Ponieważ I[0,1] (z − y) = I[−1,0] (y − z) = I[z−1,z] (y), mamy Z∞ fX+Y (z) = I[0,1] (z − y)I[0,1] (y) dy = −∞ Z1 z = I[z−1,z] (y) dy = 2 − z 0 0 dla 0 ≤ z ≤ 1, dla 1 ≤ z ≤ 2 dla z ∈ / [0, 2] Jest to rozkład trójkątny ¥ Przykład. Niech X0 , X1 , . . . , Xn mają rozkład wykładniczy: tzn. o gęstości f (x) = λe−λx dla x > 0 Wtedy X0 + X1 + · · · + Xn ma rozkład o gęstości (λx)n −λx gn (x) = λ e dla x > 0 n! Jest to rozkład gamma G(1, n + 1) 116 Dowód. n = 0 g0 (x) = f (x) n = k, n=k+1 Z∞ gk+1 (x) = f (x − y)gk (y) dy = 0 Zx λe−λ(x−y) · λ = 0 = λ k+2 k! Zx −λx (λy)k −λy e dy k! (λx)k+1 −λx y dy = λ e (k + 1)! k e 0 ¥ Ponadto można pokazać, że n λx (λx) Gn (x) = 1 − e−λx (1 + + ··· + ), 1! n! x>0 jest dystrybuantą rozkładu gamma G(λ, n + 1). 117 ¥ Przykład. Proces Poissona Oznaczmy przez X1 , X2 , . . . niezależne zmienne losowe o wspólnym rozkładzie wykładniczym oraz przyjmijmy S0 = 0, Sn = X1 + X2 + . . . + Xn Niech N (t) oznacza liczbę wskaźników k ≥ 1 takich, że Sk ≤ t. Zdarzenie {N (t) = n} następuje wtedy i tylko wtedy, gdy Sn ≤ t, Sn+1 > t. Ponieważ Sn ma rozkład Gn−1 , to P (N (t) = n) = Gn−1 (t) − Gn (t) = e n −λt (λt) n! . Interpretacja Xn ··· Xn−1 X2 X1 Xi – czas oczekiwania na klienta „i + 1” od chwili przybycia klienta „i” N (t) – liczba przybyłych klientów do chwili t 118 Problem. Czy w praktyce Xi może mieć rozkład wykładniczy? Niech T oznacza czas oczekiwania na klienta. Zakładamy, że prawdopodobieństwo tego, że klient, na którego czekamy już t jednostek czasu, przybędzie w ciągu czasu ∆t jest równe λ∆t + o(∆t), gdzie o(∆t) : o(∆t) =0 ∆t→0 ∆t lim (niezależnie od tego, jak długo czekamy). Zatem P (T > t + ∆t) = P (T > t + ∆t, T > t) = = P (T > t + ∆t|T > t)P (T > t) = = (1 − λ∆t − o(∆t))P (T > t) 119 Zatem P (T > t + ∆t) − P (T > t) = ∆t o(∆t) = −λP (T > t) − P (T > t) ∆t Oznaczając P (t) := P (T > t), dla ∆t → 0 mamy: P 0 (t) = −λP (t) Stąd P (t) = ce−λt . Zatem FT (t) = 1 − P (t) = 1 − ce−λt 0 dla t ≥ 0, dla t < 0 Ponieważ musi zachodzić FT (0) = 0, więc c = 1. Zatem T ma rozkład wykładniczy. ¥ 120 Przykład. Rozkład wykładniczy a własność braku pamięci. Niech T ma rozkład wykładniczy z parametrem λ. Zauważmy, że P (T > t + s|T > t) = P (T > t + s, T > t) = P (T > t) P (T > t + s) e−λ(t+s) = = = P (T > t) e−λt = e−λs = P (T > s) Zatem P (T > t+s|T > t) = P (T > s), z czego wynika następująca równość P (T > s + t) = P (T > s)P (T > t) Załóżmy teraz, że nie wiemy jaki rozkład ma zmienna T , ale niech to będzie zmienna losowa ciągła, która spełnia powyższa równość. Jeżeli u(t) = P (T > t) nie jest tożsamościowo równe zeru, to istnieje punkt x taki, że u(x) > 0. Niech α = − ln u(x) i niech v(t) = eαt u(xt). Wówczas v(t + s) = v(t)v(s), v(1) = 1 Pokażemy, że v(t) = 1 dla wszystkich t > 0. 121 Zauważmy 1 v ( ) = v(1) = 1; 2 v n (1/n) = v(1) = 1 dla n ∈ N; 2 v(m/n) = v m (1/n) = 1 dla m, n ∈ N Zatem v(w) = 1 dla wszystkich w wymiernych dodatnich. Z ciągłości v wynika, że jest to prawda dla każdej rzeczywistej dodatniej. Zatem v(t) = eαt u(xt) = 1 Przyjmując y = xt ∈ (0, ∞) oraz λ = α/x mamy P (T > y) = u(y) = e−λy Zatem zmienna T ma rozkład wykładniczy. Powyższe przekształcenia pokazały, że rozkład wykładniczy jest jedynym rozkładem ciągłym (nieujemnym) o własności braku pamięci. ¥ 122 Przykład. Własność braku pamięci dla rozkładu dyskretnego. Skorzystamy z poprzedniego wyniku: P (T > y) = (eλ )y Niech k ∈ N oraz 1 − p = eλ . Wówczas P (T = k) = P (T > k − 1) − P (T > k) = (p − 1)k−1 p Otrzymaliśmy rozkład geometryczny, który interpretujemy jako liczbę doświadczeń, które należy wykonać, by doczekać się sukcesu. Przy czym doświadczenia wykonujemy według schematu Bernoulliego z prawdopodobieństwem sukcesu p. ¥ 123 Parametry wektorów losowych Wielowymiarowy rozkład normalny Rozkłady form kwadratowych Oznaczenia X = (X1 , X2 , . . . , Xn )0 x = (x1 , x2 , . . . , xn )0 µ = (µ1 , µ2 , . . . , µn )0 Wartość oczekiwana wektora losowego E(X) = (EX1 , EX2 , . . . , EXn )0 . Macierz kowariancji wektora losowego D2 (X) = E[(X − EX)(X − EX)0 ] , = [Cov(Xi , Xj )]i,j=1,... ,n o ile D2 Xi < ∞ dla każdego i = 1, · · · , n 124 Zauważmy 0 ≤ D2 n X ! ti X i =E n X i=1 i=1 = !2 ti (Xi − EXi ) X ti tj Cov(Xi , Xj ) i,j Zatem macierz kowariancji jest symetryczna i nieujemnie określona, co na przykład daje D2 (Xi ) Cov(Xi Xj ) ≥0 Cov(Xi Xj ) D2 Xj a po przekształceniu q |Cov(Xi , Xj )| ≤ D2 Xi · D2 Xj i w konsekwencji |%(Xi , Xj )| ≤ 1 Podstawowe własności Jeżeli Ajest macierzą p × n, B−macierzą n × n to E(AX) = AE(X), E(AXB) = AE(X)B D2 (AX) = AD2 (X)A0 125 Wielowymiarowy rozkład normalny N (µ, Σ) 1 1 f (x) = p exp − (x − µ)0 Σ−1 (x − µ) 2 (2π)n |Σ| Niech X ∼ N (µ, Σ), A – macierz (n × n) nieosobliwa oraz Y = AX. Z P (Y ∈ B) = P (X ∈ A−1 B) = f (x) dx Z = A−1 B f (A−1 y) |A−1 | dy B Łatwo sprawdzić, że g(y) := f (A−1 y) |A−1 | jest gęstością rozkładu N (Aµ, AΣA0 ) Niech teraz A1 – macierz (k × n), r(A1 ) = k. Bierzemy macierz A2 taką, że A= A1 A2 jest macierzą (n × n) nieosobliwą. 126 Mamy Y = AX = Aµ = A1 µ A2 µ A1 X A2 X ∼ N (Aµ, AΣA0 ), gdzie Aµ = A1 ΣA01 A2 ΣA01 A1 ΣA02 A2 ΣA02 Zatem A1 X ∼ N (A1 µ, A1 ΣA01 ) o ile zachodzi taki Fakt. Jeżeli Y ∼ N (µ, Σ), gdzie Y = Y1 , Y2 µ= µ1 , µ2 Σ= Σ11 Σ21 Σ12 Σ22 to Y1 ∼ N (µ1 , Σ11 ) oraz Y2 ∼ N (µ2 , Σ22 ) Niech f (y1 , y2 ) oznacza gęstość rozkładu N (µ, Σ). Przedstawimy tę funkcję w postaci f (y1 , y2 ) = g(y1 |y2 )f2 (y2 ) 127 Przyjmijmy Y1 (m × 1), Y2 (k × 1) oraz oznaczmy Σ−1 = R = R11 R21 R12 R22 Wtedy (y − µ)0 Σ−1 (y − µ) = (y − µ)0 R(y − µ) = = (y − µ)0 R11 (y1 − µ1 ) + R12 (y2 − µ2 ) R21 (y1 − µ1 ) + R22 (y2 − µ2 ) = (y1 − µ1 )0 [R11 (y1 − µ1 ) + R12 (y2 − µ2 )]+ +(y2 − µ2 )0 [R21 (y1 − µ1 ) + R22 (y2 − µ2 )] = (y1 − µ1 )0 R11 (y1 − µ1 ) + (y1 − µ1 )0 R12 (y2 − µ2 )+ +(y2 − µ2 )0 R22 (y2 − µ2 ) + (y2 − µ2 )0 R21 (y1 − µ1 ) (liczba)0 =liczba oraz (ABC)0 = C 0 B 0 A0 , 0 = R12 R12 = (y1 − µ1 )0 R11 (y1 − µ1 ) + 2(y1 − µ1 )0 R12 (y2 − µ2 )+ +(y2 − µ2 )0 R21 (y1 − µ1 ) 128 = y10 R11 y1 −2y10 R11 µ1 +µ01 R11 µ1 +2y10 R12 (y2 −µ2 )− −2µ01 R12 (y2 − µ2 ) + (y2 − µ2 )0 R21 (y1 − µ1 ) = y10 R11 y1 − 2y10 (R11 µ1 − R12 (y2 − µ2 )) + µ01 R11 µ1 − −2µ01 R12 (y2 − µ2 ) + (y2 − µ2 )0 R21 (y1 − µ1 ) −1 =y10 R11 y1 −2y10 R11 (µ1 −R11 R12 (y2 −µ2 ))+µ01 R11 µ1 − −2µ01 R12 (y2 − µ2 ) + (y2 − µ2 )0 R21 (y1 − µ1 ) −1 µ?1 := µ1 − R11 R12 (y2 − µ2 ) = y10 R11 y1 − 2y10 R11 µ?1 + µ01 R11 µ1 − −2µ01 R12 (y2 − µ2 ) + (y2 − µ2 )0 R21 (y1 − µ1 ) (µ? )0 R11 µ? = µ01 R11 µ1 − 2µ01 R12 (y2 − µ2 )+ −1 + (y2 − µ2 )0 R21 R11 R12 (y1 − µ1 ) 129 = y10 R11 y1 − 2y10 R11 µ?1 + (µ?1 )0 R11 µ?1 + −1 +(y2 − µ2 )0 (R22 − R21 R11 R12 )(y1 − µ1 ) = (y1 − µ? )0 R11 (y1 − µ? )+ −1 +(y2 − µ2 )0 (R22 − R21 R11 R12 )(y1 − µ1 ) Zatem możemy przyjąć f (y1 |y2 ) = 1 1 =q exp − (y1 − µ? )0 R11 (y1 − µ? ) 2 −1 (2π)k |R11 | f (y2 ) = q 1 −1 −1 (2π)m |R11 | |Σ| × 1 −1 ×exp − (y2 − µ2 )0 (R22 − R21 R11 R12 )(y1 − µ1 ) 2 130 Σ11 Σ21 Σ12 Σ22 R11 R21 R12 R22 = I O O I Σ11 R11 + Σ12 R21 = I Σ21 R11 + Σ22 R21 = O ⇓ −1 −1 = R11 Σ11 + Σ12 R21 R11 −Σ−1 22 Σ21 R11 = R21 ⇓ −1 Σ = R Σ11 − Σ12 Σ−1 21 11 22 Ponadto −1 R12 (y2 − µ2 ) µ?1 = µ1 − R11 −1 0 Σ R ) (y2 − µ2 ) = µ1 − R11 (−Σ−1 21 11 22 = µ1 + Σ−1 22 Σ21 (y2 − µ2 ) 131 Σ21 R12 + Σ22 R22 = I ⇓ Σ21 R12 = I − Σ22 R22 Ponieważ −Σ−1 22 Σ21 R11 = R21 Zatem −1 −Σ−1 22 Σ21 R12 = R21 R11 R12 −1 (I − Σ R ) = R R −Σ−1 22 22 21 11 R12 22 −1 R22 − R21 R11 R12 = Σ−1 22 Otrzymaliśmy Y2 ∼ N (µ2 , Σ22 ) oraz −1 Y1 |Y2 ∼ N (µ1 + Σ−1 22 Σ21 (y2 − µ2 ), Σ11 − Σ12 Σ22 Σ21 ) 132 Przykład. Niech X ∼ N (µ, Σ), gdzie Σ = (σij ). Przyjmijmy A = [1, 0, . . . , 0]. Mamy X1 = AX ∼ N (µ1 , σ11 ) Analogicznie X2 ∼ N (µ2 , σ22 ) X3 ∼ N (µ3 , σ33 ) ······ Xn ∼ N (µn , σnn ) Zatem EX = µ oraz D2 Xi = σii Ponadto dla eij = [ . . . , 1, . . . , 1, . . . ] jedynka na i − tym oraz j − ym miejscu, na pozostałych zera, mamy eij X ∼ N (µi + µj , eij Σe0ij = σii + σjj + 2σij ). Ponieważ D2 (Xi + Xj ) = D2 Xi + Dj2 + 2Cov(Xi , Xj ), to Cov(Xi , Xj ) = σij . Stąd D2 X = Σ ¥ 133 Przykład. Niech X ∼ N (µ, σ 2 I) oraz niech A będzie macierzą ortogonalną. Wtedy Y = AX ∼ N (Aµ, Aσ 2 IA0 = σ 2 I). Zatem jeżeli X1 , X2 , . . . , Xn niezależne o rozkładzie N ( · , σ 2 ), to Y1 , Y2 , . . . , Yn też są niezależne. ¥ Twierdzenie Fishera – Cochrana. Niech X ∼ N (0, I) oraz Q1 , . . . , Qk będą formami kwadratowymi rzędu n1 , · · · , nk takimi, że X 0 X = Q1 + . . . , Qk Wówczas warunkiem koniecznym i dostatecznym na 2 to, by zmienne losowe Q miały rozkłady χ (ni ) i były i P niezależne, jest ni = n w1i Dowód. Istnieje Bi = · · · (n × ni ) taka, że wni i Qi = ±(w1i X)2 ± · · · ± (wni i X)2 134 B1 Ponieważ n = ni , to przyjmując B = · · · mamy Bnk X 0 XX= Qi = X 0 B 0 ∆BX P gdzie ∆= ±1 .. . ±1 .. . Ponieważ X 0 X = X 0 B 0 ∆BX jest spełniona dla dowolnych X, mamy I = B 0 ∆B Ponieważ n = r(I) = r(B 0 ∆B) ≤ r(B) ≤ n, to B jest macierzą nieosobliwą. Zatem ∆ = (B −1 )0 B −1 jest macierzą dodatnio określoną. W konsekwencji ∆ = I oraz macierz B jest ortogonalna. Zatem dla Y = BX Q1 = y12 + . . . + yn2 1 Q2 = yn2 1 +1 + . . . + yn2 1 +n2 ······ są niezależne i mają rozkłady χ2 (n1 ), χ2 (n2 ), . . . . W ten sposób została udowodniona dostateczność warunku. Konieczność jest oczywista. ¥ 135 Twierdzenie 16. Warunkiem koniecznym i dostatecznym na to, aby zmienna losowa X 0 AX miała rozkład χ2 (ν) jest, by macierz A była idempotenta. Wtedy ν = r(A) = tr(A). Dowód. dostateczność X 0 X = X 0 AX + X 0 (I − A)X A2 = A ⇔ r(A) + r(I − A) = n Teza wynika z tw. F–C. konieczność Istnieje macierz ortogonalna C, że przy przekształceniu X = CY 2 X 0 AX = Y 0 C 0 ACY = λ1 y12 + . . . + λm ym gdzie λi są niezerowymi wartościami własnymi macierzy A. Ponieważ Yi ∼ χ2 (1), więc m = k, λi = 1. Zatem C 0 AC jest macierzą diagonalną o elementach 0 lub 1. Zatem A jest idempotentna, bo C 0 AC = C 0 ACC 0 AC = C 0 A2 C ⇒ A = A2 ¥ 136 Twierdzenie 17. Jeżeli X 0 X = Q1 + Q2 oraz Q1 ∼ χ2 (k), to Q2 ∼ χ2 (n − k) Dowód. Niech Q1 = X 0 AX. Wtedy Q2 = X 0 (I − A)X oraz (I − A)2 = I 2 + A2 − IA − AI = I − A. ¥ Twierdzenie 18. Jeżeli Q = Q1 + Q2 , Q ∼ χ2 (m), Q1 ∼ χ2 (k) oraz Q2 ≥ 0, to Q2 ∼ χ2 (m − k). Dowód. Niech Q = X 0 AX, Q1 = X 0 BX Q = X 0 AX = X 0 BX + X 0 (A − B)X Istnieje macierz ortogonalna C, że przy przekształceniu X = CY X 0 AX = Y 0 C 0 ACY = Y12 + . . . + Ym2 X 0 BX = Y 0 C 0 BCY X 0 (I − B)X = Y 0 C 0 (A − B)CY Oznaczmy B1 := C 0 AC, B2 := C 0 (A − B)C. Zatem Y12 + Y22 + . . . + Ym2 = Y 0 B1 Y + Y 0 B2 Y 137 Ponieważ Y 0 B1 Y , Y 0 B2 Y są nieujemne, każda z form zawiera wyłącznie elementy Y1 , . . . , Ym . Z poprzedniego twierdzenia Q2 ∼ χ2 (m − k) ¥ Twierdzenie 19. Niech X 0 A1 X ∼ χ2 (k), X 0 A2 X ∼ χ2 (m). Warunkiem koniecznym i dostatecznym na to, aby obie zmienne losowe były niezależne, jest, by A1 A2 = 0 Dowód. Ponieważ A1 (I − A1 − A2 ) = A2 (I − A1 − A2 ) = 0, to r(A1 ) + r(A2 ) + r(I − A1 − A2 ) = n Ale X 0 X = X 0 A1 X + X 0 A2 X + X 0 (I − A1 − A2 )X Zatem z tw. F – C są niezależne. 138 Jeżeli są niezależne, to X 0 (A1 + A2 )X ∼ χ2 (k + m) Zatem A1 A2 = 0, ponieważ A1 + A2 = (A1 + A2 )2 = A1 + A2 + A1 A2 + A2 A1 0 = A1 A2 + A2 A1 ( A1 0 = A1 A2 + A1 A2 A1 0A1 = A1 A2 A1 + A2 A1 dodaję stronami 0 = 2A1 A2 A1 podstawiam A2 A1 = −A1 A2 . 0 = −2A1 A2 ¥ 139 Twierdzenie 20. Niech X 0 X = X 0 A1 X + . . . + X 0 Ak X. Każdy z następujących warunków jest warunkiem koniecznym i dostatecznym na to, aby zmienne losowe X 0 A1 X, . . . , X 0 Ak X były niezależne i aby X 0 Ai X ∼ χ2 (ni ), gdzie ni jest rzędem macierzy Ai : (a) Macierze A1 , . . . , Ak są idempotentne, (b) Ai Aj = 0 dla wszystkich i 6= j. Dowód. Ponieważ A2i = Ai , więc tr(Ai ) = r(Ai ). Ale I = A1 + . . . Ak , więc tr(I) = n = X tr(Ai ) = X ni i z tw. F – C wynika konieczność i dostateczność warunku (a). Ponieważ I = I = A1 + . . . Ak oraz Ai Aj = 0, więc Ai (I − Ai ) = 0, zatem macierze Ai są indempotentne. Wynika stąd, że (a) ⇔ (b) ¥ 140 Twierdzenie 21. Niech X ∼ N (µ, Σ). Warunkiem koniecznym i dostatecznym na to, aby zmienna losowa (X − µ)0 A(X − µ) miała rozkład χ2 , jest, by AΣA = A. Liczba stopni swobody jest wtedy równa tr(AΣ). Dowód. X ∼ N (µ, Σ) ⇒ (X − µ) ∼ N (0, Σ) ⇒ Y = B −1 (X − µ) ∼ N (0, I) gdzie Σ = BB 0 , B nieosobliwa Zatem X = µ + BY , Y ∼ N (0, I) (X − µ)0 A(X − µ) = Y 0 B 0 ABY Zatem (X − µ)0 A(X − µ) ∼ χ2 ⇔ B 0 AB idempotentna B 0 AB · B 0 AB = B 0 AB ⇔ AΣA = A Ponadto tr(B 0 AB) = tr(ABB 0 ) = tr(AΣ) 141 ¥ Twierdzenie 22. Niech X ∼ N (µ, Σ). Warunkiem koniecznym i dostatecznym na to, aby zmienne losowe P 0 X oraz (X − µ)0 A(X − µ) były niezależne, jest, by AΣP = 0 Twierdzenie 23. Niech X ∼ N (µ, Σ). Warunkiem koniecznym i dostatecznym na to, aby zmienne losowe (X − µ)0 A(X − µ) oraz (X − µ)0 B(X − µ) były niezależne, jest, by AΣB = 0 142