Rachunek prawdopodobieństwa Stanisław Jaworski

advertisement
Rachunek prawdopodobieństwa
Stanisław Jaworski
Rachunek prawdopodobieństwa: dział matematyki zajmujący się badaniem modeli zjawisk losowych
(przypadkowych) i praw nimi rządzących (Encyklopedia Popularna PWN, 1998)
Rachunek prawdopodobieństwa zajmuje się zdarzeniami, pojawiającymi się przy wykonywaniu doświadczeń,
których wyniku nie da się z góry przewidzieć, a jednocześnie dających się powtarzać w tych samych warunkach.
Pojęciem pierwotnym w rachunku prawdopodobieństwa jest przestrzeń zdarzeń elementarnych. Będziemy ją oznaczać przez Ω.
1
Przykład. Rzut monetą.
Ω = {O, R}
¥
Przykład. Rzut kostką.
Ω = {1, 2, 3, 4, 5, 6}
¥
Przykład. Rzut monetą do chwili pojawienia się orła.
Ω = {ω1 , ω2 , . . . , ωn , . . . },
gdzie ωn oznacza, że w pierwszych n − 1 rzutach wypadły reszki, a za n – tym razem wypadł orzeł. Możliwych wyników jest nieskończenie wiele. Dadzą się ustawić w ciąg, tzn. że jest ich przeliczalnie wiele.
¥
2
Przykład. Ze zbioru n ponumerowanych elementów
losujemy dwa elementy.
Ω = {(ωi , ωj )| i, j = 1, 2, . . . , n, i < j}
ωi oznacza wylosowanie elementu o numerze i.
¥
Przykład. Czas oczekiwania na autobus.
Ω = [0, ∞)
¥
Przykład. Niech Tk ∈ h[0, 45], k = 1, 2, . . . , 10, oznacza spóźnienie k – tego studenta na losowo wybrany
wykład (w minutach).
(T1 , T2 , . . . , T10 ) ∈ Ω
Ω = [0, 45] × [0, 45] × . . . × [0, 45] = [0, 45]10
¥
3
Podstawowe pojęcia rachunku
prawdopodobieństwa
Definicja. Rodzinę F spełniającą warunki
1. F 6= ∅
2. Jeśli A ∈ F , to Ω \ A ∈ F
∞
S
3. Jeśli Ai ∈ F dla i = 1, 2, . . . , to
Ai ∈ F
i=1
nazywamy σ – ciałem podzbiorów zbioru Ω.
Zdarzenie losowe jest elementem rodziny F
Definicja. Prawdopodobieństwem nazywamy dowolną funkcję P , określoną na σ−ciele zdarzeń F ⊆ 2Ω ,
spełniającą warunki
A1. P : F → R+ ;
A2. P (Ω) = 1
A3. Jeśli Ai ∈ F, i = 1, 2, . . . oraz Ai ∩ Aj = ∅ dla
i 6= j, to
!
∞
∞
[
X
P
Ai =
P (Ai )
i=1
i=1
Mówimy, że matematyczny model doświadczenia losowego to trójka (Ω, F, P ), którą nazywamy przestrzenią probabilistyczną
4
Przykład. Rozkład prawdopodobieństwa
w skończonej przestrzeni zdarzeń
Niech
Ω = {ω1 , ω2 , . . . , ωn }.
Niech
pi > 0, i = 1, 2, . . . , n,
będą tak dobrane, że
n
X
pi = 1
i=1
Wówczas funkcję P określamy w następujący sposób:
P ({ωi }) = pi oraz
dla A ⊆ Ω postaci A = {ωi1 , ωi2 , . . . , ωik }
P (A) = pi1 + pi2 + . . . + pik
Tak określona funkcja spełnia układ aksjomatów Kołmogorowa dla F = 2Ω
¥
5
Przykład. Rzut kostką.
ωi
pi
1
1/6
2
1/6
3
1/6
4
1/6
5
1/6
6
1/6
P ({1, 2, 5}) = 1/6 + 1/6 + 1/6 = 3/6 = 1/2
ωi
pi
1
1/12
2
1/12
3
1/12
4
3/12
5
3/12
6
3/12
P ({1, 2, 5}) = 1/12 + 1/12 + 3/12 = 5/12 < 1/2
¥
Przykład. Przeliczalna przestrzeni zdarzeń
Ω = {ω1 , ω2 , . . . }
pi > 0,
∞
X
pi = 1
i=1
P ({ωi }) = pi , P (A) =
X
pj
j:ωj ∈A
(?)
Tak określona funkcja spełnia układ aksjomatów Kołmogorowa dla F = 2Ω
¥
6
Przykład. Liczba zarejestrowanych cząstek w odcinku czasu [0, t].
Ω = {0, 1, . . . }
k
−αt (αt)
P ({k}) = e
(?) Zachodzi
∞
P
k=0
e
k!
−αt (αt)
,
k = 0, 1, . . .
k
k!
=1
¥
Ciągła przestrzeń zdarzeń
Przykład. Czas oczekiwania na pierwszą cząstkę.
Ω = [0, ∞)
Zdarzenie (t, ∞): pierwsza cząstka pojawi się później
niż w chwili t
P ((t, ∞)) = e
−αt (αt)
0!
0
= e−αt
Stąd dla dowolnych s < t
P ((s, t]) = e−αs − e−αt
¥
7
Przykład. Rzut strzałką do tarczy o promieniu 1.
Model 1.
Ω = {(x, y) : x2 + y 2 ≤ 1}
(x, y)– współrzędne kartezjańskie punktu trafienia
strzałki w tarczę
Szansa trafienia w zbiór A ⊆ Ω
P (A) =
pole A
|A|
|A|
=
=
pole Ω
|Ω|
π
Zdarzenie Ar = {(x, y) : x2 + y 2 ≤ r2 }: trafienie w
dziesiątkę
πr2
P (Ar ) =
= r2
π
8
Model 2.
Ω = {(%, φ) : 0 ≤ % ≤ 1, 0 ≤ φ ≤ 2π} = [0, 1] × [0, 2π]
(%, φ)– współrzędne biegunowe punktu trafienia
strzałki w tarczę
Szansa trafienia w zbiór A ⊆ Ω:
pole A
|A|
|A|
P (A) =
=
=
pole Ω
|Ω|
2π
Zdarzenie Ar = {(%, φ) : % ≤ r}: trafienie w dziesiątkę
2πr
=r
P (Ar ) =
2π
¥
9
Model 3.
Ω = {% : 0 ≤ % ≤ 1} = [0, 1]
%– odległość punktu trafienia od środka tarczy
Zdarzenie Ar = {% : % ≤ r}: trafienie w dziesiątkę
πr2
P (Ar ) =
= r2
π
Zdarzenie Ark = {% : r < % ≤ k}: trafienie w dziewiątkę
k+r
P (Ark ) = k − r = 2(k − r)
2
2
2
10
Co łączy podane przykłady dla przestrzeni ciągłych?
Z
P (A) =
f, gdzie f ≥ 0
A
Czas oczekiwania na pierwszą cząstkę
f (x) = αxe−αx ,
?
Zt
P ((s, t]) =
f (x) dx
s
Rzut strzałką do tarczy (Model 1.)
Z
1
?
f (x, y) = , P (Ar ) = f (x, y) dx dy
π
Ar
Rzut strzałką do tarczy (Model 2.)
Z
1
?
f (%, φ) =
, P (Ar ) = f (%, φ) d% dφ
2π
Ar
Rzut strzałką do tarczy (Model 3.)
Z
?
f (%) = 2%, P (Ar ) = f (%) d%
Ar
11
Problem: Jak określić F ?
Czas oczekiwania na pierwszą cząstkę
F = B(R+ )
Rzut strzałką do tarczy (Model 1.)
F = B(K(0, 1))
Rzut strzałką do tarczy (Model 2.)
F = B([0, 1] × [0, 2π])
Rzut strzałką do tarczy (Model 3.)
F = B([0, 1])
12
Własności prawdopodobieństwa
Twierdzenie 1. Jeśli (Ω, F, P ) jest przestrzenią probabilistyczną i A, B, A1 , A2 , . . . , An ∈ F , to:
W1. P (∅) = 0
W2. Jeśli A1 , A2 , . . . , An wykluczają się wzajemnie,
tj. Ai ∩ Aj = ∅ dla i 6= j, to
P
n
[
!
Ai
i=1
=
n
X
P (Ai )
i=1
W3. P (A0 ) = 1 − P (A), gdzie A0 = Ω \ A
W4. Jeśli A ⊆ B, to P (B \ A) = P (B) − P (A)
W5. Jeśli A ⊆ B, to P (A) 6 P (B)
W6. P (A) 6 1
W7. P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
13
Dowód.
ad W1.
Niech A1 = Ω, Ai = ∅ dla i = 2, 3, . . .
⇓ aksjomat A3.
∞
X
P (∅)
P (Ω) = P (Ω) +
i=2
⇓ aksjomat A1.
P (∅) = 0
ad W2.
Niech Ak = ∅, dla k > n
⇓ aksjomat A3. oraz własność W1.
!
n
n
[
X
P
Ai =
P (Ai )
i=1
i=1
ad W3.
W2.
1 = P (Ω) = P (A ∪ A0 ) = P (A) + P (A0 )
ad W4.
Jeśli A ⊂ B, to B = A ∪ (B \ A). Zatem
W2.
P (B) = P (A) + P (B \ A)
14
ad W5.
W4.
A1.
P (B) − P (A) = P (B \ A) > 0
ad W6.
Wystarczy zastosować W5. dla B = Ω
ad W7.
A ∪ B = [A \ (A ∩ B)] ∪ (A ∩ B) ∪ [B \ (A ∩ B)]
⇓ W2, W4.
P (A ∪ B) = P (A) − P (A ∪ B)+
+ P (A ∩ B) + P (B) − P (A ∩ B) =
= P (A) + P (B) − P (A ∩ B)
¥
Zauważmy, że
A ∪ B = [A ∩ B 0 ] ∪ [A ∩ B] ∪ [A0 ∩ B]
|
{z
}
trzy składowe sumy
Zatem każda składowa sumy A1 ∪ A2 ∪ . . . ∪ An da się
przedstawić, po odpowiednim przenumerowaniu zbiorów, w postaci
A1 ∩ A2 ∩ . . . ∩ Ak ∩ A0k+1 ∩ A0k+2 ∩ . . . ∩ A0n ,
gdzie k > 1
15
Twierdzenie 2. (Wzór włączeń i wyłączeń)
P (A1 ∪ A2 ∪ . . . ∪ An )
X
X
=
P (Ai ) −
P (Ai1 ∩ Ai2 )+
16i1 6i2 6n
16i6n
. . . + (−1)n+1 P (A1 ∩ A2 ∩ . . . ∩ An )
Dowód. Zbiór A1 ∪ A2 ∪ . . . ∪ An daje się zapisać
w postaci sumy rozłącznych składowych. Zatem Lewa
strona równania włącza każdą składową dokładnie raz.
Musimy pokazać, że prawa strona równania wprowadza każdą składową też dokładnie raz.
W pierwszym składniku wzoru, czyli
X
P (Ai )
16i6n
każda składowa postaci
A1 ∩ A2 ∩ . . . ∩ Ak ∩ A0k+1 ∩ A0k+2 ∩ . . . ∩ A0n
zostanie włączona k razy, w drugim, czyli
X
P (Ai1 ∩ Ai2 ),
16i1 6i2 6n
16
wyłączona
wyniesie
k
2
razy, itd. Ostatecznie liczba włączeń
k
k
k
k
−
+
+ . . . (−1)k+1
= 1.
1
2
3
k
Uwaga. Korzystam ze wzoru dwumianowego Newtona:
k X
k k−i i
(a + b)k =
a b
i
i=0
¥
Przykład. n listów losowo wkładamy do kopert. Jakie
jest prawdopodobieństwo, że choć jeden list dotrze do
adresata?
Niech Ai oznacza zdarzenie, że i−ty list dotrze do adresata. Zatem
P
n
[
i=1
!
Ai
P (A1 ∩A2 )
P (A1 )
z }| { z }| {
(n − 1)!
n (n − 2)!
=n
−
+...
n!
2
n!
n
1
1
+ (−1)n
+ (−1)n+1 =
n − 1 n!
n!
17
1
1
1
n
n+1 1
= 1 − + + . . . + (−1)
+ (−1)
2! 3!
(n − 1)!
n!
n
n
n
X
X
X
(−1)i+1
(−1)i+1
(−1)i
=
=1+
=1−
i!
i!
i!
i=1
i=0
i=0
≈ 1 − e−1
Błąd oszacowania
!
n
[
1
Ai − (1 − e−1 ) 6
P
(n + 1)!
i=1
Skorzystałem z oszacowania:
n
i
|x|n+1
x Xx e −
6
i! (n + 1)!
i=0
¥
18
Twierdzenie 3. (O ciągłości). Niech(Ω, F, P ) będzie przestrzenią probabilistyczną.
(i) Jeśli (An )∞
n=1 jest wstępującą rodziną zdarzeń
∞
S
oraz
An = A, to
n=1
P (A) = lim P (An ).
n→∞
(ii) Jeśli (An )∞
n=1 jest zstępującą rodziną zdarzeń
∞
T
oraz
An = A, to
n=1
P (A) = lim P (An ).
n→∞
Rodzinę zdarzeń Ai nazywamy wstępującą, jeśli
A1 ⊆ A2 ⊆ . . . ⊂ An ⊆ An+1 · · ·
i zstępującą, jeśli
A1 ⊇ A2 ⊇ . . . ⊃ An ⊇ An+1 · · ·
19
Dowód. (i) Niech
B1 = A1 , B2 = A2 \ A1 i ogólnie: Bn = An \ An−1
Wtedy zdarzenia Bi wykluczają się,
n
[
Bi =
i=1
n
[
Ai = An ,
i=1
S∞
a także i=1 Bi = A. Z przeliczalnej addytywności
wynika, że
P (A) = P
∞
[
!
Bi
=
i=1
∞
X
P (Bi ) =
i=1
n
X
= lim
n→∞
P (Bi ) = lim P (An )
n→∞
i=1
(ii) Rozpatrzmy rodzinę wstępującą (Cn )∞
n=1 ,
gdzie Cn = A0n . Wtedy
∞
[
n=1
Cn =
∞
[
"
A0n =
∞
\
#0
An
= A0
n=1
n=1
i wystarczy skorzystać z (i)
20
¥
Prawdopodobieństwo warunkowe
Definicja. Prawdopodobieństwem warunkowym zajścia zdarzenia A pod warunkiem zajścia zdarzenia B,
gdzie P (B) > 0, nazywamy liczbę
P (A|B) =
(?)
P (A ∩ B)
P (B)
Uwaga. Przy ustalonym B prawdopodobieństwo warunkowe P (A|B) jest zwykłym prawdopodobieństwem
na (Ω, F), a także na (B, FB ), gdzie
FB = {A ∩ B : A ∈ F }
(?)
Wzór łańcuchowy. Jeśli P (A1 ∩ . . . ∩ An−1 ) > 0, to
P (A1 ∩ . . . ∩ An ) = P (A1 )P (A2 |A1 )×
× P (A3 |A1 ∩ A2 ) · . . . · P (An |A1 ∩ . . . ∩ An−1 )
21
Definicja. Rozbiciem przestrzeni Ω nazywamy rodzinę zdarzeń {Hi }i∈I , które wzajemnie wykluczają się,
zaś ich suma jest równa Ω.
Twierdzenie 4.
Jeżeli {H1 , H2 , . . . , Hn } jest rozbiciem Ω na zdarzenia o dodatnim prawdopodobieństwie, to dla dowolnego zdarzenia A
P (A) =
n
X
P (A|Hi )P (Hi )
i=1
Dowód.
P (A) = P (
n
[
(A ∩ Hi )) =
i=1
n
X
P (A|Hi )P (Hi )
i=1
¥
(?)
Uwaga.Twierdzenie jest prawdziwe i dla rozbicia Ω
na przeliczalną liczbę zdarzeń Hi , i = 1, 2, . . . .
22
Przykład. W loterii fantowej szansa wygranej jest
równa p, przegranej – q, a z prawdopodobieństwem
r wyciągamy los „graj dalej”. Los „graj dalej” wrzucamy z powrotem do urny i dokonujemy ponownego
losowania. Jakie jest prawdopodobieństwo wygranej?
A−wyciągneliśmy los wygrywający
B−wyciągneliśmy los przegrywający
C−wyciągneliśmy los „graj dalej”
W −wygraliśmy na loterii
P (W ) = P (W |A)P (A) + P (W |B)P (B)+
+ P (W |C)P (C) = 1 · p + 0 · q + P (W ) · r
Stąd
P (W ) =
p
p
=
1−r
p+q
¥
Twierdzenie 5. Niech {Hi }i∈I będzie rozbiciem Ω
na zdarzenia o dodatnim prawdopodobieństwie. Gdy
P (B) > 0, to
P (A|B) =
X
P (A|B ∩ Hi )P (Hi |B),
i∈I
gdzie zbiór indeksów I jest skończony lub przeliczalny.
23
Przykład. Grześ i Jaś rzucają na przemian monetą.
Jaś wygrywa, gdy pojawią się kolejno OOR, Grześ –
gdy ROR. Jakie są prawdopodobieństwa wygranej dla
obu chłopców?
Niech
W1 – wygra Jaś, W2 – wygra Grześ,
Ok – w k-tym rzucie wypadł orzeł,
Rk – w k-tym rzucie wypadła reszka.
x = P (W1 |O1 ∩ O2 ) y = P (W1 |O1 ∩ R2 )
z = P (W1 |R1 ∩ O2 ) w = P (W1 |R1 ∩ R2 )
Zatem
y =P (W1 |O1 ∩ R2 ∩ O3 )P (O3 |O1 ∩ R2 )+
+ P (W1 |O1 ∩ R2 ∩ R3 )P (R3 |O1 ∩ R2 )
1
1
=z + w
2
2
Analogicznie
x=
1
1
1
1
1
x + · 1, z = x + 0, w = w + z
2
2
2
2
2
Stąd P (W1 ) = (x + y + z + w)/4 = 5/8.
24
¥
Twierdzenie 6. Wzór Bayesa. Niech {Hi }i∈I będzie
rozbiciem Ω na zdarzenia o dodatnim prawdopodobieństwie i P (A) > 0, to dla dowolnego j ∈ I mamy
P (Hj |A) = P
P (A|Hj )P (Hj )
i∈I P (A|Hi )P (Hi )
Przykład. Amperomierze pochodzą z trzech taśm
produkcyjnych w stosunku 1:1:1. Dostawy z pierwszej
taśmy zawierają 0.5% braków, z drugiej 0.7%, a z trzeciej 1%. Wybrany losowo amperomierz okazał się brakiem. Obliczyć prawdopodobieństwo, że został on wyprodukowany na taśmie drugiej.
A−amperomierz jest brakiem
Hi −amperomierz pochodzi z i−tej taśmy
P (H1 ) = P (H2 ) = P (H3 ) = 1/3
P (A|H1 ) = 0.005; P (A|H2 ) = 0.007; P (A|H3 ) = 0.01
Stąd
1
0.022
(0.005 + 0.007 + 0.01) =
3
3
1
0.007
P (H2 )P (A|H2 )
7
3
P (H2 |A) =
=
=
1
P (A)
22
0.022
3
P (A) =
¥
25
Niezależność zdarzeń.
Zdarzenie B nie zależy od zdarzenia A, gdy wiedza o
tym, że zaszło A nie wpływa na prawdopodobieństwo
zajścia B.
P (B|A) = P (B),
⇓
P (A) > 0
P (A ∩ B) = P (A)P (B)
Definicja. Zdarzenia A oraz B nazywamy niezależnymi, gdy
P (A ∩ B) = P (A)P (B)
Definicja. Zdarzenia A1 , A2 , . . . , An nazywamy niezależnymi, gdy
P (Ai 1 ∩ Ai 2 ∩ . . . ∩ Ai k ) = P (Ai1 ) . . . P (Aik )
dla 1 ≤ ii < i2 , . . . < ik ≤ n, k = 2, 3, . . . , n
26
Przykład. Spośród rodzin mających n dzieci wybieramy jedną rodzinę. Niech zdarzenie A polega na tym,
że w losowo wybranej rodzinie jest co najwyżej jedna
dziewczynka, B – w rodzinie są dziewczynki i chłopcy.
Czy zdarzenia A i B są niezależne?
Przestrzeń probabilistyczną tworzą ciągi n− elementowe – uporządkowane według starszeństwa dzieci.
P (A ∩ B) = P (A)P (B) ⇔
n
=
n
2
n+1
2n
n
2 −2
2n
⇔n=3
¥
Przykład. W urnie są cztery kule – niebieska, zielona,
czerwona i pstrokata (niebiesko-zielono-czerwona).
Zdarzenia
An – wyciągneliśmy kulę z kolorem niebieskim
Az – wyciągneliśmy kulę z kolorem zielonym
An – wyciągneliśmy kulę z kolorem czerwonym
Mamy
P (An ) = P (Az ) = P (Ac ) = 1/2
P (An ∩ Az ) = P (An ∩ Ac ) = P (Az ∩ Ac ) = 1/4
Zatem rozważane zdarzenia są parami niezależne.
27
Zauważmy jednak, że
1
1
P (An ∩ Az ∩ Ac ) = =
6
= P (An )P (Az )P (Ac )
4
8
¥
Przykład. Ω = [0, 1]2 , F = B([0, 1]2 ), P − rozkład
równomierny na [0, 1]2 .
Zdarzenia
2
A = B = (x, y) ∈ [0, 1] : x > y
2
C = (x, y) ∈ [0, 1] : x < 0.5
Zauważmy, że
P (A ∩ B ∩ C) =
1
= P (A)P (B)P (C)
8
natomiast żadne dwa nie są niezależne
28
¥
Przyjmijmy konwencję: A0 = A, A1 = A0
Twierdzenie 7.
Następujące warunki są równoważne:
(i) Zdarzenia A1 , A2 , . . . , An są niezależne;
(ii) Dla każdego ciągu ε1 , ε2 , . . . , εn , gdzie εi ∈
{0, 1}, i = 1, 2, . . . , n, zdarzenia Aε11 , . . . , Aεnn
są niezależne;
(iii) Dla każdego ciągu ε1 , ε2 , . . . , εn , gdzie εi ∈
{0, 1}, i = 1, 2, . . . , n, zachodzi równość
P (Aε11 ∩ . . . ∩ Aεnn ) = P (Aε11 ) . . . P (Aεnn )
Dowód. (i) ⇒ (ii) (indukcja względem n)
(1o ) Pokażemy dla n = 2
(2o ) Założymy, że tw. jest prawdziwe dla n − 1
(3o ) Pokażemy, że
A1 , . . . , An−1 , An niezależne
⇓
A1 , . . . , An−1 , A0n niezależne
(4o ) Zauważymy, że z 3o wynika
ε
n−1
, Aεnn niezależne
Aε11 , . . . , An−1
29
Dla n = 2
P (A1 ∩ A02 ) = P (A1 \ A1 ∩ A2 ) =
= P (A1 ) − P (A1 ∩ A2 ) =
= P (A1 )[1 − P (A2 )] = P (A1 )P (A02 )
Zatem A1 , A02 są niezależne. Na mocy symetrii także
A01 , A2 są niezależne. Stosując jeszcze raz powyższe
rozumowanie do A01 , A2 , otrzymujemy niezależność
A01 , A02
Zakładamy, że tw. jest prawdziwe dla n − 1 i dowodzimy dla n.
W tym celu wystarczy pokazać:
P (A1 ∩ . . . ∩ An−1 ∩ A0n ) =
= P (A1 ∩ . . . ∩ An−1 \ A1 ∩ . . . ∩ An−1 ∩ An ) =
= P (A1 ∩ . . . ∩ An−1 ) − P (A1 ∩ . . . ∩ An ) =
= P (A1 ∩ . . . ∩ An−1 )[1 − P (An )]
= P (A1 ) . . . P (An−1 )P (A0n )
¥
Definicja. Zdarzenia A1 , A2 , . . . nazywamy niezależnymi, gdy dla każdego n zdarzenia A1 , A2 , . . . , An są
niezależne.
30
Zmienne losowe.
Cel: Ujednolicić sposób rozważań dla różnych przestrzeni zdarzeń elementarnych.
Definicja. Zmienna losowa jest to funkcja rzeczywista
X:Ω→X
o własności:
^
{ω ∈ Ω : X(ω) ≤ x} ∈ F
x∈R
X – zbiór wartości zmiennej losowej
Często
X = {0, 1, . . . }, X = [0, ∞), X = [a, b], X = R
31
Definicja. Rozkładem prawdopodobieństwa zmiennej
losowej X nazywamy rozkład prawdopodobieństwa PX
określony wzorem
PX (A) = P ({ω ∈ Ω : X(ω) ∈ A})
dla A ⊂ X
= P (X −1 (A))
! dokładniej dla A ∈ B(X )
Definicja. Trójkę (X , B(X ), PX ) nazywamy modelem
probabilistycznym.
Przykład. Ze zbioru pięciu ponumerowanych elementów losujemy jeden element
Ω = {ω1 , . . . , ω5 }
P ({ωi } = 1/5)
ωi −wylosowano i−ty element
Wtedy dla X(ωi ) = i mamy X = {1, 2, 3, 4, 5}
oraz
PX (i) = 1/5, i = 1, 2, 3, 4, 5
X
PX (A) =
PX (i), dla A ⊂ X
i∈A
¥
32
Definicja. Dystrybuanta zmiennej losowej X, jest to
funkcj F : R → [0, 1] określona wzorem
FX (x) = P (X ≤ x)
Własności dystrybuanty
W1. F jest niemalejąca
x1 < x2 , A = (−∞, x1 ], B = (−∞, x2 ], A ⊂ B
F (x1 ) = P (A) 6 P (B) = F (x2 )
W2.
lim F (x) = 0,
x→−∞
lim F (x) = 1
x→∞
{xn } % ∞
lim F (x) = lim F (xn ) = P
x→∞
n→∞
[
(−∞, xn ]
!
n
= P ((−∞, ∞)) = 1
33
{xn } & ∞
lim F (x) = lim F (xn ) = P
x→−∞
\
n→∞
!
(−∞, xn ]
n
= P (∅) = 0.
W3. F jest prawostronnie ciągła
{xn } & x0
lim F (x) = lim F (xn ) = P
x→x+
0
n→∞
\
(−∞, xn ]
n
= P ((−∞, x0 ])
= F (x0 ),
34
!
Twierdzenie 8. Każda funkcja F : R → [0, 1] o własnościach 1–3 jest dystrybuantą pewnej zmiennej losowej.
Dowód.
F −1 (u) := inf{x : F (x) ≥ u}
F −1 (u) ≤ x
⇔
dla 0 < u < 1
u ≤ F (x)
Niech U oznacza zmienną losową o rozkładzie równomiernym na zbiorze (0, 1):
FU (u) = P (U ≤ u) = u
Niech X = F −1 (U ).
FX (x) = P (X ≤ x) = P (F −1 (U ) ≤ x)
= P (U ≤ F (x)) = F (x)
¥
35
Własności dystrybuanty, ciąg dalszy
oznaczmy F (a+) := lim F (x)
x→a+
(?)
(i)
(ii)
(iii)
(iv)
P (a < X ≤ b) = F (b) − F (a)
P (X = a) = F (a) − F (a−)
P (a ≤ X ≤ b) = F (b) − F (a−)
P (a < X < b) = F (b−) − F (a)
F (b)
..........
.................
....... ....... ....... ....... ....... ....... ....... ....... ....................
.....
...... ...
.
.
.
.
.
.
.....
.....
.
.
.
...
..
.
....
.
.
.
...
.
.
.
...
.
.
.....
.
.
.
.
....
.
.
.
...
.
..
.
.....
.
.
.
.
.
.
....... ....... ......................... ....... ....... ....... ....... ........
.
.
..
.
........................ ..
.
F (a)
•..
..
..
..
.. P (a < X ≤ b)
..
..
◦
a
b
36
Zmienne losowe typu skokowego
Definicja. Mówimy, że zmienna losowa jest typu skokowego (dyskretna), jeżeli istnieje zbiór skończony lub
przeliczalny X ⊂ R taki, że
PX (X ) = 1
Przykłady zmiennych losowych
typu skokowego:
•
•
•
•
rozkład
rozkład
rozkład
rozkład
dwumianowy
Poissona
ujemny dwumianowy
wielomianowy
37
Rozkład dwumianowy
Powtarzające się i niezależne próby nazywamy próbami Bernoulliego, jeżeli każda próba ma tylko dwa
możliwe wyniki: „sukces” z prawdopodobieństwem p
oraz „porażka” z prawdopodobieństwem q
Niech X oznacza ilość sukcesów osiągniętych w ciągu
n prób Bernoulliego.
Zmienna losowa X ma następujący rozkład prawdopodobieństwa:
n k n−k
P (X = k) =
p q
,
k
gdzie p ∈ (0, 1) oraz k = 0, 1, . . . , n.
O zmiennej losowej X mówimy, że ma rozkład dwumianowy (X ∼ B(n, p)).
38
Przykład. Dziesięciu robotników używa z przerwami
energię elektryczną. Jakiego należy oczekiwać obciążenia, jeżeli
1. W każdej danej chwili każdy robotnik ma to samo
prawdopodobieństwo p zapotrzebowania na jednostkę energii.
2. Robotnicy pracują niezależnie od siebie.
3. Przeciętnie jeden robotnik używa dostarczanej
energii w ciągu 12 minut na godzinę.
Niech X oznacza liczbę robotników, którzy potrzebują
energii w tym samym czasie.
X ∼ B(10, 1/5).
Wówczas, jeżeli dopływ energii jest ustalony na poziomie sześciu jednostek, to przeciążenie ma szanse:
P (X > 7) = 0.0008643584
(?)
W ciągu 20 godzin powinno trwać łącznie przez
około minutę.
¥
39
Rozkład Poissona
Zmienna losowa X ma rozkład Poissona z parametrem
λ > 0 (X ∼ P0 (λ)), jeżeli:
e−λ λk
,
P (X = k) =
k!
k = 0, 1, . . .
Rozkład Poissona a rozkład dwumianowy.
Załóżmy, że liczba doświadczeń n w poszczególnych
seriach schematu Bernoulliego wzrasta dążąc do nieskończoności a prawdopodobieństwo p dąży do zera
tak, że iloczyn np jest wielkością stałą równą λ > 0.
Wtedy zachodzi
n k
e−λ λk
n−k
p (1 − p)
lim
=
.
n→∞ k
k!
Wynika to z rozpisania:
n
k
k
p (1 − p)n−k =
k n−k
1
λ
λ
= (n − k + 1)(n − k + 2) . . . n
1−
k!
n
n
λk
k−1
k−2
=
1−
1−
...
k!
n
n
n−k
1
λ
... 1 −
1 1−
n
n
40
Przykład. Jakie jest prawdopodobieństwo pk , że
wśród 500 ludzi dokładnie k będzie miało urodziny w
dniu Nowego Roku?
Jeżeli 500 ludzi zostało wybranych losowo, to możemy
zastosować schemat 500 prób Bernoulliego z prawdopodobieństwem sukcesu 1/365. Wówczas
p0 = (364/365)500 = 0.2537 . . .
Dla przybliżenia Poissona bierzemy
λ = 500/365 = 1.3699 . . .
Wtedy
e−1.3699 1.36990
≈ 0.2541
p0 ≈
0!
¥
41
Ujemny rozkład dwumianowy.
Prowadzimy doświadczenia według schematu Bernoulliego do momentu pojawienia się r−tego sukcesu.
Niech X oznacza liczbę porażek poprzedzających r−ty
sukces.
r + k − 1 r−1 k
r+k−1 r k
p q ·p =
p q
P (X = k)=
k
k
gdzie q = 1 − p, k = 0, 1, . . .
O zmiennej losowej X mówimy, że ma ujemny rozkład
dwumianowy (X ∼ f (r, p)). Zakładamy, że r > 0 oraz
0 < p < 1.
Uwaga. Możemy przyjąć, że r > 0 nie musi być liczbą
całkowitą. Wtedy przyjmujemy następującą definicję
symbolu Newtona (dla a ∈ R oraz k > 0)

a(a − 1)(a − 2) . . . (a − (k − 1))



k!
a
:=

k


1
0
42
,k ∈ N
,k = 0
,k ∈
/Z
Przykład. Zadanie Banacha o pudełkach zapałek.
Mamy dwa pudełka zapałek – jedno w prawej kieszeni
i jedno w lewej. Kiedy potrzebujemy zapałkę, wybieramy jedną z kieszeni losowo. Przypuśćmy, że początkowo każde z pudełek zawiera N zapałek. Ile wynosi
prawdopodobieństwo, że gdy wyciągniemy puste pudełko, w drugim będzie dokładnie m zapałek.
X – liczba wyciągnięć pudełka z prawej kieszeni do
momentu aż w drugim pudełku będzie m zapałek
Y – . . . z lewej kieszeni . . .
X ∼ f (N − m, 0.5),
Y ∼ f (N − m, 0.5)
Poszukiwane prawdopodobieństwo wynosi
P ({X = N + 1} ∪ {Y = N + 1}) =
= P (X = N + 1) + P (Y = N + 1)
¥
43
Rozkład wielomianowy
uogólnienie rozkładu dwumianowego
Wykonujemy serię n niezależnych prób. Każda próba
może mieć jeden z kilku wyników, np. E1, E2, . . . , Er .
Prawdopodobieństwo realizacji Ei w każdej próbie wynosi pi , i = 1, 2, . . . , r.
Prawdopodobieństwo, że w n próbach E1 występuje
k1 razy, E2 występuje k2 razy itd. wynosi
n!
pk11 pk22 . . . pkr r
k1 !k2 ! . . . kr !
44
Zmienne losowe typu ciągłego
Definicja. Mówimy, że zmienna losowa o dystrybuancie F jest typu ciągłego, jeżeli istnieje taka funkcja
f ≥ 0, że dla każdego x zachodzi równość
Zx
F (x) =
f (u) du
−∞
Funkcję f nazywamy gęstością prawdopodobieństwa
zmiennej losowej X lub w skrócie gęstością
Uwagi
(1) W punktach, w których f jest ciągła zachodzi
d
F (x) = f (x)
dx
R∞
(2) −∞ f (x) dx = 1
(3) Każda funkcja f nieujemna i spełniająca (2)
wyznacza dystrybuantę F za pomocą wzoru
Zx
F (x) =
f (u) du
−∞
45
Przykład. Sprawdzić, czy funkcja f określona wzorem
0
dla x < 0
f (x) =
e−x dla x ≥ 0
jest gęstością.
Z∞
Z∞
f (x) dx =
−∞
e
−x
−x ∞
dx = −e
=1
0
0
¥
Przykłady zmiennych losowych ciągłych:
•
•
•
•
•
rozkład
rozkład
rozkład
rozkład
rozkład
normalny N (µ, σ 2 )
jednostajny U (a, b)
gamma G(b, p)
beta B(p, q)
Cauchyego C(µ, λ)
46
N (µ, σ 2 ), σ > 0
1
−(x − µ)2
f (x) = √ exp
2σ 2
σ 2π
U (a, b), a < b


1
, x ∈ [a, b],
b−a
f (x) =

0,
x∈
/ [a, b]
G(b, p), b > 0, p > 0
 p
 b xp−1 e−bx , x > 0
Γ(p)
f (x) =

0,
x≤0
gdzie
Z∞
xp−1 e−x dx
Γ(p) =
0
47
B(p, q), b > 0, p > 0


1
xp−1 (1 − x)q−1 , x ∈ (0, 1)
B(p, q)
f (x) =

0,
x∈
/ (0, 1)
gdzie
Z1
xp−1 (1 − x)q−1 dx
B(p, q) =
0
a także
B(p, q) =
Γ(p)Γ(q)
Γ(p + q)
C(µ, λ), λ > 0
f (x) =
λ
1
π λ2 + (x − µ)2
48
Przykład. Sprawdzimy, że rozkład N (µ, σ 2 ) jest rzeczywiście rozkładem prawdopodobieństwa:
Z∞
−∞
1
−(x − µ)2
√ exp
dx =
2
2σ
σ 2π
podstawienie: y = (x − µ)/σ
Z∞
1
y2
=√
exp −
dy =
2
2π
−∞
Należy
zatem sprawdzić, że ostatnia całka równa jest
√
2π. Ponadto zauważmy, że przy okazji otrzymaliśmy
następujący fakt
X ∼ N (µ, σ 2 ) ⇒
X −µ
∼ N (0, 1)
σ
49

Z∞

exp −
−∞
Z∞
=
−∞
Z∞
y
2
2
2
dy  =
Z∞
2
2
x
y
exp −
dx ·
exp −
dy =
2
2
−∞
Z∞
=
2
exp −
−∞ −∞
x +y
2
2
dx dy =
przejście na współrzędne biegunowe:
ϕ(r, t) = (r cos t, r sin t)
cos(t) −r sin(t) =r
Jϕ(r, t) = sin(t)
r cos(t) Z∞ Z2π
=
exp −
0
0
= 2π − exp
2
r
2
−r
2
Z∞
r dr dt = 2π
0
2 ∞
2
r
exp −
r dr =
2
= 2π
0
¥
50
Funkcje zmiennej losowej
Przykład. Niech Y = aX + b, gdzie a 6= 0 oraz X jest
zmienną losową o rozkładzie
P (X = 0) = 1/4, P (X = 1) = 3/4.
Chcemy znaleźć rozkład zmiennej losowej Y .
P (X = 0) = P (Y = b) = 1/4
P (X = 1) = P (Y = a + b) = 3/4
¥
Przykład. Niech X będzie zmienną losową typu ciągłego o gęstości fX , dystrybuancie FX oraz niech Y =
aX + b, a < 0. Chcemy znaleźć rozkład Y
y−b
)=
FY (y) = P (Y ≤ y) = P (X ≥
a
y−b
y−b
=1−P X <
= 1 − FX
a
a
Zatem fY (y) =
d
1
FY (y) = − fX
dy
a
51
y−b
a
¥
Przykład. Niech X oznacza zmienną losową ciągłą
o dystrybuancie FX oraz gęstości fX . Niech fX jest
funkcją ciągłą, a g funkcją ściśle monotoniczną oraz
niech h = g −1 . Wtedy dystrybuantą zmiennej losowej
Y = g(X) jest:
(dla g - rosnącej)
FY (y) = P (Y ≤ y) = P (g(X) ≤ y)
= P (X ≤ h(y)) = FX (h(y))
Jeżeli h jest funkcją różniczkowalną, to
d
FY (y) = fX (h(y))h0 (y)
dy
jest gęstością zmiennej losowej Y = g(X)
(dla g - malejącej)
FY (y) = P (Y ≤ y) = P (g(X) ≤ y)
= P (X ≥ h(y)) = 1 − FX (h(y))
Jeżeli h jest funkcją różniczkowalną, to
d
FY (y) = fX (h(y))(−h0 (y))
dy
jest gęstością zmiennej losowej Y = g(X)
52
Zatem w obu przypadkach
fY (y) = fX (h(y))|h0 (y)|
¥
Przykład. Niech X
losowa typu
√– nieujemna zmienna
ciągłego oraz Y = X. Zatem h(y) = y 2 oraz
fY (y) = 2y · fX (y 2 ) · I(0,∞) (y)
Uwaga. IA (x) =
1,
0,
x∈A
x∈
/A
¥
Przykład. Niech X – zmienna losowa typu ciągłego
oraz Y = X 2 .
√
√
2
FY (y) = P (X ≤ y) = P (− y ≤ X ≤ y) =
√
√
= P (X ≤ y) − P (X ≤ − y)
√
√
= FX ( y) − FX (− y)
d
d
√
√
FY (y) =
(FX ( y) − F (− y)) =
fY (y) =
dy
dy
1
√
√
= √ (fX ( y) + fX (− y))
2 y
¥
53
Twierdzenie 9.
Niech X będzie zmienną losową typu ciągłego. Niech
g będzie funkcją określoną na zbiorze
n
[
[ak , bk ],
k=1
która na każdym przedziale otwartym (ak , bk ) jest
funkcją ściśle monotoniczną oraz ma ciągłą pochodną
g(x)0 6= 0. Niech hk (y) będzie funkcją odwrotną do
funkcji g(x) na przedziale
Ik = g((ak , bk )) = {y : x ∈ (ak , bk ), g(x) = y}.
Wówczas funkcja gęstości zmiennej losowej Y = g(X)
ma następującą postać
fY (y) =
n
X
fX (hk (y)) · |h0 (y)| · IIk (y)
k=1
Przykład. X− ciągła, Y = X 2 . Wtedy g(x) = x2 ,
√
√
¥
h1 (y) = − y, h2 (y) = y, I1 = I2 = (0, ∞).
54
Dowód. Niech A ∈ B(R)
P (Y ∈ A) = P (g(X) ∈ A) = P (X ∈ g −1 (A))
n
X
=
P (X ∈ (ak , bk ) ∩ g −1 (A))
=
=
=
=
k=1
n
X
k=1
n
X
k=1
n
X
=
P (X ∈ g −1 (Ik ∩ A))
P (X ∈ hk (Ik ∩ A))
k=1
n
X
k=1
=
P (X ∈ g −1 (Ik ) ∩ g −1 (A))
Z
fX (x) dx
hk (Ik ∩A)
Z
n
X
fX (hk (y)) · |h0k (y)| dy
k=1 I ∩A
k
Z X
n
fX (hk (y)) · |h0k (y)| · IIk dy
A k=1
Pytanie: Czy coś by się zmieniło, gdyby n = ∞? ¥
55
Wektory losowe
Definicja. Wektor losowy X = (X1 , . . . , Xn ) to odwzorowanie
X : Ω → X ⊆ Rn
o własności:
{ω ∈ Ω : X1 (ω) ≤ x1 , . . . , Xn (ω) ≤ xn } ∈ F
dla dowolnego (x1 , x2 , . . . , xn ) ∈ Rn
X – zbiór wartości wektora losowego
Często
X = {0, 1, . . . }n , X = [0, ∞)n , X = [a, b]n , X = Rn
Definicja. Rozkładem prawdopodobieństwa wektora
losowego X nazywamy rozkład prawdopodobieństwa
PX określony wzorem
PX (A) = P ({ω ∈ Ω : X(ω) ∈ A}) dla A ∈ B(X )
56
Definicja. Trójkę (X , B(X ), PX ) nazywamy modelem
probabilistycznym.
Definicja. Funkcja FX : Rn → [0, 1] postaci
FX (x1 , . . . , xn ) = P (X1 ≤ x1 , . . . , Xn ≤ xn )
nazywamy dystrybuantą wektora losowego X
Definicja. Wektor losowy jest typu skokowego, jeżeli
istnieje zbiór przeliczalny X ⊂ Rn , taki że PX (X ) = 1
Definicja. Wektor losowy jest typu ciągłego, jeżeli istnieje nieujemna funkcja fX (x1 , x2 , . . . , xn ), zwana
gęstością, taka że dla każdego x = (x1 , x2 , . . . , xn ) ∈
Rn
Zx1
FX (x) =
Zx2
···
−∞
fX (u1 , . . . , un ) du1 . . . dun
−∞
57
Uwagi
Prawie wszędzie ma miejsce równość
∂FX (x1 , . . . , xn )
= fX (x1 , . . . , xn )
∂x1 , . . . , ∂xn
Dla dowolnego A ∈ B(Rn ) zachodzi
Z
fX (x) dx
A
Zauważmy, że
P (X1 ∈ A) = P (X1 ∈ A, X2 ∈ R, . . . , Xn ∈ R)
Z Z∞
Z∞
=
···
fX (x1 , . . . , xn ) dx1 . . . dxn
A −∞
Z

−∞
Z∞

=
A

Z∞
fX (x1 , . . . , xn ) dx2 . . . dxn  dx1
···
−∞
−∞
Zatem
Z∞
fX1 (x1 ) =
Z∞
···
−∞
fX (x1 , . . . , xn ) dx2 . . . dxn
−∞
Jest to tzw. brzegowa gęstość prawdopodobieństwa.
58
Dla rozkładów brzegowych wielowymiarowych mamy:
f(X1 ,X2 ) (x1 , x2 ) =
Z∞
Z∞
···
fX (x1 , . . . , xn ) dx3 . . . dxn
=
−∞
−∞
f(X1 ,X2 ,X3 ) (x1 , x2 , x3 ) =
Z∞
Z∞
=
···
fX (x1 , . . . , xn ) dx4 . . . dxn
−∞
−∞
itd.
Podobnie postępuje się przy rozkładach skokowych:
Przykład. Niech wektor losowy (X, Y ) ma rozkład
określony liczbami
pik = P (X = xi , Y = yk ), gdzie i ∈ I, k ∈ K.
Wówczas rozkład zmiennej losowej X określają liczby
pi = P (X = xi ) =
X
pik , gdzie i ∈ I
k∈K
¥
59
Przykład.
Niech (X, Y ) ma rozkład równomierny
na Ω = [0, 2] × [0, 3]:
fX,Y (x, y) =
1
IΩ (x, y).
6
Wówczas
Z∞
fX (x) =
−∞
1
=
6
=
1
fX,Y (x, y) dy =
6
Z∞
IΩ (x, y) dy =
−∞
Z∞
I[0,2] (x) · I[0,3] (y) dy =
−∞
1
I[0,2] (x)
6
Z∞
I[0,3] (y) =
−∞
1
I[0,2] (x)
2
¥
60
Przykład. Niech (X1 , X2 ) ma dwuwymiarowy rozkład normalny, tzn:
1
fX1 ,X2 (x1 , x2 ) =
1
%2 ) 2
·
2πσ1 σ2 (1 −
"
2
x1 − µ1
1
· exp −
+
2(1 − %2 )
σ1
#)
2
x2 − µ2
(x1 − µ1 )(x2 − µ2 )
+
− 2%
σ2
σ1 σ2
(
gdzie σ1 , σ2 > 0 oraz % ∈ (−1, 1)
Rozpisujemy wyrażenie w nawiasie kwadratowym:
2 2
x1 − µ1
(x1 − µ1 )(x2 − µ2 )
x2 − µ2
+
− 2%
=
σ1
σ2
σ1 σ2
2 2
x1 − µ1
x2 − µ2
=
+
σ1
σ2
2
2
2 (x2 − µ2 )
2 (x2 − µ2 )
−%
+%
2
σ2
σ22
(x1 − µ1 )(x2 − µ2 )
− 2%
=
σ1 σ2
61
2
2
x1 − µ1
x2 − µ2
2 (x2 − µ2 )
=
−%
+ (1 − % )
=
2
σ1
σ2
σ2
2
2
1
σ1
2 (x2 − µ2 )
= 2 x1 − µ1 − % (x2 − µ2 ) + (1 − % )
σ1
σ2
σ22
Zatem wyrażenie w nawiasie klamrowym ma postać:
h(x1 ,x2 )
z
}|
{
2
1
σ1
−
x1 − µ1 − % (x2 − µ2 ) −
2(1 − %2 )σ12
σ2
1
− 2 (x2 − µ2 )2
2σ2
Zatem
fX1 ,X2 (x1 , x2 ) =
1
1
%2 ) 2
·
2πσ1 σ2 (1 −
1
· exp h(x1 , x2 ) − 2 (x2 − µ2 )2
2σ2
62
Zauważmy, że
1
p
g(x1 ) :=
exp(h(x1 , x2 ))
2
2π(1 − % )σ1
jest gęstością rozkładu
N
σ1
µ1 + % (x2 − µ2 ), (1 − %2 )σ12
σ2
Zatem
Z∞
fX2 (x2 ) =
fX1 ,X2 (x1 , x2 ) dx1 =
−∞
=√
1
exp
2πσ2
1
2
(x
−
µ
)
2
2
2σ22
Z∞
g(x1 ) dx1
−∞
|
{z
}
=1
Wniosek: Rozkład brzegowy dwuwymiarowego rozkładu normalnego jest jednowymiarowym rozkładem normalnym
¥
63
Niezależność zmiennych losowych
Definicja. Niech (Ω, F, P ) będzie przestrzenią probabilistyczną, a X1 , X2 , . . . , Xn będą zmiennymi losowymi określonymi na tej przestrzeni. Mówimy, że
te zmienne losowe są niezależne, jeżeli dla dowolnych
zbiorów borelowskich A1 , A2 , . . . , An zachodzi:
P (X1 ∈ A1 , . . . Xn , ∈ An ) =
= P (X1 ∈ A1 ) . . . P (Xn ∈ An )
Definicja. Mówimy, że zmienne losowe X1 , X2 , . . .
są niezależne, jeżeli każdy skończony podciąg ciągu
X1 , X2 , . . . składa się z niezależnych zmiennych losowych
Twierdzenie 10.
Dla zmiennych losowych X1 , X2 , . . . , Xn następujące
warunki są równoważne
(i) zmienne losowe są niezależne
(ii) dla x = (x1 , x2 , . . . , xn ) ∈ Rn
FX (x) = FX1 (x1 ) . . . FXn (xn )
64
Twierdzenie 11. Jeżeli X = (X1 , X2 , . . . , Xn ) jest
wektorem losowym typu skokowego to warunkiem koniecznym i wystarczającym niezależności zmiennych
losowych X1 , X2 , . . . , Xn jest:
P (X1 = x1 , . . . , Xn = xn ) =
= P1 (X1 = x1 ) . . . Pn (Xn = xn ),
dla każdego (x1 , . . . , xn ) ∈ Rn , gdzie Pk oznacza brzegowy rozkład prawdopodobieństwa zmiennej losowej
Xk (k = 1, 2, . . . , n).
Twierdzenie 12. Jeżeli X = (X1 , X2 , . . . , Xn ) jest
wektorem losowym typu ciągłego o gęstości fX , to warunkiem koniecznym i wystarczającym niezależności
zmiennych losowych X1 , X2 , . . . , Xn jest:
fX (x) = fX1 (x1 ) . . . fXn (xn ),
dla każdego x = (x1 , . . . , xn ) ∈ Rn , gdzie fXk jest
gęstością rozkładu brzegowego zmiennej losowej Xk
(k = 1, . . . , n )
65
Przykład. Niech X1 , X2 ma łączny rozkład normalny.
Chcemy znaleźć warunek konieczny i wystarczający
na niezależność zmiennych X1 oraz X2 . Z twierdzenia
mamy, że powinno zachodzić
fX1 ,X2 (x1 , x2 ) = fX1 (x1 )fX2 (x2 )
Ponieważ
1
fX1 ,X2 (x1 , x2 ) =
1
%2 ) 2
·
2πσ1 σ2 (1 −
(
"
2
1
x1 − µ1
· exp −
+
2
2(1 − % )
σ1
#)
2
(x1 − µ1 )(x2 − µ2 )
x2 − µ2
+
− 2%
σ2
σ1 σ2
oraz
fX1 (x1 ) =
fX2 (x2 ) =
1
√
σ1 2π
σ2
1
√
exp
2
−(x1 − µ1 )
2σ12
−(x2 − µ2 )2
exp
2σ22
2π
zauważamy, że warunkiem tym jest % = 0
66
¥
Przykład. Niech Xi ∼ N (µi , σi2 ), i = 1, 2, · · · , n.
Wówczas
n
Y
fXi (xi ) =
i=1
"
n
X
2
#
1
1
(xi − µi )
= Q
exp −
=
n
√
2 i=1
σi2
(σi 2π)
i=1
1
1
=p
exp − (x − µ)Σ−1 (x − µ)0 ,
2
(2π)n |Σ|
gdzie x = (x1 , x2 , . . . , xn ), µ = (µ1 , µ2 , . . . , µn )
oraz


Σ=
σ12
0
..
.



σn2
0
Wniosek: Jeżeli X = (X1 , X2 , . . . , Xn ) ∼ Nn (µ, Σ),
to warunkiem koniecznym i dostatecznym niezależności zmiennych losowych Xi , i = 1, 2, . . . , n jest to, aby
macierz Σ była diagonalna.
¥
67
Twierdzenie 13.
(a) Jeżeli zmienne losowe X1 , X2 , . . . , Xn są niezależne oraz g1 , g2 , . . . , gn są funkcjami borelowskimi, to zmienne losowe
Y1 = g1 (X1 ), . . . , Yn = gn (Xn )
są również niezależne.
(b) Jeżeli X1 , . . . , Xm , Y1 , . . . , Yn są niezależnymi
zmiennymi losowymi oraz
f : Rm → R i
g : Rn → R
są funkcjami borelowskimi, to
U = f (X1 , . . . , Xm ) i
V = g(Y1 , . . . , Yn )
są niezależnymi zmiennymi losowymi, a także
U, Y1 , . . . , Yn
są niezależnymi zmiennymi losowymi.
68
Przykład. Niech Xi ∼ N (0, 1), i = 1, 2 będą zmiennymi niezależnymi.
Chcemy znaleźć rozkład zmiennej losowej X12 + X22 .
Ponieważ zmienne X1 , X2 są niezależne, to zmienne
Y1 = X12 , Y2 = X22 też są niezależne. Zatem
fY1 ,Y2 (y1 , y2 ) = fY1 (y1 )fY2 (y2 )
Ponieważ
1
√
√
fYi (yi ) = √ (fXi ( yi ) + fXi (− yi )) I(0,∞) (yi )
2 yi
oraz
2
1
−xi
fXi (xi ) = √ exp
2
σ 2π
mamy
h y i
1
i
fYi (yi ) = √
exp −
I(0,∞) (yi )
2
2πyi
69
Niech Z = X12 + X22 = Y1 + Y2 .
Z
FZ (z) = P (Y1 + Y2 ≤ z) =
fY1 ,Y2 (y1 , y2 ) dy1 dy2 =
Y1 +Y2 ≤z

 z−y
∞
2
Z
Z

fY1 ,Y2 (y1 , y2 ) dy1  dy2 =
=
−∞
−∞
−∞
−∞


Z∞ z−y
Z 2

=
fY1 (y1 ) dy1  fY2 (y2 )dy2 =
Z∞


=
−∞
Zz
fY1 (y1 − y2 ) dy1  fY2 (y2 )dy2 =
−∞

−∞

Z∞

=

Zz
fY1 (y1 − y2 )fY2 (y2 ) dy2  dy1
−∞
Zmiana oznaczeń dla funkcji w nawiasach:
z := y1 , x := y2
Zatem fZ (z) =
R∞
−∞
fY1 (z − x)fY2 (x) dx
70
Robimy odpowiednie podstawienie i otrzymujemy
dla z > 0:
1
fZ (z) =
2π
Zz
0
z−x+x
p
exp −
dx =
2
(z − x)x
1
Zz
h
i
1
z
1
p
=
exp −
dx =
2π
2
(z − x)x
0
podstawienie t := x/z
Z1
h
i
1
z
− 12
− 12
=
exp −
t (1 − t) dt =
2π
2
0
h zi
1
=
exp − B(1/2, 1/2) =
2π
2
h z i Γ( 1 )Γ( 1 )
1
2
2
exp −
=
=
1
1
2π
2 Γ( 2 + 2 )
h zi
1
= exp −
2
2
Zatem
h zi
1
fZ (z) = exp − I(0,∞) (z)
2
2
71
Można pokazać przez indukcję ze względu na n, że
zmienna losowa Z = X12 + . . . + Xn2 ma rozkład o gęstości
fZ (z) =
1
n/2−1 −z/2
z
e
I(0,∞) (z)
n/2
2 Γ(n/2)
Jest to tzw. rozkład chi-kwadrat o n stopniach swobody. Symbolicznie piszemy
X12 + . . . + Xn2 ∼ χ2 (n)
Fakt.
m
P
λi Xi2 ∼ χ2 (n), Xi2 ∼ χ2 (1)
i=1
72
⇒
m = n, λi = 1¥
Parametry rozkładów
Wartość oczekiwaną (wartość przeciętna, nadzieję matematyczną) zmiennej losowej X oznaczamy symbolem
E(X) i określamy w następujący sposób:
Dla zmiennej losowej skokowej
Jeżeli X jest zmienną losową typu skokowego, X =
{x1 , x2 , . . . }, przy czym szereg
X
|xk |P (X = xk )
k
jest zbieżny, to
E(X) =
X
xk P (X = xk )
k
Dla zmiennej losowej ciągłej
Jeżeli X jest zmienną losową typu ciągłego o gęstości
f i zbieżna jest całka
Z
|x|f (x) dx,
R
to
Z
E(X) =
x f (x) dx
R
Ogólnie: E(X) =
R
Ω
X(ω)dP (ω)
73
Przykład. Niech X = {0, 1}, P (X = 0) = q,
P (X = 1) = p = 1 − q. Wówczas
E(X) = 0 · q + 1 · p = p
¥
Przykład. Niech X ∼ B(n, p). Wówczas
n
X
n k n−k
E(X) =
k
p q
=
k
=
k=0
n
X
k=1
= np
k
n!
pk−1 q n−k =
k!(n − k)!
n
X
k=1
(n − 1)!
pk−1 q n−k =
(k − 1)!(n − k)!
= np (p + q)n−1 = np
¥
Przykład. Niech X ∼ Po (λ). Wówczas
E(X) =
∞
X
k=0
∞
X λk−1
λk −λ
−λ
k·
e = λe ·
=
k!
(k − 1)!
= λe−λ
k=1
∞
X
λr
r=0
r!
= λe−λ eλ = λ
¥
74
Przykład. Niech X ∼ N (µ, σ 2 ). Wówczas
Z∞
1
−(x − µ)2
E(X) = √
dx
x exp
2
2σ
σ 2π
−∞
Stosujemy podstawienie z =
1
E(X) = √
2π
µ
√
=
2π
x−µ
i otrzymujemy
σ
Z∞
2
− z2
(µ + σz)e
−∞
Z∞
2
− z2
e
−∞
dz =
σ
√
dz +
2π
Z∞
ze
2
− z2
dz =
−∞
√
µ
σ
= √ · 2π + √ · 0 = µ
2π
2π
¥
Przykład. Niech X ∼ C(0, 1). Wówczas
Z∞
−∞
|x|
dx = 2 lim
A→∞
π(1 + x2 )
ZA
0
x
dx =
π(1 + x2 )
1
ln(1 + A2 ) = ∞
A→∞ 2π
Wniosek: Dla rozkładu Cauchy’ego wartość oczekiwana nie istnieje.
¥
= 2 lim
75
Własności wartości oczekiwanej
Jeżeli E(X) < ∞, E(Y ) < ∞, to
(i) E(X + Y ) = E(X) + E(Y )
(ii) E(aX + b) = aE(X) + b, dla a, b ∈ R
R∞
(iii) Jeżeli X ≥ 0, to E(X) = P (X > t) dt
0
(iv) Jeżeli X oraz Y są niezależne, to
E(XY ) = E(X)E(Y )
Przykład. Niech Xi , i = 1, 2, . . . n, ma rozkład dwupunktowy:
P (Xi = 0) = q,
P (Xi = 1) = p
Jeżeli zdarzenia Ai = {Xi = 1} są niezależne, to
X=
n
X
Xi ∼ B(n, p)
k=1
Zatem
E(X) =
n
X
E(Xk ) =
k=1
n
X
p = np
k=1
¥
76
Twierdzenie 14. Jeżeli funkcja ϕ jest borelowska, to
(i) Dla X z rozkładu skokowego
X
E(ϕ(X)) =
ϕ(xk )P (X = xk )
k
(ii) Dla X z rozkładu ciągłego o gęstości f (x)
Z
E(ϕ(X)) = ϕ(x)f (x) dx
R
Przykład. Znaleźć wartość oczekiwaną pola prostokąta, którego obwód jest równy 10, a jeden bok jest
zmienną losową X o rozkładzie U [1, 10].
Pole = X(10 − X), fX (x) = 19 I[1,10] (x)
Z∞
E(X(10 − X)) =
x(10 − x)fX (x) dx =
−∞
=
1
9
Z10
x(1 − x) dx = 18
1
¥
77
Problem. Jak możliwie najdokładniej zmierzyć długości dwóch prętów za pomocą zwykłej miarki, jeśli
wolno mierzyć tylko dwa razy?
Propozycje
1. Mierzymy osobno każdy pręt.
2. Mierzymy sumę długości prętów, składając je
razem, a potem – różnicę.
Miernik precyzji pomiaru.
Wynik pomiaru = rzeczywista długość + błąd
X =x+ε
E(X − x)2 = E(ε)2
ad 1.
Niech Xi oznacza pomiar i – tego pręta, i = 1, 2. Zatem Xi = xi + εi . Wielkość błędu pomiaru pierwszego
pręta wynosi E(ε1 )2 , a drugiego E(ε2 )2 . Rozsądnie jest
przyjąć
E(ε1 )2 = E(ε2 )2 = σ 2
78
ad 2.
Niech S oznacza pomiar sumy długości prętów oraz R
różnicę.
S = x1 + x2 + ε1
R = x1 − x2 + ε2
Jako oszacowanie x1 przyjmujemy
S+R
ε1 + ε2
= x1 +
2
2
Jako oszacowanie x2 przyjmujemy
S−R
ε1 − ε2
= x2 +
2
2
Rozsądnie jest przyjąć, że
E(ε1 ) = E(ε2 ) = 0,
oraz ε1 , ε2 niezależne
Na mocy twierdzenia 19, 20 oraz założeń:
2
1
1
1
ε1 ± ε2
2
2
E
= E(ε1 ) + E(ε2 ) ± E(ε1 )E(ε2 )
2
4
4
2
1
1
σ2
2
2
= E(ε1 ) + E(ε2 ) ± 0 · 0 =
4
4
2
Średni kwadrat błędu jest dwa razy mniejszy niż poprzednio.
79
Zauważmy, że jeżeli E(ε) = 0 to E(X) = x. Zatem
E(X − x)2 = E(X − E(X))2
Definicja. Jeżeli E(X − EX)2 < ∞, to tę liczbę nazywamy wariancją zmiennej losowej X i oznaczamy:
D2 X = E(X − EX)2 .
Uwaga.
D2 X = E(X − EX)2 = E(X 2 − 2X · EX + (EX)2 )
= EX 2 − (EX)2
Definicja. Pierwiastek z wariancji nazywamy odchyleniem standardowym i oznaczamy przez DX.
80
Własności wariancji
Jeżeli X jest zmienną losową, dla której EX 2 < ∞, to
istnieje D2 X oraz:
(i) D2 X ≥ 0
(ii) D2 (cX) = c2 D2 X
(iii) D2 (X + a) = D2 X
(iv) D2 X = 0 wtedy i tylko wtedy, gdy zmienna
losowa X jest z prawdopodobieństwem 1 stała
Uwaga.
E(X − t)2 =E(X − EX + EX − t)2
=E(X − EX)2 + E(X − t)2 −
− 2E((X − EX)(EX − t))
=E(X − EX)2 + E(X − t)2 −
− 2E(X − EX) · E(EX − t)
≥E(X − EX)2
Zatem funkcja f (t) = E(X − t)2 przyjmuje minimum
– równe wariancji – dla t = EX.
81
Przykład. Zagadnienie regresji liniowej. Chcemy
zmienną Y w rozsądny sposób przybliżyć przy pomocy
funkcji liniowej zmiennej X. Za kryterium jakości przybliżenia przyjmiemy średni kwadrat błędu:
wyznaczyć takie liczby a i b, ażeby E(Y − aX − b))2
była minimalna.
Na podstawie uwagi
b = E(Y − aX) = EY − aEX
Zatem szukamy takiego a, które minimalizuje
E(Y − aX − (EY − aEX)))2 =
= E(Y − EY − a(X − EX))2
= D2 Y + a2 D2 X − 2aE((Y − EY )(X − EX))
Mamy tu funkcję kwadratową względem a. Zatem
E((Y − EY )(X − EX))
a=
D2 X
82
Oznaczając
%(X, Y ) =
mamy
E((Y − EY )(X − EX))
√
D2 X · D2 Y
aX + b = %(X, Y )
oraz
DY
(X − EX) + EY
DX
min E(Y − aX − b)2 = (1 − %(X, Y )2 )D2 Y
a,b
¥
Definicja. Kowariancją całkowalnych zmiennych losowych X, Y , spełniających warunek E|XY | < ∞, nazywamy wielkość
Cov(X, Y ) = E((Y − EY )(X − EX)).
Definicja. Współczynnikiem korelacji zmiennych
X, Y nazywamy wielkość
E((Y − EY )(X − EX))
√
%(X, Y ) =
.
2
2
D X ·D Y
Uwaga. Z ostatniej równości w przykładzie wynika:
(i) −1 ≤ %(X, Y ) ≤ 1
(ii) |%(X, Y )| = 1 wtedy i tylko wtedy, gdy istnieją
liczby a 6= 0 oraz b takie, że P (Y = aX + b) = 1
83
Wariancja sumy zmiennych losowych
Jeżeli każda ze zmiennych losowych X1 , X2 , . . . , Xn
ma wariancję, to istnieje wariancja sumy i
2
D (X1 +. . .+Xn ) =
n
X
2
D Xi +2
i=1
X
Cov(Xi , Xj )
1≤i<j≤n
Definicja. Zmienne losowe X, Y , dla których
Cov(X, Y ) = 0,
czyli %(X, Y ) = 0,
nazywamy nieskorelowanymi.
Wniosek. Jeśli zmienne losowe X1 , X2 , . . . , Xn mają
wariancję i są parami nieskorelowane, to
D2 (X1 + . . . + Xn ) =
n
X
D2 Xi
i=1
(?)
Uwaga. Jeżeli X, Y są niezależne, to są nieskorelowane.
Odwrotny fakt nie zachodzi (chyba, że mamy do czynienia z rozkładem normalnym)
84
Przykład. Niech (X1 , X2 ) ma dwuwymiarowy rozkład normalny. Policzmy Cov(X1 , X2 ). Zgodnie z przekształceniami z przykładu na rozkład brzegowy dwywymiarowego rozkładu normalnego mamy:
fX1 ,X2 (x1 , x2 ) = fX2 (x2 ) g(x1 , x2 )
| {z }
g(x1 )−prz.
gdzie fX2 (x2 ) jest gęstością rozkładu N (µ2 , σ22 ) oraz
g(x1 , x2 ) traktowana jako funkcja zmiennej x1 z parametrem x2 , jest funkcją gęstości zmiennej
N
µ1 + %
σ1
(x2 − µ2 ), (1 − %2 )σ12
σ2
Zatem
Cov(X1 , X2 ) = E((X1 − µ1 )(X2 − µ2 )) =
Z∞ Z∞
=
(x1 − µ1 )(x2 − µ2 )fX2 (x2 )g(x1 , x2 ) dx1 dx2 =
−∞ −∞
85

Z∞
=
(x2 − µ2 )fX2 (x2 )·
−∞


Z∞
·
(x1 − µ1 )g(x1 , x2 ) dx1  dx2
−∞
Zatem

Z∞
=
(x2 − µ2 )fX2 (x2 )·
−∞
σ1
· µ1 + % (x2 − µ2 ) − µ1
dx2
σ2
A zatem
σ1
=%
σ2
Z∞
σ1 2
(x2 − µ2 ) fX2 (x2 )dx2 = % σ2 = %σ1 σ2
σ2
2
−∞
Stąd %(X, Y ) = %. Zatem X, Y niezależne ⇔ X, Y nieskorelowane.
¥
86
Rozkłady warunkowe
Przykład. Niech (X, Y ) – dwuwymiarowy wektor losowy typu skokowego
X ∈ {x1 , x2 , . . . },
Y ∈ {y1 , y2 , . . . }
Rozkład
pij := P (X = xi , Y = yj )
Prawdopodobieństwa brzegowe
X
X
P (X = xi ) =
pik , P (Y = yk ) =
pik
i
k
Zachodzi
P (X = xi |Y = yk ) ≥ 0,
X
P (X = xi |Y = yk ) = 1
i
P (Y = yk |X = xi ) ≥ 0,
X
P (Y = yk |X = xi ) = 1
k
¥
Zatem dla ustalonego yk
P ( · |Y = yk )
jest rozkładem prawdopodobieństwa.
Podobnie
P ( · |X = xi )
87
Przykład. Rzut dwiema kostkami.
X – wynik rzutu pierwszą kostką
Y – wynik rzutu drugą kostką
U := min{X, Y },
V := max{X, Y }
u\v
1
2
3
4
5
6
P (U = u)
1
1
36
2
0
1
36
1
36
3
0
0
2
36
2
36
1
36
4
0
0
0
2
36
2
36
2
36
1
36
5
0
0
0
0
2
36
2
36
2
36
2
36
1
36
6
0
0
0
0
0
11
36
9
36
7
36
5
36
3
36
1
36
P (V = v)
1
36
3
36
5
36
7
36
9
36
2
36
2
36
2
36
2
36
2
36
1
36
11
36
1 2 3
4
5
6 suma
1
7
2
7
2
7
2
7
v
P (V = v|U = 3) 0 0
33
E(V |U = 3) =
7
1
3
F (4|U = 3) =
7
¥
88
Przykład. Jaka jest średnia liczba sukcesów w pierwszej próbie, jeżeli wiemy, ile zaszło sukcesów w całej
serii n doświadczeń według schematu Bernoulliego?
Oznaczenia
Sn – łączna liczba sukcesów
Y – liczba sukcesów w pierwszej próbie
Ak := {Sn = k},
Bk := Ak ∩ {Y = 1}
X
E(Y |Ak ) =
Y (ω)P (ω|Ak ) =
ω∈Ak
X
1
Y (ω)P (ω) =
=
P (Ak )
ω∈Ak
X
1
P (Bk )
=
=
P (ω) =
P (Ak )
P (Ak )
ω∈Bk
n−1 k−1 (n−1)−(k−1)
p k−1 p
q
k
=
=
n k n−k
n
p
q
k
Zatem E(Y |Sn ) =
Sn
n
oraz
E(E(Y |Sn )) = E(Sn /n) =
E(Sn )
np
=
= p = E(Y )
n
n
¥
89
Przykład. Niech f (x, y) – gęstość wektora (X, Y ).
Rozkłady brzegowe
Z∞
dla zmiennej X :
f1 (x) :=
f (x, y) dy
−∞
Z∞
dla zmiennej Y :
f2 (y) :=
f (x, y) dx
−∞
Niech P (x < X ≤ x + h) > 0.
Wtedy
P (Y ≤ y|x < X ≤ x + h) =
x+h
R
Ry
x
−∞
f (x, y) dy
x+h
R
x
90
!
f1 (x) dx
dx
(?) Przy założeniu, że f (x, y) . . .
oraz f1 (x) . . .
P (Y ≤ y|X = x) : = lim P (Y ≤ y|x < X ≤ x + h)
h→0+
!
y
x+h
R
R
1
f (x, y) dy dx
h
x
= lim
h→0+
Ry
=
−∞
1
h
x+h
R
x
f (x, y) dy
−∞
f1 (x)
f1 (x) dx
Zy
=
−∞
f (x, y)
dy
f1 (x)
Oznaczając
F (y|x) = P (Y ≤ y|X = x),
f (y|x) = f (x, y)/f1 (x)
mamy
Zy
F (y|x) =
f (y|x) dy
−∞
91
Zauważamy, że
Zy
f1 (x)F (y|x) =
f (x, y) dy
−∞
Po scałkowaniu obu stron
Z∞
f1 (x)F (y|x) dx = FY (y)
−∞
Przyjmując
Z∞
E(Y |x) :=
yf (y|x) dy
−∞
mamy
Z Z
Z∞
E(Y |x)f1 (x) dx =
−∞
yf (y|x) dy f1 (x) dx
Z Z
=
y
92
f (x, y)
dy f1 (x) dx
f1 (x)
Z Z
yf (x, y) dy
Z
Z
dx =
y
f (x, y) dx dy =
Z∞
=
yf2 (y) dy = E(Y )
−∞
Otrzymaliśmy E(E(Y |X)) = E(Y )
¥
Definicja. Jeżeli (X, Y ) jest wektorem losowym o gęstości f (x, y) to funkcję
(
f (y|x) =
f (x,y)
f1 (x)
gdy f1 (x) > 0
0
w przeciwnym przypadku
nazywamy gęstością warunkową zmiennej Y dla danego X = x.
(?)
R∞
f (y|x) dy = 1
−∞
93
Nadal zachodzi
E(E(Y |X)) = E(Y )
Ponadto rozumiemy, że
Z
P (Y ∈ B|x) = f (y|x) dy– rozkład warunkowy
B
Przyjmując Z(ω) = IB (Y (ω)) mamy
Z∞
E(Z) =
Z
IB (y)f2 (y) dy =
−∞
f2 (y) dy
B
= P (Y ∈ B)
Z∞
Z
E(Z|x) =
IB (y)f (y|x) dy = f (y|x) dy
−∞
B
= P (Y ∈ B|x)
Zatem
E(P (Y ∈ B|X)) = P (Y ∈ B)
94
Dla B = (−∞, y] mamy
dystrybuantę zmiennej Y
FY (y) = P (Y ∈ B)
dystrybuantę zmiennej Y pod warunkiem X = x
F (y|x) = P (Y ∈ B|x)
oraz wzór
E(F (y|X)) = FY (y)
Przykład. Z odcinka [0,1] wybrano losowo (zgodnie z
rozkładem równomiernym) punk X, a następnie z odcinka [0, X], również losowo, punkt Y . Jaka jest średnia
długość odcinka [0, Y ]?
E(Y |X) =
1
X
2
1
1
E(Y ) = E(E(Y |X)) = E( X) =
2
4
¥
95
Przykład. Owad składa X jajeczek zgodnie z rozkładem Poissona z parametrem λ, a owad z jajeczka
wylęga się z prawdopodobieństwem p, niezależnie od
innych. Znaleźć średnią liczbę potomków.
Niech Y oznacza liczbę potomków owada. Zatem
E(Y |X) = Xp
Stąd
EY = E(E(Y |X)) = E(Xp) = λp
Ten przykład pokazuje, jak można obliczać wartość
oczekiwaną, korzystając z warunkowej wartości oczekiwanej. Właściwy wybór zmiennej losowej X często
bardzo upraszcza rachunki.
¥
96
Uwaga. Skorzystaliśmy ze wzoru EY = E(E(Y |X)),
gdy X typu skokowego.
Ja w takim przypadku rozumieć „gęstość łączną”?
Umowa:
Rb
f (x, y) dy = P (X = x, a ≤ Y ≤ b)
a
Przy takiej umowie możemy zachować bez zmian określenia „gęstości warunkowych”
f (x, y)
f (x|y) =
,
f2 (y)
f (x, y)
f (y|x) =
f1 (x)
gdzie
Z
f1 (x) =
f (x, y) dy,
f2 (y) =
X
x
97
f (x, y)
Rodzaje zbieżności
Przykład. Niech P -rozkład jednostajny na [0, 1] oraz

k k+1


1
dla
ω
∈
;
;

n
n
Xkn (ω) =

k k+1

 0 dla ω ∈ Ω \
;
n
n
dla 0 ≤ k ≤ n − 1,
n = 1, 2, . . .
P (Xnk = 0) = 1 −
P (|Xnk | > ε) =
1
,
n
P (Xnk = 1) =
1
−−−→ 0,
n n→∞
1
n
dla 0 < ε < 1
O ciągu X01 , X02 , X12 , X03 , X13 , X23 , . . . powiemy,
że jest zbieżny do zera według prawdopodobieństwa.
Ciąg ten jest rozbieżny w każdym punkcie przedziału.
Na przykład dla ω = 1/2 mamy ciąg: 0, 0, 1, 0, . . . ,
który na dowolnie dalekich miejscach ma zera i jedynki.
¥
98
Definicja. Ciąg zmiennych losowych (Xn )∞
n=1 jest
zbieżny do zmiennej losowej X:
według prawdopodobieństwa, jeśli
dla każdego ε > 0
lim P (|Xn − X| > ε) = 0,
n
P
co oznaczamy Xn −→ X,
prawie na pewno, jeśli
o
n
=1
P
ω : lim Xn (ω) = X(ω)
n
p.n.
co oznaczamy Xn −→ X
p.n.
Xn −→ X ⇔ P
∞
[
∞
\
!
{|Xn − X| ≤ ε}
N =1 n=N
∞
\
⇔ lim P
N →∞
⇔ lim P
N →∞
n=N
∞
[
=1⇔
!
{|Xn − X| ≤ ε}
=1⇔
!
{|Xn − X| > ε}
=0⇒
n=N
⇒ lim P ({|XN − X| > ε}) = 0 ⇔
N →∞
P
⇔ Xn −→ X
99
Wniosek. Zbieżność prawie na pewno pociąga zbieżność według prawdopodobieństwa.
Przykład. Niech Xn ma rozkład P (Xn = an ) = 1.
Zatem FXn (t) = I[an ,∞) (t)
FXn
1
FX
•...............
1
..........................................◦.
a an
•........................
.................................◦.
a
Gdy an ↓ a okazuje się, że FXn (a) ≡ 0 6= 1 = FX (a)
100
¥
Przykład. Niech F będzie dowolną dystrybuantą.
Zdefiniujmy dystrybuantę Fn (t)=F (t− n1 ), n=1, 2, . . .
Wtedy
Fn (t) → F (t−).
Zauważmy, że F (t−) = F (t) tylko wtedy, gdy t jest
punktem ciągłości t.
¥
Definicja. Ciąg zmiennych losowych (Xn )∞
n=1 jest
zbieżny do zmiennej losowej X według dystrybuant,
jeśli ciąg dystrybuant (FXn )∞
n=1 jest zbieżny do dystrybuanty FX w każdym punkcie jej ciągłości, co oznaczamy:
D
Xn −→ X
Można pokazać
P
D
( Xn p.n.
→ X) ⇒ (Xn → X) ⇒ (Xn → X)
101
Prawa wielkich liczb
Oznaczmy
Sn = X1 +X2 +· · ·+Xn ,
X1 + X2 + . . . +, Xn
X̄n =
n
Niech X1 , X2 , . . . będzie ciągiem niezależnych zmiennych losowych o tym samym rozkładzie, o wartości
średniej µ i wariancji 0 < σ 2 < ∞. Wtedy dla każdego ε > 0 mamy
Słabe prawo wielkich liczb
X1 + X2 + · · · + Xn
− µ < ε = 1
lim P n→∞
n
P
X̄n −→ µ
Mocne prawo wielkich liczb
P
X1 + X2 + · · · + Xn
lim
=µ =1
n→∞
n
p.n.
X̄n −→ µ
102
Wniosek. Prawdopodobieństwo jest odpowiednikiem
teoretycznym częstości.
Faktycznie, jeżeli w wyniku powtórzenia niezależnie n
razy doświadczenia otrzymaliśmy ω1 , ω2 , . . . , ωn , to
IA (ω1 ) + IA (ω2 ) + · · · + IA (ωn ) p.n.
−→ EIA = P (A)
n
Metoda Monte Carlo obliczania całek.
Niech Xi będą niezależnymi zmiennymi losowymi o
wartościach w (0,1) i o gęstości g. Wtedy z MPWL
n
1 X f (Xi )
f (X1 )
Sn =
−−−→ E
=
n i=1 g(Xi ) n→∞
g(X1 )
Z1
=
0
f (x)
· g(x) dx =
g(x)
Z1
W szczególności, gdy Xi ∼ U (0, 1), to
Z
n
X
1
f (Xi ) −−−→ f (x) dx
n→∞
n i=1
1
0
103
f (x) dx
0
Przykład. Obliczanie liczby π przy pomocy komputera: generujemy 50 wartości z rozkładu
√ U (0, 1) (kolumna x). Następnie wyliczamy y = 1 − x2 . Z kolumny y wyliczamy średnią i mnożymy ją przez cztery.
Otrzymujemy wartość 3.155. Jeśli przybliżenia to nie
nie jest zadowalające, można wygenerować na przykład 1000 wartości.
x
0.382
0.101
0.596
0.899
0.885
0.958
0.014
0.407
0.863
0.139
0.245
0.045
0.032
0.164
0.220
0.511
0.041
y
0.924
0.995
0.803
0.438
0.466
0.285
1.000
0.913
0.505
0.990
0.970
0.999
0.999
0.986
0.976
0.859
0.999
x
0.017
0.285
0.343
0.554
0.357
0.372
0.356
0.910
0.466
0.426
0.304
0.976
0.807
0.991
0.256
0.373
0.231
y
1.000
0.959
0.939
0.833
0.934
0.928
0.935
0.414
0.885
0.905
0.953
0.219
0.591
0.132
0.967
0.928
0.973
x
0.952
0.053
0.705
0.817
0.973
0.466
0.300
0.750
0.351
0.776
0.074
0.198
0.064
0.358
0.487
0.986
y
0.307
0.999
0.709
0.577
0.233
0.885
0.954
0.661
0.936
0.631
0.997
0.980
0.998
0.934
0.873
0.167
¥
104
Dystrybuanta empiryczna Fn (x)
Powtarzamy pewne doświadczenie niezależnie n razy.
W wyniku tego otrzymujemy ciąg
X1 , X2 , . . . , Xn
niezależnych zmiennych losowych o nieznanej dystrybuancie F .
Chcemy odtworzyć F . W tym celu dla każdego x ∈ R
definiujemy
n
1X
Fn (x)(ω) =
I{Xi ≤x} (ω)
n i=1
Ponieważ
E[I{X1 ≤x} ] = P (X1 ≤ x) = F (x),
to z MPWL
n
1X
Fn (x) =
I{Xi ≤x} −−−→ F (x)
n→∞
n i=1
105
Centralne twierdzenie graniczne
Centralne Twierdzenie Graniczne
Niech X1 , X2 , . . . będą niezależnymi zmiennymi losowymi o tym samym rozkładzie, o wartości średniej µ i
wariancji 0 < σ 2 < ∞. Wtedy
Sn − nµ
√
≤ x − Φ(x) −−−−→ 0
sup P
n−→∞
σ n
x∈R
X̄n − µ √ D
n −→ N (0, 1)
σ
Twierdzenie de Moivre – Laplace’a
Niech Yn ∼ B(n, p). Wtedy
Y
−
np
n
sup P
≤ x − Φ(x) −−−−→ 0
√
n−→∞
npq
x∈R
106
Przykład. Wykonano n = 100 niezależnych rzutów
monetą. Oznaczmy przez Yn liczbę orłów w n rzutach.
Obliczymy P (Yn ≥ 61)
P (Yn ≥ 61) = 1 − P (Yn ≤ 60) =
Yn − 100 · 0.5
60 − 100 · 0.5
=1−P
≤
=
10 · 0.5
10 · 0.5
Yn − 100 · 0.5
=1−P
≤2 ≈
10 · 0.5
≈ 1 − Φ(2) ≈ 0.0228
¥
Uwaga. Dość dobre przybliżenie uzyskujemy
ze wzoru:
Yn − np
1
1
P a≤ √
≤ b ∼ Φ(b + h) − Φ(a − h),
npq
2
2
gdzie h = √
1
npq
107
Szybkość zbieżności w centralnym twierdzeniu
granicznym
Twierdzenie Berry–Esséen’a
Jeżeli X1 , X2 , . . . są niezależnymi zmiennymi losowymi o tym samym rozkładzie oraz E|X1 |3 < ∞, to
3
S
−
nµ
E|X
−
EX
|
n
1
1
√
√
sup P
≤ x − Φ(x) ≤ C
,
3
σ n
σ n
x∈R
√
gdzie 1/ 2π ≤ C < 0.8.
Dla rozkładu dwumianowego:
2
2
p
+
q
Y
−
np
n
≤ x − Φ(x) ≤ C √
sup P
√
npq
npq
x∈R
108
•
•
p2 + q 2
√
pq
••
••••••••••••••••
0.0
0.5
p
1.0
Dla p ≈ 1 lub p ≈ 0 przybliżenie rozkładem normalnym nie musi być zadowalające. Alternatywą jest przybliżenie rozkładem Poissona:
Twierdzenie 15. Niech Yn ∼ B(n, p) oraz λ = np.
Wtedy dla każdego zbioru M ⊆ N mamy
λ2
X λk
e−λ ≤
P (Yn ∈ M ) −
k!
n
k∈M
109
Przykład. Prawdopodobieństwo trafienia „szóstki” w
Toto-Lotku jest równe
49
1/
= 1/13983816 ≈ 7.151 · 10−8 .
6
Ilu „szóstek” można się spodziewać w każdym tygodniu, jeżeli grający wypełniają kupony całkowicie losowo i niezależnie od siebie, a kuponów jest n = 107 .
Liczba „szóstek” ma rozkład dwumianowy, w przybliżeniu rozkład Poissona z parametrem λ = np ≈
0.7151.
k
0
1
2
λk −λ
k! e
k
3
4
5
0.4891
0.3498
0.1251
λk −λ
k! e
0.0298
0.0053
0.0008
Błąd przybliżenia rozkładem Poissona:
λ2 /n ≤ 0.5 · 10−7 .
¥
110
Twierdzenie Słuckiego
D
D
Niech Xn → X oraz Yn → c, gdzie c jest pewną skończoną stałą. Wówczas:
D
(i) Xn + Yn → X + c
D
(ii) Xn Yn → cX
D
(iii) Xn /Yn → X/c
Z twierdzenia Słuckiego wynika, że ciąg zmiennych losowych (Xn )n zbiega według rozkładu do N (µ, σ 2 ),
Xn − µ
jeżeli równoważnie ciąg
zbiega do rozkładu
σ
N (0, 1).
Asymptotyczna normalność
Mówimy, że ciąg zmiennych (Xn )n jest asymptotycznie
normalny o średniej µn i wariancji σn2 , jeżeli σn2 > 0
dla dostatecznie dużych n oraz
Xn − µn
→ N (0, 1).
σn
Zapisujemy to jako: Xn jest AN (µn , σn2 ).
111
Asymptotyczna normalność przy przekształaceniach
Niech Xn będzie AN (µ, σn2 ), σn → 0. Niech g będzie
funkcją różniczkowalną w punkcie x = µ oraz niech
g 0 (µ) 6= 0. Wówczas
g(Xn ) jest AN (g(µ), (g 0 (µ))2 σn2 )
Przykład. Niech Xn ma rozkład Poissona o wartości
oczekiwanej θn, gdzie θ > 0. Wówczas Xn jest
AN (θn, θn)
(wariancja rozkładu Poissona jest równa wartości średniej) lub równoważnie
θ
Xn
jest AN (θ, ).
n
n
Niech g będzie rozwiązaniem równania
dg(θ)
1/2
= 1/2 .
dθ
θ
To znaczy g(x) = x1/2 . Zatem (Xn /n)1/2 jest
AN (θ1/2 , 1/(4n))
1/2
lub równoważnie Xn
jest
AN ((θn)1/2 , 1/4).
¥
112
Własności rozkładów
Rozkład sumy niezależnych zmiennych
losowych.
Niech X, Y mają rozkłady dyskretne:
X
P (X = x) = 1,
x∈X
X
P (Y = y) = 1
y∈Y
Szukamy rozkładu zmiennej losowej Z = X + Y :
P (Z = z) = P (X + Y = z) =
X
=
P (X = x, Y = z − x) =
x∈X
=
X
P (X = x)P (Y = z − x) =
x∈X , z−x∈Y
W przypadku, gdy X = {0, 1, . . . } oraz Y = {0, 1, . . . }
mamy
P (X + Y = r) =
r
X
P (X = i)P (Y = r − i)
i=0
113
Przykład. X ∼ B(n1 , p),
Y ∼ B(n2 , p).
P (X + Y = r) =
r X
n1 i
n2
p (1 − p)n1 −i
pr−i (1 − p)n1 −r+i
=
r−i
i
i=0
r X
n1
n2
= pr (1 − p)n1 +n2 −r
i
r−i
i=0
n1 + n2 r
=
p (1 − p)n1 +n2 −r
r
Zatem X + Y ∼ B(n1 + n2 , p)
Przykład. X ∼ P o(λ1 ),
¥
Y ∼ P o(λ2 )
P (X + Y = r) =
r
X
λi1 −λ1
λr−i −λ2
=
e
·
e
i!
(r − i)!
i=0
r X
1
r i r−i
−(λ1 +λ2 )
=e
λ λ
r! i=0 i 1 2
(λ1 + λ2 )r −(λ1 +λ2 )
=
e
r!
Zatem X + Y ∼ P o(λ1 + λ2 )
114
¥
Niech X, Y mają rozkłady ciągłe:
X ∼ fX (x), Y ∼ fY (y)
Wówczas (porównać – strona 86)
Z
FZ (z) = P (X + Y ≤ z) =
fX,Y (x, y) dxdy =
X+Y ≤z
Z∞
=

 z−y
Z

fX,Y (x, y) dx dy =
−∞
−∞
−∞
−∞


Z∞ z−y
Z

=
fX (x) dx fY (y)dy =
 z

∞
Z
Z

=
fX (x − y) dx fY (y)dy =
−∞
Zz
−∞

fX (x − y)fY (y) dy  dx

=
−∞
Zatem fZ (z) =

Z∞
−∞
R∞
fX (z − y)fY (y) dy
−∞
115
Przykład. X ∼ U [0, 1], Y ∼ U [0, 1]
Ponieważ I[0,1] (z − y) = I[−1,0] (y − z) = I[z−1,z] (y),
mamy
Z∞
fX+Y (z) =
I[0,1] (z − y)I[0,1] (y) dy =
−∞


Z1
z
= I[z−1,z] (y) dy = 2 − z


0
0
dla 0 ≤ z ≤ 1,
dla 1 ≤ z ≤ 2
dla z ∈
/ [0, 2]
Jest to rozkład trójkątny
¥
Przykład. Niech X0 , X1 , . . . , Xn mają rozkład wykładniczy:
tzn. o gęstości f (x) = λe−λx dla x > 0
Wtedy X0 + X1 + · · · + Xn ma rozkład o gęstości
(λx)n −λx
gn (x) = λ
e
dla x > 0
n!
Jest to rozkład gamma G(1, n + 1)
116
Dowód. n = 0
g0 (x) = f (x)
n = k,
n=k+1
Z∞
gk+1 (x) =
f (x − y)gk (y) dy =
0
Zx
λe−λ(x−y) · λ
=
0
=
λ
k+2
k!
Zx
−λx
(λy)k −λy
e
dy
k!
(λx)k+1 −λx
y dy = λ
e
(k + 1)!
k
e
0
¥
Ponadto można pokazać, że
n
λx
(λx)
Gn (x) = 1 − e−λx (1 +
+ ··· +
),
1!
n!
x>0
jest dystrybuantą rozkładu gamma G(λ, n + 1).
117
¥
Przykład. Proces Poissona
Oznaczmy przez X1 , X2 , . . . niezależne zmienne losowe
o wspólnym rozkładzie wykładniczym oraz przyjmijmy
S0 = 0,
Sn = X1 + X2 + . . . + Xn
Niech N (t) oznacza liczbę wskaźników k ≥ 1 takich, że
Sk ≤ t. Zdarzenie {N (t) = n} następuje wtedy i tylko
wtedy, gdy
Sn ≤ t, Sn+1 > t.
Ponieważ Sn ma rozkład Gn−1 , to
P (N (t) = n) = Gn−1 (t) − Gn (t) = e
n
−λt (λt)
n!
.
Interpretacja
Xn
···
Xn−1
X2
X1
Xi – czas oczekiwania na klienta „i + 1” od chwili
przybycia klienta „i”
N (t) – liczba przybyłych klientów do chwili t
118
Problem. Czy w praktyce Xi może mieć rozkład wykładniczy?
Niech T oznacza czas oczekiwania na klienta.
Zakładamy, że prawdopodobieństwo tego, że klient, na
którego czekamy już t jednostek czasu, przybędzie w
ciągu czasu ∆t jest równe λ∆t + o(∆t), gdzie
o(∆t) :
o(∆t)
=0
∆t→0 ∆t
lim
(niezależnie od tego, jak długo czekamy).
Zatem
P (T > t + ∆t) = P (T > t + ∆t, T > t) =
= P (T > t + ∆t|T > t)P (T > t) =
= (1 − λ∆t − o(∆t))P (T > t)
119
Zatem
P (T > t + ∆t) − P (T > t)
=
∆t
o(∆t)
= −λP (T > t) −
P (T > t)
∆t
Oznaczając P (t) := P (T > t), dla ∆t → 0 mamy:
P 0 (t) = −λP (t)
Stąd P (t) = ce−λt .
Zatem
FT (t) =
1 − P (t) = 1 − ce−λt
0
dla t ≥ 0,
dla t < 0
Ponieważ musi zachodzić FT (0) = 0, więc c = 1. Zatem
T ma rozkład wykładniczy.
¥
120
Przykład. Rozkład wykładniczy a własność
braku pamięci. Niech T ma rozkład wykładniczy z
parametrem λ. Zauważmy, że
P (T > t + s|T > t) =
P (T > t + s, T > t)
=
P (T > t)
P (T > t + s)
e−λ(t+s)
=
=
=
P (T > t)
e−λt
= e−λs = P (T > s)
Zatem P (T > t+s|T > t) = P (T > s), z czego wynika
następująca równość
P (T > s + t) = P (T > s)P (T > t)
Załóżmy teraz, że nie wiemy jaki rozkład ma zmienna
T , ale niech to będzie zmienna losowa ciągła, która
spełnia powyższa równość.
Jeżeli u(t) = P (T > t) nie jest tożsamościowo równe
zeru, to istnieje punkt x taki, że u(x) > 0.
Niech α = − ln u(x) i niech v(t) = eαt u(xt). Wówczas
v(t + s) = v(t)v(s),
v(1) = 1
Pokażemy, że v(t) = 1 dla wszystkich t > 0.
121
Zauważmy
1
v ( ) = v(1) = 1;
2
v n (1/n) = v(1) = 1 dla n ∈ N;
2
v(m/n) = v m (1/n) = 1 dla m, n ∈ N
Zatem v(w) = 1 dla wszystkich w wymiernych dodatnich. Z ciągłości v wynika, że jest to prawda dla każdej
rzeczywistej dodatniej. Zatem
v(t) = eαt u(xt) = 1
Przyjmując y = xt ∈ (0, ∞) oraz λ = α/x mamy
P (T > y) = u(y) = e−λy
Zatem zmienna T ma rozkład wykładniczy. Powyższe
przekształcenia pokazały, że rozkład wykładniczy jest
jedynym rozkładem ciągłym (nieujemnym) o własności braku pamięci.
¥
122
Przykład. Własność braku pamięci dla rozkładu dyskretnego.
Skorzystamy z poprzedniego wyniku:
P (T > y) = (eλ )y
Niech k ∈ N oraz 1 − p = eλ . Wówczas
P (T = k) = P (T > k − 1) − P (T > k) = (p − 1)k−1 p
Otrzymaliśmy rozkład geometryczny, który interpretujemy jako liczbę doświadczeń, które należy wykonać, by doczekać się sukcesu. Przy czym doświadczenia
wykonujemy według schematu Bernoulliego z prawdopodobieństwem sukcesu p.
¥
123
Parametry wektorów losowych
Wielowymiarowy rozkład normalny
Rozkłady form kwadratowych
Oznaczenia
X = (X1 , X2 , . . . , Xn )0
x = (x1 , x2 , . . . , xn )0
µ = (µ1 , µ2 , . . . , µn )0
Wartość oczekiwana wektora losowego
E(X) = (EX1 , EX2 , . . . , EXn )0 .
Macierz kowariancji wektora losowego
D2 (X) = E[(X − EX)(X − EX)0 ]
,
= [Cov(Xi , Xj )]i,j=1,... ,n
o ile D2 Xi < ∞ dla każdego i = 1, · · · , n
124
Zauważmy
0 ≤ D2
n
X
!
ti X i
=E
n
X
i=1
i=1
=
!2
ti (Xi − EXi )
X
ti tj Cov(Xi , Xj )
i,j
Zatem macierz kowariancji jest symetryczna i nieujemnie określona, co na przykład daje
D2 (Xi )
Cov(Xi Xj ) ≥0
Cov(Xi Xj )
D2 Xj a po przekształceniu
q
|Cov(Xi , Xj )| ≤
D2 Xi · D2 Xj
i w konsekwencji |%(Xi , Xj )| ≤ 1
Podstawowe własności
Jeżeli Ajest macierzą p × n, B−macierzą n × n to
E(AX) = AE(X), E(AXB) = AE(X)B
D2 (AX) = AD2 (X)A0
125
Wielowymiarowy rozkład normalny N (µ, Σ)
1
1
f (x) = p
exp − (x − µ)0 Σ−1 (x − µ)
2
(2π)n |Σ|
Niech X ∼ N (µ, Σ), A – macierz (n × n) nieosobliwa
oraz Y = AX.
Z
P (Y ∈ B) = P (X ∈ A−1 B) =
f (x) dx
Z
=
A−1 B
f (A−1 y) |A−1 | dy
B
Łatwo sprawdzić, że g(y) := f (A−1 y) |A−1 | jest gęstością rozkładu N (Aµ, AΣA0 )
Niech teraz A1 – macierz (k × n), r(A1 ) = k. Bierzemy
macierz A2 taką, że
A=
A1
A2
jest macierzą (n × n) nieosobliwą.
126
Mamy Y = AX =
Aµ =
A1 µ
A2 µ
A1 X
A2 X
∼ N (Aµ, AΣA0 ), gdzie
Aµ =
A1 ΣA01
A2 ΣA01
A1 ΣA02
A2 ΣA02
Zatem A1 X ∼ N (A1 µ, A1 ΣA01 ) o ile zachodzi taki
Fakt. Jeżeli Y ∼ N (µ, Σ), gdzie
Y =
Y1
,
Y2
µ=
µ1
,
µ2
Σ=
Σ11
Σ21
Σ12
Σ22
to Y1 ∼ N (µ1 , Σ11 ) oraz Y2 ∼ N (µ2 , Σ22 )
Niech f (y1 , y2 ) oznacza gęstość rozkładu N (µ, Σ).
Przedstawimy tę funkcję w postaci
f (y1 , y2 ) = g(y1 |y2 )f2 (y2 )
127
Przyjmijmy Y1 (m × 1), Y2 (k × 1) oraz oznaczmy
Σ−1 = R =
R11
R21
R12
R22
Wtedy (y − µ)0 Σ−1 (y − µ) = (y − µ)0 R(y − µ) =
= (y − µ)0
R11 (y1 − µ1 ) + R12 (y2 − µ2 )
R21 (y1 − µ1 ) + R22 (y2 − µ2 )
= (y1 − µ1 )0 [R11 (y1 − µ1 ) + R12 (y2 − µ2 )]+
+(y2 − µ2 )0 [R21 (y1 − µ1 ) + R22 (y2 − µ2 )]
= (y1 − µ1 )0 R11 (y1 − µ1 ) + (y1 − µ1 )0 R12 (y2 − µ2 )+
+(y2 − µ2 )0 R22 (y2 − µ2 ) + (y2 − µ2 )0 R21 (y1 − µ1 )
(liczba)0 =liczba oraz (ABC)0 = C 0 B 0 A0 ,
0
= R12
R12
= (y1 − µ1 )0 R11 (y1 − µ1 ) + 2(y1 − µ1 )0 R12 (y2 − µ2 )+
+(y2 − µ2 )0 R21 (y1 − µ1 )
128
= y10 R11 y1 −2y10 R11 µ1 +µ01 R11 µ1 +2y10 R12 (y2 −µ2 )−
−2µ01 R12 (y2 − µ2 ) + (y2 − µ2 )0 R21 (y1 − µ1 )
= y10 R11 y1 − 2y10 (R11 µ1 − R12 (y2 − µ2 )) + µ01 R11 µ1 −
−2µ01 R12 (y2 − µ2 ) + (y2 − µ2 )0 R21 (y1 − µ1 )
−1
=y10 R11 y1 −2y10 R11 (µ1 −R11
R12 (y2 −µ2 ))+µ01 R11 µ1 −
−2µ01 R12 (y2 − µ2 ) + (y2 − µ2 )0 R21 (y1 − µ1 )
−1
µ?1 := µ1 − R11
R12 (y2 − µ2 )
= y10 R11 y1 − 2y10 R11 µ?1 + µ01 R11 µ1 −
−2µ01 R12 (y2 − µ2 ) + (y2 − µ2 )0 R21 (y1 − µ1 )
(µ? )0 R11 µ? = µ01 R11 µ1 − 2µ01 R12 (y2 − µ2 )+
−1
+ (y2 − µ2 )0 R21 R11
R12 (y1 − µ1 )
129
= y10 R11 y1 − 2y10 R11 µ?1 + (µ?1 )0 R11 µ?1 +
−1
+(y2 − µ2 )0 (R22 − R21 R11
R12 )(y1 − µ1 )
= (y1 − µ? )0 R11 (y1 − µ? )+
−1
+(y2 − µ2 )0 (R22 − R21 R11
R12 )(y1 − µ1 )
Zatem możemy przyjąć
f (y1 |y2 ) =
1
1
=q
exp − (y1 − µ? )0 R11 (y1 − µ? )
2
−1
(2π)k |R11
|
f (y2 ) = q
1
−1 −1
(2π)m |R11
| |Σ|
×
1
−1
×exp − (y2 − µ2 )0 (R22 − R21 R11
R12 )(y1 − µ1 )
2
130
Σ11
Σ21
Σ12
Σ22
R11
R21
R12
R22
=
I
O
O
I
Σ11 R11 + Σ12 R21 = I
Σ21 R11 + Σ22 R21 = O
⇓
−1
−1
= R11
Σ11 + Σ12 R21 R11
−Σ−1
22 Σ21 R11 = R21
⇓
−1
Σ
=
R
Σ11 − Σ12 Σ−1
21
11
22
Ponadto
−1
R12 (y2 − µ2 )
µ?1 = µ1 − R11
−1
0
Σ
R
)
(y2 − µ2 )
= µ1 − R11
(−Σ−1
21
11
22
= µ1 + Σ−1
22 Σ21 (y2 − µ2 )
131
Σ21 R12 + Σ22 R22 = I
⇓
Σ21 R12 = I − Σ22 R22
Ponieważ
−Σ−1
22 Σ21 R11 = R21
Zatem
−1
−Σ−1
22 Σ21 R12 = R21 R11 R12
−1
(I
−
Σ
R
)
=
R
R
−Σ−1
22
22
21
11 R12
22
−1
R22 − R21 R11
R12 = Σ−1
22
Otrzymaliśmy
Y2 ∼ N (µ2 , Σ22 )
oraz
−1
Y1 |Y2 ∼ N (µ1 + Σ−1
22 Σ21 (y2 − µ2 ), Σ11 − Σ12 Σ22 Σ21 )
132
Przykład. Niech X ∼ N (µ, Σ), gdzie Σ = (σij ).
Przyjmijmy A = [1, 0, . . . , 0]. Mamy
X1 = AX ∼ N (µ1 , σ11 )
Analogicznie
X2 ∼ N (µ2 , σ22 )
X3 ∼ N (µ3 , σ33 )
······
Xn ∼ N (µn , σnn )
Zatem EX = µ oraz D2 Xi = σii
Ponadto dla
eij = [ . . . , 1, . . . , 1, . . . ]
jedynka na i − tym oraz j − ym miejscu,
na pozostałych zera,
mamy eij X ∼ N (µi + µj , eij Σe0ij = σii + σjj + 2σij ).
Ponieważ D2 (Xi + Xj ) = D2 Xi + Dj2 + 2Cov(Xi , Xj ),
to Cov(Xi , Xj ) = σij .
Stąd D2 X = Σ
¥
133
Przykład. Niech X ∼ N (µ, σ 2 I) oraz niech A będzie
macierzą ortogonalną. Wtedy
Y = AX ∼ N (Aµ, Aσ 2 IA0 = σ 2 I).
Zatem jeżeli X1 , X2 , . . . , Xn niezależne o rozkładzie
N ( · , σ 2 ), to Y1 , Y2 , . . . , Yn też są niezależne.
¥
Twierdzenie Fishera – Cochrana.
Niech X ∼ N (0, I) oraz Q1 , . . . , Qk będą formami
kwadratowymi rzędu n1 , · · · , nk takimi, że
X 0 X = Q1 + . . . , Qk
Wówczas warunkiem koniecznym i dostatecznym na
2
to, by zmienne losowe
Q
miały
rozkłady
χ
(ni ) i były
i
P
niezależne, jest
ni = n

w1i

Dowód. Istnieje Bi =  · · ·  (n × ni ) taka, że
wni i
Qi = ±(w1i X)2 ± · · · ± (wni i X)2
134


B1
Ponieważ n =
ni , to przyjmując B =  · · ·  mamy
Bnk
X
0
XX=
Qi = X 0 B 0 ∆BX
P
gdzie



∆=

±1

..




.
±1
..
.
Ponieważ X 0 X = X 0 B 0 ∆BX jest spełniona dla dowolnych X, mamy
I = B 0 ∆B
Ponieważ n = r(I) = r(B 0 ∆B) ≤ r(B) ≤ n, to B
jest macierzą nieosobliwą. Zatem ∆ = (B −1 )0 B −1 jest
macierzą dodatnio określoną. W konsekwencji ∆ = I
oraz macierz B jest ortogonalna. Zatem dla Y = BX
Q1 = y12 + . . . + yn2 1
Q2 = yn2 1 +1 + . . . + yn2 1 +n2
······
są niezależne i mają rozkłady χ2 (n1 ), χ2 (n2 ), . . . .
W ten sposób została udowodniona dostateczność warunku. Konieczność jest oczywista.
¥
135
Twierdzenie 16. Warunkiem koniecznym i dostatecznym na to, aby zmienna losowa X 0 AX miała rozkład
χ2 (ν) jest, by macierz A była idempotenta. Wtedy
ν = r(A) = tr(A).
Dowód.
dostateczność
X 0 X = X 0 AX + X 0 (I − A)X
A2 = A ⇔ r(A) + r(I − A) = n
Teza wynika z tw. F–C.
konieczność
Istnieje macierz ortogonalna C, że przy przekształceniu X = CY
2
X 0 AX = Y 0 C 0 ACY = λ1 y12 + . . . + λm ym
gdzie λi są niezerowymi wartościami własnymi macierzy A.
Ponieważ Yi ∼ χ2 (1), więc m = k, λi = 1. Zatem
C 0 AC jest macierzą diagonalną o elementach 0 lub 1.
Zatem A jest idempotentna, bo
C 0 AC = C 0 ACC 0 AC = C 0 A2 C
⇒
A = A2
¥
136
Twierdzenie 17. Jeżeli X 0 X = Q1 + Q2
oraz Q1 ∼ χ2 (k), to Q2 ∼ χ2 (n − k)
Dowód. Niech Q1 = X 0 AX. Wtedy
Q2 = X 0 (I − A)X
oraz (I − A)2 = I 2 + A2 − IA − AI = I − A.
¥
Twierdzenie 18. Jeżeli Q = Q1 + Q2 , Q ∼ χ2 (m),
Q1 ∼ χ2 (k) oraz Q2 ≥ 0, to Q2 ∼ χ2 (m − k).
Dowód. Niech Q = X 0 AX,
Q1 = X 0 BX
Q = X 0 AX = X 0 BX + X 0 (A − B)X
Istnieje macierz ortogonalna C, że przy przekształceniu X = CY
X 0 AX = Y 0 C 0 ACY = Y12 + . . . + Ym2
X 0 BX = Y 0 C 0 BCY
X 0 (I − B)X = Y 0 C 0 (A − B)CY
Oznaczmy B1 := C 0 AC,
B2 := C 0 (A − B)C. Zatem
Y12 + Y22 + . . . + Ym2 = Y 0 B1 Y + Y 0 B2 Y
137
Ponieważ Y 0 B1 Y , Y 0 B2 Y są nieujemne, każda z form
zawiera wyłącznie elementy Y1 , . . . , Ym . Z poprzedniego twierdzenia Q2 ∼ χ2 (m − k)
¥
Twierdzenie 19. Niech
X 0 A1 X ∼ χ2 (k), X 0 A2 X ∼ χ2 (m).
Warunkiem koniecznym i dostatecznym na to, aby obie
zmienne losowe były niezależne, jest, by
A1 A2 = 0
Dowód. Ponieważ
A1 (I − A1 − A2 ) = A2 (I − A1 − A2 ) = 0,
to
r(A1 ) + r(A2 ) + r(I − A1 − A2 ) = n
Ale
X 0 X = X 0 A1 X + X 0 A2 X + X 0 (I − A1 − A2 )X
Zatem z tw. F – C są niezależne.
138
Jeżeli są niezależne, to X 0 (A1 + A2 )X ∼ χ2 (k + m)
Zatem A1 A2 = 0, ponieważ
A1 + A2 = (A1 + A2 )2 = A1 + A2 + A1 A2 + A2 A1
0 = A1 A2 + A2 A1
(
A1 0 = A1 A2 + A1 A2 A1
0A1 = A1 A2 A1 + A2 A1
dodaję stronami
0 = 2A1 A2 A1
podstawiam A2 A1 = −A1 A2 .
0 = −2A1 A2
¥
139
Twierdzenie 20. Niech
X 0 X = X 0 A1 X + . . . + X 0 Ak X.
Każdy z następujących warunków jest warunkiem koniecznym i dostatecznym na to, aby zmienne losowe
X 0 A1 X, . . . , X 0 Ak X
były niezależne i aby X 0 Ai X ∼ χ2 (ni ), gdzie ni jest
rzędem macierzy Ai :
(a) Macierze A1 , . . . , Ak są idempotentne,
(b) Ai Aj = 0 dla wszystkich i 6= j.
Dowód. Ponieważ A2i = Ai , więc tr(Ai ) = r(Ai ). Ale
I = A1 + . . . Ak ,
więc
tr(I) = n =
X
tr(Ai ) =
X
ni
i z tw. F – C wynika konieczność i dostateczność warunku (a). Ponieważ
I = I = A1 + . . . Ak oraz Ai Aj = 0,
więc Ai (I − Ai ) = 0, zatem macierze Ai są indempotentne. Wynika stąd, że (a) ⇔ (b)
¥
140
Twierdzenie 21. Niech X ∼ N (µ, Σ). Warunkiem
koniecznym i dostatecznym na to, aby zmienna losowa
(X − µ)0 A(X − µ)
miała rozkład χ2 , jest, by
AΣA = A.
Liczba stopni swobody jest wtedy równa tr(AΣ).
Dowód.
X ∼ N (µ, Σ) ⇒ (X − µ) ∼ N (0, Σ) ⇒
Y = B −1 (X − µ) ∼ N (0, I)
gdzie Σ = BB 0 , B nieosobliwa
Zatem
X = µ + BY , Y ∼ N (0, I)
(X − µ)0 A(X − µ) = Y 0 B 0 ABY
Zatem
(X − µ)0 A(X − µ) ∼ χ2 ⇔ B 0 AB idempotentna
B 0 AB · B 0 AB = B 0 AB ⇔ AΣA = A
Ponadto tr(B 0 AB) = tr(ABB 0 ) = tr(AΣ)
141
¥
Twierdzenie 22. Niech X ∼ N (µ, Σ). Warunkiem
koniecznym i dostatecznym na to, aby zmienne losowe
P 0 X oraz (X − µ)0 A(X − µ)
były niezależne, jest, by
AΣP = 0
Twierdzenie 23. Niech X ∼ N (µ, Σ). Warunkiem
koniecznym i dostatecznym na to, aby zmienne losowe
(X − µ)0 A(X − µ) oraz (X − µ)0 B(X − µ)
były niezależne, jest, by
AΣB = 0
142
Download