Statystyka i eksploracja danych

advertisement
Projekt pn. „Wzmocnienie potencjału dydaktycznego UMK w Toruniu w dziedzinach matematyczno-przyrodniczych”
realizowany w ramach Poddziałania 4.1.1 Programu Operacyjnego Kapitał Ludzki
Statystyka
i eksploracja danych
Repetytorium z teorii prawdopodobieństwa
Adam Jakubowski
UMK Toruń 2011
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
Spis treści
Wstęp
1
1 Charakterystyki zmiennych losowych
„Słowniczek” teorii prawdopodobieństwa . . . .
Rozkład i dystrybuanta zmiennej losowej . . . .
Wartość oczekiwana zmiennej losowej . . . . . .
Charakterystyki liczbowe zmiennych losowych
Mediana i kwantyle . . . . . . . . . . . . . . . . . .
.
.
.
.
.
3
3
4
5
6
6
2 Klasyfikacja rozkładów na prostej
Rozkłady dyskretne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rozkłady absolutnie ciągłe . . . . . . . . . . . . . . . . . . . . . . . . .
Przykłady . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
7
7
8
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Rozkłady wielowymiarowe
11
Wektory losowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Rozkłady łączne a rozkłady brzegowe . . . . . . . . . . . . . . . . . . 12
4 Niezależność stochastyczna
Niezależność . . . . . . . . . . . . . . . . . . . . . . . . .
Kryteria niezależności . . . . . . . . . . . . . . . . . .
Niezależność zdarzeń . . . . . . . . . . . . . . . . . . .
Całka iloczynu niezależnych zmiennych losowych
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
13
13
13
14
15
5 Charakterystyki wektorów losowych
17
Korelacja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Wartość oczekiwana i macierz kowariancji . . . . . . . . . . . . . . . 18
i
ii
6 Istnienie procesów stochastycznych
Schemat Bernoullego . . . . . . .
Funkcje Rademachera . . . . . . .
Rozwinięcia dwójkowe . . . . . . .
Idea ogólna . . . . . . . . . . . . .
Spis treści
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
21
21
21
21
22
7 Prawa wielkich liczb
23
Słabe prawo wielkich liczb Markowa . . . . . . . . . . . . . . . . . . . 23
Mocne prawo wielkich liczb . . . . . . . . . . . . . . . . . . . . . . . . . 24
8 Centralne twierdzenie graniczne
25
Twierdzenie de Moivre’a-Laplace’a . . . . . . . . . . . . . . . . . . . . 25
Centralne twierdzenie graniczne . . . . . . . . . . . . . . . . . . . . . 25
9 O przestrzeniach Hilberta
27
Przestrzenie prehilbertowskie . . . . . . . . . . . . . . . . . . . . . . . 27
Twierdzenia o rzucie ortogonalnym . . . . . . . . . . . . . . . . . . . 28
Literatura
31
Wstęp
Suplement do wykładu „Statystyka i eksploracja danych” gromadzi podstawowe definicje i rezultaty z teorii prawdopodobieństwa, w zakresie niezbędnym do zrozumienia
treści przekazywanych podczas wykładu. Materiał zawarty w „Suplemencie” będzie omawiany i ilustrowany przykładami rachunkowymi i liczbowymi oraz zadaniami podczas
zajęć wyrównawczych prowadzonych równolegle do wykładu w semestrze zimowym.
W trakcie egzaminu milcząco będę zakładał, że zdający ten materiał znają. Tylko
w ten sposób będzie możliwe zrealizowanie bardziej ambitnego programu przedmiotu
„Statystyka i eksploracja danych”.
Adam Jakubowski
1
2
Wstęp
1. Charakterystyki zmiennych losowych
„Słowniczek” teorii prawdopodobieństwa
1.1 Definicja Przestrzenią probabilistyczną nazywamy trójkę (Ω, F, P ), gdzie
• Ω jest zbiorem „zdarzeń elementarnych” (inaczej: elementy ω zbioru Ω nazywamy
zdarzeniami elementarnymi).
• F jest σ-algebrą podzbiorów zbioru Ω. Elementy F nazywamy zdarzeniami.
• P : F → [0, 1] jest prawdopodobieństwem na (Ω, F).
1.2 Uwaga Stwierdzenie „F jest σ-algebrą” oznacza, że:
1. ∅ ∈ F, Ω ∈ F.
2. Jeżeli A ∈ F, to również Ac ∈ F.
3. Jeżeli A1 , A2 , . . . ∈ F, to
S∞
j=1 Aj
∈ F.
1.3 Uwaga Stwierdzenie „P : F → [0, 1] jest prawdopodobieństwem” oznacza, że:
1. P (Ω) = 1.
2. Jeżeli A1 , A2 , . . . , są parami rozłączne, to
P(
∞
X
Aj ) =
j=1
∞
X
P (Aj ).
j=1
(prawdopodobieństwo jest σ- addytywne).
1.4 Definicja Zmienną losową na przestrzeni probabilistycznej (Ω, F, P ) nazywamy
funkcję X : Ω → IR1 o własności
X −1 ((−∞, u]) ∈ F,
3
u ∈ IR1 .
4
1. Charakterystyki zmiennych losowych
1.5 Uwaga Będziemy używać równoważnych zapisów
X −1 ((−∞, u]) = {ω ; X(ω) ∈ (−∞, u]} = {ω ; X(ω) ¬ u} = {X ¬ u}.
1.6 Uwaga Jeżeli X jest zmienną losową na (Ω, F, P ), to określone są prawdopodobieństwa
P (X > u) = P ({ω ; X(ω) > u}) , u ∈ IR1 ,
a także prawdopodobieństwa
P (X ¬ u) = P ({ω ; X(ω) ¬ u}) ,
u ∈ IR1 ,
Rozkład i dystrybuanta zmiennej losowej
1.7 Definicja Rozkładem zmiennej losowej X nazywamy prawdopodobieństwo PX na
IR1 zadane na odcinkach wzorem
PX ((a, b]) := P (a < X ¬ b) = P ({ω ; X(ω) ∈ (a, b]}) .
1.8 Uwaga
PX ((a, b]) = PX ((−∞, b]) − PX ((−∞, a]).
1.9 Definicja Dystrybuantą zmiennej losowej X nazywamy funkcję FX : IR1 → [0, 1]
zadaną wzorem
FX (x) = P (X ¬ x), x ∈ IR1 .
1.10 Uwaga Dystrybuanta zmiennej losowej jest w istocie funkcją rozkładu zmiennej
losowej. Dlatego wystarczy badać tylko dystrybuanty rozkładów na IR1 .
1.11 Definicja Prawdopodobieństwa na IR1 nazywamy rozkładami (lub rozkładami
prawdopodobieństwa) na IR1 .
1.12 Definicja Dystrybuantą rozkładu (prawdopodobieństwa) µ na IR1 nazywamy funkcję Fµ : IR1 → [0, 1] zadaną wzorem
Fµ (x) = µ((−∞, x]),
x ∈ IR1 .
1.13 Uwaga Jeżeli µ jest rozkładem na IR1 , to fakt, że zmienna losowa X ma rozkład
µ zapisujemy często w postaci X ∼ µ.
1.14 Twierdzenie Niech µ i ν będą rozkładami na IR1 . Jeżeli Fµ = Fν , to µ = ν.
Wartość oczekiwana zmiennej losowej
5
1.15 Twierdzenie Niech µ będzie rozkładem na IR1 . Dystrybuanta Fµ ma następujące
własności:
1. Fµ jest funkcją niemalejącą;
2. Fµ jest prawostronnie ciągła;
3. limx→−∞ Fµ (x) = 0, limx→+∞ Fµ (x) = 1.
1.16 Definicja Dystrybuantą nazywamy funkcję F : IR1 → [0, 1] spełniającą warunki
1.-3. z poprzedniego twierdzenia.
1.17 Twierdzenie Niech F będzie dystrybuantą. Istnieje dokładnie jeden rozkład µ na
IR1 taki, że F = Fµ .
Wartość oczekiwana zmiennej losowej
1.18 Definicja Wartością oczekiwaną nieujemnej zmiennej losowej X nazywamy całkę
Z +∞
EX :=
P (X > u) du ∈ [0, +∞].
0
1.19 Uwaga Niech f będzie funkcją o wartościach rzeczywistych. Częścią dodatnią f +
(ujemną f − ) funkcji f nazywamy złożenie tej funkcji z funkcją h+ (x) = 0 ∨ x (z funkcją
h− (x) = 0 ∨ (−x)).
1.20 Definicja Niech X będzie zmienna losową i niech EX + < +∞ i EX − < +∞
(tzn. X jest całkowalna). Wartością oczekiwaną zmiennej losowej X nazywamy (całkę)
EX := EX + − EX − ∈ (−∞, +∞).
1.21 Twierdzenie Wartość oczekiwana nieujemnych zmiennych losowych ma następujące własności.
1. Jeżeli 0 ¬ X ¬ Y , to EX ¬ EY .
2. Jeżeli X ­ 0, to EX = 0 wtedy i tylko wtedy, gdy P (X > 0) = 0.
3. Jeżeli X, Y ­ 0 i a, b ∈ IR+ , to
E(aX + bY ) = aEX + bEY.
1.22 Twierdzenie Wartość oczekiwana całkowalnych zmiennych losowych ma następujące własności.
6
1. Charakterystyki zmiennych losowych
1. Jeżeli X jest całkowalna, to P (|X| = +∞) = 0.
2. Jeżeli X, Y są całkowalne i a, b ∈ IR1 , to całkowalna jest zmienna aX + bY i ma
miejsce równość
E(aX + bY ) = aEX + bEY.
Charakterystyki liczbowe zmiennych losowych
1.23 Definicja Momentem absolutnym rzędu p > 0 zmiennej losowej X nazywamy
liczbę
mp = mp (X) = E|X|p .
1.24 Definicja Wariancją całkowalnej z kwadratem zmiennej losowej X nazywamy liczbę
D2 (X) = Var (X) := E(X − EX)2 = EX 2 − (EX)2 .
1.25 Definicja Odchyleniem standardowym całkowalnej z kwadratem zmiennej losowej
X nazywamy liczbę
q
q
D(X) := Var (X) = E(X − EX)2 .
Mediana i kwantyle
1.26 Definicja Medianą zmiennej losowej X (właściwie: rozkładu zmiennej losowej)
nazywamy taką liczbę x1/2 , że
P (X ¬ x1/2 ) ­ 1/2,
P (X ­ x1/2 ) ­ 1/2.
1.27 Definicja Kwantylem rzędu p, p ∈ (0, 1), rozkładu zmiennej losowej X nazywamy
taką liczbę xp , że
P (X ¬ xp ) ­ p, P (X ­ xp ) ­ 1 − p.
1.28 Zadanie Przypuśćmy, że znamy dystrybuantę FX zmiennej losowej X. Jak znaleźć
medianę i kwantyle tej zmiennej?
2. Klasyfikacja rozkładów na prostej
Rozkłady dyskretne
2.1 Definicja Zmienna losowa X ma rozkład dyskretny, jeśli istnieją liczby x1 , x2 , . . . ∈
P
IR1 i prawdopodobieństwa p1 , p2 , . . . ­ 0, ∞
j=1 pj = 1, takie, że P (X = xj ) = pj ,
j = 1, 2, . . ..
2.2 Fakt Jeżeli X ma rozkład dyskretny, to dla dowolnej funkcji f : IR1 → IR1
Ef (X) =
∞
X
f (xi )P (X = xi ) =
i=1
∞
X
f (xi )pi ,
i=1
przy czym całka istnieje dokładnie wtedy, gdy
P∞
i=1 |f (xi )|pi
< +∞.
2.3 Fakt PX {x} = P (X = x) > 0 wtedy i tylko wtedy, gdy dystrybuanta FX ma skok w
punkcie x i FX (x) − FX (x−) = P (X = x).
Dowód.
Rozkłady absolutnie ciągłe
2.4 Definicja Zmienna losowa X ma rozkład absolutnie ciągły o gęstości p(x), jeśli dla
każdych a < b
P (a < X ¬ b) =
Z b
p(x) dx.
a
(Wtedy p(x) ­ 0 `-prawie wszędzie i
R
p(x) dx = 1).
2.5 Fakt Gęstość rozkładu absolutnie ciągłego jest wyznaczona jednoznacznie z dokładnością do równości `-prawie wszędzie.
2.6 Uwaga Można pokazać, że każda dystrybuanta F jest prawie wszędzie różniczkowalna i pochodna F 0 (określona `-prawie wszędzie) spełnia warunek
F (x) ­
Z
F 0 (x) dx.
(−∞,x]
7
8
2. Klasyfikacja rozkładów na prostej
Może się więc zdarzyć, że IR1 F 0 (x) dx < 1 (przykład!). Jeżeli IR1 F 0 (x) dx = 1, to
rozkład odpowiadający dystrybuancie F jest absolutnie ciągły z gęstością p(x) = F 0 (x).
R
R
2.7 Fakt Jeżeli X ma rozkład absolutnie ciągły o gęstości p(x), to dla dowolnej funkcji
borelowskiej f : IR1 → IR1
Z +∞
f (x)p(x) dx,
Ef (X) =
−∞
przy czym całka istnieje dokładnie wtedy, gdy
R +∞
−∞
|f (x)|p(x) dx < +∞.
Przykłady
2.8 Przykłady rozkładów dyskretnych.
1. Rozkład zdegenerowany w punkcie C ∈ IR1 albo miara „delta Diraca” δC :
P (X = C) = 1.
2. Rozkład 0 − 1 lub Bernoullego:
P (X = 1) = p = 1 − P (X = 0).
3. Rozkład dwumianowy:
!
P (X = k) =
N k
p (1 − p)N −k ,
k
k = 0, 1, 2, . . . , N.
4. Rozkład Poissona:
P (X = k) = e−λ
λk
,
k!
k = 0, 1, 2, . . . .
5. Rozkład geometryczny:
P (X = k) = p(1 − p)k−1 ,
k = 1, 2, . . . .
2.9 Przykłady rozkładów absolutnie ciągłych.
1. Rozkład jednostajny na odcinku (a, b):
p(x) =
1
I
(x).
b − a (a,b)
Przykłady
9
2. Rozkład normalny N (m, σ 2 ) z parametrami m ∈ IR1 i σ 2 > 0:
p(x) = √
(x−m)2
1
e− 2σ2 .
2πσ
3. Rozkład wykładniczy z parametrem λ > 0.
p(x) = λe−λx I(0,+∞) (x).
4. Rozkłady gamma z parametrami α, λ > 0:
p(x) =
αλ λ−1 −αx
x e
I(0,+∞) (x).
Γ(λ)
5. Rozkład χ2 z n stopniami swobody (χ2n ), to rozkład gamma z parametrami α =
n/2, λ = 1/2.
2.10 Zadanie Pokazać, że jeśli X ∼ N (0, 1), to X 2 ∼ χ21 .
2.11 Zadanie Niech zmienna losowa X ma rozkład absolutnie ciągły o gęstości p(x).
Jakie warunki musi spełniać funkcja f : IR1 → IR1 , aby zmienna losowa f (X) miała
rozkład absolutnie ciągły? Znaleźć postać gęstości.
2.12 Zadanie Znaleźć wartości oczekiwane i wariancje rozkładów wymienionych w przykładach 2.8 i 2.9.
10
2. Klasyfikacja rozkładów na prostej
3. Rozkłady wielowymiarowe
Wektory losowe
3.1 Definicja Wektorem losowym nazywamy odwzorowanie
~ = (X1 , X2 , . . . , Xd )T : (Ω, F, P ) → IRd ,
X
którego składowe X1 , X2 , . . . , Xd są zmiennymi losowymi.
~ to prawdopodobieństwo na IRd zadane
3.2 Definicja Rozkład PX~ wektora losowego X,
wzorem
PX~ ((a1 , b1 ] × (a2 , b2 ] × . . . × (ad , bd ]) =
= P (a1 < X1 ¬ b1 , a2 < X2 ¬ b2 , . . . , ad < Xd ¬ bd ).
3.3 Uwaga Podobnie jak w przypadku jednowymiarowym, znajomość rozkładu wekto~
ra losowego pozwala obliczać wartości oczekiwane funkcji od wektora losowego Ef (X).
3.4 Definicja
~ ma rozkład dyskretny, jeśli istnieją x1 , x2 , . . . ∈ IRd i prawdopo1. Wektor losowy X
P
~
dobieństwa p1 , p2 , . . . ­ 0, ∞
j=1 pj = 1, takie, że P (X = xj ) = pj , j = 1, 2, . . ..
~ ma rozkład absolutnie ciągły o gęstości p(x), jeśli dla każdego
2. Wektor losowy X
A postaci (a1 , b1 ] × (a2 , b2 ] × . . . × (ad , bd ]
~ ∈ A) =
P (X
Z
p(x) dx.
A
(Wtedy p(x) ­ 0 `d -prawie wszędzie i
R
11
p(x) dx = 1).
12
3. Rozkłady wielowymiarowe
Rozkłady łączne a rozkłady brzegowe
~ = (X1 , X2 , . . . , Xd )T nazywamy roz3.5 Definicja Rozkład PX~ wektora losowego X
kładem łącznym zmiennych losowych X1 , X2 , . . . , Xd . Rozkłady (jednowymiarowe) PX1 ,
PX2 , . . . , PXd składowych wektora losowego nazywamy rozkładami brzegowymi rozkładu
PX~ .
3.6 Uwaga Na ogół rozkłady brzegowe nie determinują rozkładu łącznego, tzn. istnieje
wiele rozkładów na IRd o tych samych rozkładach brzegowych (przykład!).
4. Niezależność stochastyczna
Niezależność
4.1 Definicja Zmienne losowe X1 , X2 , . . . , Xd są niezależne (lub stochastycznie niezależne), jeśli
Ef1 (X1 )f2 (X2 ) · · · fd (Xd ) = Ef1 (X1 ) · Ef2 (X2 ) · · · · Efd (Xd ).
dla dowolnego układu f1 , f2 , . . . , fd funkcji ograniczonych na IR1 i takich, że f1 (X1 ),
f2 (X2 ), . . . , fd (Xd ) są zmiennymi losowymi.
Rodzina zmiennych losowych {Xi }i∈II jest niezależna, jeśli każda jej skończona podrodzina składa się ze zmiennych losowych niezależnych.
4.2 Twierdzenie Niech X1 , X2 , . . . , Xd będą zmiennymi losowymi określonymi na tej
samej przestrzeni probabilistycznej (Ω, F, P ). Następujące warunki są równoważne:
(i) Zmienne X1 , X2 , . . . , Xd są niezależne.
(ii) Dla dowolnych liczb x1 , x2 , . . . , xd ma miejsce równość
P (X1 ¬ x1 , X2 ¬ x2 , . . . , Xd ¬ xd )
= P (X1 ¬ x1 )P (X2 ¬ x2 ) · · · P (Xd ¬ xd ).
Kryteria niezależności
~ nazywamy funkcję
4.3 Definicja Dystrybuantą wektora losowego X
IRd 3 x = (x1 , x2 , . . . , xd )T 7→ FX~ (x) = P (X1 ¬ x1 , X2 ¬ x2 , . . . , Xd ¬ xd ).
4.4 Uwaga Na mocy warunku (ii) twierdzenia 4.2, zmienne losowe są niezależne dokładnie wtedy, gdy dystrybuanta ich rozkładu łącznego jest iloczynem dystrybuant rozkładów brzegowych. W dalszym ciągu nie będziemy jednak zajmować się dystrybuantami
rozkładów na IRd , gdyż są one znacznie mniej wygodnym narzędziem niż dystrybuanty
na IR1 .
13
14
4. Niezależność stochastyczna
4.5 Fakt Jeżeli zmienne losowe X1 , X2 , . . . , Xd są niezależne, to dla (prawie) dowolnych
funkcji g1 , g2 , . . . , gd , zmienne losowe
g1 (X1 ), g2 (X2 ), . . . , gd (Xd )
też są niezależne.
4.6 Twierdzenie Niech rozkłady zmiennych X1 , X2 , . . . , Xd będą dyskretne.
Zmienne losowe X1 , X2 , . . . , Xd są niezależne dokładnie wtedy, gdy dla dowolnych
x1 , x2 , . . . , xd ∈ IR1 ma miejsce związek
P (X1 = x1 , X2 = x2 , . . . , Xd = xd )
= P (X1 = x1 )P (X2 = x2 ) · · · P (Xd = xd ).
4.7 Twierdzenie Niech rozkłady zmiennych X1 , X2 , . . . , Xd będą absolutnie ciągłe z
gęstościami p1 (x), p2 (x), . . . , pd (x).
Zmienne losowe X1 , X2 , . . . , Xd są niezależne dokładnie wtedy, gdy rozkład łączny
tych zmiennych jest absolutnie ciągły i jego gęstość ma postać
pX~ (x1 , x2 , . . . , xd ) = p1 (x1 )p2 (x2 ) · · · pd (xd ).
Niezależność zdarzeń
4.8 Definicja Rodzina zdarzeń {Ai }i∈II jest niezależna, jeśli funkcje charakterystyczne
{IAi }i∈II tych zdarzeń są niezależne.
4.9 Twierdzenie Zdarzenia {Ai }i∈II są niezależne dokładnie wtedy, gdy dla dowolnego
skończonego podzbioru II0 ⊂ II
P
\
Ai = Πi∈II0 P (Ai ).
i∈II0
4.10 Definicja Zmienne losowe {Xi }i∈II są niezależne parami, jeśli dla każdych i, j ∈ II,
i 6= j, zmienne Xi i Xj są niezależne. Podobnie, zdarzenia {Ai }i∈II sa niezależne parami,
jeśli każde dwa zdarzenia Ai i Aj , i 6= j są niezależne.
4.11 Zadanie Podać przykład zdarzeń niezależnych parami, ale zależnych zespołowo
(np. przykład Bernsteina).
Całka iloczynu niezależnych zmiennych losowych
15
Całka iloczynu niezależnych zmiennych losowych
4.12 Twierdzenie (O mnożeniu wartości oczekiwanych) Jeżeli zmienne losowe
X i Y są niezależne i całkowalne, to iloczyn XY jest całkowalną zmienną losową i
EXY = EX · EY.
Dowód.
4.13 Uwaga Bez założenia o niezależności warunek dostateczny dla całkowalności iloczynu XY odwołuje się do tzw. nierówności Höldera.
4.14 Wniosek Niech X1 , X2 , . . . , Xd będą niezależne. Jeżeli funkcje fi sa takie, że
E|fi (Xi )| < +∞,
i = 1, 2, . . . , d,
to
Ef1 (X1 )f2 (X2 ) · · · fd (Xd ) = Ef1 (X1 ) · Ef2 (X2 ) · · · · Efd (Xd ).
16
4. Niezależność stochastyczna
5. Charakterystyki wektorów losowych
Korelacja
5.1 Definicja Kowariancją zmiennych losowych X i Y nazywamy liczbę
cov (X, Y ) := E(X − EX)(Y − EY ) = EXY − EX · EY.
5.2 Definicja Zmienne losowe X i Y są nieskorelowane, jeśli
cov (X, Y ) = 0.
5.3 Uwaga Kowariancja istnieje, jeśli X i Y są całkowalne z kwadratem. Jeżeli X i Y
są całkowalne i niezależne, to kowariancja istnieje i jest równa 0. Niezależne i całkowalne
zmienne losowe są więc nieskorelowane. Istnieją jednak nieskorelowane zmienne losowe,
które są zależne (przykład!).
5.4 Fakt Niech całkowalne z kwadratem zmienne losowe X1 , X2 , . . . , Xn będą nieskorelowane. Wówczas
Var (X1 + X2 + · · · + Xn ) = Var (X1 ) + Var (X2 ) + · · · + Var (Xn ).
W szczególności, powyższy wzór ma miejsce dla całkowalnych z kwadratem, parami niezależnych zmiennych losowych.
5.5 Definicja Współczynnikiem korelacji całkowalnych z kwadratem zmiennych losowych X i y nazywamy liczbę
r(X, Y ) =


 cov (X, Y )
jeśli D(X) · D(Y ) 6= 0,

1
jeśli D(X) · D(Y ) = 0.
D(X)D(Y )
Niektórzy autorzy oznaczają współczynnik korelacji symbolem ρ(X, Y ).
17
18
5. Charakterystyki wektorów losowych
5.6 Fakt
1. −1 ¬ r(X, Y ) ¬ 1.
2. r(X, Y ) = 0 wtedy i tylko wtedy, gdy X i Y są nieskorelowane.
3. |r(X, Y )| = 1 wtedy i tylko wtedy, gdy istnieją stałe α, β ∈ IR1 takie, że X = βY +α
lub Y = βX + α.
Wartość oczekiwana i macierz kowariancji
~ = (X1 , X2 , . . . , Xd )T będzie wektorem losowym.
5.7 Definicja Niech X
~ będzie całkowalna (równoważnie: EkXk
~ < +∞).
1. Niech każda składowa wektora X
~
Wartością oczekiwaną wektora X nazywamy wektor wartości oczekiwanych jego
składowych:
~ = (EX1 , EX2 , . . . , EXd )T .
EX
~ będzie całkowalna z kwadratem (równoważnie:
2. Niech każda składowa wektora X
2
~
~ nazywamy macierz o współczynniEkXk , +∞). Macierzą kowariancji wektora X
kach
σjk = cov (Xj , Xk ).
~ Ten sam symbol użyMacierz kowariancji oznaczać będziemy symbolem Cov (X).
wany będzie również dla oznaczenia operatora kowariancji zadawanego w oczywisty
~
sposób przez macierz kowariancji. W napisie hx, Cov (X)yi
mamy więc do czynieT
~
nia z operatorem kowariancji, a w napisie x Cov (X)y
z macierzą kowariancji.
~ nazywamy liczbę
3. Wariancją wektora X
~ := EkX
~ − E Xk
~ 2=
Var (X)
d
X
Var (Xj ).
j=1
~ < +∞. Wartość oczekiwana wektora X
~ to jedyny wektor
5.8 Twierdzenie Niech EkXk
d
m ∈ IR taki, że
~ = hx, mi, x ∈ IRd .
Ehx, Xi
~ 2 < +∞. Macierz kowariancji wektora X
~ jest jedyną
5.9 Twierdzenie Niech EkXk
symetryczną macierzą Σ wymiaru d × d wyznaczoną przez formę kwadratową
~ − E Xi
~ 2 = Var (hx, Xi)
~ = hx, Σ xi,
Ehx, X
x ∈ IRd .
Wartość oczekiwana i macierz kowariancji
19
~ jest więc jedyną macierzą Σ spełniającą związek
Cov (X)
~ − E Xihy,
~
~ − E Xi
~ = cov (hx, Xi,
~ hy, Xi)
~ = hx, Σ yi,
Ehx, X
X
x, y ∈ IRd .
~ jest symetryczna i nie5.10 Twierdzenie Macierz kowariancji wektora losowego X
ujemnie określona. Na odwrót, dla dowolnej symetrycznej i nieujemnie określonej ma~ taki, że
cierzy Σ rozmiaru d × d istnieje d-wymiarowy wektor losowy X
~ = Σ.
Cov (X)
20
5. Charakterystyki wektorów losowych
6. Istnienie procesów stochastycznych
Schemat Bernoullego
6.1 Definicja Schematem Bernoullego z prawdopodobieństwem sukcesu p ∈ (0, 1) nazywamy ciąg X1 , X2 , . . . niezależnych zmiennych losowych o jednakowym rozkładzie
P (Xn = 1) = p = 1 − P (Xn = 0).
Łatwo jest skonstruować skończony schemat Bernoullego (nie wykraczając poza dyskretne przestrzenie probabilistyczne). Nie jest jednak oczywiste, czy istnieją nieskończone
schematy Bernoullego. Oto dwa klasyczne przykłady dające twierdzącą odpowiedź na to
pytanie.
Funkcje Rademachera
6.2 Przykład Niech Niech Ω = [0, 1], F = B 1 ∩ [0, 1] i niech P będzie miarą Lebesgue’a
` obciętą do [0, 1] (tzw. standardowa przestrzeń probabilistyczna). Funkcje Rademachera
określamy wzorem:
rn (ω) = sign (sin 2πnω), n = 1, 2, . . . .
Są one niezależne (jak to sprawdzić?). Wzór
1
Xn (ω) = (rn (ω) + 1)
2
zadaje schemat Bernoullego z prawdopodobieństwem sukcesu p = 1/2.
Rozwinięcia dwójkowe
6.3 Przykład Niech (Ω, F, P ) będą jak wyżej. Dla ω ∈ [0, 1] niech Xn (ω) będzie n-tą
cyfrą rozwinięcia dwójkowego liczby ω:
ω=
∞
X
Xn (ω)2−n .
n=1
Dla poprawności definicji przyjmujemy dodatkowo umowę, że liczby dwójkowowymierne
P
zapisujemy z użyciem nieskończonej liczby jedynek, czyli ∞
n=1 Xn (ω) = ∞ dla wszystkich ω prócz 0.
21
22
6. Istnienie procesów stochastycznych
Idea ogólna
6.4 Twierdzenie (Kołmogorowa o istnieniu procesu stochastycznego) Niech
dla każdego n ∈ IN νn będzie rozkładem na IRn . Jeżeli rozkłady νn są zgodne, tzn.
−1
νn+1 ◦ (Πn+1
= νn ,
n )
n ∈ IN,
(gdzie Πn+1
: IRn+1 → IRn jest naturalnym rzutem na pierwszych n współrzędnych), to
n
istnieje przestrzeń probabilistyczna (Ω, F, P ) oraz zmienne losowe X1 , X2 , . . . , określone
na tej przestrzeni i takie, że dla każdego n ∈ IN
P(X1 ,X2 ,...,Xn ) = νn .
6.5 Wniosek Dla każdego ciągu {µj }j∈IN rozkładów na IR1 istnieje ciąg niezależnych
zmiennych losowych X1 , X2 , . . ., takich że rozkład Xj jest równy µj (Xj ∼ µj ).
7. Prawa wielkich liczb
Słabe prawo wielkich liczb Markowa
7.1 Definicja Mówimy,że ciąg zmiennych losowych X1 , X2 , . . . spełnia słabe prawo wielkich liczb, jeśli istnieje stała C taka, że według prawdopodobieństwa
X1 + X2 + · · · + Xn
−→ C,
P
n
gdy n → +∞.
Stwierdzenie „według prawdopodobieństwa” oznacza, że dla każdego ε > 0
X1 + X2 + · · · + Xn
P − C > ε → 0,
n
gdy n → +∞.
Mocne prawo wielkich liczb jest spełnione, jeśli dla pewnej stałej C
X1 + X2 + · · · + Xn
→ C,
n
P − prawie na pewno.
Stwierdzenie „P -prawie na pewno” oznacza, że
P ω;
X1 (ω) + X2 (ω) + · · · + Xn (ω)
→C
n
= 1.
7.2 Twierdzenie (Słabe prawo wielkich liczb Markowa) Niech X1 , X2 , . . . będzie
ciągiem nieskorelowanych zmiennych losowych o wspólnie ograniczonych wariancjach:
sup D2 (Xk ) ¬ M < +∞.
k
Wówczas
(X1 − EX1 ) + (X2 − EX2 ) + . . . (Xn − EXn )
−→ 0.
P
n
7.3 Wniosek (Słabe prawo wielkich liczb - Jakub Bernoulli, 1713) Niech X1 , X2 , . . .
będzie schematem Bernoullego z prawdopodobieństwem sukcesu p. Wówczas
X1 + X2 + · · · + Xn
n
−→ p,
P
23
gdy n → +∞.
24
7. Prawa wielkich liczb
7.4 Wniosek Wielomiany Bernsteina ciągłej funkcji f : [0, 1] → IR1 , określone wzorem
wn (x) =
n
X
!
f ( nk )
k=0
n k
x (1 − x)n−k ,
k
jednostajnie zbiegają do f .
Mocne prawo wielkich liczb
7.5 Twierdzenie (Mocne prawo wielkich liczb dla schematu Bernoullego) Niech
X1 , X2 , . . . będzie schematem Bernoullego z prawdopodobieństwem sukcesu p. Wówczas
P -prawie wszędzie
X1 + X2 + · · · + Xn
→ p,
n
gdy n → +∞.
7.6 Zadanie Wyjaśnić związek mocnego prawa wielkich liczb dla schematu Bernoullego
z interpretacją częstościową prawdopodobieństwa.
7.7 Twierdzenie (Mocne prawo wielkich liczb, Chińczyn, Kołmogorow, Etemadi) Niech X1 , X2 , . . . będzie ciągiem parami niezależnych zmiennych losowych o jednakowych rozkładach.
Jeżeli E|X1 | < +∞, to P -prawie wszędzie
X1 + X2 + · · · + Xn
−→ EX1 .
n
Na odwrót, jeśli
P lim sup
n
|X1 + X2 + · · · + Xn |
< +∞ > 0,
n
to E|X1 | < +∞ i średnie są zbieżne prawie wszędzie do EX1 .
7.8 Zadanie Czy średnia z pomiarów jest lepszym przybliżeniem mierzonej wielkości
od pojedynczego pomiaru?
8. Centralne twierdzenie graniczne
Twierdzenie de Moivre’a-Laplace’a
8.1 Twierdzenie (de Moivre-Laplace) Nich X1 , X2 , . . . , będzie schematem Bernoullego z prawdopodobieństwem sukcesu p ∈ (0, 1). Wówczas dla dowolnych a < b, gdy n →
+∞,
!
Z b
X1 + X2 + · · · + Xn − np
1
2
p
P a<
e−(1/2)u du.
<b → √
np(1 − p)
2π a
8.2 Uwaga Teza powyższego twierdzenia oznacza, że liczba sukcesów
Sn w p
schemacie
p
Bernoullego scentrowana przez np = ESn i unormowana przez np(1 − p = Var (Sn )
zmierza według rozkładu do standardowego rozkładu normalnego.
Centralne twierdzenie graniczne
8.3 Twierdzenie (P. L’evy) Niech X1 , X2 , . . . , będzie ciągiem niezależnych zmiennych
losowych o jednakowych rozkładach i skończonej i niezerowej wariancji: 0 < Var (Xk ) <
+∞. Wówczas dla dowolnych a < b, gdy n → +∞,
!
P
X1 + X2 + · · · + Xn − nEX1
p
a<
<b
nVar (X1 )
25
1
→√
2π
Z b
a
2
e−(1/2)u du.
26
8. Centralne twierdzenie graniczne
9. O przestrzeniach Hilberta
Przestrzenie prehilbertowskie
9.1 Definicja Niech E będzie przestrzenią liniową. Formę h·, ·i : E × E → IR1 (lub C)
nazywamy iloczynem skalarnym, jeśli spełnione są następujące warunki:
IS1) hx + y, zi = hx, zi + hy, zi, ∀ x, y, z ∈ E.
IS2) hαx, zi = αhx, zi, ∀ α ∈ IR1 (C), x, z ∈ E.
IS3) hy, xi = hx, yi, ∀ x, y ∈ E.
IS4) hx, xi ­ 0, ∀ x ∈ E, oraz hx, xi = 0 dokładnie wtedy, gdy x = 0.
9.2 Definicja Przestrzenią prehilbertowską nazywamy przestrzeń liniową z iloczynem
skalarnym h·, ·i.
9.3 Fakt W przestrzeni prehilbertowskiej E mają miejsce następujące związki:
1. Wzór kxk =
p
hx, xi zadaje normę na E, tzn. spełnione są związki
• kx + yk ¬ kxk + kyk;
• kαxk = |α|kxk;
• Jeśli kxk = 0, to x = 0.
2. Zachodzi tożsamość równoległoboku:
kx + yk2 + kx − yk2 = 2(kxk2 + kyk2 ), ∀ x, y ∈ E.
3. Zachodzi nierówność Schwartza:
|hx, yi| ¬ kxkkyk, ∀ x, y ∈ E.
27
28
9. O przestrzeniach Hilberta
4. Zachodzą wzory polaryzacyjne: ∀ x, y ∈ E,
hx, yi =
hx, yi =
1
kx + yk2 − kx − yk2 , nad IR1 ,
4
1
kx + yk2 − kx − yk2 + ikx + iyk2 − ikx − iyk2 ,
4
nad C.
9.4 Wniosek Z nierówności Schwartza wynika, że iloczyn skalarny jest ciągłą funkcją
obu argumentów.
9.5 Definicja Niech x, y ∈ E. Kąt θ, θ ∈ [0, π) miedzy wektorami określony jest dla
x, y 6= 0 wzorem
hx, yi
cos θ =
,
kxkkyk
a jeśli x = 0 lub y = 0, to z definicji θ = 0.
Mówimy, że wektory x i y są ortogonalne, jeśli hx, yi = 0 (czyli θ = 0).
9.6 Twierdzenie (Pitagorasa) Jeżeli wektory x1 , x2 , . . . , xn ∈ E są parami ortogonalne (tzn. hxi , xj i = 0 dla i 6= j), to
kx1 + x2 + . . . + xn k2 = kx1 k2 + kx2 k2 + . . . + kxn k2 .
9.7 Uwaga W przypadku przestrzeni nad IR1 kx1 + x2 k2 = kx1 k2 + kx2 k2 pociąga
ortogonalność: hx, yi = 0. W przypadku przestrzeni nad C tak nie jest (przykład?).
Twierdzenia o rzucie ortogonalnym
9.8 Definicja Przestrzeń prehilbertowską H nazywamy przestrzenią Hilberta, jeśli jest
zupełna w metryce
q
d(x, y) = kx − yk = hx − y, x − yi.
9.9 Twierdzenie (O rzucie na zbiór wypukły) Niech H będzie przestrzenią Hilberta, a C ⊂ H niech będzie jej podzbiorem wypukłym i domkniętym. Dla każdego x ∈ H
istnieje dokładnie jeden wektor xC ∈ C taki, że
kx − xC k = inf kx − uk =: d(x, C).
u∈C
9.10 Twierdzenie (O rzucie na podprzestrzeń domkniętą) Niech V będzie domkniętą podprzestrzenią przestrzeni Hilberta H. Dla każdego x ∈ H istnieje dokładnie
jeden wektor xV ∈ V taki, że kx − xV k = d(x, V).
Twierdzenia o rzucie ortogonalnym
29
Wektor xV jest jedynym wektorem z spełniającym jednocześnie dwa warunki: z ∈ V
i
hx − z, ui = 0, ∀ u ∈ V.
9.11 Definicja Niech V ⊂ H będzie podprzestrzenią domkniętą. Odwzorowanie x 7→ xV
nazywamy rzutem ortogonalnym na V i oznaczamy ΠV .
9.12 Fakt Rzut ortogonalny ΠV jest odwzorowaniem liniowym.
9.13 Twierdzenie (O rozkładzie ortogonalnym) Niech V będzie domkniętą podprzestrzenią przestrzeni Hilberta H. Dla każdego x ∈ H istnieje dokładnie jeden rozkład
x = x0 + x00 ,
gdzie x0 ∈ V i x00 ⊥V.
9.14 Uwaga Symbolicznie powyższy rozkład zapisujemy w sposób następujący:
H = V ⊕ V⊥ ,
gdzie
V⊥ = {y ∈ H ; hy, ui = 0, ∀ u ∈ V}.
30
9. O przestrzeniach Hilberta
Literatura
1. A.A. Borowkow, Rachunek prawdopodobieństwa, PWN, Warszawa 1975.
2. J. Jakubowski i R. Sztencel, Wstęp do teorii prawdopodobieństwa, Wyd. II,
Script, Warszawa 2001, www.script.com.pl
31
Download