9 Elementy analizy wielowymiarowej

advertisement
Marek Beśka, Statystyka matematyczna, wykład 9
9
9.1
131
Elementy analizy wielowymiarowej
Wielowymiarowy rozkład normalny
Definicja 9.1 Wektor losowy X = (X1 , . . . , Xk ) określony na przestrzeni probabilistycznej
(Ω, F, P ) ma rozkład normalny, jeśli jego funkcja charakterystyczna ϕX ma postać
1
ϕX (t) = exp ihm, ti − hRt, ti ,
2
t = (t1 , . . . , tk ) ∈ IRk ,
m = (m1 , . . . , mk ) ∈ IRk oraz R jest macierzą kwadratową stopnia k, symetryczną oraz
nieujemnie określoną tzn.
^
hRx, xi ≥ 0.
x∈Rk
Będziemy wtedy w skrócie pisać X ∼ Nk (m, R).
Uwaga. Dla x = (x1 , . . . , xk ), y = (y1 , . . . , yk ) ∈ IRk iloczyn skalarny hx, yi określony jest
wzorem
k
X
hx, yi =
xi yi .
i=1
Będziemy też używać zapisu macierzowego tzn.
hx, yi = xT y,
hRx, xi = xT Rx.
Własności wielowymiarowego rozkładu normalnego.
(i) Jeśli X = (X1 , . . . , Xk ) ∼ Nk (m, R) jest wektorem losowym o rozkładzie normalnym z
parametremi m i R, to m jest wektorem średnim (wartości oczekiwanej) X, a R macierzą
kowariancji X tj.
EX = (EX1 , . . . , EXk ) = m;
cov(X) = E (X − EX)(X − EX)T = E((Xi − EXi )(Xj − EXj )) 1≤i,j≤k = R.
(ii) Wektor losowy X = (X1 , . . . , Xk ) ma rozkład normalny wtedy i tylko wtedy, gdy dla
dowolnego u ∈ IRk zmienna losowa
hu, Xi =
k
X
ui Xi
i=1
ma rozkład normalny (na IR).
(iii) Niech L : IRk → IRn będzie odwzorowaniem afinicznym tj. L = A + a, gdzie
a ∈ IRn oraz A : IRk → IRn operator liniowy. Jeśli X ∼ Nk (m, R), to Y = L(X) ∼
Nn (L(m), ARAT ), gdzie A macierz operatora liniowego A. Stąd w szczególności wynika,
że rozkłady brzegowe wektora losowego o rozkładzie normalnym są rozkładami normalnymi
132
Marek Beśka, Statystyka matematyczna, wykład 9
tj. jeśli X = (X1 , . . . , Xk ) na rozkład normalny i 1 ≤ i1 < i2 < · · · < il ≤ k, l = 1, 2, . . . , k,
to (Xi1 , . . . , Xil ) ma rozkład normalny na IRl .
(iv) Jeśli X ∼ Nk (m, R), to
P {X ∈ m + Im(R)} = 1.
(v) Jeśli X ∼ Nk (m, R) i E ⊂ IRk jest przestrzenią afiniczną tzn.
E = a + M,
gdzie a ∈ IRk , M ⊂ IRk podprzestrzeń liniowa, to
P {X ∈ E} = 0 albo P {X ∈ E} = 1.
Dowód. Zauważmy, że wystarczy wykazać, gdy E jest podprzestrzenią liniową, bo gdy
E = a + M,
a 6∈ M,
to
P {X ∈ E} = P {X ∈ a + M } = P {X − a ∈ M }
oraz X − a ∼ Nk (m − a, R). Niech więc E ⊂ IRk będzie podprzestrzenią liniową i załóżmy
dodatkowo EX = 0. Określmy
B(θ) := {ω ∈ Ω : X(ω) cos θ + Y (ω) sin θ ∈ E, −X(ω) sin θ + Y (ω) cos θ 6∈ E},
θ ∈ IR i wektor losowy Y jest niezależny od X oraz µY = µX . Zauważmy również, że
µ(X cos θ+Y
sin θ,−X sin θ+Y cos θ)
= µ(X,Y ) ,
θ ∈ IR,
co łatwo sprawdzić licząc funkcję charakterystyczne obu wektorów losowych. Stąd w szczegolności wynika, że P (B(θ)) nie zależy od θ ∈ IR. Niech 0 ≤ θ 6= φ ≤ π/2 i niech
ω ∈ B(θ) ∩ B(φ). Wtedy
U (ω) = X(ω) cos θ + Y (ω) sin θ ∈ E,
(9.1)
U (ω) = X(ω) cos φ + Y (ω) sin φ ∈ E.
Wyznacznik powyższego układu jest równy
cos θ sin θ
W = cos φ sin φ
= sin(φ − θ) 6= 0.
Zatem układ (9.1) ma jedno rozwiązanie, które możemy napisać w postaci:
X(ω) = AU (ω) + BV (ω) ∈ E,
(9.2)
Y (ω) = CU (ω) + DV (ω) ∈ E,
Marek Beśka, Statystyka matematyczna, wykład 9
133
gdzie stałe A, B, C, D zależą od θ i φ. Z (9.2) dostajemy
−X(ω) sin θ + Y (ω) cos θ ∈ E,
co jest sprzeczne z założeniem ω ∈ B(θ) ∩ B(φ). tak więc B(θ) ∩ B(φ) = ∅ dla 0 ≤ θ 6=
φ ≤ π/2. Ponieważ jak już zauważyliśmy P (B(θ)) nie zależy od θ, więc P (B(θ)) = 0 dla
θ ∈ IR. W szczególności dla θ = 0 otrzymujemy
P {ω ∈ Ω : X(ω) ∈ E, Y (ω) 6∈ E} = 0.
Z niezależności X i Y mamy
P {X ∈ E}P {Y 6∈ E} = 0
Stąd i z µX = µY dostajemy
P {X ∈ E}P {X 6∈ E} = 0.
Zatem
P {X ∈ E} = 0
∨
P {X ∈ E} = 1.
Załóżmy teraz EX 6= 0 i niech A : IRk → IRk będzie określone wzorem A(x) = −x, x ∈ IRk .
Wtedy Y = A(X) ∼ Nk (−m, R). Określmy
ν = µX ? µ Y .
Wtedy ν ma rozkład normalny (scentrowny) o macierzy kowariancji 2R (bo ϕν = ϕµX ϕµY ).
Załóżmy, że
µX (E) = P {X ∈ E} > 0.
Wtedy
Z
Z
µY (E − x) dµX (x) ≥
ν(E) =
Rk
Z
µY (E − x) dµX (x) =
E
2
µY (E) dµX (x) = µY (E)µX (E) = µX (E) > 0,
E
gdzie ostatnia równość wynika z
µY (E) = P {Y ∈ E} = P {A(X) ∈ E} = P {−X ∈ E} = P {X ∈ E} = µX (E).
Z pierwszej częsci dowodu mamy zatem (µ scentrowana) ν(E) = 1 tzn.
Z
µY (E − x) dµX (x).
1 = ν(E) =
Rk
Stąd
µY (E − x) = 1 dla µX − p.w x.
Marek Beśka, Statystyka matematyczna, wykład 9
134
Ponieważ µY (E) = µX (E) > 0, więc dla pewnego x ∈ E mamy
1 = µY (E − x) = µY (E) = µX (E) = P {X ∈ E},
bo
µX (E ∩ {x : µY (E − x) = 1}) = µX (E) > 0.
2
(vi) Jeśli X ∼ Nk (m, R) i det(R) > 0, to µX ma gęstość fX (względem miary Lebesgue’a)
oraz
n 1
o
1
fX (x) = √ k p
x ∈ IRk .
exp − R−1 (x − m), x − m ,
2
2π
det(R)
(vii) Jeśli X ∼ Nk (m, R) i rz(R) = d < k, to istnieje Y ∼ Nd (a, S), gdzie a ∈ IRd , S jest
macierza diagonalną oraz det(S) > 0 (więc µY ma gęstość na IRd ) i odwzorowanie afiniczne
L : IRd → IRk takie, że X = L(Y ).
Dowód. Jak wiadoma macierz R możemy zapisać w postaci
R = UDUT ,
gdzie D jest macierzą diagonalną i główna przekątna ma postać λ1 , . . . , λk , gdzie λi > 0
dla 1 ≤ i ≤ d oraz λi = 0 dla d + 1 ≤ i ≤ k, a U jest macierzą unitarną (kolumnami której
są unormowane wektory własne odpowiadające wartościom własnym λi , i = 1, . . . , k).
Zapiszmy macierz U w postaci macierzy blokowej
U= B N ,
gdzie B jest macierzą złożoną z pierwszych d kolumn macierzy U, a macierz N składa się
z pozostałych kolumn macierzy U. Określmy Y = BT X, Z = NT X tzn.
T
Y
B
=
X = UT X
Z
NT
Stąd
(9.3)
Ponieważ
Y
Y
X=U
= B N
= BY + NZ.
Z
Z
T
BT
B RB BT RN
D = U RU =
R B N =
.
NT RB NT RN
NT
T
Z postaci macierzy D wynika np. NT RN = 0 oraz BT RB jest macierza diagonalną o
głównej przekątnej składajacej się z λ1 , . . . , λd . Stąd
S = cov(Y ) = cov(BT X) = BT RB
135
Marek Beśka, Statystyka matematyczna, wykład 9
jest macierzą diagonalną oraz
cov(Z) = cov(NT X) = NT RN = 0.
Stąd Z = EZ, P - p.w. Ale
EZ = E(NT X) = NT EX = NT m.
Zatem z (9.3) mamy
X = BY + NNT m.
Tak, więc szukanym odwzorowaniem afinicznym jest
L(x) = B(x) + N N T m,
x ∈ IRd ,
a Y ∈ Nd (a, S), gdzie
a = EY = E(BT X) = BT m,
S = BT RB,
det(S) > 0.
2
(viii) Jeśli X = (X1 , . . . , Xk ) ∼ Nk (m, R), to zmienne
X1 , . . . , Xk są niezależne wtedy i tylko wtedy, gdy R jest macierza diagonalną tzn.
zmienne
X1 , . . . , Xk są nieskorelowane. Dla uzupelnienia tego faktu podamy przykład wektora
losowego (X, Y ) w IR2 takiego, że rozkłady X i Y są standardowymi rozkładami normalnymi, X i Y są nieskorelowane, ale rozkład (X, Y ) nie jest rozkładem normalnym w IR2
(a więc X i Y nie są niezależne). Niech Ω = IR2 , F = B(IR) ⊗ B(IR), P = µ × µ, gdzie µ
standardowy rozkład normalny na IR. Określmy
(x, x),
xy ≥ 0,
(X, Y )(x, y) =
(x, y) ∈ Ω.
(x, −x), xy < 0,
Wyznaczmy rozkłady brzegowe. Niech A ∈ B(IR). Wtedy
P {X ∈ A} = P {(x, y) ∈ Ω : x ∈ A, xy ≥ 0}+
P {(x, y) ∈ Ω : x ∈ A, xy < 0} = P {(x, y) ∈ Ω : x ∈ A} = µ(A).
Podobnie
P {Y ∈ A} = P {(x, y) ∈ Ω : x ∈ A, xy ≥ 0}+
P {(x, y) ∈ Ω : −x ∈ A, xy < 0} = µ(A ∩ [0, ∞))µ([0, ∞)) + µ(A ∩ (−∞, 0])µ((−∞, 0])+
µ(−A ∩ (0, ∞))µ((−∞, 0)) + µ(−A ∩ (−∞, 0))µ((0, ∞)) =
1
1
µ(A) + µ(−A) = µ(A).
2
2
136
Marek Beśka, Statystyka matematyczna, wykład 9
Zatem EX = EY = 0. Obliczmy
Z
x2 dP (x, y) −
cov(X, Y ) = E(XY ) =
Z
x2 dP (x, y) +
{x≥0,y≥0}
x2 dP (x, y)−
{x≤0,y≤0}
Z
Z
2
x2 dP (x, y) =
x dP (x, y) −
{x>0,y<0}
{x<0,y>0}
1
2
x2 dP (x, y) =
{xy<0}
{xy≥0}
Z
Z
Z
x2 dµ(x) −
R
1
2
Z
x2 dµ(x) = 0.
R
Zatem zmienne losowe X i Y są nieskorelowane. Gdyby rozkład (X, Y ) był rozkładem
normalnym, to zgodnie z własnością (v) mielibyśmy P {X = Y } = 0 albo P {X = Y } = 1.
Tymczasem
1
P {X = Y } = P {(x, y) : xy ≥ 0} = .
2
Zatem rozkład (X, Y ) nie jest rozkładem normalnym, a więc zmienne losowe X i Y nie są
niezależne.
(ix) Jak łatwo sprawdzić (np. wykonując bezpośrednie rachunki) zmienna losowa
Y =
X2
,
σ2
gdzie X ∼ N (m, σ 2 ) ma gęstość fY , którą możemy przedstawić w postaci
(9.4)
∞
m2 X
1 m2 k
fY (y) = exp − 2
g 1 ,k+ 1 (y),
2
2
2σ
k! 2σ 2
y ∈ IR,
k=0
gdzie
k+ 1
2
1
2
y
k− 12
y
exp
−
I
(y),
y ∈ IR,
2
2
2 (0,∞)
Γ k + 21
tj. gęstość rozkładu gamma G 12 , k + 21 lub rozkładu chi-kwadrat o 2k + 1 stopniach
swobody.
Zauważmy również, że gdy m = 0, to zmienna losowa Y ma rozkład gamma
G 21 , 21 . Korzystając z funkcji charakterystycznej rozkładu gamma możemy wyznaczyć
funkcję charakterystyczną zmiennej losowej Y , mianowicie dla t ∈ IR mamy
g 1 ,k+ 1 (y) =
∞
m2 X
1
1 m2 k
ϕY (t) = exp − 2
(1 − 2it)−(k+ 2 ) =
2
2σ
k! 2σ
k=0
1
(1 − 2it)− 2 exp −
m2 2σ 2
exp
itm2
m2
− 12
=
(1
−
2it)
exp
.
2σ 2 (1 − 2it)
σ 2 (1 − 2it)
137
Marek Beśka, Statystyka matematyczna, wykład 9
Niech teraz X1 , . . . , Xn będą niezależnymi zmiennymi losowymi o rozkładach normalnych
Xi ∼ N (mi , σ 2 ), i = 1, . . . , n. Wyznaczmy rozkład zmiennej losowej
n
1 X 2
W = 2
Xi .
σ
i=1
Oznaczmy m = (m1 , . . . , mn ) oraz kmk2 = m21 + . . . + m2n . Niech U bedzie macierzą
ortogonalną (stopnia n), której pierwszy wiersz składa się z następujących elementów
m1
m2
mn
,
,...,
.
kmk kmk
kmk
Zauważmy, że U (m) = (kmk, 0, . . . , 0) i oznaczmy Y = U (X), gdzie X = (X1 , . . . , Xn ).
Wektor losowy Y ma oczywiście rozkład normalny. Wyznaczymy jego gęstość. Niech
y = (y1 , . . . , yn ) ∈ IRn , mamy
1
1
fY (y) = fX (U −1 y) = √
exp − 2 kU −1 y − mk2 =
2σ
(σ 2π)n
1
1
2
√
exp − 2 ky − U mk =
2σ
(σ 2π)n
1
1
√
exp − 2 (y1 − kmk)2 + y22 + · · · + yn2 .
2σ
(σ 2π)n
Z postaci gęstości wektora losowego Y = (Y1 , . . . , Yn ) wynika, że zmienne losowe Y1 , . . . , Yn
są niezależne, EY1 = kmk, EYi = 0 dla i = 2, 3, . . . , n. Zauważmy ponadto
W =
kY k2
Y12 Y2 + · · · + Yn
kXk2
=
=
+
= W1 + W2 .
σ2
σ2
σ2
σ2
Gęstość W1 otrzymamy
ze wzoru (9.4) zastępując w nim m przez kmk, a W2 ma rozkład
gamma G 12 , n−1
.
Ponieważ
W1 i W2 sa niezależne, więc gęstość W jest splotem gęstości
2
W1 i W2 . Stąd i z własności splotu dla gęstości rozkładów gamma otrzymujemy następujący
wzór na gęstość zmiennej losowej W .
∞
kmk2 X
1 kmk2 k
fY (y) = exp −
g 1 ,k+ n (y),
2
2
2σ 2
k! 2σ 2
y ∈ IR.
k=0
Jest to gęstość tzw. niecentralnego rozkładu chi-kwadrat o n stopniach swobody i parametrze niecentralności
kmk2
λ=
.
σ2
Będziemy wtedy pisać W ∼ χ2 (n, λ). Funkcja charakterystyczna zmienne losowej W ma
postać
∞
λ X
n
1 λ k
ϕW (t) = exp −
(1 − 2it)−(k+ 2 ) =
2
k! 2
k=0
138
Marek Beśka, Statystyka matematyczna, wykład 9
itλ ,
t ∈ IR.
1 − 2it
Z powyższego wzoru widać, że niecentralny rozkład chi-kwadrat ma własność addytywności
ze względu na n oraz λ tzn. jeśli zmienne losowe Wi ∼ χ2 (ni , λi ), i = 1, 2, . . . , k są
niezależne, to
W1 + · · · + Wk ∼ χ2 (n1 + · · · , nk , λ1 + · · · + λk ).
n
(1 − 2it)− 2 exp
(x) Niech A będzie macierzą symetryczną stopnia n i niech Yi ∼ N (mi , 1), i = 1, . . . , n
będą niezależnymi zmiennymi losowymi. Oznaczmy Y = (Y1 , . . . , Yn ). Warunkiem koniecznym i dostatecznym na to, aby zmienna losowa Y T AY miała rozkład chi-kwadrat,
jest, by macierz A była idempotentna, tzn., by A2 = A. Wtedy liczba stopni swobody
rozkładu chi-kwadrat jest równa rzędowi macierzy A, czyli jej śladowi.
Dowód. Jak wiadomo macierze idempotentne mają nastepującą własność
tr(A) = rz(A).
Dowód dostateczności wynika natychmiast z twierdzenia Cochrana-Fishera, bo
Y T Y = Y T AY + Y T (I − A)Y
oraz z idmpotentności macierzy A wynika idempotentność macierzy I − A. Zatem
rz(A) + rz(I − A) = tr(A) + tr(I − A) = tr(A + I − A) = n.
Dla dowodu konieczności zauważmy, że istnieje ortogonalana macierz U taka, że gdy przyjmiemy X = UT Y , X = (X1 , . . . , Xn ), to
Y T AY = X T UT AUX = λ1 X12 + . . . + λl Xl2 ,
gdzie λ1 , . . . , λl są niezerowymi wartościami własnymi macierzy A. Zmienne losowe X1 , . . . , Xn
są niezależne oraz Xi2 ∼ χ2 (1, ki2 ), i = 1, . . . , n, gdzie m = (m1 , . . . , mn ), k = UT m,
k = (k1 , . . . , kn ). Zatem funkcja charakterystyczna zmiennej losowej λ1 X12 + . . . + λn Xn2
ma postać
itλ k 2 itλ k 2 − 1
l l
1 1
(1 − 2iλ1 t)(1 − 2iλ2 t) . . . (1 − 2iλl t) 2 exp
· · · exp
.
1 − 2itλ1
1 − 2itλl
Z drugiej strony, z założenia zmienna losowa Y T AY ma rozkład chi-kwadrat, powiedzmy o
s stopniach swobody i parametrze niecentralnosci r. Zatem jej funkcja charakterystyczna
ma postać
itr s
(1 − 2it)− 2 exp
1 − 2it
Porównując teraz obie funkcje charakterystyczne stwierdzamy, że l = s, λi = 1 dla
i = 1, 2, . . . , l, k12 + . . . kl2 = r. Stąd wynika, że diagonalna macierz UT AU na głównej
przekątnej ma elementy równe 0 lub 1, czyli jest macierzą idempotentną. Zatem
UT AU = UT AUUT AU = UT A2 U
⇒
A = A2 .
139
Marek Beśka, Statystyka matematyczna, wykład 9
2
Na zakończenie tego punktu zanotujmy jeszcze jedną własność. Niech A, B będą symetrycznymi macierzami stopnia n i niech wektor losowy Y = (Y1 , . . . , Yn ) będzie taki jak
wyżej. Załóżmy, że zmienne losowe Y T AY , Y T BY mają rozkłady chi-kwadrat. Warunkiem koniecznym i dostatecznym na to aby te zmienne losowe były niezależne, jest, by
AB = 0. Rzeczywiście, Ponieważ A = A2 i B = B2 , więc z warunku AB = 0 wynika, że
A(I − A − B) = B(I − A − B) = 0,
co oznacza, że
rz(A) + rz(B) + rz(I − A − B) = n.
Ale
Y T Y = Y T AY + Y T BY + Y T (I − A − B)Y,
więc z twierdzenia Cochrana-Fishera dostajemy tezę. W drugą stronę. Z niezależności
Y T AY , Y T BY wynika, że
Y T AY + Y T BY = Y T (A + B)Y
ma rozkład chi-kwadrat. Zatem macierz A + B jest idempotentna, a stąd AB = 0.
2
(xi) Niech f będzie gęstością pewnego rozkładu na IR . Jego entropię określamy wzorem
Z
L(f ) = −
f (x) ln f (x) dλ(x),
k
Rk
gdzie przyjmujemy umowę: 0 ln 0 = 0. Zauważmy, że jeśli g > 0 jest inną gęstością, to
Z
f (x)
(9.5)
f (x) ln
dλ(x) ≥ 0.
g(x)
Rk
Rzeczywiście, przyjmując dµ = g dλ i korzystając z nierówności Jensena otrzymujemy
Z
Z
f (x)
f (x) f (x)
f (x) ln
dλ(x) =
ln
dµ(x) ≥
g(x)
g(x)
Rk
Rk g(x)
Z
Z f (x)
f (x)
dµ(x) ln
dµ(x) = 0.
Rk g(x)
Rk g(x)
Z (9.5) dostajemy
Z
L(f ) = −
Z
f (x) ln f (x) dλ(x) ≤ −
Rk
f (x) ln g(x) dλ(x).
Rk
Podstawmy za g gęstość wektora losowego X ∈ Nk (m, R) tj.
n 1
o
1
g(x) = fX (x) = √ k p
exp − R−1 (x − m), x − m ,
2
2π
det(R)
x ∈ IRk
Marek Beśka, Statystyka matematyczna, wykład 9
oraz załóżmy, że
Z
(9.6)
x f (x) dλ(x) = m,
Z
140
f (x) (x − m)(x − m)T dλ(x) = R.
Rk
Rk
Otrzymujemy
Z
L(f ) = −
f (x) ln f (x) dλ(x) ≤
Rk
Z
i
1
1
− R−1 (x − m), x − m dλ(x) =
k p
Rk
2π
det(R) 2
Z
1
1
− ln √ k p
f (x) R−1 (x − m), x − m dλ(x) =
+
2π
det(R) 2 Rk
Z
1
1
− ln √ k p
+
f (x) (x − m)T R−1 (x − m) dλ(x) =
2π
det(R) 2 Rk
Z
1
1
− ln √ k p
f (x) tr R−1 (x − m)(x − m)T dλ(x) =
+
2π
det(R) 2 Rk
Z
i
1
1 h −1
− ln √ k p
+ tr R
f (x) (x − m)(x − m)T dλ(x) =
Rk
2π
det(R) 2
−
h
f (x) ln √
1
k
− ln √ k p
+ .
2π
det(R) 2
(9.7)
Stąd wynika, że w zbiorze gęstości spełniających warunki (9.6) ich entropia jest ograniczona
przez stałą (9.7). Ponieważ
L(g) = L(fX ) = − ln √
1
k
+ ,
k p
2π
det(R) 2
więc w zbiorze gęstości spelniających warunki (9.6) entropia osiąga maksimum dla gęstości
rozkładu normalnego.
9.2
Macierze losowe
Wprowadźmy oznaczenia: Przez Mn×m będziemy oznaczać zbiór wszystkich rzeczywistych
maceirzy o wymiarze n × m, przez Sn zbior macerzy symetrycznych stopnia n. Macierzy
e ∈ IRnm określony wzorem
A ∈ Mn×m możemy przyporządkować wektor A


A1
. 
e=
A
 ..  ,
Am
141
Marek Beśka, Statystyka matematyczna, wykład 9
gdzie Ai oznacza i - tą kolumnę macierzy A, i = 1, . . . , m. Iloczynem skalrnym macierzy
A, B ∈ Mn×m nazywamy liczbę
e Bi.
e
hA | Bi := hA,
Zauważmy, że, gdy A = [aij ], B = [bij ] ∈ Mn×m , to
T
T
T
T
hA | Bi = tr(AB ) = tr(BA ) = tr(A B) = tr(B A) =
n X
m
X
aij bij .
i=1 j=1
Stąd wynika np. hA | Bi = hAT | BT i. Jeśli A ∈ Sn , to
b ∈ IRn(n+1)/2 taki, że
rządkować wektor A
 √


2a1i
T1

..

. 
b=
A
 ..  , gdzie Ti =  √ .
 2ai−1,i
Tn
aii
czasem wygodnie jest jej przypo


,

i = 1, . . . , n.
Zauważmy, że jeśli A, B ∈ Sn , to
b Bi.
b
hA | Bi := hA,
Niech A = [aij ] ∈ Mn×m , B = [bij ] ∈ Mk×l . Iloczynem Kroneckera (lub iloczynem
prostym) macierzy A i B nazywamy macierz A ⊗ B o wymiarze nk × ml postaci


a11 B · · · a1m B


..
..
A ⊗ B =  ...
.
.
.
an1 B · · · anm B
Definicja ta oznacza, że element macierzy A ⊗ B znajdujący się w wierszu o numerze
(i − 1)k + r i w kolumnie o numerze (j − 1)l + s jest równy iloczynowi aij brs . Od razu
zauważamy, że iloczyn Kroneckera nie jest przemienny. Poandto, macierze A, B, C, D
mają odpowiednie wymiary, to
(A ⊗ B)(C ⊗ D) = AC ⊗ BD.
(9.8)
Jeśli A, B ∈ Mn×n , to
(9.9)
tr(A ⊗ B) = tr(A)tr(B).
Jeśli A ∈ Mn×n , B ∈ Mm×m są macierzami nieosobliwymi, to
(9.10)
(A ⊗ B)−1 = A−1 ⊗ B−1 ,
det(A ⊗ B) = (det A)m (det B)n .
Marek Beśka, Statystyka matematyczna, wykład 9
142
Jeśli V ∈ Sm , U ∈ Sn , A ∈ Mn×m , to
eT (V ⊗ U)A
e = hAV | UAi.
A
(9.11)
Miarę Lebesgue’a na przestrzeni Mn×m definiujemy przyjmując
dλ(x) =
n Y
m
Y
dλ(xij ),
x = [xij ] ∈ Mn×m .
i=1 j=1
Miarę Lebesgue’a na przestrzeni Sn definiujemy przyjmując
dλ(x) =
j
n Y
Y
dλ(xij ),
x = [xij ] ∈ Sn .
j=1 i=1
Definicja 9.2 Funkcją charakterystyczną rozkładu macierzy losowej U : Ω → Mn×m nazywamy funkcję ϕU określoną na Mn×m wzorem
ϕU (x) = Eeihx | Ui ,
x ∈ Mn×m .
Zauważmy, że powyższa definicja zgadza się z definicją funkcji charakterystycznej rozkładu
e . Natomiast w przypadku gdy macierz U należy do Sn , stosując tę defiwektora losowego U
nicję do przestrzeni Sn otrzymujemy definicję funkcji charakterystycznej rozkładu wektora
b.
losowego U
Twierdzenie 9.3 Niech X ∈ Mn×m będzie macierzą losową oraz niech A ∈ Mk×n i
B ∈ Mm×l . Określmy Y = AXB. Wówczas
ϕY (x) = ϕX (AT xBT ),
x ∈ Mk×l .
Dowód. Wynika z równości
hx | Yi = tr(xYT ) = tr x(AXB)T = tr x BT XT AT = tr AT xBT XT .
2
Jeśli macierz losowa X ∈ Sn jest symetryczna i A ∈ Mm×n , to macierz losowa AXAT
również jest symetryczna oraz
ϕY (x) = ϕX (AT xA),
x ∈ Sm .
Definicja 9.4 Niech Niech U ∈ Mn×m będzie macierzą losową o elementach całkowalnych
z kwadratem. Kowariancją macierzy U nazywamy formę kwadratową covU określoną na
przestrzeni Mn×m wzorem
e )e
covU (x) = E hU − EU | xi2 = x
eT cov(U
x,
x ∈ Mn×m .
Marek Beśka, Statystyka matematyczna, wykład 9
143
Jeśli U jest macierzą symetryczną stopnia n, to w definicji kowariancji covU możemy
ograniczyć się do przestrzeni Sn .
Twierdzenie 9.5 Niech X ∈ Mn×m będzie macierzą losową oraz niech A ∈ Mk×n i
B ∈ Mm×l . Określmy Y = AXB. Wówczas
covY (y) = covX (AT yBT ),
y ∈ Mk×l .
Dowód. Analogiczny jak twierdzenia 9.3.
2
Niech Sn+ oznacza zbiór macierzy symetrycznych nieujemnie określonych stopnia n.
Definicja 9.6 Niech C = [cij ] ∈ Mn×m będzie macierzą losową o zerowej wrtości oczekiwanej i kowariancji covC . Mówimy, że kowariancja covC jest iloczynem prostym, jeśli
+ spełniajace jeden z równoważnych
istnieją macierze U = [uij ] ∈ Sn+ , V = [vij ] ∈ Sm
warunków:
(9.12)
e = V ⊗ U,
cov(C)
(9.13)
E(cij ckl ) = uik vjl ,
(9.14)
covC (z) = hzV | Uzi = tr(zVzT U),
z ∈ Mn×m .
Jeśli macierz C spełnia warunki (9.12) - (9.14), to mówimy, że C jest iloczynem prostym
macierzy V, V.
Twierdzenie 9.7 Niech X ∈ Mn×m będzie macierzą losową , której kowariancja jest
+ oraz niech A ∈ M
iloczynem prostym macierzy U ∈ Sn+ i V ∈ Sm
k×n i B ∈ Mm×l .
Wówczas macierz losowa Y = AXB ma kowariancję będącą iloczynem prostym macierzy
AUAT oraz BT VB.
Dowód. Z twierdzenia 9.5 mamy
covY (y) = covX (AT yBT ),
y ∈ Mk×l .
Z zalożenia o X oraz z (9.14) dostajemy
covY (y) = hAT yBT V | UAT yBT i = tr(AT yBT VByT AU) = tr(yBT VByT AUAT ).
2
Definicja 9.8 Mówimy, że macierz losowa X ma rozkład normalny N (M, U ⊗ V), gdy
e ma rozkład normalny N (M
f, V ⊗ U).
wektor losowy X
Marek Beśka, Statystyka matematyczna, wykład 9
144
Z twierdzenia 9.7 wynika wprost
Twierdzenie 9.9 Niech X ∈ Mn×m będzie macierzą losową o rozkładzie normalnym
N (M, U ⊗ V) oraz niech A ∈ Mk×n i B ∈ Mm×l . Wówczas
macierz losowa Y = AXB
ma rozkład normalny N AMB, (AUAT ) ⊗ (BT VB) .
2
Łatwo zauważyć, że jeśli macierz losowa X = [Xij ] ∈ Mn×m ma rozkład normalny
N (0, In ⊗ Im ), to zmienne losowe Xij są niezależne i mają rozkład normalny standardowy.
Jeśli ma rozkład normalny N (0, U ⊗ Im ), to kolumny macierzy X są niezależne i mają
rozkład normalny N (0, U). Jeśli natomiast ma rozkład normalny N (0, In ⊗ V), to wiersze
macierzy X są niezależne i mają rozkład normalny N (0, V).
Twierdzenie 9.10 Funkcja charakterystyczna rozkład normalnego N (M, U ⊗ V) wyraża
się wzorem
1
ϕ(x) = exp ihx | Mi − hxV | Uxi ,
x ∈ Mn×m .
2
Dowód. Wynika z definicji funkcji charakterystycznej rozkładu macierzy losowej oraz ze
wzoru (9.11).
2
+ są nieosobliwe, to rozkład normalny
Twierdzenie 9.11 Jeśli macierze U ∈ Sn+ i V ∈ Sm
N (0, U⊗V) ma funkcję gęstości rozkładu prawdopodobieństwa (względem miary Lebesgue’a
na Mn×m ) postaci
n 1
o
1
1
1
√
√
f (x) = √
exp − hxV−1 | U−1 xi ,
x ∈ Mn×m .
2
( 2π)nm ( det U)m ( det V)n
Dowód. Ze wzoru (9.10) wynika nieosobliwość macierzy V ⊗ U. Zatem rozkład normalny
N (e
0, U ⊗ V) ma gęstość
n 1
o
1
1
p
f (e
x) = √
exp − x
eT (V ⊗ U)−1 x
e .
2
( 2π)nm det(V ⊗ U)
Stosując teraz (9.10) i (9.11) dostajemy tezę.
2
Definicja 9.12 Niech k ∈ IN, p > 0 oraz R ∈ Sk+ . Symbolem Γk (R, p) będziemy oznaczać
rozkład na przestrzeni Sk+ o funkcji charakterystycznej
ϕ(x) =
Rp
,
[det(R − ix)]p
x ∈ Sk+ .
Rozkład Γk (R, p) (o ile istnieje) nazywamy (centralnym) uogólnionym rozkładem gamma.
145
Marek Beśka, Statystyka matematyczna, wykład 9
Z twierdzenia podanego poniżej wynika, że jeśli 2p ∈ IN, to rozkład Γk (R, p) zawsze
istnieje. Nazywa się go (centralnym) rozkładem Wisharta i oznaczamy go symbolem
Wk (2p, 2R).
Twierdzenie 9.13 Jeśli X ∈ Mn×k jest daną macierzą losową o rozkładzie normalnym
N (0, I ⊗ R), to macierz losowa XT X ma rozkład Γ(n/2, R/2) tzn. rozkład Wisharta
Wk (n, R).
2
Definicja 9.14 Niech k ∈ IN, p > 0 oraz M, R ∈ Sk+ . Symbolem Γk (R, p, M) będziemy
oznaczać rozkład na przestrzeni Sk+ o funkcji charakterystycznej
ϕ(x) =
Rp
exp itr MR(I − ix)−1 x ,
p
[det(R − ix)]
x ∈ Sk+ .
Rozkład Γk (R, p, M) (o ile istnieje) nazywamy niecentralnym uogólnionym rozkładem gamma.
Twierdzenie 9.15 Jeśli X ∈ Mn×k jest daną macierzą losową o rozkładzie normalnym
N (M, I ⊗ R), to macierz losowa XT X ma rozkład Γ(n/2, R/2, MT M) tzn. niecentralny
rozkład Wisharta Wk (n, R, M).
2
9.3
Rozkład Wisharta
Niech Xi = (Xi1 , Xi2 , . . . , Xik ) ∼ Nk (mi , R), gdzie mi = (mi1 , . . . , mik ), i = 1, . . . , n będą
niezależnymi wektorami losowymi o rozkładzie normalnym. Oznaczmy


X11 · · · X1k
 X21 · · · X2k 


A= .
M = EA.
..
..  ,
 ..
.
. 
Xn1 · · ·
Xnk
Niech a = (a1 , . . . , an ) ∈ IRn . Wtedy wektor losowy
AT a =
n
X
ai Xi
i=1
ma rozkład normalny o parametrach
E(AT a) = MT a,
cov(AT a) =
n
X
i=1
a2i cov(Xi ) =
n
X
i=1
a2i R.
Marek Beśka, Statystyka matematyczna, wykład 9
146
Lemat 9.16 Niech A bedzie jak wyżej i niech a = (a1 , . . . , an ) ∈ IRn , b = (b1 , . . . , bn ) ∈
IRn . Wtedy wektory losowe AT a, AT b są niezależne wtedy i tylko wtedy, gdy ha, bi = 0.
Dowód. Ponieważ wektor losowy (AT a, AT b) ma rozkład normalny (bo jest wynikiem
działania odwzorowania liniowego na wektorze o rozkładzie normalnym) wystarczy, więc
wykazać, że
cov(AT a, AT b) = 0
⇔
ha, bi = 0.
Mamy
cov(AT a, AT b) =
n
X
cov(Xi , Xj )ai bj =
i,j=1
n
X
cov(Xi , Xi )ai bi = ha, biR.
i=1
2
Z powyższego lematu wynika, że jeśli wektory hi ∈ IR , i = 1, 2, . . . , d ≤ n są ortonormalne,
to wektory losowe AT h1 , . . . AT hd są niezależne. Ponadto AT hi ∼ Nk (MT hi , R), i =
1, . . . , d. W szczególności jeśli H jest macierzą ortogonalną stopnia n, to kolumny macierzy
AT H są niezależnymi wektorami losowymi o rozkładzie normalnym.
n
Definicja 9.17 Rozkładem Wisharta o n - stopniach swobody nazywamy rozkład łączny
elementów macierzy S = AT A. Będziemy oznaczać go symbolem Wk (n, R, M), gdy M =
0, to przez Wk (n, R).
Oznaczmy przez Y1 , . . . , Yk kolumny macierzy A. Wtedy
 T 
Y1
 ..  T
S = A A =  .  Y1 . . . Yk = YiT Yj 1≤i,j≤k .
YkT
Z drugiej strony

X1T
n
 .  X
T
.
S = A A = X1 . . . Xn  .  =
Xi XiT .
i=1
XnT

Zauważmy, że gdy k = 1 (R = σ 2 ), to S/σ 2 ma rozkład chi-kwadrat, tak, więc rozkład
Wisharta jest, więc uogólnieniem rozkładu chi-kwadrat.
Własności rozkładu Wisharta
(i) Przy założeniach jak wyżej, jeśli S ∼ Wk (n, R, ·) oraz a = (ai , . . . , ak ) ∈ IRk , to
aT Sa
∼ χ2 (n, ·).
aT Ra
Jeśli rozkład Wisharta jest centralny, to rownież rozkład chi-kwadrat jest centralny.
147
Marek Beśka, Statystyka matematyczna, wykład 9
Dowód. Możemy napisać
T
a Sa =
n
X
a
T
Xi XiT a
n
X
=
(aT Xi )2 .
i=1
i=1
Jak łatwo zauważyć aT Xi ∼ N (aT mi , aT Ra) dla i = 1, . . . , n oraz te zmienne losowe
są niezależne. Stąd dostajemy tezę. Na konieć zauważmy, że gdyby macierz M była
parametrem niecentralności rozkładu macierzy S, to
λ=
kMak2
aT Ra
byłby parametrem niecentralności rozkładu zmiennej losowej
aT Sa
.
aT Ra
2
(ii) Niech C będzie macierzą symetryczna stopnia n. Przy założeniach jak wyżej warunkiem koniecznym i dostatecznym na to, aby
AT CA ∼ W (r, R, ·),
jest, by dla każdego wektora a ∈ IRk zmienna losowa
aT AT CAa
∼ χ2 (r, ·).
aT Ra
Wtedy r = rz(A) = tr(A). Ponadto
AT CA ∼ W (r, R)
⇔
^
a∈Rk
aT AT CAa
∼ χ2 (r).
aT Ra
Dowód. Konieczność wynika z punktu (i) własności rozkładu Wisharta. Dla dowodu dostateczności skorzystamu z punktu (x) własności wielowymiarowego rozkładu normalnego,
z której to dostajemy, że macierz C jest macierzą idempotentną rzędu r. Stąd r wartości
własnych macierzy C jest równe 1 (pozostałe równe 0), więc istnieją ortonormalne wektory
u1 , . . . ur ∈ IRn takie, że
(9.15)
C = u1 uT1 + . . . + ur uTr
Stąd
(9.16)
AT CA = AT u1 uT1 A + . . . + AT ur uTr A = V1 V1T + . . . + Vr VrT ,
gdzie Vi = AT ui , i = 1, . . . , r. Ponieważ ui , i = 1, . . . , r są ortonormalne, więc wektory
losowe Vi , i = 1, . . . , r są niezlaeżne, ponadto mają rozkłady normalne Nk (MT ui , R) i teza
wynika z definicji rozkładu Wisharta.
Marek Beśka, Statystyka matematyczna, wykład 9
148
Jak wiadomo Aa ∼ Nk (Ma, σa2 I), gdzie σa2 = a2 Ra. Jeśli dla każdego a ∈ IRk
aT ACAa
σa2
ma centralny rozklad chi-kwadrat o r stopniach swobody, to z punktu (x) wlasności wielowymiarowego rozkładu dostajemy
aT ACAa
= Z12 + . . . + Zr2 ,
σa2
gdzie
√
Z = (Z1 , . . . , Zr ) =
DUT
Aa σa
,
C = UDUT .
Z definicji parmetra niecentralności mamy dla każdego a ∈ IRk
2
√
T Ma DU
=0
σa
⇔
aT MT CMa
= 0.
σa2
Stąd MT CM = 0 i mając na uwadze (9.15) otrzymujemy
T
M CM =
r
X
(MT ui )(MT ui )T
i=1
Stąd MT ui = 0 dla i = 1, 2, . . . , r. Z (9.16) oraz z tego, że EVi = MT ui = 0, i = 1, . . . , r
wnioskujemy centralność rozkładu Wisharta.
2
Na zakończenie zauważmy, że udowodnioną własność możemy sformułować następujaco:
Warunkiem koniecznym i dostatecznym na to, żeby AT CA ∼ Wk jest, by macierz C była
idempotentna; rozkład jest centralny, gdy CM = 0.
(iii) Niech C1 , C2 będą macierzami symetrycznymi stopnia n. Przy założeniach jak wyżej
macierze AT C1 A, AT C2 A są niezależne i maja rozkłady Wisharta wtedy i tylko wtedy,
gdy dla każdego a ∈ IRk zmienne losowe aT AT C1 Aa, aT AT C2 Aa są niezależne i mają
rozkłady chi-kwadrat. Ponadto , jeżeli dla każdego a ∈ IRk zmienne losowe aT AT V oraz
aT AT C1 Aa są niezależne i mają rozkłady normalny i chi-kwadrat, to AT V oraz AT C1 A
są niezależnymi zmiennymi losowymi o rozkładach normalnym (wielowymiarowym) i Wisharta.
(iv) Niech U1 , . . . , Un będą niezależnymi zmiennymi losowymi o jednakowym rozkładzie
Nk (m, R). Dla a ∈ IRk weźmy pod uwagę zmienne losowe
aT U1 , aT U2 , . . . , aT Un .
Marek Beśka, Statystyka matematyczna, wykład 9
149
Są to niezależne zmienne losowe o jednakowym rozkładzie N (aT m, aT Ra). Z teorii jednowymiarowych zmiennych losowych (Twierdzenie Fishera) wiemy, że dla każdego a ∈ IRk
średnia z próby
n
1X T
1
a Ui = aT U ∼ N aT m, aT Ra ,
n
n
i=1
gdzie U = (U1 + . . . + Un )/n. Natomiast dla skorygowanej sumy kwadratów
n
X
(aT Ui )2 − n(aT U )2 = aT
n
X
i=1
gdzie W =
Pn
T
i=1 Ui Ui
Ui UiT − nU U T a = aT Wa,
i=1
− nU U T dostajemy
aT Wa
∼ χ2 (n − 1).
aT Ra
Niezależność
aT U
oraz aT Wa
dla każdego a ∈ IRk pociaga za sobą niezależność U i W. Ponadto z (ii) dostajemy
1 U ∼ Nk m, R ,
n
W ∼ Wk (n − 1, R).
(v) Niech S1 ∼ Wk (n1 , R) i S2 ∼ Wk (n2 , R) będą niezależne. Wtedy S1 + S2 ∼ Wk (n1 +
n2 , R).
(vi) Niech S1 ∼ Wk (n, R) i niech C będzie macierzą rozmiaru m × n. Wtedy CSCT ∼
Wm (n, CRCT ).
P
Dowód. Niech S = ni=1 Xi XiT . Wtedy
n
n
X
X
CSCT = C
Xi XiT CT =
(CXi )(CXi )T ∼ Wm (n, CRCT ),
i=1
i=1
gdyż CXi ∼ Nm (0, CRCT ), i = 1, . . . , n są niezależne.
2
Download