Marek Beśka, Statystyka matematyczna, wykład 9 9 9.1 131 Elementy analizy wielowymiarowej Wielowymiarowy rozkład normalny Definicja 9.1 Wektor losowy X = (X1 , . . . , Xk ) określony na przestrzeni probabilistycznej (Ω, F, P ) ma rozkład normalny, jeśli jego funkcja charakterystyczna ϕX ma postać 1 ϕX (t) = exp ihm, ti − hRt, ti , 2 t = (t1 , . . . , tk ) ∈ IRk , m = (m1 , . . . , mk ) ∈ IRk oraz R jest macierzą kwadratową stopnia k, symetryczną oraz nieujemnie określoną tzn. ^ hRx, xi ≥ 0. x∈Rk Będziemy wtedy w skrócie pisać X ∼ Nk (m, R). Uwaga. Dla x = (x1 , . . . , xk ), y = (y1 , . . . , yk ) ∈ IRk iloczyn skalarny hx, yi określony jest wzorem k X hx, yi = xi yi . i=1 Będziemy też używać zapisu macierzowego tzn. hx, yi = xT y, hRx, xi = xT Rx. Własności wielowymiarowego rozkładu normalnego. (i) Jeśli X = (X1 , . . . , Xk ) ∼ Nk (m, R) jest wektorem losowym o rozkładzie normalnym z parametremi m i R, to m jest wektorem średnim (wartości oczekiwanej) X, a R macierzą kowariancji X tj. EX = (EX1 , . . . , EXk ) = m; cov(X) = E (X − EX)(X − EX)T = E((Xi − EXi )(Xj − EXj )) 1≤i,j≤k = R. (ii) Wektor losowy X = (X1 , . . . , Xk ) ma rozkład normalny wtedy i tylko wtedy, gdy dla dowolnego u ∈ IRk zmienna losowa hu, Xi = k X ui Xi i=1 ma rozkład normalny (na IR). (iii) Niech L : IRk → IRn będzie odwzorowaniem afinicznym tj. L = A + a, gdzie a ∈ IRn oraz A : IRk → IRn operator liniowy. Jeśli X ∼ Nk (m, R), to Y = L(X) ∼ Nn (L(m), ARAT ), gdzie A macierz operatora liniowego A. Stąd w szczególności wynika, że rozkłady brzegowe wektora losowego o rozkładzie normalnym są rozkładami normalnymi 132 Marek Beśka, Statystyka matematyczna, wykład 9 tj. jeśli X = (X1 , . . . , Xk ) na rozkład normalny i 1 ≤ i1 < i2 < · · · < il ≤ k, l = 1, 2, . . . , k, to (Xi1 , . . . , Xil ) ma rozkład normalny na IRl . (iv) Jeśli X ∼ Nk (m, R), to P {X ∈ m + Im(R)} = 1. (v) Jeśli X ∼ Nk (m, R) i E ⊂ IRk jest przestrzenią afiniczną tzn. E = a + M, gdzie a ∈ IRk , M ⊂ IRk podprzestrzeń liniowa, to P {X ∈ E} = 0 albo P {X ∈ E} = 1. Dowód. Zauważmy, że wystarczy wykazać, gdy E jest podprzestrzenią liniową, bo gdy E = a + M, a 6∈ M, to P {X ∈ E} = P {X ∈ a + M } = P {X − a ∈ M } oraz X − a ∼ Nk (m − a, R). Niech więc E ⊂ IRk będzie podprzestrzenią liniową i załóżmy dodatkowo EX = 0. Określmy B(θ) := {ω ∈ Ω : X(ω) cos θ + Y (ω) sin θ ∈ E, −X(ω) sin θ + Y (ω) cos θ 6∈ E}, θ ∈ IR i wektor losowy Y jest niezależny od X oraz µY = µX . Zauważmy również, że µ(X cos θ+Y sin θ,−X sin θ+Y cos θ) = µ(X,Y ) , θ ∈ IR, co łatwo sprawdzić licząc funkcję charakterystyczne obu wektorów losowych. Stąd w szczegolności wynika, że P (B(θ)) nie zależy od θ ∈ IR. Niech 0 ≤ θ 6= φ ≤ π/2 i niech ω ∈ B(θ) ∩ B(φ). Wtedy U (ω) = X(ω) cos θ + Y (ω) sin θ ∈ E, (9.1) U (ω) = X(ω) cos φ + Y (ω) sin φ ∈ E. Wyznacznik powyższego układu jest równy cos θ sin θ W = cos φ sin φ = sin(φ − θ) 6= 0. Zatem układ (9.1) ma jedno rozwiązanie, które możemy napisać w postaci: X(ω) = AU (ω) + BV (ω) ∈ E, (9.2) Y (ω) = CU (ω) + DV (ω) ∈ E, Marek Beśka, Statystyka matematyczna, wykład 9 133 gdzie stałe A, B, C, D zależą od θ i φ. Z (9.2) dostajemy −X(ω) sin θ + Y (ω) cos θ ∈ E, co jest sprzeczne z założeniem ω ∈ B(θ) ∩ B(φ). tak więc B(θ) ∩ B(φ) = ∅ dla 0 ≤ θ 6= φ ≤ π/2. Ponieważ jak już zauważyliśmy P (B(θ)) nie zależy od θ, więc P (B(θ)) = 0 dla θ ∈ IR. W szczególności dla θ = 0 otrzymujemy P {ω ∈ Ω : X(ω) ∈ E, Y (ω) 6∈ E} = 0. Z niezależności X i Y mamy P {X ∈ E}P {Y 6∈ E} = 0 Stąd i z µX = µY dostajemy P {X ∈ E}P {X 6∈ E} = 0. Zatem P {X ∈ E} = 0 ∨ P {X ∈ E} = 1. Załóżmy teraz EX 6= 0 i niech A : IRk → IRk będzie określone wzorem A(x) = −x, x ∈ IRk . Wtedy Y = A(X) ∼ Nk (−m, R). Określmy ν = µX ? µ Y . Wtedy ν ma rozkład normalny (scentrowny) o macierzy kowariancji 2R (bo ϕν = ϕµX ϕµY ). Załóżmy, że µX (E) = P {X ∈ E} > 0. Wtedy Z Z µY (E − x) dµX (x) ≥ ν(E) = Rk Z µY (E − x) dµX (x) = E 2 µY (E) dµX (x) = µY (E)µX (E) = µX (E) > 0, E gdzie ostatnia równość wynika z µY (E) = P {Y ∈ E} = P {A(X) ∈ E} = P {−X ∈ E} = P {X ∈ E} = µX (E). Z pierwszej częsci dowodu mamy zatem (µ scentrowana) ν(E) = 1 tzn. Z µY (E − x) dµX (x). 1 = ν(E) = Rk Stąd µY (E − x) = 1 dla µX − p.w x. Marek Beśka, Statystyka matematyczna, wykład 9 134 Ponieważ µY (E) = µX (E) > 0, więc dla pewnego x ∈ E mamy 1 = µY (E − x) = µY (E) = µX (E) = P {X ∈ E}, bo µX (E ∩ {x : µY (E − x) = 1}) = µX (E) > 0. 2 (vi) Jeśli X ∼ Nk (m, R) i det(R) > 0, to µX ma gęstość fX (względem miary Lebesgue’a) oraz n 1 o 1 fX (x) = √ k p x ∈ IRk . exp − R−1 (x − m), x − m , 2 2π det(R) (vii) Jeśli X ∼ Nk (m, R) i rz(R) = d < k, to istnieje Y ∼ Nd (a, S), gdzie a ∈ IRd , S jest macierza diagonalną oraz det(S) > 0 (więc µY ma gęstość na IRd ) i odwzorowanie afiniczne L : IRd → IRk takie, że X = L(Y ). Dowód. Jak wiadoma macierz R możemy zapisać w postaci R = UDUT , gdzie D jest macierzą diagonalną i główna przekątna ma postać λ1 , . . . , λk , gdzie λi > 0 dla 1 ≤ i ≤ d oraz λi = 0 dla d + 1 ≤ i ≤ k, a U jest macierzą unitarną (kolumnami której są unormowane wektory własne odpowiadające wartościom własnym λi , i = 1, . . . , k). Zapiszmy macierz U w postaci macierzy blokowej U= B N , gdzie B jest macierzą złożoną z pierwszych d kolumn macierzy U, a macierz N składa się z pozostałych kolumn macierzy U. Określmy Y = BT X, Z = NT X tzn. T Y B = X = UT X Z NT Stąd (9.3) Ponieważ Y Y X=U = B N = BY + NZ. Z Z T BT B RB BT RN D = U RU = R B N = . NT RB NT RN NT T Z postaci macierzy D wynika np. NT RN = 0 oraz BT RB jest macierza diagonalną o głównej przekątnej składajacej się z λ1 , . . . , λd . Stąd S = cov(Y ) = cov(BT X) = BT RB 135 Marek Beśka, Statystyka matematyczna, wykład 9 jest macierzą diagonalną oraz cov(Z) = cov(NT X) = NT RN = 0. Stąd Z = EZ, P - p.w. Ale EZ = E(NT X) = NT EX = NT m. Zatem z (9.3) mamy X = BY + NNT m. Tak, więc szukanym odwzorowaniem afinicznym jest L(x) = B(x) + N N T m, x ∈ IRd , a Y ∈ Nd (a, S), gdzie a = EY = E(BT X) = BT m, S = BT RB, det(S) > 0. 2 (viii) Jeśli X = (X1 , . . . , Xk ) ∼ Nk (m, R), to zmienne X1 , . . . , Xk są niezależne wtedy i tylko wtedy, gdy R jest macierza diagonalną tzn. zmienne X1 , . . . , Xk są nieskorelowane. Dla uzupelnienia tego faktu podamy przykład wektora losowego (X, Y ) w IR2 takiego, że rozkłady X i Y są standardowymi rozkładami normalnymi, X i Y są nieskorelowane, ale rozkład (X, Y ) nie jest rozkładem normalnym w IR2 (a więc X i Y nie są niezależne). Niech Ω = IR2 , F = B(IR) ⊗ B(IR), P = µ × µ, gdzie µ standardowy rozkład normalny na IR. Określmy (x, x), xy ≥ 0, (X, Y )(x, y) = (x, y) ∈ Ω. (x, −x), xy < 0, Wyznaczmy rozkłady brzegowe. Niech A ∈ B(IR). Wtedy P {X ∈ A} = P {(x, y) ∈ Ω : x ∈ A, xy ≥ 0}+ P {(x, y) ∈ Ω : x ∈ A, xy < 0} = P {(x, y) ∈ Ω : x ∈ A} = µ(A). Podobnie P {Y ∈ A} = P {(x, y) ∈ Ω : x ∈ A, xy ≥ 0}+ P {(x, y) ∈ Ω : −x ∈ A, xy < 0} = µ(A ∩ [0, ∞))µ([0, ∞)) + µ(A ∩ (−∞, 0])µ((−∞, 0])+ µ(−A ∩ (0, ∞))µ((−∞, 0)) + µ(−A ∩ (−∞, 0))µ((0, ∞)) = 1 1 µ(A) + µ(−A) = µ(A). 2 2 136 Marek Beśka, Statystyka matematyczna, wykład 9 Zatem EX = EY = 0. Obliczmy Z x2 dP (x, y) − cov(X, Y ) = E(XY ) = Z x2 dP (x, y) + {x≥0,y≥0} x2 dP (x, y)− {x≤0,y≤0} Z Z 2 x2 dP (x, y) = x dP (x, y) − {x>0,y<0} {x<0,y>0} 1 2 x2 dP (x, y) = {xy<0} {xy≥0} Z Z Z x2 dµ(x) − R 1 2 Z x2 dµ(x) = 0. R Zatem zmienne losowe X i Y są nieskorelowane. Gdyby rozkład (X, Y ) był rozkładem normalnym, to zgodnie z własnością (v) mielibyśmy P {X = Y } = 0 albo P {X = Y } = 1. Tymczasem 1 P {X = Y } = P {(x, y) : xy ≥ 0} = . 2 Zatem rozkład (X, Y ) nie jest rozkładem normalnym, a więc zmienne losowe X i Y nie są niezależne. (ix) Jak łatwo sprawdzić (np. wykonując bezpośrednie rachunki) zmienna losowa Y = X2 , σ2 gdzie X ∼ N (m, σ 2 ) ma gęstość fY , którą możemy przedstawić w postaci (9.4) ∞ m2 X 1 m2 k fY (y) = exp − 2 g 1 ,k+ 1 (y), 2 2 2σ k! 2σ 2 y ∈ IR, k=0 gdzie k+ 1 2 1 2 y k− 12 y exp − I (y), y ∈ IR, 2 2 2 (0,∞) Γ k + 21 tj. gęstość rozkładu gamma G 12 , k + 21 lub rozkładu chi-kwadrat o 2k + 1 stopniach swobody. Zauważmy również, że gdy m = 0, to zmienna losowa Y ma rozkład gamma G 21 , 21 . Korzystając z funkcji charakterystycznej rozkładu gamma możemy wyznaczyć funkcję charakterystyczną zmiennej losowej Y , mianowicie dla t ∈ IR mamy g 1 ,k+ 1 (y) = ∞ m2 X 1 1 m2 k ϕY (t) = exp − 2 (1 − 2it)−(k+ 2 ) = 2 2σ k! 2σ k=0 1 (1 − 2it)− 2 exp − m2 2σ 2 exp itm2 m2 − 12 = (1 − 2it) exp . 2σ 2 (1 − 2it) σ 2 (1 − 2it) 137 Marek Beśka, Statystyka matematyczna, wykład 9 Niech teraz X1 , . . . , Xn będą niezależnymi zmiennymi losowymi o rozkładach normalnych Xi ∼ N (mi , σ 2 ), i = 1, . . . , n. Wyznaczmy rozkład zmiennej losowej n 1 X 2 W = 2 Xi . σ i=1 Oznaczmy m = (m1 , . . . , mn ) oraz kmk2 = m21 + . . . + m2n . Niech U bedzie macierzą ortogonalną (stopnia n), której pierwszy wiersz składa się z następujących elementów m1 m2 mn , ,..., . kmk kmk kmk Zauważmy, że U (m) = (kmk, 0, . . . , 0) i oznaczmy Y = U (X), gdzie X = (X1 , . . . , Xn ). Wektor losowy Y ma oczywiście rozkład normalny. Wyznaczymy jego gęstość. Niech y = (y1 , . . . , yn ) ∈ IRn , mamy 1 1 fY (y) = fX (U −1 y) = √ exp − 2 kU −1 y − mk2 = 2σ (σ 2π)n 1 1 2 √ exp − 2 ky − U mk = 2σ (σ 2π)n 1 1 √ exp − 2 (y1 − kmk)2 + y22 + · · · + yn2 . 2σ (σ 2π)n Z postaci gęstości wektora losowego Y = (Y1 , . . . , Yn ) wynika, że zmienne losowe Y1 , . . . , Yn są niezależne, EY1 = kmk, EYi = 0 dla i = 2, 3, . . . , n. Zauważmy ponadto W = kY k2 Y12 Y2 + · · · + Yn kXk2 = = + = W1 + W2 . σ2 σ2 σ2 σ2 Gęstość W1 otrzymamy ze wzoru (9.4) zastępując w nim m przez kmk, a W2 ma rozkład gamma G 12 , n−1 . Ponieważ W1 i W2 sa niezależne, więc gęstość W jest splotem gęstości 2 W1 i W2 . Stąd i z własności splotu dla gęstości rozkładów gamma otrzymujemy następujący wzór na gęstość zmiennej losowej W . ∞ kmk2 X 1 kmk2 k fY (y) = exp − g 1 ,k+ n (y), 2 2 2σ 2 k! 2σ 2 y ∈ IR. k=0 Jest to gęstość tzw. niecentralnego rozkładu chi-kwadrat o n stopniach swobody i parametrze niecentralności kmk2 λ= . σ2 Będziemy wtedy pisać W ∼ χ2 (n, λ). Funkcja charakterystyczna zmienne losowej W ma postać ∞ λ X n 1 λ k ϕW (t) = exp − (1 − 2it)−(k+ 2 ) = 2 k! 2 k=0 138 Marek Beśka, Statystyka matematyczna, wykład 9 itλ , t ∈ IR. 1 − 2it Z powyższego wzoru widać, że niecentralny rozkład chi-kwadrat ma własność addytywności ze względu na n oraz λ tzn. jeśli zmienne losowe Wi ∼ χ2 (ni , λi ), i = 1, 2, . . . , k są niezależne, to W1 + · · · + Wk ∼ χ2 (n1 + · · · , nk , λ1 + · · · + λk ). n (1 − 2it)− 2 exp (x) Niech A będzie macierzą symetryczną stopnia n i niech Yi ∼ N (mi , 1), i = 1, . . . , n będą niezależnymi zmiennymi losowymi. Oznaczmy Y = (Y1 , . . . , Yn ). Warunkiem koniecznym i dostatecznym na to, aby zmienna losowa Y T AY miała rozkład chi-kwadrat, jest, by macierz A była idempotentna, tzn., by A2 = A. Wtedy liczba stopni swobody rozkładu chi-kwadrat jest równa rzędowi macierzy A, czyli jej śladowi. Dowód. Jak wiadomo macierze idempotentne mają nastepującą własność tr(A) = rz(A). Dowód dostateczności wynika natychmiast z twierdzenia Cochrana-Fishera, bo Y T Y = Y T AY + Y T (I − A)Y oraz z idmpotentności macierzy A wynika idempotentność macierzy I − A. Zatem rz(A) + rz(I − A) = tr(A) + tr(I − A) = tr(A + I − A) = n. Dla dowodu konieczności zauważmy, że istnieje ortogonalana macierz U taka, że gdy przyjmiemy X = UT Y , X = (X1 , . . . , Xn ), to Y T AY = X T UT AUX = λ1 X12 + . . . + λl Xl2 , gdzie λ1 , . . . , λl są niezerowymi wartościami własnymi macierzy A. Zmienne losowe X1 , . . . , Xn są niezależne oraz Xi2 ∼ χ2 (1, ki2 ), i = 1, . . . , n, gdzie m = (m1 , . . . , mn ), k = UT m, k = (k1 , . . . , kn ). Zatem funkcja charakterystyczna zmiennej losowej λ1 X12 + . . . + λn Xn2 ma postać itλ k 2 itλ k 2 − 1 l l 1 1 (1 − 2iλ1 t)(1 − 2iλ2 t) . . . (1 − 2iλl t) 2 exp · · · exp . 1 − 2itλ1 1 − 2itλl Z drugiej strony, z założenia zmienna losowa Y T AY ma rozkład chi-kwadrat, powiedzmy o s stopniach swobody i parametrze niecentralnosci r. Zatem jej funkcja charakterystyczna ma postać itr s (1 − 2it)− 2 exp 1 − 2it Porównując teraz obie funkcje charakterystyczne stwierdzamy, że l = s, λi = 1 dla i = 1, 2, . . . , l, k12 + . . . kl2 = r. Stąd wynika, że diagonalna macierz UT AU na głównej przekątnej ma elementy równe 0 lub 1, czyli jest macierzą idempotentną. Zatem UT AU = UT AUUT AU = UT A2 U ⇒ A = A2 . 139 Marek Beśka, Statystyka matematyczna, wykład 9 2 Na zakończenie tego punktu zanotujmy jeszcze jedną własność. Niech A, B będą symetrycznymi macierzami stopnia n i niech wektor losowy Y = (Y1 , . . . , Yn ) będzie taki jak wyżej. Załóżmy, że zmienne losowe Y T AY , Y T BY mają rozkłady chi-kwadrat. Warunkiem koniecznym i dostatecznym na to aby te zmienne losowe były niezależne, jest, by AB = 0. Rzeczywiście, Ponieważ A = A2 i B = B2 , więc z warunku AB = 0 wynika, że A(I − A − B) = B(I − A − B) = 0, co oznacza, że rz(A) + rz(B) + rz(I − A − B) = n. Ale Y T Y = Y T AY + Y T BY + Y T (I − A − B)Y, więc z twierdzenia Cochrana-Fishera dostajemy tezę. W drugą stronę. Z niezależności Y T AY , Y T BY wynika, że Y T AY + Y T BY = Y T (A + B)Y ma rozkład chi-kwadrat. Zatem macierz A + B jest idempotentna, a stąd AB = 0. 2 (xi) Niech f będzie gęstością pewnego rozkładu na IR . Jego entropię określamy wzorem Z L(f ) = − f (x) ln f (x) dλ(x), k Rk gdzie przyjmujemy umowę: 0 ln 0 = 0. Zauważmy, że jeśli g > 0 jest inną gęstością, to Z f (x) (9.5) f (x) ln dλ(x) ≥ 0. g(x) Rk Rzeczywiście, przyjmując dµ = g dλ i korzystając z nierówności Jensena otrzymujemy Z Z f (x) f (x) f (x) f (x) ln dλ(x) = ln dµ(x) ≥ g(x) g(x) Rk Rk g(x) Z Z f (x) f (x) dµ(x) ln dµ(x) = 0. Rk g(x) Rk g(x) Z (9.5) dostajemy Z L(f ) = − Z f (x) ln f (x) dλ(x) ≤ − Rk f (x) ln g(x) dλ(x). Rk Podstawmy za g gęstość wektora losowego X ∈ Nk (m, R) tj. n 1 o 1 g(x) = fX (x) = √ k p exp − R−1 (x − m), x − m , 2 2π det(R) x ∈ IRk Marek Beśka, Statystyka matematyczna, wykład 9 oraz załóżmy, że Z (9.6) x f (x) dλ(x) = m, Z 140 f (x) (x − m)(x − m)T dλ(x) = R. Rk Rk Otrzymujemy Z L(f ) = − f (x) ln f (x) dλ(x) ≤ Rk Z i 1 1 − R−1 (x − m), x − m dλ(x) = k p Rk 2π det(R) 2 Z 1 1 − ln √ k p f (x) R−1 (x − m), x − m dλ(x) = + 2π det(R) 2 Rk Z 1 1 − ln √ k p + f (x) (x − m)T R−1 (x − m) dλ(x) = 2π det(R) 2 Rk Z 1 1 − ln √ k p f (x) tr R−1 (x − m)(x − m)T dλ(x) = + 2π det(R) 2 Rk Z i 1 1 h −1 − ln √ k p + tr R f (x) (x − m)(x − m)T dλ(x) = Rk 2π det(R) 2 − h f (x) ln √ 1 k − ln √ k p + . 2π det(R) 2 (9.7) Stąd wynika, że w zbiorze gęstości spełniających warunki (9.6) ich entropia jest ograniczona przez stałą (9.7). Ponieważ L(g) = L(fX ) = − ln √ 1 k + , k p 2π det(R) 2 więc w zbiorze gęstości spelniających warunki (9.6) entropia osiąga maksimum dla gęstości rozkładu normalnego. 9.2 Macierze losowe Wprowadźmy oznaczenia: Przez Mn×m będziemy oznaczać zbiór wszystkich rzeczywistych maceirzy o wymiarze n × m, przez Sn zbior macerzy symetrycznych stopnia n. Macierzy e ∈ IRnm określony wzorem A ∈ Mn×m możemy przyporządkować wektor A A1 . e= A .. , Am 141 Marek Beśka, Statystyka matematyczna, wykład 9 gdzie Ai oznacza i - tą kolumnę macierzy A, i = 1, . . . , m. Iloczynem skalrnym macierzy A, B ∈ Mn×m nazywamy liczbę e Bi. e hA | Bi := hA, Zauważmy, że, gdy A = [aij ], B = [bij ] ∈ Mn×m , to T T T T hA | Bi = tr(AB ) = tr(BA ) = tr(A B) = tr(B A) = n X m X aij bij . i=1 j=1 Stąd wynika np. hA | Bi = hAT | BT i. Jeśli A ∈ Sn , to b ∈ IRn(n+1)/2 taki, że rządkować wektor A √ 2a1i T1 .. . b= A .. , gdzie Ti = √ . 2ai−1,i Tn aii czasem wygodnie jest jej przypo , i = 1, . . . , n. Zauważmy, że jeśli A, B ∈ Sn , to b Bi. b hA | Bi := hA, Niech A = [aij ] ∈ Mn×m , B = [bij ] ∈ Mk×l . Iloczynem Kroneckera (lub iloczynem prostym) macierzy A i B nazywamy macierz A ⊗ B o wymiarze nk × ml postaci a11 B · · · a1m B .. .. A ⊗ B = ... . . . an1 B · · · anm B Definicja ta oznacza, że element macierzy A ⊗ B znajdujący się w wierszu o numerze (i − 1)k + r i w kolumnie o numerze (j − 1)l + s jest równy iloczynowi aij brs . Od razu zauważamy, że iloczyn Kroneckera nie jest przemienny. Poandto, macierze A, B, C, D mają odpowiednie wymiary, to (A ⊗ B)(C ⊗ D) = AC ⊗ BD. (9.8) Jeśli A, B ∈ Mn×n , to (9.9) tr(A ⊗ B) = tr(A)tr(B). Jeśli A ∈ Mn×n , B ∈ Mm×m są macierzami nieosobliwymi, to (9.10) (A ⊗ B)−1 = A−1 ⊗ B−1 , det(A ⊗ B) = (det A)m (det B)n . Marek Beśka, Statystyka matematyczna, wykład 9 142 Jeśli V ∈ Sm , U ∈ Sn , A ∈ Mn×m , to eT (V ⊗ U)A e = hAV | UAi. A (9.11) Miarę Lebesgue’a na przestrzeni Mn×m definiujemy przyjmując dλ(x) = n Y m Y dλ(xij ), x = [xij ] ∈ Mn×m . i=1 j=1 Miarę Lebesgue’a na przestrzeni Sn definiujemy przyjmując dλ(x) = j n Y Y dλ(xij ), x = [xij ] ∈ Sn . j=1 i=1 Definicja 9.2 Funkcją charakterystyczną rozkładu macierzy losowej U : Ω → Mn×m nazywamy funkcję ϕU określoną na Mn×m wzorem ϕU (x) = Eeihx | Ui , x ∈ Mn×m . Zauważmy, że powyższa definicja zgadza się z definicją funkcji charakterystycznej rozkładu e . Natomiast w przypadku gdy macierz U należy do Sn , stosując tę defiwektora losowego U nicję do przestrzeni Sn otrzymujemy definicję funkcji charakterystycznej rozkładu wektora b. losowego U Twierdzenie 9.3 Niech X ∈ Mn×m będzie macierzą losową oraz niech A ∈ Mk×n i B ∈ Mm×l . Określmy Y = AXB. Wówczas ϕY (x) = ϕX (AT xBT ), x ∈ Mk×l . Dowód. Wynika z równości hx | Yi = tr(xYT ) = tr x(AXB)T = tr x BT XT AT = tr AT xBT XT . 2 Jeśli macierz losowa X ∈ Sn jest symetryczna i A ∈ Mm×n , to macierz losowa AXAT również jest symetryczna oraz ϕY (x) = ϕX (AT xA), x ∈ Sm . Definicja 9.4 Niech Niech U ∈ Mn×m będzie macierzą losową o elementach całkowalnych z kwadratem. Kowariancją macierzy U nazywamy formę kwadratową covU określoną na przestrzeni Mn×m wzorem e )e covU (x) = E hU − EU | xi2 = x eT cov(U x, x ∈ Mn×m . Marek Beśka, Statystyka matematyczna, wykład 9 143 Jeśli U jest macierzą symetryczną stopnia n, to w definicji kowariancji covU możemy ograniczyć się do przestrzeni Sn . Twierdzenie 9.5 Niech X ∈ Mn×m będzie macierzą losową oraz niech A ∈ Mk×n i B ∈ Mm×l . Określmy Y = AXB. Wówczas covY (y) = covX (AT yBT ), y ∈ Mk×l . Dowód. Analogiczny jak twierdzenia 9.3. 2 Niech Sn+ oznacza zbiór macierzy symetrycznych nieujemnie określonych stopnia n. Definicja 9.6 Niech C = [cij ] ∈ Mn×m będzie macierzą losową o zerowej wrtości oczekiwanej i kowariancji covC . Mówimy, że kowariancja covC jest iloczynem prostym, jeśli + spełniajace jeden z równoważnych istnieją macierze U = [uij ] ∈ Sn+ , V = [vij ] ∈ Sm warunków: (9.12) e = V ⊗ U, cov(C) (9.13) E(cij ckl ) = uik vjl , (9.14) covC (z) = hzV | Uzi = tr(zVzT U), z ∈ Mn×m . Jeśli macierz C spełnia warunki (9.12) - (9.14), to mówimy, że C jest iloczynem prostym macierzy V, V. Twierdzenie 9.7 Niech X ∈ Mn×m będzie macierzą losową , której kowariancja jest + oraz niech A ∈ M iloczynem prostym macierzy U ∈ Sn+ i V ∈ Sm k×n i B ∈ Mm×l . Wówczas macierz losowa Y = AXB ma kowariancję będącą iloczynem prostym macierzy AUAT oraz BT VB. Dowód. Z twierdzenia 9.5 mamy covY (y) = covX (AT yBT ), y ∈ Mk×l . Z zalożenia o X oraz z (9.14) dostajemy covY (y) = hAT yBT V | UAT yBT i = tr(AT yBT VByT AU) = tr(yBT VByT AUAT ). 2 Definicja 9.8 Mówimy, że macierz losowa X ma rozkład normalny N (M, U ⊗ V), gdy e ma rozkład normalny N (M f, V ⊗ U). wektor losowy X Marek Beśka, Statystyka matematyczna, wykład 9 144 Z twierdzenia 9.7 wynika wprost Twierdzenie 9.9 Niech X ∈ Mn×m będzie macierzą losową o rozkładzie normalnym N (M, U ⊗ V) oraz niech A ∈ Mk×n i B ∈ Mm×l . Wówczas macierz losowa Y = AXB ma rozkład normalny N AMB, (AUAT ) ⊗ (BT VB) . 2 Łatwo zauważyć, że jeśli macierz losowa X = [Xij ] ∈ Mn×m ma rozkład normalny N (0, In ⊗ Im ), to zmienne losowe Xij są niezależne i mają rozkład normalny standardowy. Jeśli ma rozkład normalny N (0, U ⊗ Im ), to kolumny macierzy X są niezależne i mają rozkład normalny N (0, U). Jeśli natomiast ma rozkład normalny N (0, In ⊗ V), to wiersze macierzy X są niezależne i mają rozkład normalny N (0, V). Twierdzenie 9.10 Funkcja charakterystyczna rozkład normalnego N (M, U ⊗ V) wyraża się wzorem 1 ϕ(x) = exp ihx | Mi − hxV | Uxi , x ∈ Mn×m . 2 Dowód. Wynika z definicji funkcji charakterystycznej rozkładu macierzy losowej oraz ze wzoru (9.11). 2 + są nieosobliwe, to rozkład normalny Twierdzenie 9.11 Jeśli macierze U ∈ Sn+ i V ∈ Sm N (0, U⊗V) ma funkcję gęstości rozkładu prawdopodobieństwa (względem miary Lebesgue’a na Mn×m ) postaci n 1 o 1 1 1 √ √ f (x) = √ exp − hxV−1 | U−1 xi , x ∈ Mn×m . 2 ( 2π)nm ( det U)m ( det V)n Dowód. Ze wzoru (9.10) wynika nieosobliwość macierzy V ⊗ U. Zatem rozkład normalny N (e 0, U ⊗ V) ma gęstość n 1 o 1 1 p f (e x) = √ exp − x eT (V ⊗ U)−1 x e . 2 ( 2π)nm det(V ⊗ U) Stosując teraz (9.10) i (9.11) dostajemy tezę. 2 Definicja 9.12 Niech k ∈ IN, p > 0 oraz R ∈ Sk+ . Symbolem Γk (R, p) będziemy oznaczać rozkład na przestrzeni Sk+ o funkcji charakterystycznej ϕ(x) = Rp , [det(R − ix)]p x ∈ Sk+ . Rozkład Γk (R, p) (o ile istnieje) nazywamy (centralnym) uogólnionym rozkładem gamma. 145 Marek Beśka, Statystyka matematyczna, wykład 9 Z twierdzenia podanego poniżej wynika, że jeśli 2p ∈ IN, to rozkład Γk (R, p) zawsze istnieje. Nazywa się go (centralnym) rozkładem Wisharta i oznaczamy go symbolem Wk (2p, 2R). Twierdzenie 9.13 Jeśli X ∈ Mn×k jest daną macierzą losową o rozkładzie normalnym N (0, I ⊗ R), to macierz losowa XT X ma rozkład Γ(n/2, R/2) tzn. rozkład Wisharta Wk (n, R). 2 Definicja 9.14 Niech k ∈ IN, p > 0 oraz M, R ∈ Sk+ . Symbolem Γk (R, p, M) będziemy oznaczać rozkład na przestrzeni Sk+ o funkcji charakterystycznej ϕ(x) = Rp exp itr MR(I − ix)−1 x , p [det(R − ix)] x ∈ Sk+ . Rozkład Γk (R, p, M) (o ile istnieje) nazywamy niecentralnym uogólnionym rozkładem gamma. Twierdzenie 9.15 Jeśli X ∈ Mn×k jest daną macierzą losową o rozkładzie normalnym N (M, I ⊗ R), to macierz losowa XT X ma rozkład Γ(n/2, R/2, MT M) tzn. niecentralny rozkład Wisharta Wk (n, R, M). 2 9.3 Rozkład Wisharta Niech Xi = (Xi1 , Xi2 , . . . , Xik ) ∼ Nk (mi , R), gdzie mi = (mi1 , . . . , mik ), i = 1, . . . , n będą niezależnymi wektorami losowymi o rozkładzie normalnym. Oznaczmy X11 · · · X1k X21 · · · X2k A= . M = EA. .. .. , .. . . Xn1 · · · Xnk Niech a = (a1 , . . . , an ) ∈ IRn . Wtedy wektor losowy AT a = n X ai Xi i=1 ma rozkład normalny o parametrach E(AT a) = MT a, cov(AT a) = n X i=1 a2i cov(Xi ) = n X i=1 a2i R. Marek Beśka, Statystyka matematyczna, wykład 9 146 Lemat 9.16 Niech A bedzie jak wyżej i niech a = (a1 , . . . , an ) ∈ IRn , b = (b1 , . . . , bn ) ∈ IRn . Wtedy wektory losowe AT a, AT b są niezależne wtedy i tylko wtedy, gdy ha, bi = 0. Dowód. Ponieważ wektor losowy (AT a, AT b) ma rozkład normalny (bo jest wynikiem działania odwzorowania liniowego na wektorze o rozkładzie normalnym) wystarczy, więc wykazać, że cov(AT a, AT b) = 0 ⇔ ha, bi = 0. Mamy cov(AT a, AT b) = n X cov(Xi , Xj )ai bj = i,j=1 n X cov(Xi , Xi )ai bi = ha, biR. i=1 2 Z powyższego lematu wynika, że jeśli wektory hi ∈ IR , i = 1, 2, . . . , d ≤ n są ortonormalne, to wektory losowe AT h1 , . . . AT hd są niezależne. Ponadto AT hi ∼ Nk (MT hi , R), i = 1, . . . , d. W szczególności jeśli H jest macierzą ortogonalną stopnia n, to kolumny macierzy AT H są niezależnymi wektorami losowymi o rozkładzie normalnym. n Definicja 9.17 Rozkładem Wisharta o n - stopniach swobody nazywamy rozkład łączny elementów macierzy S = AT A. Będziemy oznaczać go symbolem Wk (n, R, M), gdy M = 0, to przez Wk (n, R). Oznaczmy przez Y1 , . . . , Yk kolumny macierzy A. Wtedy T Y1 .. T S = A A = . Y1 . . . Yk = YiT Yj 1≤i,j≤k . YkT Z drugiej strony X1T n . X T . S = A A = X1 . . . Xn . = Xi XiT . i=1 XnT Zauważmy, że gdy k = 1 (R = σ 2 ), to S/σ 2 ma rozkład chi-kwadrat, tak, więc rozkład Wisharta jest, więc uogólnieniem rozkładu chi-kwadrat. Własności rozkładu Wisharta (i) Przy założeniach jak wyżej, jeśli S ∼ Wk (n, R, ·) oraz a = (ai , . . . , ak ) ∈ IRk , to aT Sa ∼ χ2 (n, ·). aT Ra Jeśli rozkład Wisharta jest centralny, to rownież rozkład chi-kwadrat jest centralny. 147 Marek Beśka, Statystyka matematyczna, wykład 9 Dowód. Możemy napisać T a Sa = n X a T Xi XiT a n X = (aT Xi )2 . i=1 i=1 Jak łatwo zauważyć aT Xi ∼ N (aT mi , aT Ra) dla i = 1, . . . , n oraz te zmienne losowe są niezależne. Stąd dostajemy tezę. Na konieć zauważmy, że gdyby macierz M była parametrem niecentralności rozkładu macierzy S, to λ= kMak2 aT Ra byłby parametrem niecentralności rozkładu zmiennej losowej aT Sa . aT Ra 2 (ii) Niech C będzie macierzą symetryczna stopnia n. Przy założeniach jak wyżej warunkiem koniecznym i dostatecznym na to, aby AT CA ∼ W (r, R, ·), jest, by dla każdego wektora a ∈ IRk zmienna losowa aT AT CAa ∼ χ2 (r, ·). aT Ra Wtedy r = rz(A) = tr(A). Ponadto AT CA ∼ W (r, R) ⇔ ^ a∈Rk aT AT CAa ∼ χ2 (r). aT Ra Dowód. Konieczność wynika z punktu (i) własności rozkładu Wisharta. Dla dowodu dostateczności skorzystamu z punktu (x) własności wielowymiarowego rozkładu normalnego, z której to dostajemy, że macierz C jest macierzą idempotentną rzędu r. Stąd r wartości własnych macierzy C jest równe 1 (pozostałe równe 0), więc istnieją ortonormalne wektory u1 , . . . ur ∈ IRn takie, że (9.15) C = u1 uT1 + . . . + ur uTr Stąd (9.16) AT CA = AT u1 uT1 A + . . . + AT ur uTr A = V1 V1T + . . . + Vr VrT , gdzie Vi = AT ui , i = 1, . . . , r. Ponieważ ui , i = 1, . . . , r są ortonormalne, więc wektory losowe Vi , i = 1, . . . , r są niezlaeżne, ponadto mają rozkłady normalne Nk (MT ui , R) i teza wynika z definicji rozkładu Wisharta. Marek Beśka, Statystyka matematyczna, wykład 9 148 Jak wiadomo Aa ∼ Nk (Ma, σa2 I), gdzie σa2 = a2 Ra. Jeśli dla każdego a ∈ IRk aT ACAa σa2 ma centralny rozklad chi-kwadrat o r stopniach swobody, to z punktu (x) wlasności wielowymiarowego rozkładu dostajemy aT ACAa = Z12 + . . . + Zr2 , σa2 gdzie √ Z = (Z1 , . . . , Zr ) = DUT Aa σa , C = UDUT . Z definicji parmetra niecentralności mamy dla każdego a ∈ IRk 2 √ T Ma DU =0 σa ⇔ aT MT CMa = 0. σa2 Stąd MT CM = 0 i mając na uwadze (9.15) otrzymujemy T M CM = r X (MT ui )(MT ui )T i=1 Stąd MT ui = 0 dla i = 1, 2, . . . , r. Z (9.16) oraz z tego, że EVi = MT ui = 0, i = 1, . . . , r wnioskujemy centralność rozkładu Wisharta. 2 Na zakończenie zauważmy, że udowodnioną własność możemy sformułować następujaco: Warunkiem koniecznym i dostatecznym na to, żeby AT CA ∼ Wk jest, by macierz C była idempotentna; rozkład jest centralny, gdy CM = 0. (iii) Niech C1 , C2 będą macierzami symetrycznymi stopnia n. Przy założeniach jak wyżej macierze AT C1 A, AT C2 A są niezależne i maja rozkłady Wisharta wtedy i tylko wtedy, gdy dla każdego a ∈ IRk zmienne losowe aT AT C1 Aa, aT AT C2 Aa są niezależne i mają rozkłady chi-kwadrat. Ponadto , jeżeli dla każdego a ∈ IRk zmienne losowe aT AT V oraz aT AT C1 Aa są niezależne i mają rozkłady normalny i chi-kwadrat, to AT V oraz AT C1 A są niezależnymi zmiennymi losowymi o rozkładach normalnym (wielowymiarowym) i Wisharta. (iv) Niech U1 , . . . , Un będą niezależnymi zmiennymi losowymi o jednakowym rozkładzie Nk (m, R). Dla a ∈ IRk weźmy pod uwagę zmienne losowe aT U1 , aT U2 , . . . , aT Un . Marek Beśka, Statystyka matematyczna, wykład 9 149 Są to niezależne zmienne losowe o jednakowym rozkładzie N (aT m, aT Ra). Z teorii jednowymiarowych zmiennych losowych (Twierdzenie Fishera) wiemy, że dla każdego a ∈ IRk średnia z próby n 1X T 1 a Ui = aT U ∼ N aT m, aT Ra , n n i=1 gdzie U = (U1 + . . . + Un )/n. Natomiast dla skorygowanej sumy kwadratów n X (aT Ui )2 − n(aT U )2 = aT n X i=1 gdzie W = Pn T i=1 Ui Ui Ui UiT − nU U T a = aT Wa, i=1 − nU U T dostajemy aT Wa ∼ χ2 (n − 1). aT Ra Niezależność aT U oraz aT Wa dla każdego a ∈ IRk pociaga za sobą niezależność U i W. Ponadto z (ii) dostajemy 1 U ∼ Nk m, R , n W ∼ Wk (n − 1, R). (v) Niech S1 ∼ Wk (n1 , R) i S2 ∼ Wk (n2 , R) będą niezależne. Wtedy S1 + S2 ∼ Wk (n1 + n2 , R). (vi) Niech S1 ∼ Wk (n, R) i niech C będzie macierzą rozmiaru m × n. Wtedy CSCT ∼ Wm (n, CRCT ). P Dowód. Niech S = ni=1 Xi XiT . Wtedy n n X X CSCT = C Xi XiT CT = (CXi )(CXi )T ∼ Wm (n, CRCT ), i=1 i=1 gdyż CXi ∼ Nm (0, CRCT ), i = 1, . . . , n są niezależne. 2