Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Prawdopodobieństwo i statystyka Wykład XV: Zagadnienia redukcji wymiaru danych 2 lutego 2015 r. Prawdopodobieństwo i statystyka Wykład XV: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Standaryzacja danych Własności macierzy korelacji Standaryzacja danych Definicja Niech X będzie zmienną losową o skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową X − EX Z=p . Var (X ) Uwaga: EZ = 0, Var (Z ) = 1. ~ = (X1 , X2 , . . . , Xd )T jest wektorem losowym o Uwaga: Jeżeli X macierzy kowariancji Σ, to wektor standaryzowany (po ~ ma wartość oczekiwaną E Z ~ = 0 i macierz współrzędnych) Z ~ , tj. kowariancji R = [rij ] równą macierzy KORELACJI wektora X rij = ρij = q cov (Xi , Xj ) . Var (Xi )Var (Xj ) Prawdopodobieństwo i statystyka Wykład XV: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Standaryzacja danych Własności macierzy korelacji Standaryzacja danych - cd. Uwaga: prosta baza danych + ewentualna liczbowa etykietyzacja ~ n (rekordów), których niektórych pól = ciąg wartości wektorów X składowe mierzone są na ogół w różnych jednostkach. Empiryczna standaryzacja ciągu wektorów losowych ~ n = (Xn1 , Xn2 , . . . , Xnd )T , n = 1, 2, . . . , N będzie ciągiem Niech X wektorów losowych. Niech N 1 X X̄j = Xnj , Sj = N n=1 sP N n=1 (Xnj − X̄j )2 . N −1 ~ n } nazywamy ciąg wektorów losowych Z ~n o Standaryzacją ciągu {X składowych (Xnj − X̄j ) Znj = . Sj Prawdopodobieństwo i statystyka Wykład XV: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Standaryzacja danych Własności macierzy korelacji Standaryzacja danych - cd. Empiryczna macierz korelacji ciągu wektorów losowych ~ n } nazywamy macierz Empiryczną macierzą korelacji ciągu {X losową ρ̂ij = ρ̂N ij PN = qP N n=1 (Xni − X̄i )(Xnj − X̄j ) 2 n=1 (Xni − X̄i ) qP N n=1 (Xnj . − X̄j )2 ~ n } jest próbą prostą z rozkładu µ. Uwaga: Przypuśćmy, że ciąg {X ρ̂N ij = 1 PN n=1 (Xni − X̄i )(Xnj − X̄j ) N−1 q q P N 1 1 PN 2 (X − X̄ ) ni i n=1 n=1 (Xnj N−1 N−1 . − X̄j )2 ρ̂N ij jest mocno zgodnym ciągiem estymatorów. Jednak ρ̂N ij nie jest estymatorem nieobciążonym elementu ρij macierzy korelacji R. Prawdopodobieństwo i statystyka Wykład XV: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Standaryzacja danych Własności macierzy korelacji Własności macierzy korelacji ~ 1 (ω), X ~ 2 (ω), . . . , X ~ N (ω) empiryczna macierz Dla każdej realizacji X N korelacji ρ̂ (ω) jest macierzą korelacji, tzn. jest symetryczna, nieujemnie określona, na przekątnej ma wartości 1, a więc jej ślad wynosi d (wymiar wektora danych). W szczególności, dla ρ̂N (ω) istnieją wartości własne λ1 ­ λ2 ­ . . . ­ λd ­ 0 oraz odpowiadające im wektory własne {e1 , e2 , . . . , ed } tworzące bazę ortonormalną w Rd . Uwaga: i wartości własne i wektory zależą od całej realizacji ~ 1 (ω), X ~ 2 (ω), . . . , X ~ N (ω)! X Prawdopodobieństwo i statystyka Wykład XV: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Analiza składowych głównych Analiza składowych głównych Składowe główne ~ będzie d-wymiarowym wektorem standaryzowanym (tzn. Niech Z ~ ~ ) = Corr (Z ~ )). Niech λ1 ­ λ2 ­ . . . ­ λd ­ 0 E Z = 0 i Cov (Z ~ ) a {e1 , e2 , . . . , ed } będą wartościami własnymi macierzy Corr (Z odpowiadającymi im wektorami własnymi, które tworzą bazę ortonormalną w Rd . ~ (w istocie: macierzy Corr (Z ~ )) Składowymi głównymi wektora Z nazywamy zmienne losowe ~ , i = 1, 2, . . . , d. Yi = eiT Z Prawdopodobieństwo i statystyka Wykład XV: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Analiza składowych głównych Analiza składowych głównych - cd. ~ ) = Var (hei , Z ~ i) = hei , Cov (Z ~ )ei i Var (Yi ) = Var (eiT Z ~ )ei i = hei , λi ei i = λi . = hei , Corr (Z Mówimy, że zmienna Yi „wyjaśnia” część λi /d całkowitej ~. zmienności („wariancji”) wektora Z Analiza składowych głównych (ang. „Principal Components Analysis”) Analiza składowych głównych polega na wyborze i właściwej interpretacji zmiennych Y1 , Y2 , . . . , Yk w taki sposób, aby wyjaśnić zadaną część α ∈ (0, 1) całkowitej wariancji. Prawdopodobieństwo i statystyka Wykład XV: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Analiza składowych głównych Analiza składowych głównych - cd. Innymi słowy, w analizie składowych głównych (PCA) szukamy: k możliwie małego (w stosunku do d), które spełnia warunek λi /d + λ2 /d + . . . + λk /d > α, i dla którego odpowiednie kombinacje liniowe zmiennych wyjściowych posiadają sensowną interpretację. Prawdopodobieństwo i statystyka Wykład XV: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Analiza czynnikowa Model dla analizy czynnikowej Postuluje się istnienie nieobserwowanych czynników (ang. „factors”), które przejawiają się w rezultacie działania mechanizmu liniowego ~ − EX ~ = LF ~ + ~ε, X ~ ma wymiar d, wektor czynników F ~ ma gdzie „wektor obserwacji” X wymiar k < d (znacznie!), „wektor czynników specyficznych” ~ε ma wymiar d, a „macierz ładunków czynników” L ma wymiar d × k. ~ i ~ε są nieskorelowane, E F ~ = 0, Cov (F ) = 1I k , Zakłada się, że F E ~ε = 0 i Cov (~ε) = Λ~ε jest macierzą diagonalną, Prawdopodobieństwo i statystyka Wykład XV: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Analiza czynnikowa Analiza czynnikowa (ang. „Factor Analysis”) W szczególności: ~ − EX ~ )(X ~ − EX ~ )T = E (LF ~ + ~ε)(LF ~ + ~ε)T Σ = E (X ~F ~ T LT ) + E (LF ~ ~εT ) + E (~εF ~ T LT ) + E (~ε~εT ) = E (LF = LLT + Λε . ~ Rozwiązanie powyższego równania oraz poszukiwanie czynników F przeprowadza się numerycznie. ~ , L) będzie rozwiązaniem dla modelu analizy czynnikowej. Niech (F Nich B będzie dowolnym odwzorowaniem ortogonalnym. Wówczas ~ , LB T ) tez jest rozwiązaniem i konieczna jest dodatkowa (B F analiza i wybór odpowiedniej „rotacji czynników”. Analiza czynnikowa, mimo bogatej literatury i mnogosci algorytmów pozostaje zawsze narzędziem bardzo kontrowersyjnym. Prawdopodobieństwo i statystyka Wykład XV: Redukcja wymiaru danych