Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Statystyka i eksploracja danych Wykład XII: Zagadnienia redukcji wymiaru danych 12 maja 2014 Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Standaryzacja danych Własności macierzy korelacji Standaryzacja danych Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Standaryzacja danych Własności macierzy korelacji Standaryzacja danych Definicja Niech X będzie zmienną losową o skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową X − EX . Z=p Var (X ) Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Standaryzacja danych Własności macierzy korelacji Standaryzacja danych Definicja Niech X będzie zmienną losową o skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową X − EX . Z=p Var (X ) Uwaga: EZ = 0, Var (Z ) = 1. Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Standaryzacja danych Własności macierzy korelacji Standaryzacja danych Definicja Niech X będzie zmienną losową o skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową X − EX . Z=p Var (X ) Uwaga: EZ = 0, Var (Z ) = 1. ~ = (X1 , X2 , . . . , Xd )T jest wektorem losowym o Uwaga: Jeżeli X macierzy kowariancji Σ, to wektor standaryzowany (po współrzędnych) Z~ ma wartość oczekiwaną E Z~ = 0 i macierz ~ , tj. kowariancji R = [rij ] równą macierzy KORELACJI wektora X rij = ρij = q cov (Xi , Xj ) . Var (Xi )Var (Xj ) Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Standaryzacja danych Własności macierzy korelacji Standaryzacja danych - cd. Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Standaryzacja danych Własności macierzy korelacji Standaryzacja danych - cd. Uwaga: prosta baza danych + ewentualna liczbowa etykietyzacja ~ n (rekordów), których niektórych pól = ciąg wartości wektorów X składowe mierzone są na ogół w różnych jednostkach. Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Standaryzacja danych Własności macierzy korelacji Standaryzacja danych - cd. Uwaga: prosta baza danych + ewentualna liczbowa etykietyzacja ~ n (rekordów), których niektórych pól = ciąg wartości wektorów X składowe mierzone są na ogół w różnych jednostkach. Empiryczna standaryzacja ciągu wektorów losowych ~ n = (Xn1 , Xn2 , . . . , Xnd )T , n = 1, 2, . . . , N będzie ciągiem Niech X wektorów losowych. Niech N 1 X X̄j = Xnj , Sj = N n=1 sP N n=1 (Xnj − X̄j )2 . N −1 ~ n } nazywamy ciąg wektorów losowych Z~n o Standaryzacją ciągu {X składowych (Xnj − X̄j ) Znj = . Sj Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Standaryzacja danych Własności macierzy korelacji Standaryzacja danych - cd. Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Standaryzacja danych Własności macierzy korelacji Standaryzacja danych - cd. Empiryczna macierz korelacji ciągu wektorów losowych ~ n } nazywamy macierz Empiryczną macierzą korelacji ciągu {X losową ρ̂ij = ρ̂N ij PN = qP N n=1 (Xni n=1 (Xni Statystyka i eksploracja danych − X̄i )(Xnj − X̄j ) − X̄i )2 qP N n=1 (Xnj . − X̄j )2 Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Standaryzacja danych Własności macierzy korelacji Standaryzacja danych - cd. Empiryczna macierz korelacji ciągu wektorów losowych ~ n } nazywamy macierz Empiryczną macierzą korelacji ciągu {X losową ρ̂ij = ρ̂N ij PN = qP N n=1 (Xni n=1 (Xni − X̄i )(Xnj − X̄j ) − X̄i )2 qP N n=1 (Xnj . − X̄j )2 ~ n } jest próbą prostą z rozkładu µ. Uwaga: Przypuśćmy, że ciąg {X Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Standaryzacja danych Własności macierzy korelacji Standaryzacja danych - cd. Empiryczna macierz korelacji ciągu wektorów losowych ~ n } nazywamy macierz Empiryczną macierzą korelacji ciągu {X losową ρ̂ij = ρ̂N ij PN = qP N n=1 (Xni n=1 (Xni − X̄i )(Xnj − X̄j ) − X̄i )2 qP N n=1 (Xnj . − X̄j )2 ~ n } jest próbą prostą z rozkładu µ. Uwaga: Przypuśćmy, że ciąg {X ρ̂N ij = 1 PN n=1 (Xni − X̄i )(Xnj − X̄j ) N−1 q q P N 1 1 PN 2 (X − X̄ ) ni i n=1 n=1 (Xnj N−1 N−1 Statystyka i eksploracja danych . − X̄j )2 Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Standaryzacja danych Własności macierzy korelacji Standaryzacja danych - cd. Empiryczna macierz korelacji ciągu wektorów losowych ~ n } nazywamy macierz Empiryczną macierzą korelacji ciągu {X losową ρ̂ij = ρ̂N ij PN = qP N n=1 (Xni n=1 (Xni − X̄i )(Xnj − X̄j ) − X̄i )2 qP N n=1 (Xnj . − X̄j )2 ~ n } jest próbą prostą z rozkładu µ. Uwaga: Przypuśćmy, że ciąg {X ρ̂N ij = 1 PN n=1 (Xni − X̄i )(Xnj − X̄j ) N−1 q q P N 1 1 PN 2 (X − X̄ ) ni i n=1 n=1 (Xnj N−1 N−1 . − X̄j )2 ρ̂N ij jest mocno zgodnym ciągiem estymatorów. Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Standaryzacja danych Własności macierzy korelacji Standaryzacja danych - cd. Empiryczna macierz korelacji ciągu wektorów losowych ~ n } nazywamy macierz Empiryczną macierzą korelacji ciągu {X losową ρ̂ij = ρ̂N ij PN = qP N n=1 (Xni n=1 (Xni − X̄i )(Xnj − X̄j ) − X̄i )2 qP N n=1 (Xnj . − X̄j )2 ~ n } jest próbą prostą z rozkładu µ. Uwaga: Przypuśćmy, że ciąg {X ρ̂N ij = 1 PN n=1 (Xni − X̄i )(Xnj − X̄j ) N−1 q q P N 1 1 PN 2 (X − X̄ ) ni i n=1 n=1 (Xnj N−1 N−1 . − X̄j )2 ρ̂N ij jest mocno zgodnym ciągiem estymatorów. Jednak ρ̂N ij nie jest estymatorem nieobciążonym elementu ρij macierzy korelacji R. Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Standaryzacja danych Własności macierzy korelacji Własności macierzy korelacji Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Standaryzacja danych Własności macierzy korelacji Własności macierzy korelacji ~ 1 (ω), X ~ 2 (ω), . . . , X ~ N (ω) empiryczna macierz Dla każdej realizacji X N korelacji ρ̂ (ω) jest macierzą korelacji, tzn. jest Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Standaryzacja danych Własności macierzy korelacji Własności macierzy korelacji ~ 1 (ω), X ~ 2 (ω), . . . , X ~ N (ω) empiryczna macierz Dla każdej realizacji X N korelacji ρ̂ (ω) jest macierzą korelacji, tzn. jest symetryczna, Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Standaryzacja danych Własności macierzy korelacji Własności macierzy korelacji ~ 1 (ω), X ~ 2 (ω), . . . , X ~ N (ω) empiryczna macierz Dla każdej realizacji X N korelacji ρ̂ (ω) jest macierzą korelacji, tzn. jest symetryczna, nieujemnie określona, Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Standaryzacja danych Własności macierzy korelacji Własności macierzy korelacji ~ 1 (ω), X ~ 2 (ω), . . . , X ~ N (ω) empiryczna macierz Dla każdej realizacji X N korelacji ρ̂ (ω) jest macierzą korelacji, tzn. jest symetryczna, nieujemnie określona, na przekątnej ma wartości 1, a więc jej ślad wynosi d (wymiar wektora danych). Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Standaryzacja danych Własności macierzy korelacji Własności macierzy korelacji ~ 1 (ω), X ~ 2 (ω), . . . , X ~ N (ω) empiryczna macierz Dla każdej realizacji X N korelacji ρ̂ (ω) jest macierzą korelacji, tzn. jest symetryczna, nieujemnie określona, na przekątnej ma wartości 1, a więc jej ślad wynosi d (wymiar wektora danych). W szczególności, dla ρ̂N (ω) istnieją wartości własne λ1 ­ λ2 ­ . . . ­ λd ­ 0 oraz odpowiadające im wektory własne {e1 , e2 , . . . , ed } tworzące bazę ortonormalną w Rd . Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Standaryzacja danych Własności macierzy korelacji Własności macierzy korelacji ~ 1 (ω), X ~ 2 (ω), . . . , X ~ N (ω) empiryczna macierz Dla każdej realizacji X N korelacji ρ̂ (ω) jest macierzą korelacji, tzn. jest symetryczna, nieujemnie określona, na przekątnej ma wartości 1, a więc jej ślad wynosi d (wymiar wektora danych). W szczególności, dla ρ̂N (ω) istnieją wartości własne λ1 ­ λ2 ­ . . . ­ λd ­ 0 oraz odpowiadające im wektory własne {e1 , e2 , . . . , ed } tworzące bazę ortonormalną w Rd . Uwaga: i wartości własne i wektory zależą od całej realizacji ~ 1 (ω), X ~ 2 (ω), . . . , X ~ N (ω)! X Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Analiza składowych głównych Analiza składowych głównych Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Analiza składowych głównych Analiza składowych głównych Składowe główne Niech Z~ będzie d-wymiarowym wektorem standaryzowanym (tzn. E Z~ = 0 i Cov (Z~ ) = Corr (Z~ )). Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Analiza składowych głównych Analiza składowych głównych Składowe główne Niech Z~ będzie d-wymiarowym wektorem standaryzowanym (tzn. E Z~ = 0 i Cov (Z~ ) = Corr (Z~ )). Niech λ1 ­ λ2 ­ . . . ­ λd ­ 0 będą wartościami własnymi macierzy Corr (Z~ ) a {e1 , e2 , . . . , ed } odpowiadającymi im wektorami własnymi, które tworzą bazę ortonormalną w Rd . Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Analiza składowych głównych Analiza składowych głównych Składowe główne Niech Z~ będzie d-wymiarowym wektorem standaryzowanym (tzn. E Z~ = 0 i Cov (Z~ ) = Corr (Z~ )). Niech λ1 ­ λ2 ­ . . . ­ λd ­ 0 będą wartościami własnymi macierzy Corr (Z~ ) a {e1 , e2 , . . . , ed } odpowiadającymi im wektorami własnymi, które tworzą bazę ortonormalną w Rd . Składowymi głównymi wektora Z~ (w istocie: macierzy Corr (Z~ )) nazywamy zmienne losowe Yi = eiT Z~ , i = 1, 2, . . . , d. Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Analiza składowych głównych Analiza składowych głównych - cd. Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Analiza składowych głównych Analiza składowych głównych - cd. Var (Yi ) = Var (eiT Z~ ) = Var (hei , Z~ i) = hei , Cov (Z~ )ei i = hei , Corr (Z~ )ei i = hei , λi ei i = λi . Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Analiza składowych głównych Analiza składowych głównych - cd. Var (Yi ) = Var (eiT Z~ ) = Var (hei , Z~ i) = hei , Cov (Z~ )ei i = hei , Corr (Z~ )ei i = hei , λi ei i = λi . Mówimy, że zmienna Yi „wyjaśnia” część λi /d całkowitej zmienności („wariancji”) wektora Z~ . Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Analiza składowych głównych Analiza składowych głównych - cd. Var (Yi ) = Var (eiT Z~ ) = Var (hei , Z~ i) = hei , Cov (Z~ )ei i = hei , Corr (Z~ )ei i = hei , λi ei i = λi . Mówimy, że zmienna Yi „wyjaśnia” część λi /d całkowitej zmienności („wariancji”) wektora Z~ . Analiza składowych głównych (ang. „Principal Components Analysis”) Analiza składowych głównych polega na wyborze i właściwej interpretacji zmiennych Y1 , Y2 , . . . , Yk w taki sposób, aby wyjaśnić zadaną część α ∈ (0, 1) całkowitej wariancji. Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Analiza składowych głównych Analiza składowych głównych - cd. Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Analiza składowych głównych Analiza składowych głównych - cd. Innymi słowy, w analizie składowych głównych (PCA) szukamy: Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Analiza składowych głównych Analiza składowych głównych - cd. Innymi słowy, w analizie składowych głównych (PCA) szukamy: k możliwie małego (w stosunku do d), które spełnia warunek Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Analiza składowych głównych Analiza składowych głównych - cd. Innymi słowy, w analizie składowych głównych (PCA) szukamy: k możliwie małego (w stosunku do d), które spełnia warunek λi /d + λ2 /d + . . . + λk /d > α, Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Analiza składowych głównych Analiza składowych głównych - cd. Innymi słowy, w analizie składowych głównych (PCA) szukamy: k możliwie małego (w stosunku do d), które spełnia warunek λi /d + λ2 /d + . . . + λk /d > α, i dla którego odpowiednie kombinacje liniowe zmiennych wyjściowych posiadają sensowną interpretację. Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Analiza czynnikowa Model dla analizy czynnikowej Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Analiza czynnikowa Model dla analizy czynnikowej Postuluje się istnienie nieobserwowanych czynników (ang. „factors”), które przejawiają się w rezultacie działania mechanizmu liniowego ~ − EX ~ = LF~ + ~ε, X ~ ma wymiar d, wektor czynników F~ ma gdzie „wektor obserwacji” X wymiar k < d (znacznie!), „wektor czynników specyficznych” ~ε ma wymiar d, a „macierz ładunków czynników” L ma wymiar d × k. Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Analiza czynnikowa Model dla analizy czynnikowej Postuluje się istnienie nieobserwowanych czynników (ang. „factors”), które przejawiają się w rezultacie działania mechanizmu liniowego ~ − EX ~ = LF~ + ~ε, X ~ ma wymiar d, wektor czynników F~ ma gdzie „wektor obserwacji” X wymiar k < d (znacznie!), „wektor czynników specyficznych” ~ε ma wymiar d, a „macierz ładunków czynników” L ma wymiar d × k. Zakłada się, że F~ i ~ε są nieskorelowane, E F~ = 0, Cov (F ) = 1I k , E ~ε = 0 i Cov (~ε) = Λ~ε jest macierzą diagonalną, Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Analiza czynnikowa Analiza czynnikowa (ang. „Factor Analysis”) Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Analiza czynnikowa Analiza czynnikowa (ang. „Factor Analysis”) W szczególności: ~ − EX ~ )(X ~ − EX ~ )T = E (LF~ + ~ε)(LF~ + ~ε)T Σ = E (X = E (LF~ F~ T LT ) + E (LF~ ~εT ) + E (~εF~ T LT ) + E (~ε~εT ) = LLT + Λε . Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Analiza czynnikowa Analiza czynnikowa (ang. „Factor Analysis”) W szczególności: ~ − EX ~ )(X ~ − EX ~ )T = E (LF~ + ~ε)(LF~ + ~ε)T Σ = E (X = E (LF~ F~ T LT ) + E (LF~ ~εT ) + E (~εF~ T LT ) + E (~ε~εT ) = LLT + Λε . Rozwiązanie powyższego równania oraz poszukiwanie czynników F~ przeprowadza się numerycznie. Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Analiza czynnikowa Analiza czynnikowa (ang. „Factor Analysis”) W szczególności: ~ − EX ~ )(X ~ − EX ~ )T = E (LF~ + ~ε)(LF~ + ~ε)T Σ = E (X = E (LF~ F~ T LT ) + E (LF~ ~εT ) + E (~εF~ T LT ) + E (~ε~εT ) = LLT + Λε . Rozwiązanie powyższego równania oraz poszukiwanie czynników F~ przeprowadza się numerycznie. Niech (F~ , L) będzie rozwiązaniem dla modelu analizy czynnikowej. Nich B będzie dowolnym odwzorowaniem ortogonalnym. Wówczas (B F~ , LB T ) tez jest rozwiązaniem i konieczna jest dodatkowa analiza i wybór odpowiedniej „rotacji czynników”. Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych Standaryzacja danych Analiza składowych głównych Analiza czynnikowa Analiza czynnikowa Analiza czynnikowa (ang. „Factor Analysis”) W szczególności: ~ − EX ~ )(X ~ − EX ~ )T = E (LF~ + ~ε)(LF~ + ~ε)T Σ = E (X = E (LF~ F~ T LT ) + E (LF~ ~εT ) + E (~εF~ T LT ) + E (~ε~εT ) = LLT + Λε . Rozwiązanie powyższego równania oraz poszukiwanie czynników F~ przeprowadza się numerycznie. Niech (F~ , L) będzie rozwiązaniem dla modelu analizy czynnikowej. Nich B będzie dowolnym odwzorowaniem ortogonalnym. Wówczas (B F~ , LB T ) tez jest rozwiązaniem i konieczna jest dodatkowa analiza i wybór odpowiedniej „rotacji czynników”. Analiza czynnikowa, mimo bogatej literatury i mnogosci algorytmów pozostaje zawsze narzędziem bardzo kontrowersyjnym. Statystyka i eksploracja danych Wykład XII: Redukcja wymiaru danych