Statystyka i eksploracja danych

advertisement
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Statystyka i eksploracja danych
Wykład XII:
Zagadnienia redukcji wymiaru danych
12 maja 2014
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Standaryzacja danych
Własności macierzy korelacji
Standaryzacja danych
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Standaryzacja danych
Własności macierzy korelacji
Standaryzacja danych
Definicja
Niech X będzie zmienną losową o skończonym drugim momencie.
Standaryzacją zmiennej X nazywamy zmienną losową
X − EX
.
Z=p
Var (X )
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Standaryzacja danych
Własności macierzy korelacji
Standaryzacja danych
Definicja
Niech X będzie zmienną losową o skończonym drugim momencie.
Standaryzacją zmiennej X nazywamy zmienną losową
X − EX
.
Z=p
Var (X )
Uwaga: EZ = 0, Var (Z ) = 1.
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Standaryzacja danych
Własności macierzy korelacji
Standaryzacja danych
Definicja
Niech X będzie zmienną losową o skończonym drugim momencie.
Standaryzacją zmiennej X nazywamy zmienną losową
X − EX
.
Z=p
Var (X )
Uwaga: EZ = 0, Var (Z ) = 1.
~ = (X1 , X2 , . . . , Xd )T jest wektorem losowym o
Uwaga: Jeżeli X
macierzy kowariancji Σ, to wektor standaryzowany (po
współrzędnych) Z~ ma wartość oczekiwaną E Z~ = 0 i macierz
~ , tj.
kowariancji R = [rij ] równą macierzy KORELACJI wektora X
rij = ρij = q
cov (Xi , Xj )
.
Var (Xi )Var (Xj )
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Standaryzacja danych
Własności macierzy korelacji
Standaryzacja danych - cd.
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Standaryzacja danych
Własności macierzy korelacji
Standaryzacja danych - cd.
Uwaga: prosta baza danych + ewentualna liczbowa etykietyzacja
~ n (rekordów), których
niektórych pól = ciąg wartości wektorów X
składowe mierzone są na ogół w różnych jednostkach.
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Standaryzacja danych
Własności macierzy korelacji
Standaryzacja danych - cd.
Uwaga: prosta baza danych + ewentualna liczbowa etykietyzacja
~ n (rekordów), których
niektórych pól = ciąg wartości wektorów X
składowe mierzone są na ogół w różnych jednostkach.
Empiryczna standaryzacja ciągu wektorów losowych
~ n = (Xn1 , Xn2 , . . . , Xnd )T , n = 1, 2, . . . , N będzie ciągiem
Niech X
wektorów losowych. Niech
N
1 X
X̄j =
Xnj , Sj =
N n=1
sP
N
n=1 (Xnj
− X̄j )2
.
N −1
~ n } nazywamy ciąg wektorów losowych Z~n o
Standaryzacją ciągu {X
składowych
(Xnj − X̄j )
Znj =
.
Sj
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Standaryzacja danych
Własności macierzy korelacji
Standaryzacja danych - cd.
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Standaryzacja danych
Własności macierzy korelacji
Standaryzacja danych - cd.
Empiryczna macierz korelacji ciągu wektorów losowych
~ n } nazywamy macierz
Empiryczną macierzą korelacji ciągu {X
losową
ρ̂ij =
ρ̂N
ij
PN
= qP
N
n=1 (Xni
n=1 (Xni
Statystyka i eksploracja danych
− X̄i )(Xnj − X̄j )
− X̄i )2
qP
N
n=1 (Xnj
.
− X̄j )2
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Standaryzacja danych
Własności macierzy korelacji
Standaryzacja danych - cd.
Empiryczna macierz korelacji ciągu wektorów losowych
~ n } nazywamy macierz
Empiryczną macierzą korelacji ciągu {X
losową
ρ̂ij =
ρ̂N
ij
PN
= qP
N
n=1 (Xni
n=1 (Xni
− X̄i )(Xnj − X̄j )
− X̄i )2
qP
N
n=1 (Xnj
.
− X̄j )2
~ n } jest próbą prostą z rozkładu µ.
Uwaga: Przypuśćmy, że ciąg {X
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Standaryzacja danych
Własności macierzy korelacji
Standaryzacja danych - cd.
Empiryczna macierz korelacji ciągu wektorów losowych
~ n } nazywamy macierz
Empiryczną macierzą korelacji ciągu {X
losową
ρ̂ij =
ρ̂N
ij
PN
= qP
N
n=1 (Xni
n=1 (Xni
− X̄i )(Xnj − X̄j )
− X̄i )2
qP
N
n=1 (Xnj
.
− X̄j )2
~ n } jest próbą prostą z rozkładu µ.
Uwaga: Przypuśćmy, że ciąg {X
ρ̂N
ij
=
1 PN
n=1 (Xni − X̄i )(Xnj − X̄j )
N−1
q
q
P
N
1
1 PN
2
(X
−
X̄
)
ni
i
n=1
n=1 (Xnj
N−1
N−1
Statystyka i eksploracja danych
.
− X̄j )2
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Standaryzacja danych
Własności macierzy korelacji
Standaryzacja danych - cd.
Empiryczna macierz korelacji ciągu wektorów losowych
~ n } nazywamy macierz
Empiryczną macierzą korelacji ciągu {X
losową
ρ̂ij =
ρ̂N
ij
PN
= qP
N
n=1 (Xni
n=1 (Xni
− X̄i )(Xnj − X̄j )
− X̄i )2
qP
N
n=1 (Xnj
.
− X̄j )2
~ n } jest próbą prostą z rozkładu µ.
Uwaga: Przypuśćmy, że ciąg {X
ρ̂N
ij
=
1 PN
n=1 (Xni − X̄i )(Xnj − X̄j )
N−1
q
q
P
N
1
1 PN
2
(X
−
X̄
)
ni
i
n=1
n=1 (Xnj
N−1
N−1
.
− X̄j )2
ρ̂N
ij jest mocno zgodnym ciągiem estymatorów.
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Standaryzacja danych
Własności macierzy korelacji
Standaryzacja danych - cd.
Empiryczna macierz korelacji ciągu wektorów losowych
~ n } nazywamy macierz
Empiryczną macierzą korelacji ciągu {X
losową
ρ̂ij =
ρ̂N
ij
PN
= qP
N
n=1 (Xni
n=1 (Xni
− X̄i )(Xnj − X̄j )
− X̄i )2
qP
N
n=1 (Xnj
.
− X̄j )2
~ n } jest próbą prostą z rozkładu µ.
Uwaga: Przypuśćmy, że ciąg {X
ρ̂N
ij
=
1 PN
n=1 (Xni − X̄i )(Xnj − X̄j )
N−1
q
q
P
N
1
1 PN
2
(X
−
X̄
)
ni
i
n=1
n=1 (Xnj
N−1
N−1
.
− X̄j )2
ρ̂N
ij jest mocno zgodnym ciągiem estymatorów.
Jednak ρ̂N
ij nie jest estymatorem nieobciążonym elementu ρij
macierzy korelacji R.
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Standaryzacja danych
Własności macierzy korelacji
Własności macierzy korelacji
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Standaryzacja danych
Własności macierzy korelacji
Własności macierzy korelacji
~ 1 (ω), X
~ 2 (ω), . . . , X
~ N (ω) empiryczna macierz
Dla każdej realizacji X
N
korelacji ρ̂ (ω) jest macierzą korelacji, tzn. jest
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Standaryzacja danych
Własności macierzy korelacji
Własności macierzy korelacji
~ 1 (ω), X
~ 2 (ω), . . . , X
~ N (ω) empiryczna macierz
Dla każdej realizacji X
N
korelacji ρ̂ (ω) jest macierzą korelacji, tzn. jest
symetryczna,
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Standaryzacja danych
Własności macierzy korelacji
Własności macierzy korelacji
~ 1 (ω), X
~ 2 (ω), . . . , X
~ N (ω) empiryczna macierz
Dla każdej realizacji X
N
korelacji ρ̂ (ω) jest macierzą korelacji, tzn. jest
symetryczna,
nieujemnie określona,
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Standaryzacja danych
Własności macierzy korelacji
Własności macierzy korelacji
~ 1 (ω), X
~ 2 (ω), . . . , X
~ N (ω) empiryczna macierz
Dla każdej realizacji X
N
korelacji ρ̂ (ω) jest macierzą korelacji, tzn. jest
symetryczna,
nieujemnie określona,
na przekątnej ma wartości 1, a więc jej ślad wynosi d (wymiar
wektora danych).
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Standaryzacja danych
Własności macierzy korelacji
Własności macierzy korelacji
~ 1 (ω), X
~ 2 (ω), . . . , X
~ N (ω) empiryczna macierz
Dla każdej realizacji X
N
korelacji ρ̂ (ω) jest macierzą korelacji, tzn. jest
symetryczna,
nieujemnie określona,
na przekątnej ma wartości 1, a więc jej ślad wynosi d (wymiar
wektora danych).
W szczególności, dla ρ̂N (ω) istnieją wartości własne
λ1 ­ λ2 ­ . . . ­ λd ­ 0 oraz odpowiadające im wektory własne
{e1 , e2 , . . . , ed } tworzące bazę ortonormalną w Rd .
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Standaryzacja danych
Własności macierzy korelacji
Własności macierzy korelacji
~ 1 (ω), X
~ 2 (ω), . . . , X
~ N (ω) empiryczna macierz
Dla każdej realizacji X
N
korelacji ρ̂ (ω) jest macierzą korelacji, tzn. jest
symetryczna,
nieujemnie określona,
na przekątnej ma wartości 1, a więc jej ślad wynosi d (wymiar
wektora danych).
W szczególności, dla ρ̂N (ω) istnieją wartości własne
λ1 ­ λ2 ­ . . . ­ λd ­ 0 oraz odpowiadające im wektory własne
{e1 , e2 , . . . , ed } tworzące bazę ortonormalną w Rd .
Uwaga: i wartości własne i wektory zależą od całej realizacji
~ 1 (ω), X
~ 2 (ω), . . . , X
~ N (ω)!
X
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Analiza składowych głównych
Analiza składowych głównych
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Analiza składowych głównych
Analiza składowych głównych
Składowe główne
Niech Z~ będzie d-wymiarowym wektorem standaryzowanym (tzn.
E Z~ = 0 i Cov (Z~ ) = Corr (Z~ )).
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Analiza składowych głównych
Analiza składowych głównych
Składowe główne
Niech Z~ będzie d-wymiarowym wektorem standaryzowanym (tzn.
E Z~ = 0 i Cov (Z~ ) = Corr (Z~ )). Niech λ1 ­ λ2 ­ . . . ­ λd ­ 0
będą wartościami własnymi macierzy Corr (Z~ ) a {e1 , e2 , . . . , ed }
odpowiadającymi im wektorami własnymi, które tworzą bazę
ortonormalną w Rd .
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Analiza składowych głównych
Analiza składowych głównych
Składowe główne
Niech Z~ będzie d-wymiarowym wektorem standaryzowanym (tzn.
E Z~ = 0 i Cov (Z~ ) = Corr (Z~ )). Niech λ1 ­ λ2 ­ . . . ­ λd ­ 0
będą wartościami własnymi macierzy Corr (Z~ ) a {e1 , e2 , . . . , ed }
odpowiadającymi im wektorami własnymi, które tworzą bazę
ortonormalną w Rd .
Składowymi głównymi wektora Z~ (w istocie: macierzy Corr (Z~ ))
nazywamy zmienne losowe
Yi = eiT Z~ , i = 1, 2, . . . , d.
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Analiza składowych głównych
Analiza składowych głównych - cd.
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Analiza składowych głównych
Analiza składowych głównych - cd.
Var (Yi ) = Var (eiT Z~ ) = Var (hei , Z~ i) = hei , Cov (Z~ )ei i
= hei , Corr (Z~ )ei i = hei , λi ei i = λi .
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Analiza składowych głównych
Analiza składowych głównych - cd.
Var (Yi ) = Var (eiT Z~ ) = Var (hei , Z~ i) = hei , Cov (Z~ )ei i
= hei , Corr (Z~ )ei i = hei , λi ei i = λi .
Mówimy, że zmienna Yi „wyjaśnia” część λi /d całkowitej
zmienności („wariancji”) wektora Z~ .
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Analiza składowych głównych
Analiza składowych głównych - cd.
Var (Yi ) = Var (eiT Z~ ) = Var (hei , Z~ i) = hei , Cov (Z~ )ei i
= hei , Corr (Z~ )ei i = hei , λi ei i = λi .
Mówimy, że zmienna Yi „wyjaśnia” część λi /d całkowitej
zmienności („wariancji”) wektora Z~ .
Analiza składowych głównych (ang. „Principal Components
Analysis”)
Analiza składowych głównych polega na wyborze i właściwej
interpretacji zmiennych Y1 , Y2 , . . . , Yk w taki sposób, aby wyjaśnić
zadaną część α ∈ (0, 1) całkowitej wariancji.
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Analiza składowych głównych
Analiza składowych głównych - cd.
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Analiza składowych głównych
Analiza składowych głównych - cd.
Innymi słowy, w analizie składowych głównych (PCA) szukamy:
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Analiza składowych głównych
Analiza składowych głównych - cd.
Innymi słowy, w analizie składowych głównych (PCA) szukamy:
k możliwie małego (w stosunku do d), które spełnia warunek
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Analiza składowych głównych
Analiza składowych głównych - cd.
Innymi słowy, w analizie składowych głównych (PCA) szukamy:
k możliwie małego (w stosunku do d), które spełnia warunek
λi /d + λ2 /d + . . . + λk /d > α,
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Analiza składowych głównych
Analiza składowych głównych - cd.
Innymi słowy, w analizie składowych głównych (PCA) szukamy:
k możliwie małego (w stosunku do d), które spełnia warunek
λi /d + λ2 /d + . . . + λk /d > α,
i dla którego odpowiednie kombinacje liniowe zmiennych
wyjściowych posiadają sensowną interpretację.
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Analiza czynnikowa
Model dla analizy czynnikowej
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Analiza czynnikowa
Model dla analizy czynnikowej
Postuluje się istnienie nieobserwowanych czynników (ang.
„factors”), które przejawiają się w rezultacie działania mechanizmu
liniowego
~ − EX
~ = LF~ + ~ε,
X
~ ma wymiar d, wektor czynników F~ ma
gdzie „wektor obserwacji” X
wymiar k < d (znacznie!), „wektor czynników specyficznych” ~ε ma
wymiar d, a „macierz ładunków czynników” L ma wymiar d × k.
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Analiza czynnikowa
Model dla analizy czynnikowej
Postuluje się istnienie nieobserwowanych czynników (ang.
„factors”), które przejawiają się w rezultacie działania mechanizmu
liniowego
~ − EX
~ = LF~ + ~ε,
X
~ ma wymiar d, wektor czynników F~ ma
gdzie „wektor obserwacji” X
wymiar k < d (znacznie!), „wektor czynników specyficznych” ~ε ma
wymiar d, a „macierz ładunków czynników” L ma wymiar d × k.
Zakłada się, że F~ i ~ε są nieskorelowane, E F~ = 0, Cov (F ) = 1I k ,
E ~ε = 0 i Cov (~ε) = Λ~ε jest macierzą diagonalną,
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Analiza czynnikowa
Analiza czynnikowa (ang. „Factor Analysis”)
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Analiza czynnikowa
Analiza czynnikowa (ang. „Factor Analysis”)
W szczególności:
~ − EX
~ )(X
~ − EX
~ )T = E (LF~ + ~ε)(LF~ + ~ε)T
Σ = E (X
= E (LF~ F~ T LT ) + E (LF~ ~εT ) + E (~εF~ T LT ) + E (~ε~εT )
= LLT + Λε .
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Analiza czynnikowa
Analiza czynnikowa (ang. „Factor Analysis”)
W szczególności:
~ − EX
~ )(X
~ − EX
~ )T = E (LF~ + ~ε)(LF~ + ~ε)T
Σ = E (X
= E (LF~ F~ T LT ) + E (LF~ ~εT ) + E (~εF~ T LT ) + E (~ε~εT )
= LLT + Λε .
Rozwiązanie powyższego równania oraz poszukiwanie czynników F~
przeprowadza się numerycznie.
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Analiza czynnikowa
Analiza czynnikowa (ang. „Factor Analysis”)
W szczególności:
~ − EX
~ )(X
~ − EX
~ )T = E (LF~ + ~ε)(LF~ + ~ε)T
Σ = E (X
= E (LF~ F~ T LT ) + E (LF~ ~εT ) + E (~εF~ T LT ) + E (~ε~εT )
= LLT + Λε .
Rozwiązanie powyższego równania oraz poszukiwanie czynników F~
przeprowadza się numerycznie.
Niech (F~ , L) będzie rozwiązaniem dla modelu analizy czynnikowej.
Nich B będzie dowolnym odwzorowaniem ortogonalnym. Wówczas
(B F~ , LB T ) tez jest rozwiązaniem i konieczna jest dodatkowa
analiza i wybór odpowiedniej „rotacji czynników”.
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Analiza czynnikowa
Analiza czynnikowa (ang. „Factor Analysis”)
W szczególności:
~ − EX
~ )(X
~ − EX
~ )T = E (LF~ + ~ε)(LF~ + ~ε)T
Σ = E (X
= E (LF~ F~ T LT ) + E (LF~ ~εT ) + E (~εF~ T LT ) + E (~ε~εT )
= LLT + Λε .
Rozwiązanie powyższego równania oraz poszukiwanie czynników F~
przeprowadza się numerycznie.
Niech (F~ , L) będzie rozwiązaniem dla modelu analizy czynnikowej.
Nich B będzie dowolnym odwzorowaniem ortogonalnym. Wówczas
(B F~ , LB T ) tez jest rozwiązaniem i konieczna jest dodatkowa
analiza i wybór odpowiedniej „rotacji czynników”.
Analiza czynnikowa, mimo bogatej literatury i mnogosci
algorytmów pozostaje zawsze narzędziem bardzo kontrowersyjnym.
Statystyka i eksploracja danych
Wykład XII: Redukcja wymiaru danych
Download