Entropia w klasyfikacji

advertisement
Entropia w klasyfikacji
Quadratic Renyi’s Entropy: zastosowania w klasyfikacji
Wojciech Czarnecki
Jacek Tabor
GMUM
Kraków 2014
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
1 / 34
1
Motywacja
Teoria informacji
Estymacja rozkładu
2
Teoria Informacji
Wyprowadzenie entropii
Własności klasycznej entropii
Średnie
Entropia Renyi’ego
3
Statystyka
Rozkład normalny
Metoda najwiekszej
˛
wiarygodności
Estymacja jadrowa
˛
Cauchy-Schwarz Divergence
4
Główny cel
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
2 / 34
Motywacja
Teoria informacji
Po co nam teoria informacji (entropia)?
[J. Principe „Information Theoretic Learning”]:
The common problem faced by many data processing professionals is HOW
TO BEST EXTRACT THE INFORMATION CONTAINED IN DATA . ... Data hides,
either in time structure or in spatial redundancy, important clues to answer the
information-processing questions we pose. ... Therefore the pressure to
DISTILL INFORMATION from data will mount at an increasing pace in the future,
and old ways of dealing with this problem will be forced to evolve and adapt to
the new reality.
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
3 / 34
Motywacja
Teoria informacji
Gdzie sie˛ stosuje?
kodowanie i kompresja (Shannon, Huffman, etc)
Rissanen: MDLP (minimum description length principle) – konstrukcja
modeli
klastrowanie (Google/entropy clustering/: około 7 750 000 wyników,....,
CEC)
klasyfikacja (decision trees)
EM (expectation maximization)
ICA (independent component analysis)
W zasadzie w każdej działce nauczania maszynowego teoria informacji
znajduje zastosowania.
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
4 / 34
Motywacja
Teoria informacji
Podstawowe hasła które sie˛ pojawia˛
teoria informacji
entropia Shannona h
entropia krzyżowa H ×
dywergencja Kullbacka-Leiblera DKL
joint entropy H(X , Y )
mutual information I
entropia Renyi’ego
Cross Information Potential (ip× )
dywergencja Cauchy’ego-Schwarza DCS
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
5 / 34
Motywacja
Estymacja rozkładu
Mamy wylosowana˛ próbk˛e, i na podstawie tej próbki chcemy mieć pojecie
˛
o
prawdziwym rozkładzie (umiejetność
˛
generowania z prawdziwego rozkładu).
Przydaje sie˛ w:
kompresja danych (do kompresji, potrzebujemy mieć prawd.)
generowanie nowych danych z o tym samym rozkładzie (uczenie sieci,
ekonomia - przeprowadzanie symulacji: Iwona Żerda)
głebokie
˛
nauczanie (Algorytm Gibbsa-Hastingsa: Igor)
Metoda weryfikacyjna: five-fold technique (uczymy sie˛ na podstawie zbioru
uczacego
˛
czegoś o danych, i sprawdzamy czy nauczyliśmy sie˛ dobrze
weryfikujac
˛ wnioski na zbiorze testujacym).
˛
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
6 / 34
Motywacja
Estymacja rozkładu
Podstawowe hasła które sie˛ pojawia˛
histogram
estymacja jadrowa
˛
(kernel estimation)
kernel width
metoda najwiekszej
˛
wiarygodności
gaussian mixture models
EM (expectation maximization)
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
7 / 34
Teoria Informacji
Wyprowadzenie entropii
Wyprowadzenie Entropii I: entropia Shannona
Shannon: lata 50 poprzedniego wieku.
[T. Cover „Elements of Information Theory”]
Mamy alfabet źródłowy S (o mocy m) i alfabet kodowy A = {0, 1}. Chcemy
przesłać tekst napisany w alfabecie źródłowym, ale nasz kanał informacyjny
pozwala na przesyłanie tylko A. Czyli chcemy każdy element z S wyrazić za
pomoca˛ słów z A∗ (niepuste słowa o skończonej długości).
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
8 / 34
Teoria Informacji
Wyprowadzenie entropii
Wyprowadzenie Entropii I: entropia Shannona
Shannon: lata 50 poprzedniego wieku.
[T. Cover „Elements of Information Theory”]
Mamy alfabet źródłowy S (o mocy m) i alfabet kodowy A = {0, 1}. Chcemy
przesłać tekst napisany w alfabecie źródłowym, ale nasz kanał informacyjny
pozwala na przesyłanie tylko A. Czyli chcemy każdy element z S wyrazić za
pomoca˛ słów z A∗ (niepuste słowa o skończonej długości).
Definicja
Przez funkcje˛ kodujac
˛ a˛ (kodowanie) rozumiem dowolna˛ funkcje˛ ϕ : S → A∗ .
Kodowanie nazywamy nieosobliwym jeżeli jest iniektywne, to znaczy jeżeli
dwa różne elementy kodowane sa˛ różnymi kodami (słowamu). Jeżeli mamy
wiele, to wtedy oddzielamy znakiem specjalnym (zazwyczaj przecinkiem,
spacja˛ badź
˛ średnikiem). Ale to nie jest wygodne, bo musimy używać
dodatkowego symbolu.
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
8 / 34
Teoria Informacji
Wyprowadzenie entropii
Definicja
Rozszerzenie kodu to odwzorowanie ϕ : S ∗ → A∗ dane wzorem
ϕ(s1 s2 . . . sk ) := ϕ(s1 )ϕ(s2 ) . . . ϕ(sk ).
Kodowanie (kod) jest jednoznacznie dekodowalne jeżeli jego rozszerzenie
jest nieosobliwe. Innymi słowy, kodowanie jest nieosobliwe, jeżeli majac
˛ słowo
w = w1 w2 . . . wK (gdzie wi to słowa kodowe) możemy jednoznacznie
odzyskać jego rozkład na w1 ; w2 ; . . . ; wk (przykład: kody prefiksowe).
Pytanie, jeżeli mamy dany alfabet, i chcemy zrealizować kod o zadanej
długości - kiedy nam sie˛ uda?
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
9 / 34
Teoria Informacji
Wyprowadzenie entropii
Definicja
Rozszerzenie kodu to odwzorowanie ϕ : S ∗ → A∗ dane wzorem
ϕ(s1 s2 . . . sk ) := ϕ(s1 )ϕ(s2 ) . . . ϕ(sk ).
Kodowanie (kod) jest jednoznacznie dekodowalne jeżeli jego rozszerzenie
jest nieosobliwe. Innymi słowy, kodowanie jest nieosobliwe, jeżeli majac
˛ słowo
w = w1 w2 . . . wK (gdzie wi to słowa kodowe) możemy jednoznacznie
odzyskać jego rozkład na w1 ; w2 ; . . . ; wk (przykład: kody prefiksowe).
Pytanie, jeżeli mamy dany alfabet, i chcemy zrealizować kod o zadanej
długości - kiedy nam sie˛ uda?
Twierdzenie (Nierówność Krafta)
Alfabet źródłowy S o m elementach, da sie˛ zakodować jednoznacznie
dekodowalnie za pomoca˛ słów zbudowanych z A = {0, 1} o długościach
l1 , . . . , lm wtw. gdy
m
X
2−li ≤ 1.
i=1
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
9 / 34
Teoria Informacji
Wyprowadzenie entropii
Wartość oczekiwana długości słowa – definicja
entropii
Załóżmy, że mamy rozkład prawdopodobieństwa na S = {s1 , . . . , sm }, czyli
litera si pojawia sie˛ z prawdopodobieństwem pi = p(si ) (zakładamy
dodatkowo, że źródło ma brak pamieci,
˛ to znaczy, że to co pojawi sie˛
nastepne
˛
nie zależy od tego co pojawiło sie˛ poprzednio).
Chcemy kodować zużywajac
˛ statystycznie/średnio minimalna˛ ilość pamieci.
˛
Załóżmy, że mamy dany alfabet kodujacy
˛ A i iniektywna˛ funkcje˛ kodujac
˛ a˛
ϕ : S → A∗ (przyjmujemy li to długość słowa ϕ(si )).
Wartość średnia (oczekiwana) długości słowa kodujacego
˛
jest oczywiście
dana wzorem
X
L :=
p i li .
i
Pytanie jak dobrać wartości li by minimalizować wartość oczekiwana˛ ilości
pamieci.
˛
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
10 / 34
Teoria Informacji
Wyprowadzenie entropii
Ponieważ na podstawie nierówności Krafta wiemy jakie długości sa˛
dopuszczalne, dostajemy problem minimalizacji
X
L(l1 , . . . , ln ) :=
p i li
i
przy warunku
X
2−li ≤ 1.
i
Zapominamy o tym, że sa˛ całkowite (dostaniemy przybliżenie), i wtedy
możemy zwiekszyć
˛
L zakładajac
˛ równość. Otrzymaliśmy wiec
˛ nastepuj
˛ acy
˛
problem:
Problem (Problem optymizacyjny)
Znaleźć minimum
L(r1 , . . . , rn ) :=
X
p i ri
i
przy warunku
P
i
2−ri = 1.
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
11 / 34
Teoria Informacji
Wyprowadzenie entropii
Dowód.
Rozwiazanie:
˛
wykorzystamy metode˛ mnożników Lagrange’a:
X
X
J(r1 , . . . , rn ; λ) =
pi ri + λ(
2−ri − 1).
i
i
Różniczkujac
˛ dostajemy
∂J
= pi − λ2−ri ln 2,
∂ri
i przyrównujac
˛ do zera dostajemy
2−ri = pi /(λ ln 2).
Podstawiajac
˛ do warunku na λ, dostajemy λ = 1/ ln 2, czyli
pi = 2−ri ,
dajac
˛ optymalne kody dla r̄i = − log2 pi i wartość oczekiwana˛ długości słowa
kodujacego
˛
X
X
pi r̄i = −
pi log2 pi .
i
Wojciech Czarnecki, Jacek Tabor (GMUM)
i
Entropia w klasyfikacji
Kraków 2014
12 / 34
Teoria Informacji
Wyprowadzenie entropii
Definicja Entropii Shannona
Definicja (Definicja Entropii Shannona)
W konsekwencji dostajemy definicje˛ entropii dla ciagu
˛ prawdopodobieństw
(pi )
X
H((pi )i ) :=
−pi log2 pi .
i
Rysunek: Entropia dla p, 1 − p.
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
13 / 34
Teoria Informacji
Własności klasycznej entropii
Zdarzenia warunkowe
Niech K oznacza zbiór indeksów. Załóżmy, że źródło wysyła litery
S = (sk )k ∈K z prawdopodobieństwami (pk )k ∈K .
Dla podzbioru L ⊂ K rozpatrujemy zdarzenie polegajace
˛ na tym, że wiemy, że
zaszło zdarzenie SL odpowiadajacemu
˛
któremuś z indeksów z L (czyli
wylosowaliśmy która˛ z liter (sl )l∈L ).
Prawdopodobieństwo tego, że wylosowaliśmy
któraś
˛ z literek o indeksie l ∈ L
P
(zaszło L) to oczywiście p(L) = l∈L pl .
Prawdopodobieństwo wylosowania literki l (o ile wiemy, że zaszło L –
prawdopodobieństwo warunkowe) wynosi pl /p(L).
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
14 / 34
Teoria Informacji
Własności klasycznej entropii
Zdarzenia warunkowe
Niech K oznacza zbiór indeksów. Załóżmy, że źródło wysyła litery
S = (sk )k ∈K z prawdopodobieństwami (pk )k ∈K .
Dla podzbioru L ⊂ K rozpatrujemy zdarzenie polegajace
˛ na tym, że wiemy, że
zaszło zdarzenie SL odpowiadajacemu
˛
któremuś z indeksów z L (czyli
wylosowaliśmy która˛ z liter (sl )l∈L ).
Prawdopodobieństwo tego, że wylosowaliśmy
któraś
˛ z literek o indeksie l ∈ L
P
(zaszło L) to oczywiście p(L) = l∈L pl .
Prawdopodobieństwo wylosowania literki l (o ile wiemy, że zaszło L –
prawdopodobieństwo warunkowe) wynosi pl /p(L).
W konsekwencji, średnia długość kodu przypadajac
˛ a˛ na kodowanie którejś z
liter o indeksie z L wynosi
H(SL ) :=
X
l∈L
Wojciech Czarnecki, Jacek Tabor (GMUM)
−
pl
log2 pl .
p(L)
Entropia w klasyfikacji
Kraków 2014
14 / 34
Teoria Informacji
Własności klasycznej entropii
Uśrednianie informacji
Przypominam: Ś REDNIA ARYTMETYCZNA . p1 procent pracowników załogi
zarabia r1 , ... , pk procent zarabia zarabia rk . Średnie zarobki r
wynosza˛
r = p1 r1 + . . . + pk rk .
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
15 / 34
Teoria Informacji
Własności klasycznej entropii
Uśrednianie informacji
Przypominam: Ś REDNIA ARYTMETYCZNA . p1 procent pracowników załogi
zarabia r1 , ... , pk procent zarabia zarabia rk . Średnie zarobki r
wynosza˛
r = p1 r1 + . . . + pk rk .
Jeżeli mamy rozbicie K na sume˛ rozłaczn
˛ a˛ zdarzeń L1 , . . . , Lk , to możemy
rozpatrzyć średnia˛ długość kodu H(SLi ) użyta˛ do kodowania przy zdarzeniu
Li . Widać, że całkowita ilość informacji (długość kodu) H(S) jest średnia˛
arytmetyczna˛ ilości informacji niesionej przez poszczególne zdarzenia:
H(S) = p(L1 ) · H(SL1 ) + . . . + p(Lk ) · H(SLk ).
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
15 / 34
Teoria Informacji
Własności klasycznej entropii
Informacja niesiona przez zdarzenia niezależne
Zajmijmy sie˛ teraz iloczynem kartezjańskim dwóch rozkładów. Majac
˛ rozkłady
p = (p1 , . . . , pn ) (odpowiada zdarzeniu P) i q = (q1 , . . . , qk ) (odpowiada
zdarzeniu Q), rozkład prawdopodobieństwa zdarzenia (P, Q) (przy założeniu
niezależności tych zdarzeń) jest dany wzorem
(pi · qj )i,j .
Oznaczam ten rozkład wzorem P ∗ Q
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
16 / 34
Teoria Informacji
Własności klasycznej entropii
Informacja niesiona przez zdarzenia niezależne
Zajmijmy sie˛ teraz iloczynem kartezjańskim dwóch rozkładów. Majac
˛ rozkłady
p = (p1 , . . . , pn ) (odpowiada zdarzeniu P) i q = (q1 , . . . , qk ) (odpowiada
zdarzeniu Q), rozkład prawdopodobieństwa zdarzenia (P, Q) (przy założeniu
niezależności tych zdarzeń) jest dany wzorem
(pi · qj )i,j .
Oznaczam ten rozkład wzorem P ∗ Q
Okazuje sie,
˛ że informacja wnoszona przez przypadek gdy zaszła para
zdarzeń (przy założeniu ich niezależności), jest równa sumie informacji
wnoszonej przez każde z tych zdarzeń z osobna:
H(P ∗ Q) = H(P) + H(Q).
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
16 / 34
Teoria Informacji
Średnie
Sposób uśredniania informacji
Ś REDNIA ARYTMETYCZNA . p1 procent załogi zarabia r1 , ... , pk procent
zarabia rk . Średnie zarobki r wynosza˛
r = p1 r1 + . . . + pk rk .
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
17 / 34
Teoria Informacji
Średnie
Sposób uśredniania informacji
Ś REDNIA ARYTMETYCZNA . p1 procent załogi zarabia r1 , ... , pk procent
zarabia rk . Średnie zarobki r wynosza˛
r = p1 r1 + . . . + pk rk .
Ś REDNIA HARMONICZNA . p1 procent drogi jedziemy z predkości
˛
a˛ r1 , ... , pk z
rk . Wtedy średnia predkość
˛
r na trasie wynosi
r = 1/(p1 /r1 + . . . + pk /rk ).
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
17 / 34
Teoria Informacji
Średnie
Sposób uśredniania informacji
Ś REDNIA ARYTMETYCZNA . p1 procent załogi zarabia r1 , ... , pk procent
zarabia rk . Średnie zarobki r wynosza˛
r = p1 r1 + . . . + pk rk .
Ś REDNIA HARMONICZNA . p1 procent drogi jedziemy z predkości
˛
a˛ r1 , ... , pk z
rk . Wtedy średnia predkość
˛
r na trasie wynosi
r = 1/(p1 /r1 + . . . + pk /rk ).
Ś REDNIA POT EGOWA
˛
RZ EDU
˛
3. Mamy p1 procent kuleczek z plasteliny o
promieniu r1 , ... , pk procent kuleczek o promieniu rk . Zlepiamy te kulki razem
i lepimy taka˛ sama˛ sumaryczna˛ ilość kuleczek, ale o jednakowym promieniu
r . Wtedy
r = (p1 r13 + . . . + pk rk3 )1/3 .
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
17 / 34
Teoria Informacji
Średnie
Bardziej abstrakcyjne spojrzenie
Wszystkie powyższe średnie można uzyskać biorac
˛ funkcje˛ g i
rozpatrujac
˛
g −1 (p1 g(r1 ) + . . . + pk g(rk )).
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
18 / 34
Teoria Informacji
Średnie
Bardziej abstrakcyjne spojrzenie
Wszystkie powyższe średnie można uzyskać biorac
˛ funkcje˛ g i
rozpatrujac
˛
g −1 (p1 g(r1 ) + . . . + pk g(rk )).
A RYTMETYCZNE : g(r ) = r
H ARMONICZNA : g(r ) = 1/r
P OT EGOWA
˛
RZ EDU
˛
3: g(r ) = r 3
W pewnym sensie jest to jedyna „naturalna” metoda generowania
średnich.
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
18 / 34
Teoria Informacji
Entropia Renyi’ego
Wyprowadzenie Entropii Renyi’ego
Szukamy teraz takich średnich g i funkcji entropii HR by zachodziły dwa
warunki.
1. Informacja niesiona przez całe zdarzenie jest równa średniej informacji
niesionej przez poszczególne zdarzenia:
HR (S) = g −1 p(L1 ) · g(HR (SL1 )) + . . . + p(Lk ) · g(HR (SLk )) .
2. Informacja niesiona przez pare˛ zdarzeń niezależnych jest suma˛ informacji
niesionych przez każde z tych zdarzeń:
HR (P ∗ Q) = HR (P) + HR (Q).
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
19 / 34
Teoria Informacji
Entropia Renyi’ego
Definicja Entropii Renyi’ego
Renyi pokazał, że jedyne rozwiazanie
˛
powyższego (modulo transformacje
afiniczne które nie zmieniaja˛ wartości średniej) jest dane przez
gα (x) =
2(α−1)x − 1
dla α 6= 1,
(α − 1) ln 2
g1 (x) = x.
RYSUNEK.
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
20 / 34
Teoria Informacji
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia Renyi’ego
Entropia w klasyfikacji
Kraków 2014
21 / 34
Teoria Informacji
Entropia Renyi’ego
W konsekwencji w naturalny sposób otrzymujemy:
Definicja (Entropia Renyi’ego rz˛edu α)
Dla α 6= 1 kładziemy
Hα (p1 , . . . , pk ) =
X
1
log(
piα ).
1−α
i
Dla α = 1 kładziemy
Hα (p1 , . . . , pk ) =
X
−pi log(pi ).
i
Łatwo pokazać, że Hα (P) → H1 (P) = H(P) przy α → 1.
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
22 / 34
Teoria Informacji
Entropia Renyi’ego
Przykład zastosowania
Drzewa decyzyjne.
[T. Maszczyk, W. Duch „Comparison of Shannon, Renyi and Tsallis Entropy
used in Decision Trees”, Artificial Intelligence and Soft Computing–ICAISC
2008, Springer]
Porównania stosowania różnych entropii w drzewach decyzyjnych. Okazuje
sie,
˛ że przydaja˛ sie˛ różne (cytat skrócony):
For the Colon dataset peak accuracy is achieved for Renyi entropy with α = 2, with
specificity (accuracy of the second class) significantly higher than for the Shannon
case, and with smaller variance. For DLBCL Renyi entropy with α in the range
1.1 − 1.3 give the best results, improving both specificity and sensitivity of the
Shannon measure. For the Leukemia data best Renyi result for α = −0.1, around
88.5 ± 2.4 is significantly better than Shannon’s 81.4 ± 4.1.
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
23 / 34
Teoria Informacji
Entropia Renyi’ego
Entropia różniczkowa
Przechodzac
˛ w definicji entropii, analogicznie jak w całce Riemanna, do
granicy, otrzymujemy pojecie
˛
entropii różniczkowej dla rozkładu
prawdopodobieństwa o gestości
˛
f (x).
Definicja (Entropia różniczkowa Renyi’ego rz˛edu α)
Dla α 6= 1 kładziemy
Hα (f ) =
1
log(
1−α
Z
f (x)α dx).
Dla α = 1 kładziemy
Z
Hα (f ) =
Wojciech Czarnecki, Jacek Tabor (GMUM)
−f (x) log(f (x))dx.
Entropia w klasyfikacji
Kraków 2014
24 / 34
Statystyka
Rozkład normalny
Zaczynamy statystyk˛e
Główny rozkład w statystyce to rozkład normalny N(m, σ 2 ), gdzie m to
wartość średnia, a σ 2 wariancja. Gestość:
˛
N(m, σ 2 ) = √
Wojciech Czarnecki, Jacek Tabor (GMUM)
1
2πσ
exp(−
Entropia w klasyfikacji
(x − m)2
).
2σ 2
Kraków 2014
25 / 34
Statystyka
Rozkład normalny
Entropia dla rozkładu normalnego
Entropia Renyi’ego rozkładu normalnego:
Z
1
1
(x − m)2 2
Hα (N(m, σ )) =
log
) .
exp(−
1−α
(2πσ 2 )α
2σ 2 /α
Cz˛esty trik polega na wykorzystaniu tego, że rozkład normalny całkuje sie˛ do
jedynki.
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
26 / 34
Statystyka
Rozkład normalny
Entropia dla rozkładu normalnego
Entropia Renyi’ego rozkładu normalnego:
Z
1
1
(x − m)2 2
Hα (N(m, σ )) =
log
) .
exp(−
1−α
(2πσ 2 )α
2σ 2 /α
Cz˛esty trik polega na wykorzystaniu tego, że rozkład normalny całkuje sie˛ do
jedynki.
PRZEPROWADZIĆ WYPROWADZENIE NA TABLICY.
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
26 / 34
Statystyka
Metoda najwiekszej
˛
wiarygodności
Maximum likelihood estimation (MLE)
Zakładamy, że mamy dwa rozkłady f i g, i mamy zbiór danych
X = (x1 , . . . , xn ). Pytamy sie,
˛ jak sprawdzić który z tych rozkładów bardziej
„pasuje” do naszego zbioru danych?
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
27 / 34
Statystyka
Metoda najwiekszej
˛
wiarygodności
Maximum likelihood estimation (MLE)
Zakładamy, że mamy dwa rozkłady f i g, i mamy zbiór danych
X = (x1 , . . . , xn ). Pytamy sie,
˛ jak sprawdzić który z tych rozkładów bardziej
„pasuje” do naszego zbioru danych?
Idea jest bardzo prosta: wybieramy ten rozkład któremu „łatwiej” byłoby
wylosować nasze dane. W tym celu porównujemy
f (x1 ) · . . . · f (xn ) oraz g(x1 ) · . . . · g(xn ).
Zwyczajowo aby pozbyć sie˛ iloczynu, logarytmujemy:
log f (x1 ) + . . . + log f (xn ) oraz log g(x1 ) + . . . + log g(xn ).
I wybieramy ten rozkład, który ma wieksz
˛
a˛ wartość. Na tej idei oparte jest w
szczególności EM (expectation maximization).
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
27 / 34
Statystyka
Metoda najwiekszej
˛
wiarygodności
MLE: podejście teorio-informatyczne
Zakładamy, że mamy dwa rozkłady f i g, i mamy zbiór danych
X = (x1 , . . . , xn ). Pytamy sie,
˛ jak sprawdzić który z tych rozkładów bardziej
„pasuje” do naszego zbioru danych?
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
28 / 34
Statystyka
Metoda najwiekszej
˛
wiarygodności
MLE: podejście teorio-informatyczne
Zakładamy, że mamy dwa rozkłady f i g, i mamy zbiór danych
X = (x1 , . . . , xn ). Pytamy sie,
˛ jak sprawdzić który z tych rozkładów bardziej
„pasuje” do naszego zbioru danych?
Idea jest bardzo prosta: wybieramy ten rozkład któremu „łatwiej” byłoby
skompresować nasze dane.
Pamietamy
˛
z wyprowadzenia entropii, że optymalna długość kodu przy
kodowaniu punktu x to − log f (x). W konsekwencji porównujemy
− log f (x1 ) − . . . − log f (xn ) oraz − log g(x1 ) − . . . − log g(xn ).
I wybieramy ten rozkład, dla którego powyższa wartość jest mniejsza. Na tej
zasadzie jest na przykład zbudowany CEC.
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
28 / 34
Statystyka
Estymacja jadrowa
˛
Estymacja jadrowa
˛
[B. Silverman: Density Estimation for Statistics]
Mamy zbiór danych X ⊂ R. I teraz nie chcemy wybrać z jakiegoś z góry
wybranego zbioru rozkładów (nie mamy pewności/zaufania, czy akurat tego
typu rozkład tam sie˛ bedzie
˛
znajdował).
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
29 / 34
Statystyka
Estymacja jadrowa
˛
Estymacja jadrowa
˛
[B. Silverman: Density Estimation for Statistics]
Mamy zbiór danych X ⊂ R. I teraz nie chcemy wybrać z jakiegoś z góry
wybranego zbioru rozkładów (nie mamy pewności/zaufania, czy akurat tego
typu rozkład tam sie˛ bedzie
˛
znajdował).
Pomysł estymacji jadrowej
˛
jest bardzo prosty, zastepujemy
˛
każdy punkt xi z
X = (x1 , . . . , xn ) „waskim”
˛
rozkładem normalnym wycentrowanym w punkcie
xi
N(xi , σ 2 )
i uśredniamy/sumujemy po wszystkich punktach z X :
n
1 X
N(xi , σ 2 ).
|X |
i=1
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
29 / 34
Statystyka
Estymacja jadrowa
˛
Estymacja jadrowa
˛
[B. Silverman: Density Estimation for Statistics]
Mamy zbiór danych X ⊂ R. I teraz nie chcemy wybrać z jakiegoś z góry
wybranego zbioru rozkładów (nie mamy pewności/zaufania, czy akurat tego
typu rozkład tam sie˛ bedzie
˛
znajdował).
Pomysł estymacji jadrowej
˛
jest bardzo prosty, zastepujemy
˛
każdy punkt xi z
X = (x1 , . . . , xn ) „waskim”
˛
rozkładem normalnym wycentrowanym w punkcie
xi
N(xi , σ 2 )
i uśredniamy/sumujemy po wszystkich punktach z X :
n
1 X
N(xi , σ 2 ).
|X |
i=1
Pomysł okazuje sie˛ być bardzo fajny, tylko powstaje naturalne pytanie jak
dobrać „window width” σ? MATHEMATICA.
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
29 / 34
Statystyka
Estymacja jadrowa
˛
Wzór Silvermana
Wzór Silvermana dla estymacji jadrowej
˛
dla grupy danych
X = (x1 , . . . , xn ) ⊂ R:
σopt = (4/3)1/5 n−1/5 σX .
Wzór powyższy jest optymalny w sytuacji gdy dane pochodza˛ z rozkładu
normalnego. Ogólnie optymalna może być inna szerokość jadra,
˛
ale
zazwyczaj okazuje sie,
˛ że dla danych realnych (które moga˛ być wiecej
˛
niż
jedno-modalne – PRZYKŁAD), wartość ta bedzie
˛
mniejsza niż wskazuje wzór
Silvermana.
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
30 / 34
Statystyka
Estymacja jadrowa
˛
Klatwa
˛
wymiarowości
Okazuje sie,
˛ że to samo można robić w wielu wymiarach. I jest to realne do
wykonania w R2 , R3 . W wyższych wymiarach działa klatwa
˛
wymiarowości,
która (upraszczajac)
˛ mówi, że wszystkie punkty w zbiorze sa˛ maksymalnie
odległe jak to możliwe.
Precyzyjniej, jak mamy wylosowane punkty losowe z kostki [0, 1]D , to dla
dużych D odległość miedzy
˛
tymi punktami jest bliska maksymalnej
dopuszczalnej odległości.
W konsekwencji najbardziej wiarygodne jest dokonywanie estymacji gestości
˛
w sytuacjach nisko-wymiarowych.
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
31 / 34
Statystyka
Wojciech Czarnecki, Jacek Tabor (GMUM)
Estymacja jadrowa
˛
Entropia w klasyfikacji
Kraków 2014
32 / 34
Statystyka
Cauchy-Schwarz Divergence
Cauchy-Schwarz Divergence
Pojecie
˛
zbliżone do dywergencji Kullbacka-Leiblera, ale dla entropii
Renyi’ego. Mierzy na ile dwa rozkłady sa˛ sobie bliskie.
Definicja:
Z
DCS (f , g) := log
f 2 + log
Z
g 2 − 2 log fg ∈ [0, ∞].
Jeżeli 0, to f = g.
Chcemy zmaksymalizować. Zanalizujmy poszczególne czynniki:
R
kiedy sie˛ maksymalizuje f 2 : jak f jest możliwie skupione,
R
kiedy sie˛ minimalizuje fg: jak f i g sa˛ prostopadłe (maja˛ rozłaczne
˛
supporty).
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
33 / 34
Główny cel
CEL
Co chcemy zrobić:
Mamy dane X , Y ⊂ RD . Szukamy takiej prostej (rozpietej
˛ na v ∈ S), aby po
zrzutowaniu danych na nia˛ dywergencja Cauchy’ego-Schwarza (po estymacji
jadrowej)
˛
DCS ([Xv ], [Yv ]).
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
34 / 34
Główny cel
CEL
Co chcemy zrobić:
Mamy dane X , Y ⊂ RD . Szukamy takiej prostej (rozpietej
˛ na v ∈ S), aby po
zrzutowaniu danych na nia˛ dywergencja Cauchy’ego-Schwarza (po estymacji
jadrowej)
˛
DCS ([Xv ], [Yv ]).
Po co:
Mamy nadzieje,
˛ że bedzie
˛
dawało dobre efekty klasyfikacyjne,
wizualizacyjne.
Wojciech Czarnecki, Jacek Tabor (GMUM)
Entropia w klasyfikacji
Kraków 2014
34 / 34
Download