drzewa-decyzyjne-omowienie-algorytm

advertisement
.
3
zewa decyzyjne
Wymagania dla algorytmów zew decyzyjnych
1. Algorytmy uczenia nadzorowanego-wymagają zdefiniowania zmiennej celu i
dostosowania zbioru uczącego zawierającego jej wartość
2. Zbiór uczący bogaty i różnorodny (zewa uczą się przez przykłady- braki dla
podzbioru możliwego do określenia, klasyfikacja i przewidywanie problematyczne lub
niemożliwe)
3. Klasy zmiennej
4. zewa decyzyjne starają się stworzyć zbiór liści, które są najczystsze jak tylko to
możliwe, czyli gdy każdy z rekordów w danym liściu należy do danej klasy
5. Mierzenie jednorodności i niejednorodności czystości podziału
6. Algorytmy budowania zew decyzyjnych
C5.0
CART (Classification and regresion…)
QUEST
CHAD
CART
- dwie gałęzie z każdego węzła decyzyjnego
podobnymi wartościami zmiennej celu
Dla całego zewa współczynnik błędu jest liniowy, jako średnia ważona
pojedynczych współczynników błędów liści, z rogami równymi procentowi rekordów
na każdym liściu
Przycinanie:
Poprawia efektywność klasyfikacji
Poprawia zdolność klasyfikatora do klasyfikacji nowych przypadków
- bazują najczęściej na miarach statystycznych
np. MDL (Minimum Description Lenght), MCP (Minimal Cost-complexity Puning)
zewo jest przycinane poprzez wcześniejsze zatrzymanie procedury konstrukcji
zewa (tj. wstrzymujemy dalsze dzielenie zbioru treningowego na części np.
warunek stopu polegający na przyjęciu minimalnej liczby elementów należących do
zbioru, które podlega dzieleniu).
zakończeniu procedury konstrukcji zewa
C4.5
Dla zmiennych jakościowych algorytm tworzy osobne gałęzie dla każdej wartości
algorytmu jakościowego
Zysk informacji lub redukcja entropii
wartości ma
prawdopodobieństwo P1, P2, P3,…Pn. Jaka jest najmniejsza ilość bitów, średnia
na symbol, potrzebna do przesłania łańcucha symboli reprezentujących
obserwowane wartości X
-ΣPjlog2(Pj) = log2(0,5)=1 bit
żmy że mamy możliwy podział S, który dzieli zbiór uczący T na kilka
podzbiorów T1,T2,Tk, wtedy obliczone jako wartość suma entropii dla
pojedynczych podzbiorów:
Hs(T)=ΣPiHs(Ti)
-w każdym węźle algorytm C4.5 wybiera podział optymalny czyli
mający największy zysk informacji, zysk(S).
Reguły asocjacyjne
Analiza podobieństw
Data Mining - omówienie
ążenie danych w BI - wykład
Algorytmy i struktury danych - zadania z egzaminu
wstęp do informatyki
informatyka - 62 pytania i odp
Algorytmy i struktury danych - Program komputerowy
Reklama




















Administracja publiczna
Działalność gospodarcza
Kodeks postępowania administracyjnego











.
Download