. 3 zewa decyzyjne Wymagania dla algorytmów zew decyzyjnych 1. Algorytmy uczenia nadzorowanego-wymagają zdefiniowania zmiennej celu i dostosowania zbioru uczącego zawierającego jej wartość 2. Zbiór uczący bogaty i różnorodny (zewa uczą się przez przykłady- braki dla podzbioru możliwego do określenia, klasyfikacja i przewidywanie problematyczne lub niemożliwe) 3. Klasy zmiennej 4. zewa decyzyjne starają się stworzyć zbiór liści, które są najczystsze jak tylko to możliwe, czyli gdy każdy z rekordów w danym liściu należy do danej klasy 5. Mierzenie jednorodności i niejednorodności czystości podziału 6. Algorytmy budowania zew decyzyjnych C5.0 CART (Classification and regresion…) QUEST CHAD CART - dwie gałęzie z każdego węzła decyzyjnego podobnymi wartościami zmiennej celu Dla całego zewa współczynnik błędu jest liniowy, jako średnia ważona pojedynczych współczynników błędów liści, z rogami równymi procentowi rekordów na każdym liściu Przycinanie: Poprawia efektywność klasyfikacji Poprawia zdolność klasyfikatora do klasyfikacji nowych przypadków - bazują najczęściej na miarach statystycznych np. MDL (Minimum Description Lenght), MCP (Minimal Cost-complexity Puning) zewo jest przycinane poprzez wcześniejsze zatrzymanie procedury konstrukcji zewa (tj. wstrzymujemy dalsze dzielenie zbioru treningowego na części np. warunek stopu polegający na przyjęciu minimalnej liczby elementów należących do zbioru, które podlega dzieleniu). zakończeniu procedury konstrukcji zewa C4.5 Dla zmiennych jakościowych algorytm tworzy osobne gałęzie dla każdej wartości algorytmu jakościowego Zysk informacji lub redukcja entropii wartości ma prawdopodobieństwo P1, P2, P3,…Pn. Jaka jest najmniejsza ilość bitów, średnia na symbol, potrzebna do przesłania łańcucha symboli reprezentujących obserwowane wartości X -ΣPjlog2(Pj) = log2(0,5)=1 bit żmy że mamy możliwy podział S, który dzieli zbiór uczący T na kilka podzbiorów T1,T2,Tk, wtedy obliczone jako wartość suma entropii dla pojedynczych podzbiorów: Hs(T)=ΣPiHs(Ti) -w każdym węźle algorytm C4.5 wybiera podział optymalny czyli mający największy zysk informacji, zysk(S). Reguły asocjacyjne Analiza podobieństw Data Mining - omówienie ążenie danych w BI - wykład Algorytmy i struktury danych - zadania z egzaminu wstęp do informatyki informatyka - 62 pytania i odp Algorytmy i struktury danych - Program komputerowy Reklama Administracja publiczna Działalność gospodarcza Kodeks postępowania administracyjnego .