Ćwiczenia 2 - Indukcja drzew decyzyjnych Drzewo decyzyjne to graficzna metoda wspomagania procesu decyzyjnego, stosowana w teorii decyzji. Algorytm drzew decyzyjnych jest również stosowany w uczeniu maszynowym do pozyskiwania wiedzy na podstawie przykładów. Celem laboratorium jest wykorzystanie pakietu WEKA do wygenerowania drzewa decyzyjnego (tablicy decyzyjnej). I. Wczytywanie i analiza danych 1. Pobierz paczkę plików z danymi: data.tar.gz (dostępna na stronie przedmiotu) 2. Otwórz w notatniku (bądź innym edytorze tekstu) plik o nazwie swimming.arff i poznaj strukturę plików uczących dla weki z danymi symbolicznymi. 3. Uruchom Wekę i kliknij w przycisk Explorer 4. Przeanalizuj pierwszą zakładkę GUI i odpowiedz na pytania poniżej: a) b) c) d) e) II. Jaki jest rozmiar zbioru uczącego? Ile atrybutów występuje w zbiorze uczącym? Ile jest instancji jest pozytywnych (Enjoy=yes) a ile negatywnych? Który z atrybutów najlepiej rozdziela dane? Ile elementów ze zbioru danych ma atrybut wilgotność (humidity) ustawioną jako high? Wczytywanie i analiza danych 1. Wczytaj plik swimming.arff ze zbioru danych 2. Kliknij w zakładkę Clasify 3. Wybierz za pomocą przycisku Choose klasyfikator J48. 4. Upewnij się, że w oknie Test options zaznaczona jest opcja Use training set. Uwaga! W przyszłości nie będziemy korzystać z tej formy testowania - tutaj jesteśmy zmuszeni, z uwagi na niewielki zbiór uczący. 1 5. Kliknij w przycisk Start. Przyjrzyj się rezultatowi. Co oznaczają wyniki? 6. Wybierz za pomocą przycisku Choose klasyfikator J48 i kliknij Start, następnie zwizualizuj drzewo tak jak to pokazano poniżej: 2 7. Czy drzewo wygląda tak jak poniżej? III. Poprawność klasyfikacji 1. Załaduj plik credit-g.arff do Weki. Zawiera on dane uczące dla systemu, który na podstawie atrybutów zawartych w pliku powinien określać czy dany zestaw wartości atrybutów wskazuje na wiarygodnego klienta banku, czy też nie - czy można przyznać mu kredyt, czy jest to ryzykowne. 2. Przejdź do zakładki Classify i wybierz algorytm J48. 3. W obszarze Test options wybierz opcje Percentage split z wartością 66% Oznacza to, ze 66% danych posłuży do uczenia, a 34% do walidacji. Jakie to ma znaczenie? 4. Uruchom algorytm. Ile procent przypadków zostało poprawnie zaklasyfikowanych? Czy to dobry wynik? 5. Zmień klasyfikator na ZeroR z gałęzi rules. Jakie są wyniki? 6. Wypróbuj inne klasyfikatory. Jakie dają wyniki? 7. Przejdź do zakładki Preprocess i zobacz jak wygląda rozkład atrybutu określającego czy danych zestaw jest dobry czy zły. Jaka byłaby skuteczność algorytmu który niezależnie od wartości atrybutów „strzelałby” że użytkownik jest wiarygodny? 8. Dlaczego przed przystąpieniem do klasyfikacji, warto wcześniej przyjrzeć się danym? Zadanie do samodzielnego wykonania (Sprawozdanie max. 4 strony A4) 1. Pobrać zbiory weather i iris (oba dołączone w pakiecie WEKA). 2. Przygotować dane do wczytania w WEKA. 3. Uruchom WEKA i skorzystaj z algorytmu generującego: a. drzewo decyzyjne – RandomTree, b. drzewo decyzyjne - j48, c. drzewo decyzyjne - REPTree, d. oraz tablicę decyzyjną. 3 4. Zmieniając parametry klasyfikatorów utwórz zadowalające drzewo decyzyjne analizująć macierz pomyłek (ang. Confusion Matrix) oraz obliczając i porównująć takie parametry jak: a. Dokładność (ang. Accuracy) b. Wrażliwość / czułość (ang. Sensitivity) c. Specyficzność (ang. Specificity) – Jak w WEKA nazywa się ten parametr? d. Odsetek wyników fałszywie dodatnich (ang. False-positive rate) 5. Analizując powyższe parametry oraz krzywą ROC (ang. Receiver Operating Characteristic) porównaj utworzone algorytmy i posortuj je w kolejności od najlepszego do najgorszego. 6. Wykonaj sprawozdanie z zadania zawierając: a. Cześć z opisem zasady działanie algorytm (skorzystaj z dokumentacji WEKA oraz materiałów ndostępnych online) b. Opisz zbiorów danych (ile/jakie są atrybuty, czego dotyczy zbiór, różnorodność danych oraz inne dane o ile autor uzna je za istotne). c. Wyniki z klasyfikacji prezentując drzewa decyzyjne/tablice decyzyjne dla zbiorów danych d. Wnioski i podsumowanie eksperymentu Sprawozdanie należy przesłać w pliku pdf imie_nazwisko.pdf. Mail z wynikami należy wysłać na adres mailowy prowadzącego i zatytułować DM_CW2_Drzewa Decyzyjne. 4