DATA MINING – magisterskie studia stacjonarne II poziom Nr przedmiotu: 233100-0997 Prowadząca zajęcia: dr Wioletta Grzenda Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych http://www.sgh.waw.pl/zaklady/zahziaw/ Harmonogram zajęć w semestrze letnim - rok akademicki 2015/2016 Zajęcia odbywają się we wtorki, godz. 17.10-18.50, sala C-4d Zajęcia nr Data 1W 16-02-16 1 Ćw. 23-02-16 2 Ćw. 01-03-16 2W 08-03-16 3 Ćw. 15-03-16 3W 22-03-16 4 Ćw. 05-04-16 4 W 12-04-16 5 Ćw. 19-04-16 6 Ćw. 26-04-16 7 Ćw. 10-05-16 5 W. 17-05-16 8 Ćw. 24-05-16 6 W. 31-05-16 Treść Wstęp do data mining dane w procesach data mining; metodologia SEMMA; business Intelligence; tekst mining Wprowadzenie do SAS Enterprise Miner interfejs SAS Enterprise Miner; tworzenie projektu; tworzenie źródła danych; tworzenie diagramu modelowania; proces podziału zbiorów Analiza danych w SAS Enterprise Miner wstępna eksploracja danych, dobór zmiennych do modelu; przekształcanie zmiennych; diagnoza i usuwanie problemów z danymi Modelowanie predykcyjne - drzewa decyzyjne proces budowy drzew; reguły podziału drzew; przycinanie drzew; zalety i wady drzew Drzewa decyzyjne wybrane zagadnienia modeli drzew decyzyjnych w SAS Enterprise Miner; podział zbioru danych, budowa drzewa, wybór modelu Modelowanie predykcyjne - regresja logistyczna regresja liniowa a regresja logistyczna, postać modelu; przygotowanie danych; zastosowania regresji logistycznej Zastosowania regresji logistycznej w data mining przygotowanie danych wejściowych; imputacja danych; wybór zmiennych do modelu; transformacja zmiennych, budowa modelu regresji logistycznej i liniowej Modelowanie predykcyjne - sieci neuronowe podstawowy model neuronu i sieci neuronowej; działanie sieci neuronowej i jej uczenie; zalety i wady sieci neuronowych Sieci neuronowe budowa modelu; dobór danych wejściowych; uczenie sieci neuronowych; optymalizacja dopasowania sieci Analiza modeli predykcyjnych łączenie modeli; ocena i porównanie modeli; scoring modelu Projekty - przygotowanie Rozpoznawanie wzorców analiza skupień; analiza asocjacji i sekwencji; statystyka opisowa Rozpoznawanie wzorców wykorzystanie analizy skupień w data mining; sieci Kohonena; analiza asocjacji i sekwencji Naiwna estymacja bayesowska i sieci bayesowskie, ODDANIE PROJEKTÓW Literatura: 1. P.B. Cerrito, Introduction to Data Mining, SAS Press, 2006; 2. D.T. Larose, Discovering Knowledge in Data: An Introduction to Data Mining, Wiley, New York 2005; 3. D.T. Larose, Data Mining Methods and Models, Wiley, New York 2006; 4. D. T. Larose, Odkrywanie wiedzy z danych, Wydawnictwo Naukowe PWN, Warszawa 2006; 5. D. T. Larose, Metody i modele eksploracji danych, Wydawnictwo Naukowe PWN, Warszawa 2008; 6. J. Koronacki, J. Ćwik, Statystyczne systemy uczące się, WN-T, Warszawa 2005; 7. M. Lasek, Metody Data Mining w analizowaniu i prognozowaniu kondycji ekonomicznej przedsiębiorstw: Zastosowania SAS Enterprise Miner, Difin, Warszawa 2007; 8. R. Matignon, Data Mining Using SAS Enterprise Miner, Wiley, Hoboken, NJ, 2007; 9. T. Morzy, Eksploracja danych, http://wazniak.mimuw.edu.pl/index.php?title=Eksploracja_danych 7. I.H. Witten, H. Ian, Data Mining: Practical Machine Learning Tools and Techniques, Second Edition, Morgan Kaufmann, New York 2005; Zasady zaliczenia W skład oceny z przedmiotu wchodzi jeden projekt końcowy (50%) oraz egzamin teoretyczny i praktyczny przy komputerze (50%). Zalicza minimum 60% punktów.