DATA MINING – magisterskie studia stacjonarne II poziom Nr przedmiotu: 233100-0997 Prowadząca zajęcia: dr Wioletta Grzenda Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych http://www.sgh.waw.pl/zaklady/zahziaw/ Harmonogram zajęć w semestrze zimowym - rok akademicki 2015/2016 Zajęcia odbywają się w piątki, godz. 17.10-18.50, 19.00-20.40,sala C-4d Zajęcia nr Data 1W 02-10-15 1 Ćw. 09-10-15 2 Ćw. 16-10-15 2W 23-10-15 3 Ćw. 30-10-15 3W 06-11-15; 4 Ćw. 13-11-15 4 W 20-11-15 5 Ćw. 27-11-15 6 Ćw. 04-12-15 7 Ćw. 11-12-15 5 W. 18-12-15 8 Ćw. 08-01-16 6 W. 15-01-16 Treść Wstęp do data mining dane w procesach data mining; metodologia SEMMA; business Intelligence; tekst mining Wprowadzenie do SAS Enterprise Miner interfejs SAS Enterprise Miner; tworzenie projektu; tworzenie źródła danych; tworzenie diagramu modelowania; proces podziału zbiorów Analiza danych w SAS Enterprise Miner wstępna eksploracja danych, dobór zmiennych do modelu; przekształcanie zmiennych; diagnoza i usuwanie problemów z danymi Modelowanie predykcyjne - drzewa decyzyjne proces budowy drzew; reguły podziału drzew; przycinanie drzew; zalety i wady drzew Drzewa decyzyjne wybrane zagadnienia modeli drzew decyzyjnych w SAS Enterprise Miner; podział zbioru danych, budowa drzewa, wybór modelu Modelowanie predykcyjne - regresja logistyczna regresja liniowa a regresja logistyczna, postać modelu; przygotowanie danych; zastosowania regresji logistycznej Zastosowania regresji logistycznej w data mining przygotowanie danych wejściowych; imputacja danych; wybór zmiennych do modelu; transformacja zmiennych, budowa modelu regresji logistycznej i liniowej Modelowanie predykcyjne - sieci neuronowe podstawowy model neuronu i sieci neuronowej; działanie sieci neuronowej i jej uczenie; zalety i wady sieci neuronowych Sieci neuronowe budowa modelu; dobór danych wejściowych; uczenie sieci neuronowych; optymalizacja dopasowania sieci Analiza modeli predykcyjnych łączenie modeli; ocena i porównanie modeli; scoring modelu Projekty - przygotowanie Rozpoznawanie wzorców analiza skupień; analiza asocjacji i sekwencji; statystyka opisowa Rozpoznawanie wzorców wykorzystanie analizy skupień w data mining; sieci Kohonena; analiza asocjacji i sekwencji Naiwna estymacja bayesowska i sieci bayesowskie Literatura: 1. P.B. Cerrito, Introduction to Data Mining, SAS Press, 2006; 2. D.T. Larose, Discovering Knowledge in Data: An Introduction to Data Mining, Wiley, New York 2005; 3. D.T. Larose, Data Mining Methods and Models, Wiley, New York 2006; 4. D. T. Larose, Odkrywanie wiedzy z danych, Wydawnictwo Naukowe PWN, Warszawa 2006; 5. D. T. Larose, Metody i modele eksploracji danych, Wydawnictwo Naukowe PWN, Warszawa 2008; 6. J. Koronacki, J. Ćwik, Statystyczne systemy uczące się, WN-T, Warszawa 2005; 7. M. Lasek, Metody Data Mining w analizowaniu i prognozowaniu kondycji ekonomicznej przedsiębiorstw: Zastosowania SAS Enterprise Miner, Difin, Warszawa 2007; 8. R. Matignon, Data Mining Using SAS Enterprise Miner, Wiley, Hoboken, NJ, 2007; 9. T. Morzy, Eksploracja danych, http://wazniak.mimuw.edu.pl/index.php?title=Eksploracja_danych 7. I.H. Witten, H. Ian, Data Mining: Practical Machine Learning Tools and Techniques, Second Edition, Morgan Kaufmann, New York 2005; Zasady zaliczenia W skład oceny z przedmiotu wchodzi jeden projekt końcowy (50%) oraz egzamin teoretyczny i praktyczny przy komputerze (50%). Zalicza minimum 60% punktów.