Harmonogram zajęć

advertisement
DATA MINING
– magisterskie studia stacjonarne II poziom
Nr przedmiotu: 233100-0997
Prowadząca zajęcia: dr Wioletta Grzenda
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych
http://www.sgh.waw.pl/zaklady/zahziaw/
Harmonogram zajęć w semestrze zimowym - rok akademicki 2015/2016
Zajęcia odbywają się w piątki, godz. 17.10-18.50, 19.00-20.40,sala C-4d
Zajęcia
nr
Data
1W
02-10-15
1 Ćw.
09-10-15
2 Ćw.
16-10-15
2W
23-10-15
3 Ćw.
30-10-15
3W
06-11-15;
4 Ćw.
13-11-15
4 W
20-11-15
5 Ćw.
27-11-15
6 Ćw.
04-12-15
7 Ćw.
11-12-15
5 W.
18-12-15
8 Ćw.
08-01-16
6 W.
15-01-16
Treść
Wstęp do data mining
dane w procesach data mining; metodologia SEMMA; business Intelligence; tekst
mining
Wprowadzenie do SAS Enterprise Miner
interfejs SAS Enterprise Miner; tworzenie projektu; tworzenie źródła danych;
tworzenie diagramu modelowania; proces podziału zbiorów
Analiza danych w SAS Enterprise Miner
wstępna eksploracja danych, dobór zmiennych do modelu; przekształcanie
zmiennych; diagnoza i usuwanie problemów z danymi
Modelowanie predykcyjne - drzewa decyzyjne
proces budowy drzew; reguły podziału drzew; przycinanie drzew; zalety i wady
drzew
Drzewa decyzyjne
wybrane zagadnienia modeli drzew decyzyjnych w SAS Enterprise Miner; podział
zbioru danych, budowa drzewa, wybór modelu
Modelowanie predykcyjne - regresja logistyczna
regresja liniowa a regresja logistyczna, postać modelu; przygotowanie danych;
zastosowania regresji logistycznej
Zastosowania regresji logistycznej w data mining
przygotowanie danych wejściowych; imputacja danych; wybór zmiennych do
modelu; transformacja zmiennych, budowa modelu regresji logistycznej i liniowej
Modelowanie predykcyjne - sieci neuronowe
podstawowy model neuronu i sieci neuronowej; działanie sieci neuronowej i jej
uczenie; zalety i wady sieci neuronowych
Sieci neuronowe
budowa modelu; dobór danych wejściowych; uczenie sieci neuronowych;
optymalizacja dopasowania sieci
Analiza modeli predykcyjnych
łączenie modeli; ocena i porównanie modeli; scoring modelu
Projekty - przygotowanie
Rozpoznawanie wzorców
analiza skupień; analiza asocjacji i sekwencji; statystyka opisowa
Rozpoznawanie wzorców
wykorzystanie analizy skupień w data mining; sieci Kohonena; analiza asocjacji i
sekwencji
Naiwna estymacja bayesowska i sieci bayesowskie
Literatura:
1. P.B. Cerrito, Introduction to Data Mining, SAS Press, 2006;
2. D.T. Larose, Discovering Knowledge in Data: An Introduction to Data Mining, Wiley, New York
2005;
3. D.T. Larose, Data Mining Methods and Models, Wiley, New York 2006;
4. D. T. Larose, Odkrywanie wiedzy z danych, Wydawnictwo Naukowe PWN, Warszawa 2006;
5. D. T. Larose, Metody i modele eksploracji danych, Wydawnictwo Naukowe PWN, Warszawa
2008;
6. J. Koronacki, J. Ćwik, Statystyczne systemy uczące się, WN-T, Warszawa 2005;
7. M. Lasek, Metody Data Mining w analizowaniu i prognozowaniu kondycji ekonomicznej
przedsiębiorstw: Zastosowania SAS Enterprise Miner, Difin, Warszawa 2007;
8. R. Matignon, Data Mining Using SAS Enterprise Miner, Wiley, Hoboken, NJ, 2007;
9. T. Morzy, Eksploracja danych, http://wazniak.mimuw.edu.pl/index.php?title=Eksploracja_danych
7. I.H. Witten, H. Ian, Data Mining: Practical Machine Learning Tools and Techniques, Second
Edition, Morgan Kaufmann, New York 2005;
Zasady zaliczenia
W skład oceny z przedmiotu wchodzi jeden projekt końcowy (50%) oraz egzamin teoretyczny
i praktyczny przy komputerze (50%). Zalicza minimum 60% punktów.
Download