Eksploracja danych

advertisement
WYŻSZA SZKOŁA INFORMATYKI STOSOWANEJ I ZARZĄDZANIA
Pod auspicjami Polskiej Akademii Nauk
01-447 Warszawa, ul. Newelska 6, tel. 22 3486544
Wydział Informatyki
Kierunek studiów
Profil
Stopień studiów
Forma studiów
Informatyka
Ogólnoakademicki
2-go stopnia
niestacjonarne
Sylabus przedmiotu
Eksploracja danych
1. Cele przedmiotu
Kod
CP1
CP2
CP3
CP4
CP5
CP6
CP7
CP8
Cel
Uzyskanie wiedzy o technologii eksploracji danych
Uzyskanie wiedzy o odkrywaniu wzorców i zależności za pomocą metod eksploracji danych
Uzyskanie wiedzy o metodach reprezentacji częstych wzorców i wnioskowaniu z ich użyciem
Uzyskanie wiedzy o wydajnych algorytmach grupowania i klasyfikacji danych
Uzyskanie praktycznych umiejętności planowania i realizowania procesu eksploracji danych
Uzyskanie wiedzy o sposobie implementacji obowiązujących metodyk eksploracji danych w najbardziej
popularnych uniwersalnych narzędziach i systemach komercyjnych
Zapoznanie się z obsługą uniwersalnych narzędzi i systemów, przeznaczonych do obsługi analiz OLAP i
eksploracji
Uzyskanie umiejętności wykorzystania nowoczesnych modułów przygotowania (transformowania) danych,
wydobywania wiedzy (eksploracji) i klasyfikowania (predykcji) interesujących cech danych
2. Efekty przedmiotowe
Wiedza
Kod
EK-W1
EK-W2
EK-W3
EK-W4
EK-W5
EK-W6
EK-W7
Nazwa
Posiada wiedzę o technologii eksploracji danych
Posiada wiedzę o odkrywaniu wzorców i zależności za pomocą metod
eksploracji danych
Posiada wiedzę o metodach reprezentacji częstych wzorców i wnioskowaniu z ich użyciem
Posiada wiedzę o wydajnych algorytmach grupowania i klasyfikacji
danych
Posiada wiedzę o nowoczesnych, uniwersalnych narzędziach i systemach analiz OLAP i eksploracji danych
Zna podstawowe metodyki eksploracji danych, takie jak CRISP i
SEMMA
Rozumie działanie i implementacje podstawowych procedur budowania modeli analitycznych i wydobywania wiedzy
Realizuje cel
Efekty kierunkowe
CP1
CP2
K2A_W06
K2A_W06
CP3
K2A_W06
CP4
K2A_W06
CP7
K2A_W06,
K2A_W07
K2A_W06
CP5,
CP6
CP8
K2A_W06
Umiejętności
Kod
EK-U1
EK-U2
EK-U3
Nazwa
Potrafi skonfigurować i posługiwać się uniwersalnym narzędziem do
analizy i eksploracji danych
Potrafi zaplanować proces eksploracji danych
Posiada umiejętność wybrania odpowiednich algorytmów wydobywania wiedzy w zalezności od założonego celu analizy i struktury otrzymanych danych
1
Realizuje cel
Efekty kierunkowe
CP7
K2A_U09
CP5,
CP6
CP6,
CP8
K2A_U09,
K2A_U11
K2A_U03,
K2A_U07,
K2A_U09,
K2A_U11
Kompetencje
Kod
EK-K1
EK-K2
EK-K3
Nazwa
Realizuje cel
Posiada umiejętności planowania i realizowania procesu eksploracji
danych
Jest przygotowany do obsługi nowoczesnych systemów eksploracji danych
Rozumie znaczenie modeli wiedzy, wzorców i zależności w metodach
eksploracji danych
Efekty kierunkowe
CP5,
CP6
CP7
K2A_K04
CP8
K2A_K04
K2A_K04
3. Treści programowe
Kod
TP1
TP2
TP3
TP4
TP5
TP6
TP7
TP8
TP9
TP10
TP11
TP12
TP13
TP14
Tematyka
Przedstawienie rozwoju, zadań i wyzwań w dziedzinie eksploracji danych. Omówienie procesu odkrywania
wiedzy.
Wprowadzenie pojęć wzorca częstego i reguły asocjacyjnej oraz ich własności. Omówienie wybranych
miar oceny odkrywanych reguł. Przedstawienie wybranych algorytmów odkrywania wzorców częstych i
silnych reguł asocjacyjnych (takich, jak np. Apriori, Eclat, dEclat, Partition) z transakcyjnych zasobów
danych oraz użycia struktur danych (np. drzewa mieszającego, drzewa prefiksowego, list identyfikatorów transakcji, różnicowych list identyfikatorów transakcji, ) wspierających wydajne wyszukiwanie reguł
asocjacyjnych. Odkrywanie wzorców częstych i reguł asocjacyjnych z relacyjnych baz danych, z uwzględnieniem pozycji zanegowanych oraz z uwzględnieniem taksonomii.
Omówienie wybranych bezstratnych reprezentacji wzorców częstych i wnioskowania z ich użyciem. Omówienie algorytmów Charm i dCharm wyznaczania reprezentacji wzorców częstych opartej na częstych
zbiorach zamkniętych oraz algorytmu przekształcającego tę reprezentację w kompletny zbiór wszystkich
zbiorów częstych. Omówienie algorytmu GR-Apriori wyznaczania reprezentacji wzorców częstych opartej
na generatorach.
Omówienie zwięzłych reprezentacji silnych reguł asocjacyjnych opartych na częstych generatorach i zbiorach zamkniętych, ich własności, metod wyznaczania i zastosowania.
Omówienie metod grupowania danych: podziału, hierarchicznych, gęstościowych. Omówienie algorytmu
grupowania gęstościowego DBSCAN i algorytmu TI-DBSCAN, wykorzystującego własność nierówności
trójkąta jako usprawnienia zwiększającego wydajność w przypadku metryk odległości. Przedstawienie
metod zwiększania wydajności grupowania w przypadku stosowania wybranych miar podobieństwa (np.
miary kosinusowej, miary Jaccarda, miary Tanimoto).
Omówienie klasyfikacji leniwej i zapalczywej. Omówienie algorytmu klasyfikacji z wykorzystaniem wzorców kontrastowych. Omówienie algorytmu SPRINT, tworzącego klasyfikator w postaci drzewa decyzyjnego.
Omówienie pojęcia i własności wzorców sekwencyjnych. Omówienie algorytmu SPADE, odkrywającego
wzorce sekwencyjne.
Laboratorium: Omówienie podstawowych pojęć i metod działania, stosowanych przy eksploracji danych.
Omówienie metodyk eksploracji danych CRISP i SEMMA. Instalacja indywidualnych repozytoriów Oracle
Data Minera na komputerach studentów w pracowni.
Laboratorium: Omówienie metodyki działania, przyjętej w Oracle Data Miner. Tworzenie projektów.
Budowanie i uruchamianie podstawowych modułów przyłączania, modyfikowania i prezentacji danych.
Laboratorium: Tworzenie prostych modeli klasyfikujących dla predykcji zachowania klientów na przykładzie zbioru danych, reprezentujących klientów firmy ubezpieczeniowej.
Laboratorium: Uruchamianie modeli klasyfikujących. Analiza i interpretacja podstawowych parametrów
oceny modeli analitycznych. Omówienie podstawowych metod oceny jakości modeli.
Laboratorium: Dyskusja metod oceny analizy jakości zbiorów, otrzymywanych do analizy danych (stosowanie metod statystycznych dystrybucji, skośności i kurtozy, histogramów, wartości średnich, modów,
odchyleń, ..., prawo Benforda, ...)
Laboratorium: Budowanie pełnego modelu przepływu danych z bazy analitycznej w układzie typu
gwiazdy i tworzenie modelu churn dla przykładowej bazy klientów firmy telefonicznej. Przypisanie wartości funkcji churn do całej populacji klientów. Analiza jakości uzyskanych wyników.
Laboratorium: Tworzenie i analizowanie sieci powiązań komunikatów publikowanych w popularnym komunikatorze społecznościowym (Twitter) na przykładzie tematu: „Finał Wielkiej Orkiestry Świątecznej
Pomocy” przy pomocy języka „R” i darmowych narzędzi wizualizacji danych.
4. Macierz realizacji przedmiotu
Efekt
przedmiotowy
Cel
przedmiotu
Treści programowe
EK-W1
EK-W2
CP1
CP2
TP1
TP2, TP7
2
Efekt
przedmiotowy
EK-W3
EK-W4
EK-W5
EK-W6
EK-W7
EK-U1
EK-U2
EK-U3
EK-K1
EK-K2
EK-K3
Cel
przedmiotu
CP3
CP4
CP7
CP5,
CP6
CP8
CP7
CP5,
CP6
CP6,
CP8
CP5,
CP6
CP7
CP8
Treści programowe
TP3, TP4
TP5, TP6
TP8, TP9
TP8
TP8, TP10, TP11, TP12, TP13, TP14
TP8, TP9, TP11
TP8
TP8
TP8
TP8
TP8
5. Literatura
Literatura podstawowa
1. Daniel T. Larose, Discovering Knowledge in Data - An Introduction to Data Mining, John Wiley & Sons, Inc., 2005
2. Eric Siegel, Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die, John Wiley & Sons, Inc.,
2013
3. Jiawei Han, Micheline Kamber M., Jian Pei, Data Mining: Concepts and Techniques, Morgan Kaufmann , 2011
4. Tadeusz Morzy, Eksploracja danych, Metody i algorytmy , Wydawnictwo Naukowe PWN, 2013
Literatura uzupełniająca
1. Bernhard Ganter, Rudolf Wille, Formal Concept Analysis, Mathematical Foundations, Springer-Verlag, 1999
2. Marzena Kryszkiewicz, Concise Representations of Frequent Patterns and Association Rules, Oficyna Wydawnicza
Politechniki Warszawskiej, 2002
Strony WWW
1. Oracle Help Center, Data Mining Users‘ Guide, https://docs.oracle.com/database/121/DMPRG/toc.htm
2. Oracle Help Center, Data Mining Users‘ Guide, https://docs.oracle.com/database/121/DMPRG/toc.htm
3. Thomas Girke, UC Riverside, Programming in R, http://manuals.bioinformatics.ucr.edu/home/programming-in-r
3
Download