WYŻSZA SZKOŁA INFORMATYKI STOSOWANEJ I ZARZĄDZANIA Pod auspicjami Polskiej Akademii Nauk 01-447 Warszawa, ul. Newelska 6, tel. 22 3486544 Wydział Informatyki Kierunek studiów Profil Stopień studiów Forma studiów Informatyka Ogólnoakademicki 2-go stopnia niestacjonarne Sylabus przedmiotu Eksploracja danych 1. Cele przedmiotu Kod CP1 CP2 CP3 CP4 CP5 CP6 CP7 CP8 Cel Uzyskanie wiedzy o technologii eksploracji danych Uzyskanie wiedzy o odkrywaniu wzorców i zależności za pomocą metod eksploracji danych Uzyskanie wiedzy o metodach reprezentacji częstych wzorców i wnioskowaniu z ich użyciem Uzyskanie wiedzy o wydajnych algorytmach grupowania i klasyfikacji danych Uzyskanie praktycznych umiejętności planowania i realizowania procesu eksploracji danych Uzyskanie wiedzy o sposobie implementacji obowiązujących metodyk eksploracji danych w najbardziej popularnych uniwersalnych narzędziach i systemach komercyjnych Zapoznanie się z obsługą uniwersalnych narzędzi i systemów, przeznaczonych do obsługi analiz OLAP i eksploracji Uzyskanie umiejętności wykorzystania nowoczesnych modułów przygotowania (transformowania) danych, wydobywania wiedzy (eksploracji) i klasyfikowania (predykcji) interesujących cech danych 2. Efekty przedmiotowe Wiedza Kod EK-W1 EK-W2 EK-W3 EK-W4 EK-W5 EK-W6 EK-W7 Nazwa Posiada wiedzę o technologii eksploracji danych Posiada wiedzę o odkrywaniu wzorców i zależności za pomocą metod eksploracji danych Posiada wiedzę o metodach reprezentacji częstych wzorców i wnioskowaniu z ich użyciem Posiada wiedzę o wydajnych algorytmach grupowania i klasyfikacji danych Posiada wiedzę o nowoczesnych, uniwersalnych narzędziach i systemach analiz OLAP i eksploracji danych Zna podstawowe metodyki eksploracji danych, takie jak CRISP i SEMMA Rozumie działanie i implementacje podstawowych procedur budowania modeli analitycznych i wydobywania wiedzy Realizuje cel Efekty kierunkowe CP1 CP2 K2A_W06 K2A_W06 CP3 K2A_W06 CP4 K2A_W06 CP7 K2A_W06, K2A_W07 K2A_W06 CP5, CP6 CP8 K2A_W06 Umiejętności Kod EK-U1 EK-U2 EK-U3 Nazwa Potrafi skonfigurować i posługiwać się uniwersalnym narzędziem do analizy i eksploracji danych Potrafi zaplanować proces eksploracji danych Posiada umiejętność wybrania odpowiednich algorytmów wydobywania wiedzy w zalezności od założonego celu analizy i struktury otrzymanych danych 1 Realizuje cel Efekty kierunkowe CP7 K2A_U09 CP5, CP6 CP6, CP8 K2A_U09, K2A_U11 K2A_U03, K2A_U07, K2A_U09, K2A_U11 Kompetencje Kod EK-K1 EK-K2 EK-K3 Nazwa Realizuje cel Posiada umiejętności planowania i realizowania procesu eksploracji danych Jest przygotowany do obsługi nowoczesnych systemów eksploracji danych Rozumie znaczenie modeli wiedzy, wzorców i zależności w metodach eksploracji danych Efekty kierunkowe CP5, CP6 CP7 K2A_K04 CP8 K2A_K04 K2A_K04 3. Treści programowe Kod TP1 TP2 TP3 TP4 TP5 TP6 TP7 TP8 TP9 TP10 TP11 TP12 TP13 TP14 Tematyka Przedstawienie rozwoju, zadań i wyzwań w dziedzinie eksploracji danych. Omówienie procesu odkrywania wiedzy. Wprowadzenie pojęć wzorca częstego i reguły asocjacyjnej oraz ich własności. Omówienie wybranych miar oceny odkrywanych reguł. Przedstawienie wybranych algorytmów odkrywania wzorców częstych i silnych reguł asocjacyjnych (takich, jak np. Apriori, Eclat, dEclat, Partition) z transakcyjnych zasobów danych oraz użycia struktur danych (np. drzewa mieszającego, drzewa prefiksowego, list identyfikatorów transakcji, różnicowych list identyfikatorów transakcji, ) wspierających wydajne wyszukiwanie reguł asocjacyjnych. Odkrywanie wzorców częstych i reguł asocjacyjnych z relacyjnych baz danych, z uwzględnieniem pozycji zanegowanych oraz z uwzględnieniem taksonomii. Omówienie wybranych bezstratnych reprezentacji wzorców częstych i wnioskowania z ich użyciem. Omówienie algorytmów Charm i dCharm wyznaczania reprezentacji wzorców częstych opartej na częstych zbiorach zamkniętych oraz algorytmu przekształcającego tę reprezentację w kompletny zbiór wszystkich zbiorów częstych. Omówienie algorytmu GR-Apriori wyznaczania reprezentacji wzorców częstych opartej na generatorach. Omówienie zwięzłych reprezentacji silnych reguł asocjacyjnych opartych na częstych generatorach i zbiorach zamkniętych, ich własności, metod wyznaczania i zastosowania. Omówienie metod grupowania danych: podziału, hierarchicznych, gęstościowych. Omówienie algorytmu grupowania gęstościowego DBSCAN i algorytmu TI-DBSCAN, wykorzystującego własność nierówności trójkąta jako usprawnienia zwiększającego wydajność w przypadku metryk odległości. Przedstawienie metod zwiększania wydajności grupowania w przypadku stosowania wybranych miar podobieństwa (np. miary kosinusowej, miary Jaccarda, miary Tanimoto). Omówienie klasyfikacji leniwej i zapalczywej. Omówienie algorytmu klasyfikacji z wykorzystaniem wzorców kontrastowych. Omówienie algorytmu SPRINT, tworzącego klasyfikator w postaci drzewa decyzyjnego. Omówienie pojęcia i własności wzorców sekwencyjnych. Omówienie algorytmu SPADE, odkrywającego wzorce sekwencyjne. Laboratorium: Omówienie podstawowych pojęć i metod działania, stosowanych przy eksploracji danych. Omówienie metodyk eksploracji danych CRISP i SEMMA. Instalacja indywidualnych repozytoriów Oracle Data Minera na komputerach studentów w pracowni. Laboratorium: Omówienie metodyki działania, przyjętej w Oracle Data Miner. Tworzenie projektów. Budowanie i uruchamianie podstawowych modułów przyłączania, modyfikowania i prezentacji danych. Laboratorium: Tworzenie prostych modeli klasyfikujących dla predykcji zachowania klientów na przykładzie zbioru danych, reprezentujących klientów firmy ubezpieczeniowej. Laboratorium: Uruchamianie modeli klasyfikujących. Analiza i interpretacja podstawowych parametrów oceny modeli analitycznych. Omówienie podstawowych metod oceny jakości modeli. Laboratorium: Dyskusja metod oceny analizy jakości zbiorów, otrzymywanych do analizy danych (stosowanie metod statystycznych dystrybucji, skośności i kurtozy, histogramów, wartości średnich, modów, odchyleń, ..., prawo Benforda, ...) Laboratorium: Budowanie pełnego modelu przepływu danych z bazy analitycznej w układzie typu gwiazdy i tworzenie modelu churn dla przykładowej bazy klientów firmy telefonicznej. Przypisanie wartości funkcji churn do całej populacji klientów. Analiza jakości uzyskanych wyników. Laboratorium: Tworzenie i analizowanie sieci powiązań komunikatów publikowanych w popularnym komunikatorze społecznościowym (Twitter) na przykładzie tematu: „Finał Wielkiej Orkiestry Świątecznej Pomocy” przy pomocy języka „R” i darmowych narzędzi wizualizacji danych. 4. Macierz realizacji przedmiotu Efekt przedmiotowy Cel przedmiotu Treści programowe EK-W1 EK-W2 CP1 CP2 TP1 TP2, TP7 2 Efekt przedmiotowy EK-W3 EK-W4 EK-W5 EK-W6 EK-W7 EK-U1 EK-U2 EK-U3 EK-K1 EK-K2 EK-K3 Cel przedmiotu CP3 CP4 CP7 CP5, CP6 CP8 CP7 CP5, CP6 CP6, CP8 CP5, CP6 CP7 CP8 Treści programowe TP3, TP4 TP5, TP6 TP8, TP9 TP8 TP8, TP10, TP11, TP12, TP13, TP14 TP8, TP9, TP11 TP8 TP8 TP8 TP8 TP8 5. Literatura Literatura podstawowa 1. Daniel T. Larose, Discovering Knowledge in Data - An Introduction to Data Mining, John Wiley & Sons, Inc., 2005 2. Eric Siegel, Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die, John Wiley & Sons, Inc., 2013 3. Jiawei Han, Micheline Kamber M., Jian Pei, Data Mining: Concepts and Techniques, Morgan Kaufmann , 2011 4. Tadeusz Morzy, Eksploracja danych, Metody i algorytmy , Wydawnictwo Naukowe PWN, 2013 Literatura uzupełniająca 1. Bernhard Ganter, Rudolf Wille, Formal Concept Analysis, Mathematical Foundations, Springer-Verlag, 1999 2. Marzena Kryszkiewicz, Concise Representations of Frequent Patterns and Association Rules, Oficyna Wydawnicza Politechniki Warszawskiej, 2002 Strony WWW 1. Oracle Help Center, Data Mining Users‘ Guide, https://docs.oracle.com/database/121/DMPRG/toc.htm 2. Oracle Help Center, Data Mining Users‘ Guide, https://docs.oracle.com/database/121/DMPRG/toc.htm 3. Thomas Girke, UC Riverside, Programming in R, http://manuals.bioinformatics.ucr.edu/home/programming-in-r 3