Eksploracja Danych wykład 2 Sebastian Zając WMP.SNŚ UKSW 4 kwietnia 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 4 kwietnia 2017 1 / 21 Back to the future IV Na początku był .... CHAOS Szumnie o Big Data Zachowaj sceptycyzm słysząc o Big Data gdyż: 1 Brak definicji najbardziej podstawowych terminów. Czym jest BD ? Gdzie uprawia się BD ? Czy chodzi o naukę czy o technologię ? ile to jest BIG ? 2 Brak poszanowania dla innych naukowców: od kiedy statystyka, matematyka, informatyka ? BD jest zawsze „nowe”, czy dane z Google tylko teraz są wielkie ? Szanuj wiedzę swoich poprzedników. 3 Nauka o danych - połączenie statystyki i inżynierii technologicznej. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 4 kwietnia 2017 2 / 21 CRISP-DM Cross-Industry Standard Process – Data Mining Standardowy proces dopasowania eksploracji danych do ogólnej strategii rozwiązywania problemów komórki biznesowej lub badawczej. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 4 kwietnia 2017 3 / 21 CRISP Zrozumienie uwarunkowań Jasne sformułowanie celów i wymagań projektu w terminologii komórki biznesowej. Stworzenie wstępnego planu działań. Zrozumienie danych Zebranie danych. Wstępna analiza danych, odkrycie pierwszych zależności. Ocena jakości danych. Wybranie interesujących podzbiorów danych. Przygotowanie danych Przygotowanie ostatecznego zbioru danych – najbardziej pracochłonny etap. Wykonanie koniecznych przekształceń danych. Wyczyszczenie danych. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 4 kwietnia 2017 4 / 21 CRISP Modelowanie Wybór i zastosowanie odpowiednich technik modelujących. Dobór parametrów modelu. Wykorzystanie różnych technik do stworzenia wielu modeli. Powrót do poprzednich faz aby dostosować dane do wybranych technik. Ewaluacja Ocena modelu pod kątem jakości i efektywności. Ustalenie czy model spełnia postawione wymagania. Decyzja o wdrożeniu. Wdrożenie Wykorzystanie modelu. Sporządzenie raportu. Stworzenie aplikacji wykorzystującej model. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 4 kwietnia 2017 5 / 21 Odkrywanie wiedzy Etapy w procesie odkrywania wiedzy: 1 Czyszczenie danych (data cleaning) - pozbądź się nieistotnych, niepełnych, niepoprawnych danych. 2 Integracja danych (data integration) - łączenie danych z różnych źródeł w jeden zintegrowany zbiór. 3 selekcja danych (data selection) - selekcja danych istotnych z punktu widzenia procesu analizy. 4 konsolidacja i transformacja danych (data transformation) przekształcenie wybranych danych do postaci wymaganej przez metody eksploracji danych. 5 eksploracja danych - odkrywanie potencjalnie użytecznych wzorców 6 ocena wzorców (pattern evaluation) - ocena i identyfikacja ciekawych wzorców. 7 wizualizacja wzorców Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 4 kwietnia 2017 6 / 21 Odkrywanie wiedzy Eksploracja danych - jeden z etapów procesu odkrywania wiedzy. Pozostałe etapy to przygotowanie danych, selekcja, czyszczenie, definiowanie dodatkowej wiedzy przedmiotowej, interpretacja wyników eksploracji, wizualizacja. W hurtowniach danych wiele z tych etapów (ETL) są zautomatyzowane Wzorce zazwyczaj są prezentowane ale można je również przechowywać w bazach danych. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 4 kwietnia 2017 7 / 21 Systemy eksploracji danych Oprogramowanie implementujące metody eksploracji danych nazywamy systemem eksploracji danych (data mining system).Można spotkać: Niezależne aplikacje (stand-alone data mining systems) aplikacje bezpośrednio wewnątrz aplikacji użytkownika. Systemy eksploracji drugiej generacji Cechują się silną integracją algorytmów eksploracji danych z podstawową funkcjonalnością systemu zarządzania bazą (hurtownią) danych. Zalety: redukcja kosztów eksploracji danych wyższa efektywność algorytmów większe bezpieczeństwo danych programowy interfejs z językiem zapytań eksploracyjnych Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 4 kwietnia 2017 8 / 21 Mity w Data Mining Istnieją gotowe narzędzia, które potrafią wykorzystać dane do rozwiązywania problemów Proces DM może być w pełni zautomatyzowany - nie wymaga nadzoru Eksploracja danych zwraca się szybko Pakiety oprogramowania do DM są intuicyjne i łatwe w użyciu. DM automatycznie wyczyści niechlujną bazę danych DM zidentyfikuje nasze problemy oraz ich przyczyny Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 4 kwietnia 2017 9 / 21 Klasyfikacja metod eksploracji danych Ze względu na cel eksploracji metody dzielimy na: Odkrywanie asocjacji Klasyfikacja i predykcja Grupowanie Analiza sekwencji i przebiegów czasowych Odkrywanie charakterystyk Eksploracja tekstu Eksploracja WWW Eksploracja grafów i sieci społecznościowych Eksploracja danych multimedialnych wykrywanie punktów osobliwych Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 4 kwietnia 2017 10 / 21 Główne zadania eksploracji danych Klasyfikacja Znajdź sposób odwzorowania danych w zbiór predefiniowanych klas Baza danych → model (drzewo decyzyjne itp..) Rozpoznawanie trendów Decyzje odnośnie kredytów bankowych Rozpoznawanie obiektów algorytmy: klasyfikator Bayes’a, drzewa decyzyjne, sieci neuronowe, k–najbliższych sąsiadów, SVM Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 4 kwietnia 2017 11 / 21 Główne zadania eksploracji danych Grupowanie Znajdź skończony zbiór kategorii opisujących dane Kategorie - zbiory rozlączne, struktury hierarchiczne inaczej: clustering, segmentacja algorytm musi określić, które z atrybutów decydują o przynależności do grupy proces iteracyjny – przerywany, gdy granice grup zostaną ustabilizowane Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 4 kwietnia 2017 12 / 21 Główne zadania eksploracji danych Asocjacje inna nazwa: analiza koszykowa (market basket analysis) wykrywanie elementów występujących razem w określonych transakcjach określenie reguł decydujących o pojawianiu się danych zestawów Regresja analizy regresyjne podobne do klasyfikacji, ale nastawione na odkrycie reguł decydujących o liczbowej wartości wybranego czynnika Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 4 kwietnia 2017 13 / 21 Główne zadania eksploracji danych Prognozowanie próba określenia przyszłych wartości liczbowych na podstawie wartości dotychczasowych określenie rodzaju trendu uwzględnienie wahań cyklicznych, sezonowych, nieregularnych Analiza sekwencji wyodrębnienie zdarzeń występujących w sekwencji analiza ruchów w serwisie web podobne do prognozowania, ale operujące na stanach dyskretnych Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 4 kwietnia 2017 14 / 21 Zastosowania: Początkowo analizowano proste typy danych: liczby, łańcuchy, daty. Dane do analizy Obecnie analizie poddawane są: Multimedia: zdjęcia, filmy, muzyka dane przestrzenne: mapy tekst szeregi czasowe grafy sekwencje danych kategorycznych sieci społecznościowe struktury chemiczne, RNA, DNA, białka Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 4 kwietnia 2017 15 / 21