Eksploracja Danych

advertisement
Eksploracja Danych
wykład 2
Sebastian Zając
WMP.SNŚ
UKSW
4 kwietnia 2017
Sebastian Zając (WMP.SNŚ UKSW)
Eksploracja Danych
4 kwietnia 2017
1 / 21
Back to the future IV
Na początku był .... CHAOS
Szumnie o Big Data
Zachowaj sceptycyzm słysząc o Big Data gdyż:
1
Brak definicji najbardziej podstawowych terminów. Czym jest BD ?
Gdzie uprawia się BD ? Czy chodzi o naukę czy o technologię ? ile to
jest BIG ?
2
Brak poszanowania dla innych naukowców: od kiedy statystyka,
matematyka, informatyka ? BD jest zawsze „nowe”, czy dane z
Google tylko teraz są wielkie ? Szanuj wiedzę swoich poprzedników.
3
Nauka o danych - połączenie statystyki i inżynierii technologicznej.
Sebastian Zając (WMP.SNŚ UKSW)
Eksploracja Danych
4 kwietnia 2017
2 / 21
CRISP-DM
Cross-Industry Standard Process – Data Mining Standardowy proces
dopasowania eksploracji danych do ogólnej strategii rozwiązywania
problemów komórki biznesowej lub badawczej.
Sebastian Zając (WMP.SNŚ UKSW)
Eksploracja Danych
4 kwietnia 2017
3 / 21
CRISP
Zrozumienie uwarunkowań
Jasne sformułowanie celów i wymagań projektu w terminologii komórki
biznesowej. Stworzenie wstępnego planu działań.
Zrozumienie danych
Zebranie danych. Wstępna analiza danych, odkrycie pierwszych zależności.
Ocena jakości danych. Wybranie interesujących podzbiorów danych.
Przygotowanie danych
Przygotowanie ostatecznego zbioru danych – najbardziej pracochłonny
etap. Wykonanie koniecznych przekształceń danych. Wyczyszczenie
danych.
Sebastian Zając (WMP.SNŚ UKSW)
Eksploracja Danych
4 kwietnia 2017
4 / 21
CRISP
Modelowanie
Wybór i zastosowanie odpowiednich technik modelujących. Dobór
parametrów modelu. Wykorzystanie różnych technik do stworzenia wielu
modeli. Powrót do poprzednich faz aby dostosować dane do wybranych
technik.
Ewaluacja
Ocena modelu pod kątem jakości i efektywności. Ustalenie czy model
spełnia postawione wymagania. Decyzja o wdrożeniu.
Wdrożenie
Wykorzystanie modelu. Sporządzenie raportu. Stworzenie aplikacji
wykorzystującej model.
Sebastian Zając (WMP.SNŚ UKSW)
Eksploracja Danych
4 kwietnia 2017
5 / 21
Odkrywanie wiedzy
Etapy w procesie odkrywania wiedzy:
1
Czyszczenie danych (data cleaning) - pozbądź się nieistotnych,
niepełnych, niepoprawnych danych.
2
Integracja danych (data integration) - łączenie danych z różnych
źródeł w jeden zintegrowany zbiór.
3
selekcja danych (data selection) - selekcja danych istotnych z punktu
widzenia procesu analizy.
4
konsolidacja i transformacja danych (data transformation) przekształcenie wybranych danych do postaci wymaganej przez
metody eksploracji danych.
5
eksploracja danych - odkrywanie potencjalnie użytecznych wzorców
6
ocena wzorców (pattern evaluation) - ocena i identyfikacja ciekawych
wzorców.
7
wizualizacja wzorców
Sebastian Zając (WMP.SNŚ UKSW)
Eksploracja Danych
4 kwietnia 2017
6 / 21
Odkrywanie wiedzy
Eksploracja danych - jeden z etapów procesu odkrywania wiedzy. Pozostałe
etapy to przygotowanie danych, selekcja, czyszczenie, definiowanie
dodatkowej wiedzy przedmiotowej, interpretacja wyników eksploracji,
wizualizacja.
W hurtowniach danych wiele z tych etapów (ETL) są
zautomatyzowane
Wzorce zazwyczaj są prezentowane ale można je również przechowywać w
bazach danych.
Sebastian Zając (WMP.SNŚ UKSW)
Eksploracja Danych
4 kwietnia 2017
7 / 21
Systemy eksploracji danych
Oprogramowanie implementujące metody eksploracji danych nazywamy
systemem eksploracji danych (data mining system).Można spotkać:
Niezależne aplikacje (stand-alone data mining systems)
aplikacje bezpośrednio wewnątrz aplikacji użytkownika.
Systemy eksploracji drugiej generacji
Cechują się silną integracją algorytmów eksploracji danych z podstawową
funkcjonalnością systemu zarządzania bazą (hurtownią) danych.
Zalety:
redukcja kosztów eksploracji danych
wyższa efektywność algorytmów
większe bezpieczeństwo danych
programowy interfejs z językiem zapytań eksploracyjnych
Sebastian Zając (WMP.SNŚ UKSW)
Eksploracja Danych
4 kwietnia 2017
8 / 21
Mity w Data Mining
Istnieją gotowe narzędzia, które potrafią wykorzystać dane do
rozwiązywania problemów
Proces DM może być w pełni zautomatyzowany - nie wymaga nadzoru
Eksploracja danych zwraca się szybko
Pakiety oprogramowania do DM są intuicyjne i łatwe w użyciu.
DM automatycznie wyczyści niechlujną bazę danych
DM zidentyfikuje nasze problemy oraz ich przyczyny
Sebastian Zając (WMP.SNŚ UKSW)
Eksploracja Danych
4 kwietnia 2017
9 / 21
Klasyfikacja metod eksploracji danych
Ze względu na cel eksploracji metody dzielimy na:
Odkrywanie asocjacji
Klasyfikacja i predykcja
Grupowanie
Analiza sekwencji i przebiegów czasowych
Odkrywanie charakterystyk
Eksploracja tekstu
Eksploracja WWW
Eksploracja grafów i sieci społecznościowych
Eksploracja danych multimedialnych
wykrywanie punktów osobliwych
Sebastian Zając (WMP.SNŚ UKSW)
Eksploracja Danych
4 kwietnia 2017
10 / 21
Główne zadania eksploracji danych
Klasyfikacja
Znajdź sposób odwzorowania danych w zbiór predefiniowanych klas
Baza danych → model (drzewo decyzyjne itp..)
Rozpoznawanie trendów
Decyzje odnośnie kredytów bankowych
Rozpoznawanie obiektów
algorytmy: klasyfikator Bayes’a, drzewa decyzyjne, sieci neuronowe,
k–najbliższych sąsiadów, SVM
Sebastian Zając (WMP.SNŚ UKSW)
Eksploracja Danych
4 kwietnia 2017
11 / 21
Główne zadania eksploracji danych
Grupowanie
Znajdź skończony zbiór kategorii opisujących dane
Kategorie - zbiory rozlączne, struktury hierarchiczne
inaczej: clustering, segmentacja
algorytm musi określić, które z atrybutów decydują o przynależności do
grupy proces iteracyjny – przerywany, gdy granice grup zostaną
ustabilizowane
Sebastian Zając (WMP.SNŚ UKSW)
Eksploracja Danych
4 kwietnia 2017
12 / 21
Główne zadania eksploracji danych
Asocjacje
inna nazwa: analiza koszykowa (market basket analysis)
wykrywanie elementów występujących razem w określonych
transakcjach
określenie reguł decydujących o pojawianiu się danych zestawów
Regresja
analizy regresyjne
podobne do klasyfikacji, ale nastawione na odkrycie reguł decydujących o
liczbowej wartości wybranego czynnika
Sebastian Zając (WMP.SNŚ UKSW)
Eksploracja Danych
4 kwietnia 2017
13 / 21
Główne zadania eksploracji danych
Prognozowanie
próba określenia przyszłych wartości liczbowych na podstawie
wartości dotychczasowych
określenie rodzaju trendu
uwzględnienie wahań cyklicznych, sezonowych, nieregularnych
Analiza sekwencji
wyodrębnienie zdarzeń występujących w sekwencji
analiza ruchów w serwisie web
podobne do prognozowania, ale operujące na stanach dyskretnych
Sebastian Zając (WMP.SNŚ UKSW)
Eksploracja Danych
4 kwietnia 2017
14 / 21
Zastosowania:
Początkowo analizowano proste typy danych: liczby, łańcuchy, daty.
Dane do analizy
Obecnie analizie poddawane są:
Multimedia: zdjęcia, filmy, muzyka
dane przestrzenne: mapy
tekst
szeregi czasowe
grafy
sekwencje danych kategorycznych
sieci społecznościowe
struktury chemiczne, RNA, DNA, białka
Sebastian Zając (WMP.SNŚ UKSW)
Eksploracja Danych
4 kwietnia 2017
15 / 21
Download