Zalew danych Przyrost danych Motywacja

advertisement
Wykład I
„ według przewidywań internetowego magazynu ZDNET News z 8 lutego 2001 roku eksploracja
danych (ang. data mining ) będzie jednym z najbardziej rewolucyjnych osiągnięć następnej dekady.
Rzeczywiście MIT Technology Review wybrało eksplorację danych jako jedną z dziesięciu nowych
technologii, które zmienią świat „.
Zalew danych
skąd się biorą dane ?
są generowane przez
banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst,
e_handel
Przyrost danych
Sprzyjające warunki
• gwałtowny rozrost zbiorów danych
• hurtownie danych
• zwiększony dostęp do danych – Internet
• zwiększenie udziału rynku w globalnej ekonomii
• wzrost mocy obliczeniowej i pojemności pamięci
Motywacja
•
•
•
•
•
•
mamy informację, a nie mamy wiedzy …
posiadanie wiedzy ( z informacji ) ma przynieść zysk …
posiadanie wiedzy ma otworzyć nowe możliwości …
posiadanie wiedzy ma uchronić przed błędami …
wiedza usprawni procesy produkcyjne, zarządzanie, obsługę klientów
wiedza pozwoli zmniejszyć nadużycia …
Według Gartner Group
„ Eksploracja danych jest procesem odkrywania znaczących nowych powiązań, wzorców i
trendów przez przeszukiwanie dużych ilości danych zgromadzonych w skarbnicach danych, przy
wykorzystaniu metod rozpoznawania wzorców, jak również metod statystycznych i
matematycznych.”
Inne definicje
Eksploracja danych
jest analizą ( często ogromnych ) zbiorów danych obserwacyjnych, w celu znalezienia
nieoczekiwanych związków i podsumowanie danych w oryginalny sposób, tak aby były zarówno
zrozumiałe, jak i przydatne dla ich właściciela.
Eksploracja danych
jest międzydyscyplinarną dziedziną, łączącą techniki uczenia maszynowego, rozpoznawania
wzorców, statystyki, baz danych i wizualizacji w celu uzyskiwania informacji z dużych baz danych.
1
Wykład I
Alternatywne określenie technologii eksploracji danych:

Odkrywanie wiedzy w bazach danych
KDD ( Knowledge Discovery in Databases ) SIGKDD ( Special Interest Group On Knowledge Discovery and Data Mining )

ekstrakcja wiedzy, inteligencja biznesowa, pozyskiwanie wiedzy

archeologia danych, kopanie w danych, eksploatacja złóż danych
Czym eksploracja danych nie jest
 eksploracja danych nie reprezentuje odizolowanego, gotowego do użycia przez dział analiz
zbioru narzędzi nieistotnego dla głównego projektu biznesu lub badań
 eksploracja nie jest w pełni zautomatyzowanym procesem nie wymagającym udziału
człowieka
 eksploracja czasami jest błędnie utożsamiana z systemami eksperckimi czy też analizą
OLAP
Dalsze mity
•
•
•
•
•
istnieją automatyczne narzędzia, które na poczekaniu i mechanicznie rozwiążą zadane
problemy
proces eksploracji danych nie wymaga wcale, lub nie wymaga znacznego udziału człowieka
eksploracja danych szybko się zwraca
oprogramowanie do eksploracji danych jest intuicyjne
eksploracja danych wyczyści „ niechlujną „ bazę danych
Proces odkrywania wiedzy
•
•
odkrywanie wiedzy a eksploracja danych – eksploracja danych stanowi jeden z etapów
procesu odkrywania wiedzy
etapy procesu odkrywania wiedzy
• zapoznanie się z wiedzą dziedzinową aplikacji – aktualna wiedza i cele aplikacji
• integracja danych
• selekcja danych
• czyszczenie danych ( około 60 % czasu )
• konsolidacja i transformacja danych
• wybór metody (metod ) eksploracji danych
• wybór algorytmów eksploracji danych
• eksploracja danych
• interpretacja, analiza i ocena wyników wizualizacja, transformacja, usuwanie
redundantnych wzorców,
• wykorzystanie pozyskanej wiedzy
2
Wykład I
Eksploracja danych jest dziedziną informatyki, która integruje szereg dyscyplin badawczych,
takich jak systemy baz danych i hurtownie danych, statystyka,sztuczna inteligencja, obliczenia
równoległe, optymalizacja i wizualizacja obliczeń.
Wykorzystuje również szeroko techniki i metody opracowane na gruncie systemów
wyszukiwania informacji, analizy danych przestrzennych, rozpoznawania obrazów, przetwarzania
sygnałów, technologii Web, grafiki komputerowej, bioinformatyki.
Co można eksplorować ?
• relacyjne bazy danych
• hurtownie danych
• repozytoria danych
• zaawansowane systemy informatyczne
• obiektowe i obiektowo-realcyjne bazy danych
• przestrzenne bazy danych
• przebiegi czasowe i temporalne bazy danych
• testowe i multimedialne bazy danych
• WWW
Metodologia Cross-Industry Standard Process for Data ( CRIS-DM ) została stworzona w
1966 roku przez analityków z DaimlerChrysler, SPSS i NCR. CRISP dostarcza ogólnie
dostępny standardowy proces dopasowania eksploracji danych do ogólnej strategii
rozwiązywania problemów komórki biznesowej lub badawczej.
3
Wykład I
CRISP-DM: jego etapy
Zrozumienie uwarunkowań biznesowych/badawczych
• jasne sformułowanie celów i wymagań projektu w terminologii komórki biznesowej lub
badawczej
• wykorzystanie tych celów i ograniczeń do opracowania definicji problemu eksploracji
danych
• stworzenie wstępnego planu działań, zmierzających do osiągnięcia celów.
Zrozumienie danych
• zebranie danych
• wykorzystanie wstępnej analizy danych, mającej na celu zaznajomienie się z danymi i
odkrycie pierwszych zależności.
• ocena jakości danych
• niekiedy, wybranie interesujących podzbiorów, które mogą zawierać wzorce
Przygotowanie danych
• przygotowanie ze wstępnych, surowych danych ostatecznego zbioru danych, który będzie
wykorzystywany we wszystkich następnych fazach.
• wybór przypadków i zmiennych, które będą analizowane i które są odpowiednie do analizy
• wykonanie przekształceń na pewnych zmiennych, jeśli to konieczne
• wyczyszczenie surowych danych, tak aby były gotowe do wykorzystania przez narzędzia
modelujące
4
Wykład I
Modelowanie
• wybór i zastosowanie odpowiednich technik modelujących
• skalowanie parametrów modelu w celu optymalizacji wyników
• często kilka różnych technik można użyć do tego samego problemu
• jeśli trzeba, wracamy do etapu przygotowania danych, by przybrały one postać
odpowiadającą specyficznym wymaganiom danej techniki eksploracji danych
Ewaluacja
• ocena modelu lub kilku modeli, otrzymanych z etapu modelowania, pod względem jakości i
efektywności przed ich wdrożeniem
• ustalenie, czy model rzeczywiście spełnia wszystkie założenia ustalone w pierwszym etapie
• ocena, czy są jakieś ważne cele biznesowe lub badawcze, które nie zostały w należyty
sposób uwzględnione
• podjęcie decyzji co do wykorzystania wyników eksploracji danych
Wdrożenie
• wykorzystanie stworzonych modeli: stworzenie modelu zasadniczo nie stanowi zakończenia
projektu
• przykład prostego wdrożenia: sporządzenie raportu
• przykład złożonego wdrożenia: implementacja równoległego procesu eksploracji danych w
innym dziale
• w biznesie klienci często realizują wdrożenie na podstawie modelu
Zadania stawiane przed eksploracją danych
•
•
•
•
•
•
•
•
opis
analiza danych
szacowanie ( estymacja )
przewidywanie ( predykcja )
klasyfikacja
grupowanie
odkrywanie wzorców i reguł
wyszukiwanie według zawartości
Techniki eksploracji danych
•
•
•
•
•
•
•
•
klasyfikacja
regresja
odkrywanie asocjacji
klastrowanie
grupowanie
odkrywanie wzorców sekwencji
dyskryminacja
wykrywanie zmian i odchyleń
wykorzystano materiały:
Wykłady – Eksploracja danych 2012 roku dr inż. Olga Siedlecka-Lamch
D.T. Larose, Odkrywanie wiedzy z danych PWN Warszawa 2006
http://wazniak.mimuw.edu.pl/images/3/3d/ED-4.2-m01-1.0.pdf
Download