Wykład I „ według przewidywań internetowego magazynu ZDNET News z 8 lutego 2001 roku eksploracja danych (ang. data mining ) będzie jednym z najbardziej rewolucyjnych osiągnięć następnej dekady. Rzeczywiście MIT Technology Review wybrało eksplorację danych jako jedną z dziesięciu nowych technologii, które zmienią świat „. Zalew danych skąd się biorą dane ? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel Przyrost danych Sprzyjające warunki • gwałtowny rozrost zbiorów danych • hurtownie danych • zwiększony dostęp do danych – Internet • zwiększenie udziału rynku w globalnej ekonomii • wzrost mocy obliczeniowej i pojemności pamięci Motywacja • • • • • • mamy informację, a nie mamy wiedzy … posiadanie wiedzy ( z informacji ) ma przynieść zysk … posiadanie wiedzy ma otworzyć nowe możliwości … posiadanie wiedzy ma uchronić przed błędami … wiedza usprawni procesy produkcyjne, zarządzanie, obsługę klientów wiedza pozwoli zmniejszyć nadużycia … Według Gartner Group „ Eksploracja danych jest procesem odkrywania znaczących nowych powiązań, wzorców i trendów przez przeszukiwanie dużych ilości danych zgromadzonych w skarbnicach danych, przy wykorzystaniu metod rozpoznawania wzorców, jak również metod statystycznych i matematycznych.” Inne definicje Eksploracja danych jest analizą ( często ogromnych ) zbiorów danych obserwacyjnych, w celu znalezienia nieoczekiwanych związków i podsumowanie danych w oryginalny sposób, tak aby były zarówno zrozumiałe, jak i przydatne dla ich właściciela. Eksploracja danych jest międzydyscyplinarną dziedziną, łączącą techniki uczenia maszynowego, rozpoznawania wzorców, statystyki, baz danych i wizualizacji w celu uzyskiwania informacji z dużych baz danych. 1 Wykład I Alternatywne określenie technologii eksploracji danych: Odkrywanie wiedzy w bazach danych KDD ( Knowledge Discovery in Databases ) SIGKDD ( Special Interest Group On Knowledge Discovery and Data Mining ) ekstrakcja wiedzy, inteligencja biznesowa, pozyskiwanie wiedzy archeologia danych, kopanie w danych, eksploatacja złóż danych Czym eksploracja danych nie jest eksploracja danych nie reprezentuje odizolowanego, gotowego do użycia przez dział analiz zbioru narzędzi nieistotnego dla głównego projektu biznesu lub badań eksploracja nie jest w pełni zautomatyzowanym procesem nie wymagającym udziału człowieka eksploracja czasami jest błędnie utożsamiana z systemami eksperckimi czy też analizą OLAP Dalsze mity • • • • • istnieją automatyczne narzędzia, które na poczekaniu i mechanicznie rozwiążą zadane problemy proces eksploracji danych nie wymaga wcale, lub nie wymaga znacznego udziału człowieka eksploracja danych szybko się zwraca oprogramowanie do eksploracji danych jest intuicyjne eksploracja danych wyczyści „ niechlujną „ bazę danych Proces odkrywania wiedzy • • odkrywanie wiedzy a eksploracja danych – eksploracja danych stanowi jeden z etapów procesu odkrywania wiedzy etapy procesu odkrywania wiedzy • zapoznanie się z wiedzą dziedzinową aplikacji – aktualna wiedza i cele aplikacji • integracja danych • selekcja danych • czyszczenie danych ( około 60 % czasu ) • konsolidacja i transformacja danych • wybór metody (metod ) eksploracji danych • wybór algorytmów eksploracji danych • eksploracja danych • interpretacja, analiza i ocena wyników wizualizacja, transformacja, usuwanie redundantnych wzorców, • wykorzystanie pozyskanej wiedzy 2 Wykład I Eksploracja danych jest dziedziną informatyki, która integruje szereg dyscyplin badawczych, takich jak systemy baz danych i hurtownie danych, statystyka,sztuczna inteligencja, obliczenia równoległe, optymalizacja i wizualizacja obliczeń. Wykorzystuje również szeroko techniki i metody opracowane na gruncie systemów wyszukiwania informacji, analizy danych przestrzennych, rozpoznawania obrazów, przetwarzania sygnałów, technologii Web, grafiki komputerowej, bioinformatyki. Co można eksplorować ? • relacyjne bazy danych • hurtownie danych • repozytoria danych • zaawansowane systemy informatyczne • obiektowe i obiektowo-realcyjne bazy danych • przestrzenne bazy danych • przebiegi czasowe i temporalne bazy danych • testowe i multimedialne bazy danych • WWW Metodologia Cross-Industry Standard Process for Data ( CRIS-DM ) została stworzona w 1966 roku przez analityków z DaimlerChrysler, SPSS i NCR. CRISP dostarcza ogólnie dostępny standardowy proces dopasowania eksploracji danych do ogólnej strategii rozwiązywania problemów komórki biznesowej lub badawczej. 3 Wykład I CRISP-DM: jego etapy Zrozumienie uwarunkowań biznesowych/badawczych • jasne sformułowanie celów i wymagań projektu w terminologii komórki biznesowej lub badawczej • wykorzystanie tych celów i ograniczeń do opracowania definicji problemu eksploracji danych • stworzenie wstępnego planu działań, zmierzających do osiągnięcia celów. Zrozumienie danych • zebranie danych • wykorzystanie wstępnej analizy danych, mającej na celu zaznajomienie się z danymi i odkrycie pierwszych zależności. • ocena jakości danych • niekiedy, wybranie interesujących podzbiorów, które mogą zawierać wzorce Przygotowanie danych • przygotowanie ze wstępnych, surowych danych ostatecznego zbioru danych, który będzie wykorzystywany we wszystkich następnych fazach. • wybór przypadków i zmiennych, które będą analizowane i które są odpowiednie do analizy • wykonanie przekształceń na pewnych zmiennych, jeśli to konieczne • wyczyszczenie surowych danych, tak aby były gotowe do wykorzystania przez narzędzia modelujące 4 Wykład I Modelowanie • wybór i zastosowanie odpowiednich technik modelujących • skalowanie parametrów modelu w celu optymalizacji wyników • często kilka różnych technik można użyć do tego samego problemu • jeśli trzeba, wracamy do etapu przygotowania danych, by przybrały one postać odpowiadającą specyficznym wymaganiom danej techniki eksploracji danych Ewaluacja • ocena modelu lub kilku modeli, otrzymanych z etapu modelowania, pod względem jakości i efektywności przed ich wdrożeniem • ustalenie, czy model rzeczywiście spełnia wszystkie założenia ustalone w pierwszym etapie • ocena, czy są jakieś ważne cele biznesowe lub badawcze, które nie zostały w należyty sposób uwzględnione • podjęcie decyzji co do wykorzystania wyników eksploracji danych Wdrożenie • wykorzystanie stworzonych modeli: stworzenie modelu zasadniczo nie stanowi zakończenia projektu • przykład prostego wdrożenia: sporządzenie raportu • przykład złożonego wdrożenia: implementacja równoległego procesu eksploracji danych w innym dziale • w biznesie klienci często realizują wdrożenie na podstawie modelu Zadania stawiane przed eksploracją danych • • • • • • • • opis analiza danych szacowanie ( estymacja ) przewidywanie ( predykcja ) klasyfikacja grupowanie odkrywanie wzorców i reguł wyszukiwanie według zawartości Techniki eksploracji danych • • • • • • • • klasyfikacja regresja odkrywanie asocjacji klastrowanie grupowanie odkrywanie wzorców sekwencji dyskryminacja wykrywanie zmian i odchyleń wykorzystano materiały: Wykłady – Eksploracja danych 2012 roku dr inż. Olga Siedlecka-Lamch D.T. Larose, Odkrywanie wiedzy z danych PWN Warszawa 2006 http://wazniak.mimuw.edu.pl/images/3/3d/ED-4.2-m01-1.0.pdf