. 11 Business Intelligence UE . Maria Mach-Król Wykład 10 ążenie danych w BI Case study: Data Mining w Hollywood! Przewidzenie finansowego sukcesu filmu to interesujący i nietrywialny problem Ramesh Sharda i Dursun Delen badali wykorzystanie w tym celu DM Dane zostały zebrane z kilku filmowych baz danych (np. ShowBiz, AllMovie) i skonsolidowane w jeden zbiór Użyto metod DM takich jak sieci neuronowe, zewa decyzyjne i support vector machines (maszyna wektorów nośnych) Wykorzystano pakiet PASW Modeler (SPSS, dawniej zwany Clementine). Pojęcia i definicje DM. Dlaczego Data Mining? Coraz intensywniejsza konkurencja w skali globalnej Dostrzeżenie wartości w źródłach danych Dostępność dobrej jakości danych o klientach, sprzedawcach, transakcjach, Web itd. Konsolidacja i integracja repozytoriów danych w hurtowniach danych Wykładniczy wzrost możliwości przetwarzania danych i przechowywania ich; spadek kosztów Ruch w kierunku konwersji zasobów informacyjnych w formę niefizyczną. Definicja DM Nietrywialny proces identyfikowania przekonywujących, nowych, potencjalnie użytecznych i zrozumiałych wzorców w danych przechowywanych w ustrukturyzowanych bazach danych Fayyad et al., (1996) Słowa kluczowe w tej definicji: Proces, nietrywialny, przekonywujący, nowy, potencjalnie użyteczny, zrozumiały Inne nazwy DM: ekstrakcja wiedzy, analiza wzorców, odkrywanie wiedzy, zbieranie informacji, wyszukiwanie wzorców, czerpanie danych. Data Mining Cechy/Zadania Źródłem danych dla DM jest często (nie zawsze!) skonsolidowana hurtownia danych Środowisko DM to zazwyczaj architektura klient-serwer lub oparty na Web system informatyczny Dane to najbardziej krytyczny składnik DM, mogą zawierać dane nieustrukturyzowane Osoba ążąca to często użytkownik końcowy DM wymaga kreatywnego myślenia Istotne są możliwości i łatwość użycia narzędzi DM. Dane w Data Mining Dane: zbiór faktów zazwyczaj uzyskanych jako wynik doświadczeń, obserwacji lub eksperymentów Dane mogą składać się z cyfr, słów, obrazów Dane: najniższy poziom abstrakcji (z którego wyprowadza się informacje i wiedzę) Dane kategoryczne - reprezentują etykiety klas. Np. rasa, płeć, grupa wiekowa, poziom wykształcenia Dane nominalne - zawierają pomiary przypisane do obiektów jako etykiety. Np. stan cywilny: „kawaler/panna”, „żonaty/zamężna”, „rozwiedziony/a” Dane porządkowe - zawierają kody przypisane do obiektów jako etykiety, które reprezentują ich uporządkowanie. Np. grupa wiekowa: „dziecko, nastolatek, dorosły, stary”. (…) …, np. przypisanie klientów do różnych segmentów na podstawie demografii i wcześniejszych zakupów Związki sekwencyjne (szeregi czasowe) - odkrywają zdarzenia uporządkowane w czasie. Inne zadania DM Stanowią dodatek do podstawowych zadań DM (predykcji, asocjacji, grupowania) Prognozowanie szeregów czasowych Część analizy sekwencji lub linków? Wizualizacja Rodzaje DM DM oparte na hipotezach - zaczyna… … eksperyment k razy Zagreguj wyniki testów Techniki klasyfikacji Analiza zew decyzyjnych Analiza statystyczna Sieci neuronowe Support vector machines (maszyna wektorów nośnych) Wnioskowanie oparte na przypadkach (CBR) Klasyfikatory bayesowskie Algorytmy genetyczne zewa decyzyjne Wykorzystują metodę „dziel i rządź” Rekursywnie dzielą zbiór treningowy, aż każdy podział zawiera przypadki z jednej klasy… Text mining i WEB mining - wykład Data Mining - omówienie Eksploracja danych - omówienie Algorytmy - POPRAWNOŚĆ Business Intelligence - Procesy ETL Business Intelligence - omówienie Reklama Administracja publiczna Działalność gospodarcza Kodeks postępowania administracyjnego .