drazenie-danych-w-bi-wyklad

advertisement
.
11
Business Intelligence UE . Maria Mach-Król
Wykład 10
ążenie danych w BI
Case study: Data Mining w Hollywood!
Przewidzenie finansowego sukcesu filmu to interesujący i nietrywialny problem
Ramesh Sharda i Dursun Delen badali wykorzystanie w tym celu DM
Dane zostały zebrane z kilku filmowych baz danych (np. ShowBiz, AllMovie) i skonsolidowane w
jeden zbiór
Użyto metod DM takich jak sieci neuronowe, zewa decyzyjne i support vector machines (maszyna
wektorów nośnych)
Wykorzystano pakiet PASW Modeler (SPSS, dawniej zwany Clementine). Pojęcia i definicje DM.
Dlaczego Data Mining?
Coraz intensywniejsza konkurencja w skali globalnej Dostrzeżenie wartości w źródłach danych
Dostępność dobrej jakości danych o klientach, sprzedawcach, transakcjach, Web itd. Konsolidacja i
integracja repozytoriów danych w hurtowniach danych Wykładniczy wzrost możliwości
przetwarzania danych i przechowywania ich; spadek kosztów Ruch w kierunku konwersji zasobów
informacyjnych w formę niefizyczną. Definicja DM
Nietrywialny proces identyfikowania przekonywujących, nowych, potencjalnie użytecznych i
zrozumiałych wzorców w danych przechowywanych w ustrukturyzowanych bazach danych Fayyad et al., (1996) Słowa kluczowe w tej definicji: Proces, nietrywialny, przekonywujący, nowy,
potencjalnie użyteczny, zrozumiały Inne nazwy DM: ekstrakcja wiedzy, analiza wzorców,
odkrywanie wiedzy, zbieranie informacji, wyszukiwanie wzorców, czerpanie danych. Data Mining
Cechy/Zadania
Źródłem danych dla DM jest często (nie zawsze!) skonsolidowana hurtownia danych Środowisko
DM to zazwyczaj architektura klient-serwer lub oparty na Web system informatyczny Dane to
najbardziej krytyczny składnik DM, mogą zawierać dane nieustrukturyzowane Osoba ążąca to
często użytkownik końcowy DM wymaga kreatywnego myślenia Istotne są możliwości i łatwość
użycia narzędzi DM. Dane w Data Mining
Dane: zbiór faktów zazwyczaj uzyskanych jako wynik doświadczeń, obserwacji lub eksperymentów
Dane mogą składać się z cyfr, słów, obrazów Dane: najniższy poziom abstrakcji (z którego
wyprowadza się informacje i wiedzę) Dane kategoryczne - reprezentują etykiety klas. Np. rasa, płeć,
grupa wiekowa, poziom wykształcenia
Dane nominalne - zawierają pomiary przypisane do obiektów jako etykiety. Np. stan cywilny:
„kawaler/panna”, „żonaty/zamężna”, „rozwiedziony/a”
Dane porządkowe - zawierają kody przypisane do obiektów jako etykiety, które reprezentują ich
uporządkowanie. Np. grupa wiekowa: „dziecko, nastolatek, dorosły, stary”.
(…)
…, np. przypisanie klientów do różnych segmentów na podstawie demografii i wcześniejszych
zakupów Związki sekwencyjne (szeregi czasowe) - odkrywają zdarzenia uporządkowane w czasie.
Inne zadania DM
Stanowią dodatek do podstawowych zadań DM (predykcji, asocjacji, grupowania) Prognozowanie
szeregów czasowych Część analizy sekwencji lub linków?
Wizualizacja Rodzaje DM DM oparte na hipotezach - zaczyna…
… eksperyment k razy Zagreguj wyniki testów Techniki klasyfikacji
Analiza zew decyzyjnych Analiza statystyczna Sieci neuronowe Support vector machines (maszyna
wektorów nośnych) Wnioskowanie oparte na przypadkach (CBR) Klasyfikatory bayesowskie
Algorytmy genetyczne zewa decyzyjne
Wykorzystują metodę „dziel i rządź” Rekursywnie dzielą zbiór treningowy, aż każdy podział
zawiera przypadki z jednej klasy…
Text mining i WEB mining - wykład
Data Mining - omówienie
Eksploracja danych - omówienie
Algorytmy - POPRAWNOŚĆ
Business Intelligence - Procesy ETL
Business Intelligence - omówienie
Reklama









Administracja publiczna
Działalność gospodarcza
Kodeks postępowania administracyjnego






















.
Download