Zastosowanie narzędzi eksploracji danych Data Mining do

advertisement
ZASTOSOWANIE NARZDZI EKSPLORACJI DANYCH DATA MINING
DO TWORZENIA MODELI ZARZDZANIA WIEDZ
EUGENIA FRONCZAK
MAŁGORZATA MICHALCEWICZ
Uniwersytet Technologiczno – Przyrodniczy w Bydgoszczy
Streszczenie
W dobie intensywnego postpu technologicznego w przedsibiorstwach rejestrowane s tysice rónego rodzaju danych. Wiedza zawarta w ogromnych zbiorach
danych jest ukryta pod postaci wzorców, trendów, regularnoci i osobliwoci. Jednak poniewa człowiek i techniki statystycznej analizy danych nie s w stanie ich
przeanalizowa stosuje si techniki eksploracji danych, aby z duych zbiorów danych
wycign wnioski wspomagajce procesy decyzyjne, prognozy czy przewidywania.
Stosowanie wyspecjalizowanych narzdzi Data Mining umoliwia budowanie modeli, testowanie modeli i stosowanie ich do nowych danych. W artykule przedstawiono
zastosowanie narzdzi eksploracji danych do tworzenia modeli zarzdzania wiedz.
Słowa kluczowe: Data Mining, modele zarzdzania wiedz, eksploracja danych, odkrywanie nowej wiedzy
1. Wprowadzenie
Dynamika zmian w gospodarce powoduje, e zarzdzanie wiedz oraz eksploracja danych odgrywa znaczc rol w działalnoci wszystkich przedsibiorstw na rynku. Wiedza w tworzona
i stosowane w organizacji jest najcenniejszym zasobem i jedynym ródłem trwałej przewagi konkurencyjnej. Dlatego jednym z najwikszych wyzwa, przed jakim stoj organizacje w Polsce jest
tworzenie wizji "zarzdzania wiedz" w realne rozwizania oraz optymalne wykorzystanie posiadanych zasobów intelektualnych i niematerialnych tak, by w sposób trwały przyczyniały si one
do tworzenia wartoci dodanej.
Data Mining słuy take do zautomatyzowanego odkrywania statystycznych zalenoci
i schematów w bardzo duych bazach danych [1], [6], [19]. Odkrywane, wczeniej nieznane zalenoci i schematy, przedstawiane najczciej w formie reguł logicznych, drzew decyzyjnych lub
sieci neuronowych mog posiada
du warto
ekonomiczn i mog by
uyte do wspomagania
podejmowania decyzji finansowych i marketingowych w przedsibiorstwie.
Eksploracja danych (Data Mining) jest obecnie bardzo intensywnie rozwijajc si dziedzin
wiedzy. Głównym powodem jest gromadzenie przez ludzi coraz to wikszych iloci danych (np.
typowy supermarket rejestruje dziennie dziesitki tysicy operacji sprzeday), które coraz trudniej
jest analizowa
za pomoc metod znanych z klasycznych baz danych (zapytanie, podsumowanie,
zestawienie itp.). Istnieje przekonanie, e gdy ilo
danych zaczyna przekracza
pewn warto
krytyczn, staj si one praktycznie bezwartociowe (szukanie igły w stogu siana). Uytkownicy
zaczynaj „ton
” w tym ogromie aby jako rozwiza
problem, naley opracowa
zupełnie inne
metody analizowania zgromadzonych danych [9].
POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ
Seria: Studia i Materiały, nr 27, 2010
127
Poniewa współczesne systemy bazodanowe s bardzo wydajne i pojemne, std rzeczywistym
problemem jest nie to, jak je gromadzi
, ale jak z nich efektywnie korzysta
[9].
Eksploracja danych to dziedzina interdyscyplinarna. Czerpie wiedz z systemów baz danych,
statystyki, systemów wspomagania decyzji, sztucznej inteligencji, uczenia maszynowego, wizualizacji danych czy przetwarzania równoległego. Sposób prezentacji odkrytej z danych wiedzy
nazywa si modelem wiedzy.
2. Data Mining jako nowoczesna technologia okrywania nowej wiedzy
Eksploracja danych to „...proces odkrywania nowych, wczeniej nieznanych, potencjalnie
uytecznych, zrozumiałych i poprawnych wzorców w bardzo duych wolumenach danych" [7].
Eksploracja danych wykorzystuje róne modele wiedzy do reprezentowania wzorców obecnych w
danych. Modele te obejmuj, midzy innymi, reguły asocjacyjne [1], reguły cykliczne i okresowe
[15], reguły dyskryminacyjne i charakterystyczne [3], klasyfikatory bayesowskie [12], drzewa decyzyjne [17, 18], wzorce sekwencji [2], skupienia obiektów [5], przebiegi czasowe, osobliwoci
i wyjtki. Wiedza odkryta w danych moe by
postrzegana jako warto
dodana, podnoszca jako
danych i znaczco polepszajca jako
decyzji podejmowanych na podstawie danych.
Zdaniem W. Stanisławskiego i E. Szydłowskiej proces identyfikacji wzorców to odkrywanie
wiedzy (Knowledge Discovery). Wzorzec jest tu rozumiany jako zwizki, korelacje, trendy, deskryptory rzadkich zdarze itp. Według autorów eksploracja danych to jedna z faz procesu
odkrywania wiedzy, co przedstawia rysunek 1.
Rysunek 1. Proces odkrywania wiedzy
ródło: Cios K.J., Pedrycz W., Swiniarsk R.W.: “Data Mining Methods for Knowledge Discovery”, Kluwer Academic Publisher Group, 2000, ISBN 0-387-33333-9 [4].
Odkrywanie wiedzy obejmuje cały proces akwizycji wiedzy, poczwszy od selekcji danych
ródłowych, poprzez czyszczenie, transformacj, kompresj danych, odkrywanie wzorców,
a skoczywszy na ocenie odkrytych wzorców. Na cały proces składaj si [10]: sformułowanie
problemu, wybór danych, czyszczenie danych, integracja danych, transformacja danych, eksploracja danych, wizualizacja i ocena odkrytych wzorców, i wreszcie zastosowanie wzorców.
Dane w przedsibiorstwie gromadzone s w rónych postaciach baz. Mog to by
płaskie pliki, bazy relacyjne, obiektowe. Dane te trzeba odpowiednio przygotowa
. Najlepszymi danymi do
procesu eksploracji s dane pochodzce z hurtowni danych. Poza tym dane, które s wynikiem
analizy mona przedstawi
za pomoc narzdzi wizualizacji. W procesie eksploracji mona wyróni
trzy etapy, które przedstawia rysunek 2.
128
Eugenia Fronczak, Małgorzata Michalcewicz
Zastosowanie narzdzi eksploracji danych Data Mining
do tworzenia modeli zarzdzania wiedz
ETAPY PROCESU EKSPLORACJI
1.
2.
3.
OPISANIE DANYCH
ZBUDOWANIE I TESTOWANIE
PREDYKCYJNEGO MODELU
DOWIADCZALNA
WERYFIKACJA MODELU
na podstawie statystycznych
analiz
i
wykresów mona zauway
podstawowe
właciwoci danych
na podstawie danych tworzony jest model opierajcy si na poznanych
wzorach danych, nastpnie taki model
jest sprawdzany na innym zbiorze. Dobrze zbudowany model nie powinien
si myli
, a jego wyniki musz w duym stopniu pokrywa
si z
rzeczywistymi wartociami
dla zaprojektowanego modelu wykonywana jest
dowiadczalna weryfikacja
w celu upewnienia si czy
mona polega
na prognozach takiego modelu
Rysunek 2. Etapy procesu eksploracji
ródło: Opracowanie własne.
Wród metod eksploracji danych mona wyróni
wiele technik, które przedstawia ponisza
tabela 1.
Tabela 1. Podział metod eksploracji danych
PODZIAŁ METOD EKSPLORACJI DANYCH
Podział ze wzgldu na zbiór danych wejcioPodział ze wzgldu na wyniki analizy
wych
Techniki uczenia bez
Techniki uczenia nadnadzoru
zorowanego
(unsupervised
Techniki deskrypcyjne
(supervised learning)
Techniki predykcyjne
learning)
(segmentacji)
(uczenie
(uczenie bez
z nauczycielem)
nauczyciela)
dane wejciowe stanowi pewien zbiór
algorytm odkrywania
wykorzystuj poznane
uczcy, gdzie dla okrena podstawie znaleziowiedzy nie dysponuwzorce do opisywania
lonego zestawu
nych wzorców dokonuj
je zbiorem uczcym,
danych i uchwycenia
wartoci atrybutów
przewidywa i uogólalgorytm eksploracji
ogólnych cech opisywapoznawane s wartoci
nie wartoci
danych stara si
nych obiektów, zawieraj atrybutu wyjciowego,
nieznanych atrybutów,
sformułowa
model
si tu przede wszystkim
podczas tworzenia
zachowa, cech nowego
najlepiej pasujcy do
zagadnienia grupowania
zbioru uczcego musi
obiektu
obserwowanych daby
znane prawdziwe
nych
przypisanie kadego
obiektu do klasy
POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ
Seria: Studia i Materiały, nr 27, 2010
Przykłady zastosowania
- maj zastosowanie tam,
gdzie istotne jest oszacowanie cechy
wyjciowej,
- na podstawie dotychczasowych relacji z
klientem pozwalaj
przewidzie
przyszłe
zdarzenia,
- pozwalaj na ocen ryzyka
ubezpieczeniowego
zwizanego z klientem,
- pozwalaj na oszacowanie
prawdopodobiestwa
przejcia klienta do
konkurencyjnego usługodawcy.
- wykorzystywane w
celu zaklasyfikowania
klientów o podobnych
zachowaniach i cechach do odrbnych
grup,
- pozwalaj na odkrywanie grup podobnych
klientów,
- pozwalaj na znajdowanie zbiorów
produktów czsto kupowanych razem,
- umoliwiaj identyfikacj osobliwoci
wystpujcych w danych.
129
Przykłady technik uczenia
- techniki klasyfikacji
(drzewa decyzyjne,
algorytmy bazujce
na n najbliszych ssiadach, sieci
neuronowe, statystyka
bayesowska),
- techniki regresji.
- techniki analizy
skupie (clustering),
- samoorganizujce
si mapy,
- algorytmy maksymalizacji wartoci
oczekiwanej
(expectationmaximization).
ródło: Opracowanie własne.
3. Wady Data Mining
Analiza danych nie jest prostym zagadnieniem, dlatego podczas tego procesu pojawiaj si
róne problemy:
1. Ogromne rozmiary danych – Problem złoonoci czasowej i poszukiwania zalenoci
midzy wartociami atrybutów wymaga stosowania metod heurystycznych lub zmniejszania obszaru poszukiwa. Zmniejszanie obszaru poszukiwa moe by
wykonywane
horyzontalnie(poprzez przeprowadzenie dyskretyzacji wartoci cech) lub w płaszczynie
pionowej (poprzez usuwanie nadmiernych cech).
2. Wiedza analityczna – Do przeprowadzenia projektu Data Mining niezbdne jest odpowiednie przygotowanie analityczne, a take dodatkowo znajomo
zagadnie
biznesowych oraz zdolno
przełoenia problemów biznesowych na właciwe techniki
analityczne. Jednak najlepsze rezultaty stosowania technologii Data Miting mona osign
poprzez wyjcie od problemów biznesowych.
3. Dobrze wykwalifikowani specjalici – Osoba rozumiejca problem biznesowy powinna
take rozumie
, w jaki sposób dostpne techniki analityczne i zastosowane narzdzie
rozwizuje ten problem (w celu uniknicia pułapek). Dlatego projekt Data Mining prowadzony jest zwykle przez zaawansowanych analityków. Poza tym taki projekt wymaga
take zaangaowania uytkowników biznesowych (menederów, doradców), którzy rozumiej rozwaany problem i analizowane dane oraz ludzi, którzy rozumiej
wykonywane analizy.
4. Wysokie koszty – Wdraanie systemów Data Mining wie si nie tylko z duymi kosztami, ale take z reorganizacj całego lub czci przedsibiorstwa. Systemy te nie zawsze
130
Eugenia Fronczak, Małgorzata Michalcewicz
Zastosowanie narzdzi eksploracji danych Data Mining
do tworzenia modeli zarzdzania wiedz
5.
6.
7.
8.
ułatwi proces zarzdzania i funkcjonowania firmy, a przy nieumiejtnym jego wdraaniu
mog go jeszcze bardziej utrudni
.
Problem integracji odkrywanej wiedzy z istniejc wiedz.
Dynamiczna natura danych – W bazach danych cigle s dodawane nowe elementy, a istniejce s modyfikowane, włanie dlatego narzdzia Data Mining musz by
cały czas
rozwijane, a dostarczona wiedza powinna by
aktualizowana.
Brak inteligentnego systemu zapyta – Brakuje inteligentnego jzyka zapyta (komunikacja) z systemami Data Mining. Zdarza si, e system Data Mining dedykowany do
eksploracji danych nie potrafi zintegrowa
posiadanych ju narzdzi do analizy i wizualizacji danych.
Błdy niesystematyczne i brakujce wartoci – Podczas analizy danych pojawiaj si błdy niesystematyczne (szumy). Ze wzgldu na ten problem metody analizy nie powinny
by
zbyt wraliwe na tego typu zachowania, aby dochodziło do zakłócania reguł. Taki
problem pojawia si równie w przypadku brakujcych wartoci.
4. Zalety Data Mining
Do głównych korzyci z wdroenia systemów Data Mining zaliczaj si:
• usprawnienie sterowania procesem i podejmowania decyzji,
• odkrywanie ukrytej wiedzy zawartej w duych zbiorach danych,
• nieobcianie komunikacj z zewntrznymi narzdziami analitycznymi,
• przewidywanie przyszłych przedsiwzi
,
• prosta obsługa duych zbiorów danych,
• porównanie wielu modeli i szybki wybór najlepszego z nich
• odkrywanie wiedzy z rónorodnych baz danych i rónych typów z danych,
• poprawa ogólnej sprawnoci firmy,
• zastosowanie w wielu dziedzinach: projektowanie i doskonalenie produktu, analiza danych
na temat klientów zgromadzonych w systemach transakcyjnych i hurtowniach danych,
znajdowanie wzorców zachowa, sugerujcych np. skłonno
do zakupu pewnego rodzaju produktu.
Wprowadzenie systemów Data Mining pozwala wykonywa
kiedy niemoliwe do zrealizowania analizy biznesowe i tworzy
niezawodny fundament do efektywnego podejmowania decyzji
i trafnego prognozowania wskazujcego drog do sukcesu. Jednak wikszo
korzyci z wdroenia systemów Data Mining jest niemierzalna. Próbuje si oceni
skuteczno
negocjacji wspartych
systemem, ale problemem s tu punkty odniesienia - wzrost sprzeday czy przychodów nie musi
by
zwizany z wprowadzeniem systemu, ale spowodowany czynnikami zewntrznymi, np. wzrostem popytu, zmianami preferencji klientów. Bardzo trudne jest te przeliczenie na zysk
osiganych celów strategicznych firmy. Z perspektywy zarzdu koszt systemu wspomagania decyzji i wskanik zwrotu z inwestycji mog mie
drugorzdne znaczenie przy podejmowaniu decyzji
o wdroeniu w firmie tego rozwizania [11].
5. Narzdzia Data Mining
Narzdzia Data Mining to zaawansowane narzdzia drenia i eksploracji danych słuce do
automatycznego znajdowania zwizków midzy danymi. Narzdzia tej klasy wykorzystuj wiele
wyrafinowanych technik takich jak na przykład sieci neuronowe, drzewa decyzyjne, sieci Bayesa,
POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ
Seria: Studia i Materiały, nr 27, 2010
131
algorytmy genetyczne, clustering czy regresja. Narzdzia tej klasy s wykorzystywane przez analityków midzy innymi do segmentacji bazy klientów, prognozowania, pozycjonowania produktu
na rynku, a take do wykrywania oszustw w czasie rzeczywistym. [13]
Do najbardziej popularnych pakietów programowych oferujcych metody Data Mining nale:
• Oracle Data Mining (ODM),
• SQL Server Data Mining Business Inteligence,
• Statistica Data Miner,
• SAS Enterprise Miner,
• IBM Inteligent Miner for Data.
Oracle Data Mining (ODM)
Zdaniem W. Stanisławskiego i E. Szydłowskiej baz danych Oracle charakteryzuje połczenie
procesu odkrywania wiedzy z systemem zarzdzania baz danych, posiada ona take szereg funkcji umoliwiajcych rozbudowane analizy danych. Moliwa jest dziki temu realizacja w jednym
systemie baz danych rónych procesów takich jak: przygotowywanie danych, ich transformacja,
generowanie oraz wykorzystywanie modeli. Daje to take due moliwoci programistom, poprzez połczenie technik eksploracji z aplikacjami bazodanowymi. Oracle Data Mining (ODM)
jest komponentem oferujcym analizy danych jest. W jego skład wchodz trzy elementy:
• Data Mining Engine (DME) – zapewnia infrastruktur, zawierajc zestaw usług Data Mining udostpnianych dla klientów API,
• interfejs aplikacji (API) – umoliwia dostp do funkcji i algorytmów zaimplementowanych
w DME,
• reporytozium metadanych – wykorzystywane poprzez DME do udostpniania obiektów
wygenerowanych w trakcie analiz [16].
W interfejsie aplikacji mona wyodrbni
trzy czci. Kada z nich skierowana jest do innego
typu uytkownika.
a) Oracle Data Mining Predictive Analytics (PA) zawiera dwa programy: przewidywanie
(ang. Predict) oraz wyjanianie (ang. Explain). W przewidywaniu wykorzystywane s algorytmy klasyfikacji i regresji, a w wyjanianiu algorytm wanoci atrybutów. Programy
s w pełni zautomatyzowane, od uytkownika wymagane jest tylko odpowiednie sformatowanie danych wejciowych. Program przewidywania skierowany dla uytkowników
których głównym celem jest uzyskanie w krótkim czasie rzetelnych wyników np, dyrektorów marketingu.
b) Drugi interfejs jest skierowany do programistów, dostpny jest w dwóch jzykach: Java
i PL/SQL. Oba API s ze sob kompatybilne i mona budowa
modele z wykorzystaniem
skryptów PL/SQL, a testowa
przy uyciu aplikacji Javy, pozwala on take na wdraanie
wbudowanych algorytmów do aplikacji klienckich.
c) Oracle Data Miner to narzdzie graficzne, pozwalajce na realizacj zada eksploracji
oraz wizualn reprezentacj wyników. Przeznaczone jest ono dla analityków biznesowych, którzy orientuj si w badanych zagadnieniach i potrafi dobra
algorytm
stosownie do posiadanych danych i oczekiwanych wyników. Wykorzystywane jest take
132
Eugenia Fronczak, Małgorzata Michalcewicz
Zastosowanie narzdzi eksploracji danych Data Mining
do tworzenia modeli zarzdzania wiedz
przez programistów do wyboru kierunku rozwoju aplikacji poprzez wstpn analiz danych, tworzenie przykładowych modeli oraz wizualne sprawdzanie ich efektywnoci.
Zaimplementowane algorytmy pozwalajce na tworzenie modeli eksploracji w ODM podzielono na dwie grupy zaprezentowane w tabeli 2.
Tabela 2. Algorytmy pozwalajce na tworzenie modeli eksploracji w ODM
Algorytmy z nauczycielem
Algorytmy bez nauczyciela
klasyfikacja
- naiwny klasyfikator Bayesa (Naive Bayes)
- adaptacyjna sie
Bayes (Adaptive Bayes Network)
- SVM (Suport Victor Machine)
- indukcja drzew decyzyjnych (Decision Tree)
analiza skupie
- algorytm k-rednich (k-Means)
- O-Cluster
regresja
- SVM (Suport Victor Machine)
reguły asocjacji
-apriori
wano
atrybutów
- minimalna długo
opisu (Minimum description
Length)
ekstrakcja cech
-NMF (Non-Negative Matrix nFactorization)
ródło: Opracowanie własne.
SQL Server Data Mining
SQL Server naley do rodziny technologii Business Intelligence, której wszystkie elementy
współpracuj ze sob w celu dostarczenia wszechstronnej platformy umoliwiajcej organizacjom
stosowanie analizy predykcyjnej na kadym etapie cyklu ycia danych. [22] Microsoft® SQL Server® 2008 oferuje analiz predykcyjn za porednictwem pełnego i intuicyjnego zestawu
narzdzi Data Mining. Głboka integracja z platform Microsoft Business Intelligence umoliwia
dostp do danych w kadym momencie, elastyczna platforma pozwala umieszczenie funkcji predykcji w dowolnej aplikacji. [21]
Firma Microsoft zmierzajc do stworzenia kompleksowej platformy Business Intelligence
(BI), która moe by
integrowana z codziennymi działaniami firmy i efektywnie wykorzystywana
przez pracowników w całej organizacji, nie tylko przez garstk wyspecjalizowanych analityków
przedefiniowała moliwoci raportowania i analizy w Microsoft® SQL Server®. Dziki temu Business Intelligence uwaana do tej pory za zbyt kosztowne lub skomplikowane pod wzgldem
implementacji rozwizanie, teraz korzysta z kompleksowych moliwoci tworzenia, renderowania
i dostarczania raportów przy pomocy usług SQL Server Reporting Services oraz z bogatej funkcjonalnoci przetwarzania analitycznego online (OLAP) dostarczanej przez usługi SQL Server
Analysis Services. cisła integracja midzy takimi produktami Business Inteligence a wszechobecnym systemem Microsoft Office umoliwiła masowy dostp do analizy biznesowej.
Aby poprawi
sprawno
i efektywno
operacyjn firm naley wykorzysta
analiz predykcyjn danych biznesowych i stosowa
w procesach biznesowych inteligentny system
podejmowania decyzji. Osignicie tego celu jest moliwe poprzez wykorzystanie funkcjonalnych
algorytmów Data Mining. Algorytmy te zapewniaj ogromne moliwoci w zakresie analizowania
zbiorów danych, porównywania nowych danych z faktami i zachowaniami historycznymi, identyfikowania klasyfikacji oraz relacji midzy jednostkami i atrybutami biznesowymi oraz
POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ
Seria: Studia i Materiały, nr 27, 2010
133
udostpniania trafnych wgldów predykcyjnych we wszystkich systemach i dla wszystkich uytkowników podejmujcych decyzje biznesowe. Wychodzc naprzeciw przekonaniu, e Data
Mining to specjalistyczna, skomplikowana i kosztowna technologia firma Microsoft zaoferowała
rozwizanie, w którym wszechstronne technologie Data Mining zostały dołczone do usług SQL
Server Analysis Services przy jednoczesnym zapewnieniu bezporedniej integracji z systemem
Microsoft Office 2007. Takie rozwizanie w połczeniu z korporacyjnymi moliwoci SQL Server
Analysis Services zapewnia wszystkim dostp do bogatych funkcji oraz analiz Data Mining, które
stanowi klucz do sukcesu.
Dziki cisłej integracji technologii Data Mining w SQL Server 2008 z systemem Office
2007, uniwersalnemu rodowisku programistycznemu, korporacyjnym moliwociom oraz rozszerzalnemu zestawowi bogatych i innowacyjnych algorytmów Data Mining uwzgldniajcych
typowe problemy biznesowe moliwe jest stosowanie technologii Data Mining w sposób intuicyjny i samoobsługowy, co pozwala firmom sprawnie ocenia
sytuacj.
Analiza predykcyjna kiedy była stosowana tylko przez pracowników - ekspertów w dziedzinie statystyki. Technologia Data Mining w SQLServer 2008 oferuje kompleksowa analiz
predykcyjn, która udostpnia analizy oraz predykcje wielu uytkownikom. Dodatek Microsoft
SQL Server 2008 Data Mining dla Office 2007, pokazany na rysunku 3, umoliwia pracownikom
korzystajcym z informacji zastosowanie zaawansowanej technologii Data Mining w znanym rodowisku arkuszy kalkulacyjnych. Dziki temu uytkownicy mog w łatwy sposób uzyskiwa
rzetelne informacje, które zapewniaj natychmiastowe i znaczce wskazówki pomocne w podejmowaniu codziennych decyzji.
Narzdzia Table Analysis dla Microsoft Office Excel® 2007 ukrywaj złoono
technologii
Data Mining za intuicyjnymi zadaniami, dostarczajc mechanizmy, które pozwalaj uytkownikom w łatwy i niemal niezauwaalny sposób przechodzi
midzy analiz a odkrywaniem wiedzy.
Komponent kliencki Data Mining dla Office Excel 2007 oferuje dostp do pełnego procesu tworzenia rozwizania Data Mining, który zapewnia zaawansowanym uytkownikom wicej
informacji, sprawdzanie poprawnoci i du kontrol. Co wicej, szablony Data Mining dla aplikacji Visio umoliwiaj uytkownikom renderowanie opatrzonych adnotacjami wizualizacji
graficznych modeli Data Mining. Generalnie integracja funkcji SQL Server 2008 Data Mining
z systemem Office 2007 tworzy kompleksowy, intuicyjny ekosystem biznesowy z funkcj pracy
zespołowej, który upowszechnia dostp do analizy predykcyjnej i pomaga w dostarczaniu informacji wspierajcych podejmowanie decyzji biznesowych w całej organizacji. [21]
134
Eugenia Fronczak, Małgorzata Michalcewicz
Zastosowanie narzdzi eksploracji danych Data Mining
do tworzenia modeli zarzdzania wiedz
Rysunek 3. Dodatek Data Mining dla programu Microsoft Office Excel 2007
ródło: „Analiza predykcyjna z wykorzystaniem SQL Server 2008”, cz. I, Baza Wiedzy Microsoft
TechNet, 27 czerwca 2008 [21].
Dodatek Data Mining dla systemu Office 2007 oferuje wiele korzyci, które przedstawia rysunek 4.
System Office 2007 stanowi idealne narzdzie dla pracowników wykorzystujcych informacje, ale programici BI, którzy rozwijaj rozwizania na skal korporacyjn, najczciej wybieraj
SQL Server Business Intelligence Development Studio, poniewa oferuje ono rodowisko bazujce na projektach, uzupełnione funkcjonalnoci debugowania i integracj z systemem kontroli
ródła, co pozwala na tworzenie kompleksowych rozwiza BI. Oczywicie masowe rozpowszechnianie funkcji Data Mining jest uyteczne tylko wtedy, gdy programici mog budowa
rozwizania Data Mining, które szybko i z łatwoci realizuj okrelone wymagania biznesowe.
SQL Server Business Intelligence Development Studio stanowi uniwersalne rodowisko programistyczne bazujce na systemie programistycznym Microsoft Visual Studio®. Przy uyciu Business
Intelligence Development Studio programici mog tworzy
struktury Data Mining okrelajce
tabele i kolumny, które maj zosta
uwzgldnione podczas analizy, a take mog dodawa
wiele
modeli Data Mining, które stosuj algorytmy Data Mining na danych w tych tabelach. Szablon
projektu Analysis Services w Business Intelligence Development Studio, pokazany na rysunku 5,
zawiera intuicyjne narzdzie Data Mining Designer słuce do tworzenia i wywietlania modeli
Data Mining. Dostarcza równie funkcje Cross-validation, Lift chart oraz Profit chart, które słu
do porównywania i kontrastowania jakoci modeli w sposób wizualny i przy pomocy statystycznych ocen błdów oraz trafnoci przed wdroeniem tych modeli. [21]
SQL Server Analysis Services oferuje wiele korzyci:
• szybki rozwój,
• wysoka dostpno
,
• wyjtkowa wydajno
i skalowalno
,
• stabilne zabezpieczenia,
POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ
Seria: Studia i Materiały, nr 27, 2010
135
• wiksze moliwoci zarzdzania dziki SQL Server Management Studio.
To sprawia, e technologie Data Mining umoliwiajce analiz predykcyjn mog rozwija
si
wraz z firm i zapewniaj wydajne, skalowalne rozwizanie dopasowane dla dowolnej firmy.
W odpowiedzi na szeroki zakres wymaga biznesowych rónych organizacji, SQL Server Data
Mining oferuje szeroki zestaw funkcji.
Korzyci dodatku Data Mining dla systemu Office 2007
WSZECHSTRONNO
zapewnia szeroki zakres narzdzi
Data
Mining
dostosowanych do wielu potrzeb (Dodatek Data Mining
dla sytemu Office 2007)
Uytkownicy mog:
• analizowa
dane,
• odkrywa
ukryte trendy
oraz relacje midzy produktami, klientami, rynkami,
pracownikami oraz innymi
czynnikami,
• przewidywa
potrzeby,
• poznawa
mechanizmy
działania,
• odnajdowa
ukryty potencjał,
• usprawnia
procesy biznesowe,
• bezporednio wpływa
na
rentowno
firmy.
INTUICYJNO
dostarcza znaczce wgldy dla
kadego uytkownika (znajome
rodowisko Microsoft Office)
Narzdzia Table Analysis dla
Office Excel 2007 szybko dostarczaj czytelne i znaczce wyniki
analiz w trzech prostych krokach:
• definiowanie danych - okrelenie danych i stworzenie w
arkuszu kalkulacyjnym Office
Excel 2007 tabeli definiujcej
dane poddawane analizie,
• identyfikowanie zadania - wybranie odpowiedniego zadania
Data Mining, które ma zosta
wykonane na danych,
• pobieranie wyniku - analiza
danych wyjciowych za pomoc wizualizacji bezporednio w
rodowisku Office Excel 2007.
WSPÓŁPRACA
dzielenie wgldów w obrbie
całej organizacji
Dziki zaawansowanym narzdziom publikacji systemu
Office 2007 mona dzieli
odkrycia i informowa
o decyzjach
biznesowych
w obrbie całej organizacji.
Uytkownicy mog:
• udostpni
wynik analizy
za porednictwem interaktywnych wizualizacji
graficznych w diagramach
Office Visio 2007,
• udostpni
tabele, raporty
oraz diagramy przy pomocy Microsoft Office
SharePoint® Server 2007.
Rysunek 4. Korzyci dodatku Data Mining dla systemu Office 2007
ródło: Opracowanie własne.
136
Eugenia Fronczak, Małgorzata Michalcewicz
Zastosowanie narzdzi eksploracji danych Data Mining
do tworzenia modeli zarzdzania wiedz
Rysunek 5. Data Mining Designer w Business Intelligence Development Studio
ródło: „Analiza predykcyjna z wykorzystaniem SQL Server 2008”, cz. I, Baza Wiedzy Microsoft
TechNet, 27 czerwca 2008 [21].
Technologia ta realizuje nastpujce zadania:
1. analiza koszyka produktów – odkrywa, które elementy s kupowane razem, aby odpowiednio rozmieszcza
produkty na półkach co moe pomóc w zwikszeniu zysków,
2. analiza migracji klientów – przewiduje, którzy klienci rozwaaj anulowanie usługi
i szuka argumentów, które mog ich powstrzyma
przed odejciem,
3. analiza rynku – okrela segmenty rynku, grupujc ze sob podobnych klientów,
4. prognozowanie – przewiduje sprzeda i stan magazynu, pokazuje powizania midzy nimi, dziki czemu przewiduje opónienia i poprawia wydajno
,
5. eksploracja danych – analizuje rentowno
klientów i porównuje klientów preferujcych
róne marki tego samego produktu, w celu odkrywania nowych moliwoci,
6. uczenie bez nadzoru – znajduje nieznane wczeniej relacje midzy rónymi elementami
w firmie w celu wspomagania decyzji,
7. analiza witryny sieci Web – odkrywa sposób korzystania z witryny sieci Web przez uytkowników, wyszukuje podobne wzorce uycia, aby poprawi
funkcjonalno
,
8. analiza kampanii – pozwala zwikszy
zwrot inwestycji w działaniach marketingowych
adresujc je do klientów, którzy przypuszczalnie zareaguj na promocj,
9. jako
danych – wyszukuje i obsługuje anomalia podczas wprowadzania lub ładowania
danych, aby poprawi
jako
informacji,
10. analiza tekstu – analizujc opinie, wyszukuje popularne tematy oraz trendy, które interesuj klientów lub pracowników, w ten sposób wspomaga decyzje przy uyciu danych
nieustrukturyzowanych.
SQL Server 2008 Analysis Services obejmuj technologi Data Mining, która wspiera wiele
bogatych i innowacyjnych algorytmów. Wikszo
z tych algorytmów została zaprojektowana
POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ
Seria: Studia i Materiały, nr 27, 2010
137
z myl o typowych wyzwaniach biznesowych. W technologii SQL Server Data Mining mona
wyróni
nastpujce algorytmy pozwalajce na tworzenie modeli eksploracji:
• Asocjacja (Association),
• Indukcja drzew decyzyjnych (Decision Trees),
• Linear Regression,
• Logistic Regression,
• Clustering,
• Sequence Clustering,
• Time Series,
• Neural Network,
• Naiwny klasyfikator Bayesa (Naive Bayes),
• Text Mining.
Rozwizanie Data Mining SQL Server 2008 udostpnia funkcje analizy predykcyjnej wielu
uytkownikom w obrbie całej korporacji. Zastosowanie w procesie biznesowym takiego inteligentnego i intuicyjnego w obsłudze systemu podejmowania decyzji wpływa na sprawno
i efektywno
operacyjn firm. W przypadku, gdy istnieje potrzeba wbudowania funkcjonalnoci
Data Mining w konkretn aplikacj, zastosowania analizy biznesowej w istniejcym procesie biznesowym lub rozszerzenia technologii Data Mining dla specyficznego problemu biznesowego,
SQL Server oferuje elastyczn i rozszerzaln platform programistyczn. Pozwala ona włcza
predykcj i analizy w specjalistyczne aplikacje biznesowe, a dziki zastosowaniu procedur składowanych Microsoft .NET, algorytmów typu plug-in, niestandardowych wizualizacji oraz jzyka
PMML pozwala rozszerza
standardowe technologie Data Mining w SQL Server 2008 w taki sposób, aby realizowały nietypowe potrzeby biznesowe charakterystyczne dla okrelonej firmy.
6. Podsumowanie
We współczesnych realiach systemy Data Mining staj si coraz istotniejsze dla funkcjonowania przedsibiorstw, gdy umoliwiaj ich decydentom podejmowanie optymalnych decyzji
w dynamicznie zmieniajcym si otoczeniu, w którym potrzeby klientów oraz działania konkurencji wysuwaj si na pierwszy plan. Zaimplementowane w instytucjach zaawansowane modele
predykcyjne, ekonomiczne, odkrywania wzorców na podstawie ogromnych baz danych, oraz narzdzia sztucznej inteligencji sprawiaj, i współczesne organizacje mog odkrywa
dotychczas
nieznan im wiedz oraz twórczo j wykorzystywa
, w celu osignicia jeszcze wikszych korzyci. Jednak naley uwiadomi
sobie, i systemy Data Mining nie s uniwersaln recept na
problemy z jakimi stykaj si decydenci przedsibiorstw, s jedynie kolejnym uytecznym narzdziem, które wspomaga decydenta w procesie podejmowania przez niego decyzji, zwykle
„ilociowych”. Bowiem, w rzeczywistoci społeczno – gospodarczej wiele zjawisk i procesów nie
jest mierzalnych, w sensie ilociowym. Przedsibiorstwa stykaj si równie z problemami jakociowymi, których nie mona rozwiza
za pomoc metod i systemów Data Mining. Ponadto
umysł człowieka jest zawodny i nie jest w stanie ogarn
, ani wysnu
logicznych wniosków ze
zbiorów ogromnych baz danych. Naley pamita
, i jednak człowiek tworzy powysze nowe metody, a nastpnie to włanie człowiek wysnuwa logiczne wnioski na podstawie „wniosków”
komputera. Zatem to nadal umysł człowieka, a nie komputer pełni dominujc rol w kadym
przedsibiorstwie.
138
Eugenia Fronczak, Małgorzata Michalcewicz
Zastosowanie narzdzi eksploracji danych Data Mining
do tworzenia modeli zarzdzania wiedz
Korzyci z wdroenia systemów Data Mining w firmie jest znalezienie pewnych reguł dotyczcych funkcjonowania firmy, moe take pomóc z zarzdzaniu relacjami z otoczeniem firmy.
Wnioski wynikajce z odkrytych zalenoci mog te posłuy
do sformułowania oferty bardziej
odpowiadajcej profilowi obsługiwanych klientów, wyj
naprzeciw ich zapotrzebowaniom.
Omawiana technologia daje moliwo
zdobycia zysków dla firmy bdcych nastpstwem wykrycia nieprawidłowoci albo naduy
. Wiedza pozyskana w procesie eksploracji danych stanowi
jeden z najcenniejszych zasobów i stanowi ródło przewagi konkurencyjnej.
Bibliografia
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
[16]
[17]
[18]
Agrawal R., Imielinski T., Swami A.: “Mining Association Rules Between Sets of
Items in Large Databases”, Proc. ACM SIGMOD Conference, p. 207–216, Washington
DC, USA, May 1993.
Agrawal R., Srikant R.: “Mining sequential patterns”, In Proc. of the 11th International
Conference on Data Engineering, Taipei, Taiwan, 1995.
Cendrowska J.: “PRISM: An algorithm for inducing modular rules”. International
Journal of Man-Machine Studies 27(4), p. 25–32, 1987.
Cios K.J., Pedrycz W., Swiniarsk R.W.: “Data Mining Methods for Knowledge Discovery”, Kluwer Academic Publisher Group, 2000, ISBN 0-387-33333-9.
Everitt B.S., Landau S., Leese M.: “Cluster analysis”, Arnold Publishers, 2001.
Fayyad U., Piatetsky-Shapiro G., Smyth P.: “The KDD Process for Extracting Useful
Knowledge from Volumes of Data”, Comm. of the ACM, Vol. 39, No. 11, November
1996.
Fayyad U., Piatetsky-Shapiro G., Smyth P., Uthurusamy R.: “Advances in Knowledge
Discovery and Data Mining’, AAAI/MIT Press, 1996.
Gawrylczyk A.: „Zastosowanie i znaczenie technologii „data mining” w bankowoci”,
Studenckie Koło Naukowe Economicus 2008.
Gramacki A., Gramacki J.: „Nowa metoda grupowania danych koszyka sklepowego”,
Przegld Telekomunikacyjny, rocznik LXXXI, nr 6/2008.
Han J., Kamber M.: “Data Mining: Concepts and Techniques”. Morgan Kaufmann,
2000.
Koziski M.: „Zamiast kryształowej kuli”, PCKurier 5/2003.
th
Langey P., Iba W., Thompson K.: “An analysis of Bayesian classifiers”. In Proc. of 10
National Conference on Artificial Intelligence, San Jose, CA, AAAI Press, p. 223–228,
1992.
Morawski O.: „Hurtownie danych i systemy wspomagania decyzji”.
Morzy M.: „Eksploracja danych – przegld dostpnych metod i dziedzin zastosowa”.
Ozden B., Ramaswamy S., Silberschatz A.: “Cyclic Association Rules”, In Proc. 1998
International Conference on Data Engineering (ICDE'98), p. 412–421, Orlando, FL,
1998.
Stanisławski W., Szydłowska E.: „Analiza narzdzia Data Mining ORACLE 10g do
klasyfikacji komórek nowotworowych w cytometrycznym systemie skaningowym”,
XII Konferencja PLOUG, Zakopane, Padziernik 2006.
Quinlan J.R.: “Induction of decision trees”. Machine Learning 1(1), p. 81–106.
Quinlan J.R.: C4.5: “Programs for machine learning”. Morgan Kaufman, 1993.
POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ
Seria: Studia i Materiały, nr 27, 2010
[19]
[20]
[21]
[22]
[23]
139
Zakrzewicz M.: "Data Mining i odkrywanie wiedzy w bazach danych", Materialy konf.
Polish Oracle Users Group PLOUG'97, s. 57–67, Zakopane, 1997.
Zakrzewicz M.: “On-Line Data Mining”.
„Analiza predykcyjna z wykorzystaniem SQL Server 2008”, cz. I, Baza Wiedzy Microsoft TechNet, 27 czerwca 2008.
„Analiza predykcyjna z wykorzystaniem SQL Server 2008”, cz. II, Baza Wiedzy
Microsoft TechNet, 27 czerwca 2008.
„Zarzdzanie wiedz w Polsce 2004”, Raport badawczy firmy KPMG, Knowledge
Management 2004.
THE GENERAL-PURPOSE OF EXPLORATION DATA TOOLS “DATA MINING”
TO CREATING MODELS OF KNOWLEDGE MANAGEMENT
Summary
In day of intensive technological progress in enterprises are recorded thousands
the different kind of data. Knowledge contained in huge files of data is hidden under
figure of standards, trends, regularity and peculiar. However because the people and
technics of statistical analysis can’t analyse data, it applies the exploration of data
technics to draw out the conclusions the helping decission processes, prognosis or
prediction with large files of data. The applying of specialized Data Mining tools,
makes possible constructing the model, testing the model and applying the model to
new data. In this article was introduced the application exploration data tools “Data
mining” to creating models of knowledge management.
Keywords: Data Mining, model of knowledge management, exploration data, discovering the new
knowledge
Eugenia Fronczak,
Małgorzata Michalcewicz
Katedra Informatyki w Zarzdzaniu
Wydział Zarzdzania
Uniwersytet Technologiczno-Przyrodniczy im. Jana i Jdrzeja niadeckich w Bydgoszczy
ul. Prof. S. Kaliskiego 7, 85-789 Bydgoszcz
e-mail: [email protected]
[email protected]
Download