ZASTOSOWANIE NARZDZI EKSPLORACJI DANYCH DATA MINING DO TWORZENIA MODELI ZARZDZANIA WIEDZ EUGENIA FRONCZAK MAŁGORZATA MICHALCEWICZ Uniwersytet Technologiczno – Przyrodniczy w Bydgoszczy Streszczenie W dobie intensywnego postpu technologicznego w przedsibiorstwach rejestrowane s tysice rónego rodzaju danych. Wiedza zawarta w ogromnych zbiorach danych jest ukryta pod postaci wzorców, trendów, regularnoci i osobliwoci. Jednak poniewa człowiek i techniki statystycznej analizy danych nie s w stanie ich przeanalizowa stosuje si techniki eksploracji danych, aby z duych zbiorów danych wycign wnioski wspomagajce procesy decyzyjne, prognozy czy przewidywania. Stosowanie wyspecjalizowanych narzdzi Data Mining umoliwia budowanie modeli, testowanie modeli i stosowanie ich do nowych danych. W artykule przedstawiono zastosowanie narzdzi eksploracji danych do tworzenia modeli zarzdzania wiedz. Słowa kluczowe: Data Mining, modele zarzdzania wiedz, eksploracja danych, odkrywanie nowej wiedzy 1. Wprowadzenie Dynamika zmian w gospodarce powoduje, e zarzdzanie wiedz oraz eksploracja danych odgrywa znaczc rol w działalnoci wszystkich przedsibiorstw na rynku. Wiedza w tworzona i stosowane w organizacji jest najcenniejszym zasobem i jedynym ródłem trwałej przewagi konkurencyjnej. Dlatego jednym z najwikszych wyzwa, przed jakim stoj organizacje w Polsce jest tworzenie wizji "zarzdzania wiedz" w realne rozwizania oraz optymalne wykorzystanie posiadanych zasobów intelektualnych i niematerialnych tak, by w sposób trwały przyczyniały si one do tworzenia wartoci dodanej. Data Mining słuy take do zautomatyzowanego odkrywania statystycznych zalenoci i schematów w bardzo duych bazach danych [1], [6], [19]. Odkrywane, wczeniej nieznane zalenoci i schematy, przedstawiane najczciej w formie reguł logicznych, drzew decyzyjnych lub sieci neuronowych mog posiada du warto ekonomiczn i mog by uyte do wspomagania podejmowania decyzji finansowych i marketingowych w przedsibiorstwie. Eksploracja danych (Data Mining) jest obecnie bardzo intensywnie rozwijajc si dziedzin wiedzy. Głównym powodem jest gromadzenie przez ludzi coraz to wikszych iloci danych (np. typowy supermarket rejestruje dziennie dziesitki tysicy operacji sprzeday), które coraz trudniej jest analizowa za pomoc metod znanych z klasycznych baz danych (zapytanie, podsumowanie, zestawienie itp.). Istnieje przekonanie, e gdy ilo danych zaczyna przekracza pewn warto krytyczn, staj si one praktycznie bezwartociowe (szukanie igły w stogu siana). Uytkownicy zaczynaj „ton ” w tym ogromie aby jako rozwiza problem, naley opracowa zupełnie inne metody analizowania zgromadzonych danych [9]. POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ Seria: Studia i Materiały, nr 27, 2010 127 Poniewa współczesne systemy bazodanowe s bardzo wydajne i pojemne, std rzeczywistym problemem jest nie to, jak je gromadzi , ale jak z nich efektywnie korzysta [9]. Eksploracja danych to dziedzina interdyscyplinarna. Czerpie wiedz z systemów baz danych, statystyki, systemów wspomagania decyzji, sztucznej inteligencji, uczenia maszynowego, wizualizacji danych czy przetwarzania równoległego. Sposób prezentacji odkrytej z danych wiedzy nazywa si modelem wiedzy. 2. Data Mining jako nowoczesna technologia okrywania nowej wiedzy Eksploracja danych to „...proces odkrywania nowych, wczeniej nieznanych, potencjalnie uytecznych, zrozumiałych i poprawnych wzorców w bardzo duych wolumenach danych" [7]. Eksploracja danych wykorzystuje róne modele wiedzy do reprezentowania wzorców obecnych w danych. Modele te obejmuj, midzy innymi, reguły asocjacyjne [1], reguły cykliczne i okresowe [15], reguły dyskryminacyjne i charakterystyczne [3], klasyfikatory bayesowskie [12], drzewa decyzyjne [17, 18], wzorce sekwencji [2], skupienia obiektów [5], przebiegi czasowe, osobliwoci i wyjtki. Wiedza odkryta w danych moe by postrzegana jako warto dodana, podnoszca jako danych i znaczco polepszajca jako decyzji podejmowanych na podstawie danych. Zdaniem W. Stanisławskiego i E. Szydłowskiej proces identyfikacji wzorców to odkrywanie wiedzy (Knowledge Discovery). Wzorzec jest tu rozumiany jako zwizki, korelacje, trendy, deskryptory rzadkich zdarze itp. Według autorów eksploracja danych to jedna z faz procesu odkrywania wiedzy, co przedstawia rysunek 1. Rysunek 1. Proces odkrywania wiedzy ródło: Cios K.J., Pedrycz W., Swiniarsk R.W.: “Data Mining Methods for Knowledge Discovery”, Kluwer Academic Publisher Group, 2000, ISBN 0-387-33333-9 [4]. Odkrywanie wiedzy obejmuje cały proces akwizycji wiedzy, poczwszy od selekcji danych ródłowych, poprzez czyszczenie, transformacj, kompresj danych, odkrywanie wzorców, a skoczywszy na ocenie odkrytych wzorców. Na cały proces składaj si [10]: sformułowanie problemu, wybór danych, czyszczenie danych, integracja danych, transformacja danych, eksploracja danych, wizualizacja i ocena odkrytych wzorców, i wreszcie zastosowanie wzorców. Dane w przedsibiorstwie gromadzone s w rónych postaciach baz. Mog to by płaskie pliki, bazy relacyjne, obiektowe. Dane te trzeba odpowiednio przygotowa . Najlepszymi danymi do procesu eksploracji s dane pochodzce z hurtowni danych. Poza tym dane, które s wynikiem analizy mona przedstawi za pomoc narzdzi wizualizacji. W procesie eksploracji mona wyróni trzy etapy, które przedstawia rysunek 2. 128 Eugenia Fronczak, Małgorzata Michalcewicz Zastosowanie narzdzi eksploracji danych Data Mining do tworzenia modeli zarzdzania wiedz ETAPY PROCESU EKSPLORACJI 1. 2. 3. OPISANIE DANYCH ZBUDOWANIE I TESTOWANIE PREDYKCYJNEGO MODELU DOWIADCZALNA WERYFIKACJA MODELU na podstawie statystycznych analiz i wykresów mona zauway podstawowe właciwoci danych na podstawie danych tworzony jest model opierajcy si na poznanych wzorach danych, nastpnie taki model jest sprawdzany na innym zbiorze. Dobrze zbudowany model nie powinien si myli , a jego wyniki musz w duym stopniu pokrywa si z rzeczywistymi wartociami dla zaprojektowanego modelu wykonywana jest dowiadczalna weryfikacja w celu upewnienia si czy mona polega na prognozach takiego modelu Rysunek 2. Etapy procesu eksploracji ródło: Opracowanie własne. Wród metod eksploracji danych mona wyróni wiele technik, które przedstawia ponisza tabela 1. Tabela 1. Podział metod eksploracji danych PODZIAŁ METOD EKSPLORACJI DANYCH Podział ze wzgldu na zbiór danych wejcioPodział ze wzgldu na wyniki analizy wych Techniki uczenia bez Techniki uczenia nadnadzoru zorowanego (unsupervised Techniki deskrypcyjne (supervised learning) Techniki predykcyjne learning) (segmentacji) (uczenie (uczenie bez z nauczycielem) nauczyciela) dane wejciowe stanowi pewien zbiór algorytm odkrywania wykorzystuj poznane uczcy, gdzie dla okrena podstawie znaleziowiedzy nie dysponuwzorce do opisywania lonego zestawu nych wzorców dokonuj je zbiorem uczcym, danych i uchwycenia wartoci atrybutów przewidywa i uogólalgorytm eksploracji ogólnych cech opisywapoznawane s wartoci nie wartoci danych stara si nych obiektów, zawieraj atrybutu wyjciowego, nieznanych atrybutów, sformułowa model si tu przede wszystkim podczas tworzenia zachowa, cech nowego najlepiej pasujcy do zagadnienia grupowania zbioru uczcego musi obiektu obserwowanych daby znane prawdziwe nych przypisanie kadego obiektu do klasy POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ Seria: Studia i Materiały, nr 27, 2010 Przykłady zastosowania - maj zastosowanie tam, gdzie istotne jest oszacowanie cechy wyjciowej, - na podstawie dotychczasowych relacji z klientem pozwalaj przewidzie przyszłe zdarzenia, - pozwalaj na ocen ryzyka ubezpieczeniowego zwizanego z klientem, - pozwalaj na oszacowanie prawdopodobiestwa przejcia klienta do konkurencyjnego usługodawcy. - wykorzystywane w celu zaklasyfikowania klientów o podobnych zachowaniach i cechach do odrbnych grup, - pozwalaj na odkrywanie grup podobnych klientów, - pozwalaj na znajdowanie zbiorów produktów czsto kupowanych razem, - umoliwiaj identyfikacj osobliwoci wystpujcych w danych. 129 Przykłady technik uczenia - techniki klasyfikacji (drzewa decyzyjne, algorytmy bazujce na n najbliszych ssiadach, sieci neuronowe, statystyka bayesowska), - techniki regresji. - techniki analizy skupie (clustering), - samoorganizujce si mapy, - algorytmy maksymalizacji wartoci oczekiwanej (expectationmaximization). ródło: Opracowanie własne. 3. Wady Data Mining Analiza danych nie jest prostym zagadnieniem, dlatego podczas tego procesu pojawiaj si róne problemy: 1. Ogromne rozmiary danych – Problem złoonoci czasowej i poszukiwania zalenoci midzy wartociami atrybutów wymaga stosowania metod heurystycznych lub zmniejszania obszaru poszukiwa. Zmniejszanie obszaru poszukiwa moe by wykonywane horyzontalnie(poprzez przeprowadzenie dyskretyzacji wartoci cech) lub w płaszczynie pionowej (poprzez usuwanie nadmiernych cech). 2. Wiedza analityczna – Do przeprowadzenia projektu Data Mining niezbdne jest odpowiednie przygotowanie analityczne, a take dodatkowo znajomo zagadnie biznesowych oraz zdolno przełoenia problemów biznesowych na właciwe techniki analityczne. Jednak najlepsze rezultaty stosowania technologii Data Miting mona osign poprzez wyjcie od problemów biznesowych. 3. Dobrze wykwalifikowani specjalici – Osoba rozumiejca problem biznesowy powinna take rozumie , w jaki sposób dostpne techniki analityczne i zastosowane narzdzie rozwizuje ten problem (w celu uniknicia pułapek). Dlatego projekt Data Mining prowadzony jest zwykle przez zaawansowanych analityków. Poza tym taki projekt wymaga take zaangaowania uytkowników biznesowych (menederów, doradców), którzy rozumiej rozwaany problem i analizowane dane oraz ludzi, którzy rozumiej wykonywane analizy. 4. Wysokie koszty – Wdraanie systemów Data Mining wie si nie tylko z duymi kosztami, ale take z reorganizacj całego lub czci przedsibiorstwa. Systemy te nie zawsze 130 Eugenia Fronczak, Małgorzata Michalcewicz Zastosowanie narzdzi eksploracji danych Data Mining do tworzenia modeli zarzdzania wiedz 5. 6. 7. 8. ułatwi proces zarzdzania i funkcjonowania firmy, a przy nieumiejtnym jego wdraaniu mog go jeszcze bardziej utrudni . Problem integracji odkrywanej wiedzy z istniejc wiedz. Dynamiczna natura danych – W bazach danych cigle s dodawane nowe elementy, a istniejce s modyfikowane, włanie dlatego narzdzia Data Mining musz by cały czas rozwijane, a dostarczona wiedza powinna by aktualizowana. Brak inteligentnego systemu zapyta – Brakuje inteligentnego jzyka zapyta (komunikacja) z systemami Data Mining. Zdarza si, e system Data Mining dedykowany do eksploracji danych nie potrafi zintegrowa posiadanych ju narzdzi do analizy i wizualizacji danych. Błdy niesystematyczne i brakujce wartoci – Podczas analizy danych pojawiaj si błdy niesystematyczne (szumy). Ze wzgldu na ten problem metody analizy nie powinny by zbyt wraliwe na tego typu zachowania, aby dochodziło do zakłócania reguł. Taki problem pojawia si równie w przypadku brakujcych wartoci. 4. Zalety Data Mining Do głównych korzyci z wdroenia systemów Data Mining zaliczaj si: • usprawnienie sterowania procesem i podejmowania decyzji, • odkrywanie ukrytej wiedzy zawartej w duych zbiorach danych, • nieobcianie komunikacj z zewntrznymi narzdziami analitycznymi, • przewidywanie przyszłych przedsiwzi , • prosta obsługa duych zbiorów danych, • porównanie wielu modeli i szybki wybór najlepszego z nich • odkrywanie wiedzy z rónorodnych baz danych i rónych typów z danych, • poprawa ogólnej sprawnoci firmy, • zastosowanie w wielu dziedzinach: projektowanie i doskonalenie produktu, analiza danych na temat klientów zgromadzonych w systemach transakcyjnych i hurtowniach danych, znajdowanie wzorców zachowa, sugerujcych np. skłonno do zakupu pewnego rodzaju produktu. Wprowadzenie systemów Data Mining pozwala wykonywa kiedy niemoliwe do zrealizowania analizy biznesowe i tworzy niezawodny fundament do efektywnego podejmowania decyzji i trafnego prognozowania wskazujcego drog do sukcesu. Jednak wikszo korzyci z wdroenia systemów Data Mining jest niemierzalna. Próbuje si oceni skuteczno negocjacji wspartych systemem, ale problemem s tu punkty odniesienia - wzrost sprzeday czy przychodów nie musi by zwizany z wprowadzeniem systemu, ale spowodowany czynnikami zewntrznymi, np. wzrostem popytu, zmianami preferencji klientów. Bardzo trudne jest te przeliczenie na zysk osiganych celów strategicznych firmy. Z perspektywy zarzdu koszt systemu wspomagania decyzji i wskanik zwrotu z inwestycji mog mie drugorzdne znaczenie przy podejmowaniu decyzji o wdroeniu w firmie tego rozwizania [11]. 5. Narzdzia Data Mining Narzdzia Data Mining to zaawansowane narzdzia drenia i eksploracji danych słuce do automatycznego znajdowania zwizków midzy danymi. Narzdzia tej klasy wykorzystuj wiele wyrafinowanych technik takich jak na przykład sieci neuronowe, drzewa decyzyjne, sieci Bayesa, POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ Seria: Studia i Materiały, nr 27, 2010 131 algorytmy genetyczne, clustering czy regresja. Narzdzia tej klasy s wykorzystywane przez analityków midzy innymi do segmentacji bazy klientów, prognozowania, pozycjonowania produktu na rynku, a take do wykrywania oszustw w czasie rzeczywistym. [13] Do najbardziej popularnych pakietów programowych oferujcych metody Data Mining nale: • Oracle Data Mining (ODM), • SQL Server Data Mining Business Inteligence, • Statistica Data Miner, • SAS Enterprise Miner, • IBM Inteligent Miner for Data. Oracle Data Mining (ODM) Zdaniem W. Stanisławskiego i E. Szydłowskiej baz danych Oracle charakteryzuje połczenie procesu odkrywania wiedzy z systemem zarzdzania baz danych, posiada ona take szereg funkcji umoliwiajcych rozbudowane analizy danych. Moliwa jest dziki temu realizacja w jednym systemie baz danych rónych procesów takich jak: przygotowywanie danych, ich transformacja, generowanie oraz wykorzystywanie modeli. Daje to take due moliwoci programistom, poprzez połczenie technik eksploracji z aplikacjami bazodanowymi. Oracle Data Mining (ODM) jest komponentem oferujcym analizy danych jest. W jego skład wchodz trzy elementy: • Data Mining Engine (DME) – zapewnia infrastruktur, zawierajc zestaw usług Data Mining udostpnianych dla klientów API, • interfejs aplikacji (API) – umoliwia dostp do funkcji i algorytmów zaimplementowanych w DME, • reporytozium metadanych – wykorzystywane poprzez DME do udostpniania obiektów wygenerowanych w trakcie analiz [16]. W interfejsie aplikacji mona wyodrbni trzy czci. Kada z nich skierowana jest do innego typu uytkownika. a) Oracle Data Mining Predictive Analytics (PA) zawiera dwa programy: przewidywanie (ang. Predict) oraz wyjanianie (ang. Explain). W przewidywaniu wykorzystywane s algorytmy klasyfikacji i regresji, a w wyjanianiu algorytm wanoci atrybutów. Programy s w pełni zautomatyzowane, od uytkownika wymagane jest tylko odpowiednie sformatowanie danych wejciowych. Program przewidywania skierowany dla uytkowników których głównym celem jest uzyskanie w krótkim czasie rzetelnych wyników np, dyrektorów marketingu. b) Drugi interfejs jest skierowany do programistów, dostpny jest w dwóch jzykach: Java i PL/SQL. Oba API s ze sob kompatybilne i mona budowa modele z wykorzystaniem skryptów PL/SQL, a testowa przy uyciu aplikacji Javy, pozwala on take na wdraanie wbudowanych algorytmów do aplikacji klienckich. c) Oracle Data Miner to narzdzie graficzne, pozwalajce na realizacj zada eksploracji oraz wizualn reprezentacj wyników. Przeznaczone jest ono dla analityków biznesowych, którzy orientuj si w badanych zagadnieniach i potrafi dobra algorytm stosownie do posiadanych danych i oczekiwanych wyników. Wykorzystywane jest take 132 Eugenia Fronczak, Małgorzata Michalcewicz Zastosowanie narzdzi eksploracji danych Data Mining do tworzenia modeli zarzdzania wiedz przez programistów do wyboru kierunku rozwoju aplikacji poprzez wstpn analiz danych, tworzenie przykładowych modeli oraz wizualne sprawdzanie ich efektywnoci. Zaimplementowane algorytmy pozwalajce na tworzenie modeli eksploracji w ODM podzielono na dwie grupy zaprezentowane w tabeli 2. Tabela 2. Algorytmy pozwalajce na tworzenie modeli eksploracji w ODM Algorytmy z nauczycielem Algorytmy bez nauczyciela klasyfikacja - naiwny klasyfikator Bayesa (Naive Bayes) - adaptacyjna sie Bayes (Adaptive Bayes Network) - SVM (Suport Victor Machine) - indukcja drzew decyzyjnych (Decision Tree) analiza skupie - algorytm k-rednich (k-Means) - O-Cluster regresja - SVM (Suport Victor Machine) reguły asocjacji -apriori wano atrybutów - minimalna długo opisu (Minimum description Length) ekstrakcja cech -NMF (Non-Negative Matrix nFactorization) ródło: Opracowanie własne. SQL Server Data Mining SQL Server naley do rodziny technologii Business Intelligence, której wszystkie elementy współpracuj ze sob w celu dostarczenia wszechstronnej platformy umoliwiajcej organizacjom stosowanie analizy predykcyjnej na kadym etapie cyklu ycia danych. [22] Microsoft® SQL Server® 2008 oferuje analiz predykcyjn za porednictwem pełnego i intuicyjnego zestawu narzdzi Data Mining. Głboka integracja z platform Microsoft Business Intelligence umoliwia dostp do danych w kadym momencie, elastyczna platforma pozwala umieszczenie funkcji predykcji w dowolnej aplikacji. [21] Firma Microsoft zmierzajc do stworzenia kompleksowej platformy Business Intelligence (BI), która moe by integrowana z codziennymi działaniami firmy i efektywnie wykorzystywana przez pracowników w całej organizacji, nie tylko przez garstk wyspecjalizowanych analityków przedefiniowała moliwoci raportowania i analizy w Microsoft® SQL Server®. Dziki temu Business Intelligence uwaana do tej pory za zbyt kosztowne lub skomplikowane pod wzgldem implementacji rozwizanie, teraz korzysta z kompleksowych moliwoci tworzenia, renderowania i dostarczania raportów przy pomocy usług SQL Server Reporting Services oraz z bogatej funkcjonalnoci przetwarzania analitycznego online (OLAP) dostarczanej przez usługi SQL Server Analysis Services. cisła integracja midzy takimi produktami Business Inteligence a wszechobecnym systemem Microsoft Office umoliwiła masowy dostp do analizy biznesowej. Aby poprawi sprawno i efektywno operacyjn firm naley wykorzysta analiz predykcyjn danych biznesowych i stosowa w procesach biznesowych inteligentny system podejmowania decyzji. Osignicie tego celu jest moliwe poprzez wykorzystanie funkcjonalnych algorytmów Data Mining. Algorytmy te zapewniaj ogromne moliwoci w zakresie analizowania zbiorów danych, porównywania nowych danych z faktami i zachowaniami historycznymi, identyfikowania klasyfikacji oraz relacji midzy jednostkami i atrybutami biznesowymi oraz POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ Seria: Studia i Materiały, nr 27, 2010 133 udostpniania trafnych wgldów predykcyjnych we wszystkich systemach i dla wszystkich uytkowników podejmujcych decyzje biznesowe. Wychodzc naprzeciw przekonaniu, e Data Mining to specjalistyczna, skomplikowana i kosztowna technologia firma Microsoft zaoferowała rozwizanie, w którym wszechstronne technologie Data Mining zostały dołczone do usług SQL Server Analysis Services przy jednoczesnym zapewnieniu bezporedniej integracji z systemem Microsoft Office 2007. Takie rozwizanie w połczeniu z korporacyjnymi moliwoci SQL Server Analysis Services zapewnia wszystkim dostp do bogatych funkcji oraz analiz Data Mining, które stanowi klucz do sukcesu. Dziki cisłej integracji technologii Data Mining w SQL Server 2008 z systemem Office 2007, uniwersalnemu rodowisku programistycznemu, korporacyjnym moliwociom oraz rozszerzalnemu zestawowi bogatych i innowacyjnych algorytmów Data Mining uwzgldniajcych typowe problemy biznesowe moliwe jest stosowanie technologii Data Mining w sposób intuicyjny i samoobsługowy, co pozwala firmom sprawnie ocenia sytuacj. Analiza predykcyjna kiedy była stosowana tylko przez pracowników - ekspertów w dziedzinie statystyki. Technologia Data Mining w SQLServer 2008 oferuje kompleksowa analiz predykcyjn, która udostpnia analizy oraz predykcje wielu uytkownikom. Dodatek Microsoft SQL Server 2008 Data Mining dla Office 2007, pokazany na rysunku 3, umoliwia pracownikom korzystajcym z informacji zastosowanie zaawansowanej technologii Data Mining w znanym rodowisku arkuszy kalkulacyjnych. Dziki temu uytkownicy mog w łatwy sposób uzyskiwa rzetelne informacje, które zapewniaj natychmiastowe i znaczce wskazówki pomocne w podejmowaniu codziennych decyzji. Narzdzia Table Analysis dla Microsoft Office Excel® 2007 ukrywaj złoono technologii Data Mining za intuicyjnymi zadaniami, dostarczajc mechanizmy, które pozwalaj uytkownikom w łatwy i niemal niezauwaalny sposób przechodzi midzy analiz a odkrywaniem wiedzy. Komponent kliencki Data Mining dla Office Excel 2007 oferuje dostp do pełnego procesu tworzenia rozwizania Data Mining, który zapewnia zaawansowanym uytkownikom wicej informacji, sprawdzanie poprawnoci i du kontrol. Co wicej, szablony Data Mining dla aplikacji Visio umoliwiaj uytkownikom renderowanie opatrzonych adnotacjami wizualizacji graficznych modeli Data Mining. Generalnie integracja funkcji SQL Server 2008 Data Mining z systemem Office 2007 tworzy kompleksowy, intuicyjny ekosystem biznesowy z funkcj pracy zespołowej, który upowszechnia dostp do analizy predykcyjnej i pomaga w dostarczaniu informacji wspierajcych podejmowanie decyzji biznesowych w całej organizacji. [21] 134 Eugenia Fronczak, Małgorzata Michalcewicz Zastosowanie narzdzi eksploracji danych Data Mining do tworzenia modeli zarzdzania wiedz Rysunek 3. Dodatek Data Mining dla programu Microsoft Office Excel 2007 ródło: „Analiza predykcyjna z wykorzystaniem SQL Server 2008”, cz. I, Baza Wiedzy Microsoft TechNet, 27 czerwca 2008 [21]. Dodatek Data Mining dla systemu Office 2007 oferuje wiele korzyci, które przedstawia rysunek 4. System Office 2007 stanowi idealne narzdzie dla pracowników wykorzystujcych informacje, ale programici BI, którzy rozwijaj rozwizania na skal korporacyjn, najczciej wybieraj SQL Server Business Intelligence Development Studio, poniewa oferuje ono rodowisko bazujce na projektach, uzupełnione funkcjonalnoci debugowania i integracj z systemem kontroli ródła, co pozwala na tworzenie kompleksowych rozwiza BI. Oczywicie masowe rozpowszechnianie funkcji Data Mining jest uyteczne tylko wtedy, gdy programici mog budowa rozwizania Data Mining, które szybko i z łatwoci realizuj okrelone wymagania biznesowe. SQL Server Business Intelligence Development Studio stanowi uniwersalne rodowisko programistyczne bazujce na systemie programistycznym Microsoft Visual Studio®. Przy uyciu Business Intelligence Development Studio programici mog tworzy struktury Data Mining okrelajce tabele i kolumny, które maj zosta uwzgldnione podczas analizy, a take mog dodawa wiele modeli Data Mining, które stosuj algorytmy Data Mining na danych w tych tabelach. Szablon projektu Analysis Services w Business Intelligence Development Studio, pokazany na rysunku 5, zawiera intuicyjne narzdzie Data Mining Designer słuce do tworzenia i wywietlania modeli Data Mining. Dostarcza równie funkcje Cross-validation, Lift chart oraz Profit chart, które słu do porównywania i kontrastowania jakoci modeli w sposób wizualny i przy pomocy statystycznych ocen błdów oraz trafnoci przed wdroeniem tych modeli. [21] SQL Server Analysis Services oferuje wiele korzyci: • szybki rozwój, • wysoka dostpno , • wyjtkowa wydajno i skalowalno , • stabilne zabezpieczenia, POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ Seria: Studia i Materiały, nr 27, 2010 135 • wiksze moliwoci zarzdzania dziki SQL Server Management Studio. To sprawia, e technologie Data Mining umoliwiajce analiz predykcyjn mog rozwija si wraz z firm i zapewniaj wydajne, skalowalne rozwizanie dopasowane dla dowolnej firmy. W odpowiedzi na szeroki zakres wymaga biznesowych rónych organizacji, SQL Server Data Mining oferuje szeroki zestaw funkcji. Korzyci dodatku Data Mining dla systemu Office 2007 WSZECHSTRONNO zapewnia szeroki zakres narzdzi Data Mining dostosowanych do wielu potrzeb (Dodatek Data Mining dla sytemu Office 2007) Uytkownicy mog: • analizowa dane, • odkrywa ukryte trendy oraz relacje midzy produktami, klientami, rynkami, pracownikami oraz innymi czynnikami, • przewidywa potrzeby, • poznawa mechanizmy działania, • odnajdowa ukryty potencjał, • usprawnia procesy biznesowe, • bezporednio wpływa na rentowno firmy. INTUICYJNO dostarcza znaczce wgldy dla kadego uytkownika (znajome rodowisko Microsoft Office) Narzdzia Table Analysis dla Office Excel 2007 szybko dostarczaj czytelne i znaczce wyniki analiz w trzech prostych krokach: • definiowanie danych - okrelenie danych i stworzenie w arkuszu kalkulacyjnym Office Excel 2007 tabeli definiujcej dane poddawane analizie, • identyfikowanie zadania - wybranie odpowiedniego zadania Data Mining, które ma zosta wykonane na danych, • pobieranie wyniku - analiza danych wyjciowych za pomoc wizualizacji bezporednio w rodowisku Office Excel 2007. WSPÓŁPRACA dzielenie wgldów w obrbie całej organizacji Dziki zaawansowanym narzdziom publikacji systemu Office 2007 mona dzieli odkrycia i informowa o decyzjach biznesowych w obrbie całej organizacji. Uytkownicy mog: • udostpni wynik analizy za porednictwem interaktywnych wizualizacji graficznych w diagramach Office Visio 2007, • udostpni tabele, raporty oraz diagramy przy pomocy Microsoft Office SharePoint® Server 2007. Rysunek 4. Korzyci dodatku Data Mining dla systemu Office 2007 ródło: Opracowanie własne. 136 Eugenia Fronczak, Małgorzata Michalcewicz Zastosowanie narzdzi eksploracji danych Data Mining do tworzenia modeli zarzdzania wiedz Rysunek 5. Data Mining Designer w Business Intelligence Development Studio ródło: „Analiza predykcyjna z wykorzystaniem SQL Server 2008”, cz. I, Baza Wiedzy Microsoft TechNet, 27 czerwca 2008 [21]. Technologia ta realizuje nastpujce zadania: 1. analiza koszyka produktów – odkrywa, które elementy s kupowane razem, aby odpowiednio rozmieszcza produkty na półkach co moe pomóc w zwikszeniu zysków, 2. analiza migracji klientów – przewiduje, którzy klienci rozwaaj anulowanie usługi i szuka argumentów, które mog ich powstrzyma przed odejciem, 3. analiza rynku – okrela segmenty rynku, grupujc ze sob podobnych klientów, 4. prognozowanie – przewiduje sprzeda i stan magazynu, pokazuje powizania midzy nimi, dziki czemu przewiduje opónienia i poprawia wydajno , 5. eksploracja danych – analizuje rentowno klientów i porównuje klientów preferujcych róne marki tego samego produktu, w celu odkrywania nowych moliwoci, 6. uczenie bez nadzoru – znajduje nieznane wczeniej relacje midzy rónymi elementami w firmie w celu wspomagania decyzji, 7. analiza witryny sieci Web – odkrywa sposób korzystania z witryny sieci Web przez uytkowników, wyszukuje podobne wzorce uycia, aby poprawi funkcjonalno , 8. analiza kampanii – pozwala zwikszy zwrot inwestycji w działaniach marketingowych adresujc je do klientów, którzy przypuszczalnie zareaguj na promocj, 9. jako danych – wyszukuje i obsługuje anomalia podczas wprowadzania lub ładowania danych, aby poprawi jako informacji, 10. analiza tekstu – analizujc opinie, wyszukuje popularne tematy oraz trendy, które interesuj klientów lub pracowników, w ten sposób wspomaga decyzje przy uyciu danych nieustrukturyzowanych. SQL Server 2008 Analysis Services obejmuj technologi Data Mining, która wspiera wiele bogatych i innowacyjnych algorytmów. Wikszo z tych algorytmów została zaprojektowana POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ Seria: Studia i Materiały, nr 27, 2010 137 z myl o typowych wyzwaniach biznesowych. W technologii SQL Server Data Mining mona wyróni nastpujce algorytmy pozwalajce na tworzenie modeli eksploracji: • Asocjacja (Association), • Indukcja drzew decyzyjnych (Decision Trees), • Linear Regression, • Logistic Regression, • Clustering, • Sequence Clustering, • Time Series, • Neural Network, • Naiwny klasyfikator Bayesa (Naive Bayes), • Text Mining. Rozwizanie Data Mining SQL Server 2008 udostpnia funkcje analizy predykcyjnej wielu uytkownikom w obrbie całej korporacji. Zastosowanie w procesie biznesowym takiego inteligentnego i intuicyjnego w obsłudze systemu podejmowania decyzji wpływa na sprawno i efektywno operacyjn firm. W przypadku, gdy istnieje potrzeba wbudowania funkcjonalnoci Data Mining w konkretn aplikacj, zastosowania analizy biznesowej w istniejcym procesie biznesowym lub rozszerzenia technologii Data Mining dla specyficznego problemu biznesowego, SQL Server oferuje elastyczn i rozszerzaln platform programistyczn. Pozwala ona włcza predykcj i analizy w specjalistyczne aplikacje biznesowe, a dziki zastosowaniu procedur składowanych Microsoft .NET, algorytmów typu plug-in, niestandardowych wizualizacji oraz jzyka PMML pozwala rozszerza standardowe technologie Data Mining w SQL Server 2008 w taki sposób, aby realizowały nietypowe potrzeby biznesowe charakterystyczne dla okrelonej firmy. 6. Podsumowanie We współczesnych realiach systemy Data Mining staj si coraz istotniejsze dla funkcjonowania przedsibiorstw, gdy umoliwiaj ich decydentom podejmowanie optymalnych decyzji w dynamicznie zmieniajcym si otoczeniu, w którym potrzeby klientów oraz działania konkurencji wysuwaj si na pierwszy plan. Zaimplementowane w instytucjach zaawansowane modele predykcyjne, ekonomiczne, odkrywania wzorców na podstawie ogromnych baz danych, oraz narzdzia sztucznej inteligencji sprawiaj, i współczesne organizacje mog odkrywa dotychczas nieznan im wiedz oraz twórczo j wykorzystywa , w celu osignicia jeszcze wikszych korzyci. Jednak naley uwiadomi sobie, i systemy Data Mining nie s uniwersaln recept na problemy z jakimi stykaj si decydenci przedsibiorstw, s jedynie kolejnym uytecznym narzdziem, które wspomaga decydenta w procesie podejmowania przez niego decyzji, zwykle „ilociowych”. Bowiem, w rzeczywistoci społeczno – gospodarczej wiele zjawisk i procesów nie jest mierzalnych, w sensie ilociowym. Przedsibiorstwa stykaj si równie z problemami jakociowymi, których nie mona rozwiza za pomoc metod i systemów Data Mining. Ponadto umysł człowieka jest zawodny i nie jest w stanie ogarn , ani wysnu logicznych wniosków ze zbiorów ogromnych baz danych. Naley pamita , i jednak człowiek tworzy powysze nowe metody, a nastpnie to włanie człowiek wysnuwa logiczne wnioski na podstawie „wniosków” komputera. Zatem to nadal umysł człowieka, a nie komputer pełni dominujc rol w kadym przedsibiorstwie. 138 Eugenia Fronczak, Małgorzata Michalcewicz Zastosowanie narzdzi eksploracji danych Data Mining do tworzenia modeli zarzdzania wiedz Korzyci z wdroenia systemów Data Mining w firmie jest znalezienie pewnych reguł dotyczcych funkcjonowania firmy, moe take pomóc z zarzdzaniu relacjami z otoczeniem firmy. Wnioski wynikajce z odkrytych zalenoci mog te posłuy do sformułowania oferty bardziej odpowiadajcej profilowi obsługiwanych klientów, wyj naprzeciw ich zapotrzebowaniom. Omawiana technologia daje moliwo zdobycia zysków dla firmy bdcych nastpstwem wykrycia nieprawidłowoci albo naduy . Wiedza pozyskana w procesie eksploracji danych stanowi jeden z najcenniejszych zasobów i stanowi ródło przewagi konkurencyjnej. Bibliografia [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] Agrawal R., Imielinski T., Swami A.: “Mining Association Rules Between Sets of Items in Large Databases”, Proc. ACM SIGMOD Conference, p. 207–216, Washington DC, USA, May 1993. Agrawal R., Srikant R.: “Mining sequential patterns”, In Proc. of the 11th International Conference on Data Engineering, Taipei, Taiwan, 1995. Cendrowska J.: “PRISM: An algorithm for inducing modular rules”. International Journal of Man-Machine Studies 27(4), p. 25–32, 1987. Cios K.J., Pedrycz W., Swiniarsk R.W.: “Data Mining Methods for Knowledge Discovery”, Kluwer Academic Publisher Group, 2000, ISBN 0-387-33333-9. Everitt B.S., Landau S., Leese M.: “Cluster analysis”, Arnold Publishers, 2001. Fayyad U., Piatetsky-Shapiro G., Smyth P.: “The KDD Process for Extracting Useful Knowledge from Volumes of Data”, Comm. of the ACM, Vol. 39, No. 11, November 1996. Fayyad U., Piatetsky-Shapiro G., Smyth P., Uthurusamy R.: “Advances in Knowledge Discovery and Data Mining’, AAAI/MIT Press, 1996. Gawrylczyk A.: „Zastosowanie i znaczenie technologii „data mining” w bankowoci”, Studenckie Koło Naukowe Economicus 2008. Gramacki A., Gramacki J.: „Nowa metoda grupowania danych koszyka sklepowego”, Przegld Telekomunikacyjny, rocznik LXXXI, nr 6/2008. Han J., Kamber M.: “Data Mining: Concepts and Techniques”. Morgan Kaufmann, 2000. Koziski M.: „Zamiast kryształowej kuli”, PCKurier 5/2003. th Langey P., Iba W., Thompson K.: “An analysis of Bayesian classifiers”. In Proc. of 10 National Conference on Artificial Intelligence, San Jose, CA, AAAI Press, p. 223–228, 1992. Morawski O.: „Hurtownie danych i systemy wspomagania decyzji”. Morzy M.: „Eksploracja danych – przegld dostpnych metod i dziedzin zastosowa”. Ozden B., Ramaswamy S., Silberschatz A.: “Cyclic Association Rules”, In Proc. 1998 International Conference on Data Engineering (ICDE'98), p. 412–421, Orlando, FL, 1998. Stanisławski W., Szydłowska E.: „Analiza narzdzia Data Mining ORACLE 10g do klasyfikacji komórek nowotworowych w cytometrycznym systemie skaningowym”, XII Konferencja PLOUG, Zakopane, Padziernik 2006. Quinlan J.R.: “Induction of decision trees”. Machine Learning 1(1), p. 81–106. Quinlan J.R.: C4.5: “Programs for machine learning”. Morgan Kaufman, 1993. POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ Seria: Studia i Materiały, nr 27, 2010 [19] [20] [21] [22] [23] 139 Zakrzewicz M.: "Data Mining i odkrywanie wiedzy w bazach danych", Materialy konf. Polish Oracle Users Group PLOUG'97, s. 57–67, Zakopane, 1997. Zakrzewicz M.: “On-Line Data Mining”. „Analiza predykcyjna z wykorzystaniem SQL Server 2008”, cz. I, Baza Wiedzy Microsoft TechNet, 27 czerwca 2008. „Analiza predykcyjna z wykorzystaniem SQL Server 2008”, cz. II, Baza Wiedzy Microsoft TechNet, 27 czerwca 2008. „Zarzdzanie wiedz w Polsce 2004”, Raport badawczy firmy KPMG, Knowledge Management 2004. THE GENERAL-PURPOSE OF EXPLORATION DATA TOOLS “DATA MINING” TO CREATING MODELS OF KNOWLEDGE MANAGEMENT Summary In day of intensive technological progress in enterprises are recorded thousands the different kind of data. Knowledge contained in huge files of data is hidden under figure of standards, trends, regularity and peculiar. However because the people and technics of statistical analysis can’t analyse data, it applies the exploration of data technics to draw out the conclusions the helping decission processes, prognosis or prediction with large files of data. The applying of specialized Data Mining tools, makes possible constructing the model, testing the model and applying the model to new data. In this article was introduced the application exploration data tools “Data mining” to creating models of knowledge management. Keywords: Data Mining, model of knowledge management, exploration data, discovering the new knowledge Eugenia Fronczak, Małgorzata Michalcewicz Katedra Informatyki w Zarzdzaniu Wydział Zarzdzania Uniwersytet Technologiczno-Przyrodniczy im. Jana i Jdrzeja niadeckich w Bydgoszczy ul. Prof. S. Kaliskiego 7, 85-789 Bydgoszcz e-mail: [email protected] [email protected]