TECHNIKI „ODKRYWANIA WIEDZY” (DATA MINING) ORAZ ICH ZASTOSOWANIA MICHAŁ GULCZY SKI Instytut Systemów Informatycznych, WI Politechnika Szczeciska Streszczenie Ilo danych gromadzonych współczenie w bazach danych przedsibiorstw ronie w wielkim tempie. Due iloci danych kryj za w sobie interesujce prawidłowoci i wzorce, które opisuj na przykład preferencje klientów, pozwalaj dostrzec pewne wzorce ich zachowa. Ich poznanie moe by kluczem do sukcesu dla niejednej firmy. Technologi umoliwiajc poznanie tych wzorców i przepowiadanie trendów jest eksploracja wiedzy (ang. data mining). W artykule tym przedstawiono podstawowe technologie data mining oraz ich zastosowania. 1. WstĊp Data minning jest obecnie jedn z najintensywniej rozwijanych dziedzin. Przyczyny s proste. Ilo informacji w wiecie ronie w tempie wykładniczym i powoli staje si niemoliwym efektywne zarzdzanie nimi przy uyciu tradycyjnych systemów bazodanowych. Niezbdne staje si wsparcie ze strony systemów informatycznych, ale trudno ley w zaprojektowaniu systemów, które s zdolne odkrywa uyteczne informacje z minimaln interwencj uytkownika. Data mining, zwane równie „odkrywaniem wiedzy w bazach danych”, definiuje si jako wydobywanie danych z ukrytej, wczeniej nieznanej i potencjalnie uytecznej informacji [1]. Wykorzystuje systemy ekspertowe, techniki statystyczne i wizualizacj danych w celu odkrycia wiedzy i prezentacji jej w sposób łatwo zrozumiały dla człowieka. Techniki data mining przeszukuj bazy danych w poszukiwaniu ukrytych wzorców, których istnienia uytkownik moe nie by wiadom. Celem artykułu jest przedstawienie zastosowa oraz wprowadzenie do podstawowych technologii data mining. 2. Przykład wykorzystania technik data mining Rozwamy przykład supermarketu, w którym w kasach uywane s czytniki kodów paskowych. System komputerowy, do którego podłczone s kasy, ma za zadanie zidentyfikowa nazw i cen kadego skanowanego produktu oraz zaktualizowa stany magazynowe tak, aby zawarto półek mogła by uzupełniona we właciwym czasie. Wikszo tych danych moe by usunita wkrótce po ich wykorzystaniu do opisanych celów. Jednak dane te zawieraj mnóstwo wartociowych informacji, które mog by uyte do celów innych ni te, dla których s zbierane. Informacje te mog by wykorzystane równie do dostarczania zarzdowi zestawie sprzeday, ledzenia preferencji klientów, zbierania rónych informacji marketingowych oraz wnioskowania, jakie towary zazwyczaj s sprzedawane razem z innymi. POLSKIE TOWARZYSTWO ZARZDZANIA WIEDZ Seria: Studia i Materiały, nr2, 2004 103 W omawianym przykładzie system wykorzystujcy techniki data mining moe wychwyci takie wzorce jak: • które produkty s czsto kupowane łcznie, • które produkty czsto znajduj si na rachunkach o wartoci powyej 300zł, • które produkty s zazwyczaj kupowane przez rodziny (rodzin mona zidentyfikowa na podstawie zakupu towarów przeznaczonych dla dzieci), • które towary s czsto kupowane przez osoby robice drobne zakupy. Oczywiste korelacje, takie jak powizanie midzy zakupami tapet a zakupami klejów do tapet, nie s z punktu widzenia odkrywania wiedzy tak interesujce jak – przykładowo – korelacja pomidzy pieluchami a piwem. Wzorce, które uwaa si za „interesujce” zazwyczaj dotycz powiza, które nie s oczywiste, albo wrcz nieoczekiwane. 3. Zastosowania data mining w biznesie W zastosowaniach biznesowych data mining jest uywane do odkrywania wzorców i relacji w istniejcych danych. Celem jest oczywicie pomoc przy podejmowaniu lepszych decyzji biznesowych. Zastosowanie systemu wykorzystujcego technologie data mining moe pomóc wykry trendy w sprzeday artykułów, zaplanowa lepsz kampani marketingow, czy te przewidzie ze znaczn dokładnoci lojalno klienta. Przykłady zastosowania data mining to midzy innymi: • segmentacja rynku – identyfikacja wspólnych cech klientów, którzy kupuj te same produkty, • przewidywanie lojalnoci klientów – identyfikacja cech klientów, którzy ze znacznym prawdopodobiestwem zrezygnuj z usług firmy na rzecz konkurencji, • wykrywanie oszustw biznesowych – identyfikacja transakcji, które mog si okaza oszustwem, • marketing bezporedni – identyfikacja zainteresowa i potrzeb konkretnych klientów, do których s wysyłane prospekty reklamowe, • marketing interaktywny – przewidywanie, jakie produkty najbardziej interesuj osob, która przeglda włanie firmowe strony WWW, • analiza koszyka zakupów – zrozumienie, które produkty lub usługi s czsto kupowane łcznie, • analiza trendów – odkrywanie rónic pomidzy typowym zachowaniem klientów w tym miesicu i w poprzednim. Uogólniajc, zastosowania technologii data mining dziel si na dwie podstawowe kategorie: • Automatyczne odkrywanie nie znanych wczeniej wzorców. Przykładem jest analiza sprzeday w celu identyfikacji towarów, które mimo braku bezporedniego powizania, s czsto sprzedawane razem. Innym przykładem jest wykrywanie oszustw dokonywanych przy pomocy kart kredytowych czy te anomalii w bazie danych. • Automatyczne przewidywanie trendów i zachowa. Typowym przykładem problemu przewidywania jest kampania marketingu bezporedniego. W takim przypadku mona uy dane historyczne z poprzednich kampanii, aby zidentyfikowa krg odbiorców, którzy z wikszym ni przecitne prawdopodobiestwem odpowiedz na kampani. 104 Michał Gulczyski Techniki „odkrywania wiedzy” (data mining) oraz ich zastosowania Rys. 1. Przykład działania regresji liniowej 4. Jak działa data mining Technika uywana przez data mining polega na zbudowaniu modelu opartego na danych historycznych, dla których znana jest odpowied, a nastpnie zastosowaniu tego modelu do nowych sytuacji, dla których odpowied nie jest jeszcze znana. Techniki modelowania s znane od wieków, ale dopiero ostatnie lata sprawiły, e nastpił rozwój moliwoci składowania wielkich iloci danych oraz wzrost moliwoci obliczeniowych. Prost ilustracj modelu moe by przykład firmy telekomunikacyjnej, w której dyrektor handlowy chce skupi swoj uwag na tej czci klientów, którzy przynosz najwiksze dochody na połczeniach midzymiastowych. Ma on zebrane wiele informacji o klientach, ale nie jest w stanie stworzy charakterystyki takiego klienta, poniewa kady klient jest opisany wielk liczb cech, sporód których trudno jest wybra te istotne dla zadanego problemu. Na swojej bazie danych klientów moe jednak zastosowa narzdzia data mining, które pozwol stworzy charakterystyk klienta, który wykonuje wiele rozmów midzymiastowych. Przykładowo, moe si dowiedzie, e najlepszymi klientami s niezamne kobiety w wieku od 34 do 42 lat. Wówczas, posiadajc taki model najlepszego klienta, moe odpowiednio skierowa swoj ofert handlow. 5. Problemy z danymi W trakcie pracy z danymi przy pomocy technik data mining mona naley mie na uwadze nastpujce problemy wynikajce z analizowanych danych: • Niekompletne dane – niektóre rekordy mog mie niekompletny zestaw atrybutów (nie zostały wypełnione w bazie danych). W takich przypadkach czsto zastpuje si niewypełnione pola danymi urednionymi bd ignoruje si je w dalszych działaniach. • Dane zaszumione – dane mog by wprowadzone niepoprawnie i wpływa na jako generowanych wyników. POLSKIE TOWARZYSTWO ZARZDZANIA WIEDZ Seria: Studia i Materiały, nr2, 2004 105 Rys. 2. Algorytm K-najbliszych ssiadów • • • Dane temporalne – dane przybywaj w duym tempie, mog si równie zmienia. Problemem jest uwzgldnianie zmian danych w otrzymanych ju wczeniej wynikach. Wielka ilo danych – analizowanie ogromnych zbiorów danych jest niezwykle kosztowne czasowo. Jedn z moliwoci jest zastosowanie przetwarzania równoległego. Inna polega na próbkowaniu danych, zamiast przetwarzania całego zbioru danych. Mimo, e moe to spowodowa utrat informacji i zmniejszy poziom zaufania do wyników, czasem warto powici precyzj na rzecz wydajnoci. Niestandardowe typy danych – niektóre typy danych s znacznie trudniejsze do przetwarzania, jak na przykład obrazy, dane multimedialne, dane geograficzne. 6. Techniki data mining Dziedzina data mining wykorzystuje wiele technik – jedne z nich s znane od dziesicioleci, inne powstały w ostatnich latach. Przynajmniej cz sporód omówionych w artykule technik jest wykorzystywana w wikszoci problemów biznesowych. 7. Statystyka Metody statystyczne mog by bardzo pomocne w procesie data mining, poniewa umoliwiaj uzyskanie odpowiedzi na wiele pyta dotyczcych analizowanych danych: • Jak wyglda podsumowanie, które da pogld na zawarto bazy danych? • Jakie wzorce znajduj si bazie danych? • Jakie jest prawdopodobiestwo, e zajdzie zdarzenie X? • Które wzorce s istotne? Jednym z waniejszych zastosowa statystyki s metody wysokopoziomowej prezentacji danych, które udostpniaj wartociowe informacje bez potrzeby dokładnego wnikania w znaczenie kadego rekordu danych. Pogldowe zestawienia, jak wykresy, wskaniki procentowe, rednie, odchylenia, histogramy nios równie istotne informacje, a s bardziej uyteczne przy podejmowaniu decyzji. 106 Michał Gulczyski Techniki „odkrywania wiedzy” (data mining) oraz ich zastosowania Metody statystyczne mog by równie wykorzystywane do dokonywania predykcji. Wykorzystywane s do tego midzy innymi metody regresji. Polegaj one na wykorzystaniu danych historycznych w celu stworzenia modelu, który z najmniejszym błdem opisuje dane zjawisko przy pomocy funkcji matematycznej – na przykład liniowej, lub kwadratowej (patrz rys. 1). Model ten moe by nastpnie stosowany do przewidywania wyników dla nowych danych. W bardziej złoonych przypadkach funkcja regresji moe by funkcj wielowymiarow. 8. Algorytm najbliĪszego sąsiada Prostym przykładem algorytmu najbliszego ssiada jest próba oszacowania dochodów osoby, dla której znane jest miejsce zamieszkania. Łatwo zauway, e osoby mieszkajce w ssiedztwie maj do zblione dochody. Std mona wnioskowa, e skoro najblisi ssiedzi interesujcej nas osoby zarabiaj około 5.000zł miesicznie, to znaczne jest prawdopodobiestwo, e i jej zarobki s na podobnym poziomie. Algorytm najbliszego ssiada działa na bardzo zblionych zasadach z t rónic, e w bazie danych „blisko” ssiada okrela si w o wiele bardziej skomplikowany sposób. Moe by równie okrelana przez wiele czynników równoczenie. Przykładowo do oszacowania zarobków osoby oprócz miejsca zamieszkania moe by równie przydatna znajomo jej wykształcenia. W takim przypadku definicja „bliskoci” osób staje si bardziej skomplikowana. W kadym przypadku algorytm ten oparty jest na załoeniu, e obiekty, które s sobie „bliskie”, maj równie zblione wartoci cechy przewidywanej. Std, jeli znana jest warto cechy dla jakiego obiektu, to mona przewidzie równie warto tej cechy dla jej najbliszego ssiada. Pewnym usprawnieniem tego algorytmu jest przyjcie zasady, e warto przewidywana jest wnioskowana nie na podstawie najbliszego ssiada, lecz na podstawie „głosowania” K najbliszych ssiadów. Na rysunku 2. przedstawiony jest przykład, w którym obiekt X znajduje si w otoczeniu punktów, które symbolizuj klientów nie zalegajcych z opłatami, ale jego najbliszym ssiadem jest klient, który jest dłunikiem. Poniewa w algorytmie przewidziane jest jednak głosowanie, obiekt X zostanie zakwalifikowany jako klient, który prawdopodobnie nie bdzie zalegał z opłatami. Wanym aspektem kadego systemu data mining jest nie tylko przewidywanie i klasyfikowanie, ale równie okrelanie stopnia pewnoci tych przepowiedni (na przykład: „szansa, e klient bdzie dłunikiem, wynosi 75%”). W algorytmie najbliszego ssiada stopie pewnoci mona okreli za pomoc dwóch kryteriów: • odległo od najbliszego ssiada – jeli ssiad jest bardzo bliski, to pewno przepowiedni jest wiksza ni w przypadku, gdy najbliszy rekord jest w znacznej odległoci od klasyfikowanego rekordu, • stopie jednoznacznoci wartoci predykowanych wród wszystkich K najbliszych ssiadów – jeli wszyscy najblisi ssiedzi daj t sam warto predykowan, pewno przepowiedni dla klasyfikowanego rekordu jest znacznie wiksza ni w przypadku, gdy tej jednoznacznoci nie ma. 9. Klastrowanie Klastrowanie jest metod, która polega na grupowaniu rekordów według ich podobiestwa. Prostym przykładem klastrowania jest czynno wykonywana przez wikszo osób, które POLSKIE TOWARZYSTWO ZARZDZANIA WIEDZ Seria: Studia i Materiały, nr2, 2004 107 przygotowuj ubrania do prania. W trakcie przygotowania nastpuje segregacja rzeczy i podział ich na białe, kolorowe oraz czarne. Wikszo decyzji podejmowanych przy tym klastrowaniu to decyzje proste, ale bywaj i skomplikowane – do którego klastra przydzieli mona przykładowo koszul biał w czerwon krat? Klastrowanie dokonywane w rzeczywistych zastosowaniach biznesowych jest zazwyczaj znaczenie bardziej dynamiczne – kategorie mog si zmienia nawet z tygodnia na tydzie, a podejmowanie decyzji o przydzieleniu do właciwego klastra moe by znacznie bardziej złoone. Podstawowe zastosowania klastrowania to midzy innymi: • dostarczanie uytkownikowi pogldu na zawarto bazy danych – kartoteka klientów podzielona na kilka przejrzystych klastrów jest dla uytkownika systemu bardziej przejrzysta i łatwiej na takiej podstawie formułowa wnioski, • automatyczne kategoryzowanie obiektów (segmentacja) – wród klientów podzielonych na kilka kategorii łatwiej jest wychwyci pewne prawidłowoci i wspólne zachowania, • wychwytywanie nieprawidłowoci w danych – po dokonaniu segmentacji łatwiej jest wyizolowa dane błdne, lub takie, które wyranie odstaj od reszty. Sposobów dokonania segmentacji jest wiele. Kartotek klientów mona równie dobrze klastrowa uywajc za główne kryterium poziom dochodów, jak i kolor oczu, wzrost oraz wiek. Oba sposoby klastrowania s równie dobre, a wybór kryterium powinien by podyktowany potrzebami. Algorytmy klastrowania danych dziel si na dwie kategorie: hierarchiczne i niehierarchiczne. Klastrowanie hierarchiczne polega na utworzeniu hierarchii klastrów, w której kady klaster składa si z mniejszych, bardziej szczegółowych. Klaster najwyszego poziomu zawiera w sobie wszystkie rekordy, za klastry najniszego poziomu grupuj w sobie rekordy identyczne. Hierarchiczna metoda klastrowania jest przeprowadzana wyłcznie na podstawie danych i nie wymaga adnej interwencji uytkownika. Po dokonaniu klastrowania uytkownik systemu sam moe dobra dogodn liczb klastrów poruszajc si w gór lub w dół utworzonej hierarchii. Klastrowanie hierarchiczne moe by dokonane na dwa sposoby: albo poprzez utworzenie jednego klastra obejmujcego wszystkie dane i kolejne podziały klastrów na coraz mniejsze a do uzyskania klastrów o jednorodnej zawartoci, albo poprzez utworzenie klastrów elementarnych o jednorodnej zawartoci i scalanie na kolejnych poziomach kolejnych klastrów w wiksze a do uzyskania jednego. Klastrowanie niehierarchiczne wymaga współpracy uytkownika systemu. Musi on poda docelow liczb klastrów albo minimaln „blisko”, która pozwala zakwalifikowa dwa rekordy do jednego klastra. Algorytm klastrowania moe w tym przypadku polega na utworzeniu podanej liczby klastrów, przydzieleniu rekordów w sposób losowy i kolejnych „przetasowaniach” danych, a do uzyskania najlepszej segmentacji. Klastrowanie jest technik zblion do algorytmów najbliszego ssiada. Podstawowe równice midzy tymi technikami przedstawia tabela 1. 108 Michał Gulczyski Techniki „odkrywania wiedzy” (data mining) oraz ich zastosowania NajbliĪszy sąsiad Klastrowanie Uywane głównie do predykcji. Uywane głównie do konsolidacji danych na wyszym poziomie, równie do predykcji. Uczenie wymaga interakcji z uytkownikiem systemu. W trakcie uczenia nie jest wymagana interakcja z uytkownikiem. Okrelanie bliskoci ssiadów jest do prost operacj Okrelanie bliskoci dwóch rekordów jest złoone. arytmetyczn. Tabela 1. Zestawienie rónic pomidzy technik najbliszego ssiada i klastrowaniem 10. Drzewa decyzyjne Drzewo decyzyjne jest modelem predykcyjnym, który – jak nazwa wskazuje – przedstawiany jest w formie drzewa. Kada gał drzewa stanowi pytanie klasyfikacyjne, a licie drzewa s czci danych, odpowiednio sklasyfikowan. Przykład drzewa decyzyjnego jest przedstawiony na rysunku 3. Na przedstawionym przykładzie wida, e drzewa decyzyjne s metod do prost do zrozumienia dla przecitnego uytkownika, w przeciwiestwie do sieci neuronowych, czy zaawansowanej statystyki. Zbudowany model moe by równie bez trudu wykorzystany do dotarcia do klientów, których odejcie do konkurencji jest prawdopodobne. Na podstawie drzewa decyzyjnego mona równie budowa reguły opisujce zjawisko. W podanym przykładzie mona zauway, e klienci, którzy maj nowy telefon oraz s klientami od dwóch lat, rzadko odchodz do konkurencji. Drzewa decyzyjne mona łatwo tłumaczy na serie warunków, a wic mona na ich podstawie budowa zapytania SQL. Dziki temu mone je wykorzystywa w relacyjnych bazach danych i istniejcych systemach informatycznych. Drzewa decyzyjne mog by uywane do eksploracji danych. Cenne informacje mona odczyta z warunków i wartoci, które rozgraniczaj poszczególne gałzie struktury. Przykładowo, wygenerowana reguła postaci „JEELI sta klienta < 1 rok ORAZ kanał pomocy technicznej = serwis telefoniczny TO prawdopodobiestwo odejcia klienta = 65%” dałaby wiele do mylenia na temat sposobu pracy serwisu telefonicznego. Innym zastosowaniem drzew decyzyjnych jest wstpna obróbka danych przed przekazaniem ich do innych algorytmów. Poniewa algorytmy drzew decyzyjnych s do szybkie i mona je stosowa do rónych typów zmiennych (liczby, kategorie, wartoci logiczne), mona je wykorzysta do odrzucania tych predyktorów, które nie maj wikszego wpływu na obserwowane zjawisko. Zmniejszony zestaw zmiennych moe by póniej wykorzystany do zbudowania prostszej sieci neuronowej lub zastosowany w standardowych metodach statystycznych. Oczywistym jest równie zastosowanie modelu drzewa decyzyjnego do celów predykcyjnych. Algorytm budowania drzewa decyzyjnego polega na próbie skonstruowania drzewa, które działa w sposób najbardziej zbliony do idealnego dla danego zestawu danych. Zazwyczaj skonstruowanie drzewa doskonałego jest niemoliwe. W kadym momencie budowania drzewa celem jest znalezienie najlepszego pytania dla danej gałzi. Dobrym pytaniem jest takie, które w wikszym stopniu organizuje dane. W omawianym wczeniej przykładzie pytanie, które rozgraniczy liczb klientów lojalnych i nielojalnych w POLSKIE TOWARZYSTWO ZARZDZANIA WIEDZ Seria: Studia i Materiały, nr2, 2004 109 Rys. 3. Model prezentujcy lojalno klientów sieci komórkowej przy przedłuaniu kontraktu. proporcji 40% do 60% jest pytaniem zdecydowanie słabszym od pytania, które rozgraniczy w proporcjach 10% do 90%. Drugie organizuje dane znacznie lepiej. Proces doboru pyta dla poszczególnych gałzi drzewa polega zazwyczaj na wypróbowywaniu wszystkich moliwych pyta i wyborze tego, które rozgranicza dane na czci w miar moliwoci homogeniczne. Proces ten jest nastpnie powtarzany dla nowo utworzonych gałzi tak długo, a zajdzie który z poniszych warunków: • utworzony segment zawiera rekordy o identycznej charakterystyce, • dalsze dzielenie nie daje satysfakcjonujcego podziału danych – jest nieopłacalne. 11. Sztuczne sieci neuronowe Sieci neuronowe s technik o wielkich moliwociach. Modele zbudowane przy pomocy sieci neuronowych s jednak do skomplikowane, a przez to trudne do zrozumienia i analizy nawet dla eksperta. Model jest reprezentowany przez szereg współczynników, które s wykorzystywane w skomplikowanych wyliczeniach matematycznych. Inne techniki data mining, jak klastrowanie czy drzewa decyzyjne, buduj modele łatwe do zrozumienia i wyjanienia. Sieci neuronowe polegaj wyłcznie na współczynnikach, wic ich interpretacja jest w złoonych przypadkach praktycznie niemoliwa. Naley je traktowa jako narzdzie niezwykle sprawne i pomocne, ale zarazem bdce „czarn skrzynk”, której działanie jest bardzo trudne do zrozumienia i wyjanienia. Przez to równie i wyniki działania sieci neuronowych mog si cieszy mniejszym zaufaniem. 110 Michał Gulczyski Techniki „odkrywania wiedzy” (data mining) oraz ich zastosowania 12. Reguły logiczne Reguły logiczne s jedn z podstawowych form data mining. S te prawdopodobnie najczstsz form odkrywania wiedzy w systemach eksploracji wiedzy. Przykładowe reguły logiczne wydobyte z bazy danych to: • jeeli zakupiono bagietki, to w 90% przypadków zakupiono równie ser twarogowy; schemat taki powtarza si w 3% koszyków, • jeeli zakupiono roliny doniczkowe, to w 60% przypadków zakupiono równie nawóz do kwiatów; te dwie rzeczy naraz znajduj si w 6% koszyków. Jak łatwo zauway, reguła ma zawsze form implikacji i jest podparta dwoma wskanikami: wartoci zaufania do reguły (oddaje prawdopodobiestwo potwierdzenia zdarzenia w przyszłoci) oraz wartoci wsparcia dla reguły (prezentuje czsto wystpowania zdarzenia). Reguły s wydobywane z bazy danych, aby zaprezentowa je uytkownikowi według stopnia zaufania i wsparcia. Kiedy reguły s ju wydobyte z bazy danych, mona je wykorzysta zarówno do lepszego zrozumienia zachodzcych w niej prawidłowoci, jak i do dokonywania predykcji na ich podstawie. Wnioski z reguł logicznych mona wyciga skupiajc si na: • poprzedniku implikacji – po wybraniu wszystkich reguł o identycznym poprzedniku implikacji mona wnioskowa, jakie s konsekwencje danego zdarzenia; • nastpniku implikacji – po wybraniu wszystkich reguł o identycznym nastpniku implikacji mona wnioskowa, jakie zdarzenia prowadz do danego efektu; • wartoci zaufania – wówczas otrzymujemy list reguł, których spełnianie jest najbardziej prawdopodobne; reguły, których spełnienie jest bardzo prawdopodobne mog by interesujce nawet, jeli czsto ich wystpowania jest niewielka; • wartoci wsparcia – otrzymujemy wówczas list reguł, które czsto wystpuj w bazie danych; • stopnia ciekawoci – ciekaw reguł jest taka, która ma wysok warto zaufania i wsparcie, a zarazem odstaje od spodziewanych norm. 13. Uwagi koĔcowe W artykule przedstawiono metody działania technik data mining oraz podstawowe algorytmy słuce do eksploracji wiedzy w bazach danych. Metody te, mimo e wymagaj znacznych nakładów obliczeniowych, daj znaczn przewag nad tradycyjnymi sposobami korzystania z baz danych. Odczytywanie informacji ukrytych pomidzy wierszami w wielkich bazach danych i wyciganie z nich wniosków moe sta si kluczem do sukcesu wielu przedsibiorstw. Bibliografia 1. W. J. Frawley, G. Piatetsky-Shapiro, C. J. Matheus: Knowledge Discovery in Databases: An Overview, AAAI/MIT Press 2. Sara Reese Hedberg: The Data Gold Rush, BYTE Magazine – October 1995 3. Alex Berson, Stephen Smith, Kurt Thearling: Building Data Mining Applications for CRM 4. Kurt Thearling: Data Mining and Analytic Technologies, http://www.thearling.com/ mgr in. Michał Gulczyski Politechnika Szczeciska Instytut Systemów Informatycznych, ul. ołnierska 49, 71-210 Szczecin, e-mail: [email protected]