Techniki „odkrywania wiedzy” (data mining) oraz ich zastosowania

advertisement
TECHNIKI „ODKRYWANIA WIEDZY” (DATA MINING)
ORAZ ICH ZASTOSOWANIA
MICHAŁ GULCZY
SKI
Instytut Systemów Informatycznych, WI
Politechnika Szczeciska
Streszczenie
Ilo danych gromadzonych współczenie w bazach danych przedsibiorstw
ronie w wielkim tempie. Due iloci danych kryj za w sobie interesujce
prawidłowoci i wzorce, które opisuj na przykład preferencje klientów, pozwalaj
dostrzec pewne wzorce ich zachowa. Ich poznanie moe by kluczem do sukcesu dla
niejednej firmy. Technologi umoliwiajc poznanie tych wzorców i
przepowiadanie trendów jest eksploracja wiedzy (ang. data mining). W artykule tym
przedstawiono podstawowe technologie data mining oraz ich zastosowania.
1. WstĊp
Data minning jest obecnie jedn z najintensywniej rozwijanych dziedzin. Przyczyny s proste.
Ilo informacji w wiecie ronie w tempie wykładniczym i powoli staje si niemoliwym
efektywne zarzdzanie nimi przy uyciu tradycyjnych systemów bazodanowych. Niezbdne staje
si wsparcie ze strony systemów informatycznych, ale trudno ley w zaprojektowaniu
systemów, które s zdolne odkrywa uyteczne informacje z minimaln interwencj uytkownika.
Data mining, zwane równie „odkrywaniem wiedzy w bazach danych”, definiuje si jako
wydobywanie danych z ukrytej, wczeniej nieznanej i potencjalnie uytecznej informacji [1].
Wykorzystuje systemy ekspertowe, techniki statystyczne i wizualizacj danych w celu odkrycia
wiedzy i prezentacji jej w sposób łatwo zrozumiały dla człowieka. Techniki data mining
przeszukuj bazy danych w poszukiwaniu ukrytych wzorców, których istnienia uytkownik moe
nie by wiadom.
Celem artykułu jest przedstawienie zastosowa oraz wprowadzenie do podstawowych
technologii data mining.
2. Przykład wykorzystania technik data mining
Rozwamy przykład supermarketu, w którym w kasach uywane s czytniki kodów
paskowych. System komputerowy, do którego podłczone s kasy, ma za zadanie zidentyfikowa
nazw i cen kadego skanowanego produktu oraz zaktualizowa stany magazynowe tak, aby
zawarto półek mogła by uzupełniona we właciwym czasie. Wikszo tych danych moe by
usunita wkrótce po ich wykorzystaniu do opisanych celów. Jednak dane te zawieraj mnóstwo
wartociowych informacji, które mog by uyte do celów innych ni te, dla których s zbierane.
Informacje te mog by wykorzystane równie do dostarczania zarzdowi zestawie sprzeday,
ledzenia preferencji klientów, zbierania rónych informacji marketingowych oraz wnioskowania,
jakie towary zazwyczaj s sprzedawane razem z innymi.
POLSKIE TOWARZYSTWO ZARZDZANIA WIEDZ
Seria: Studia i Materiały, nr2, 2004
103
W omawianym przykładzie system wykorzystujcy techniki data mining moe wychwyci
takie wzorce jak:
• które produkty s czsto kupowane łcznie,
• które produkty czsto znajduj si na rachunkach o wartoci powyej 300zł,
• które produkty s zazwyczaj kupowane przez rodziny (rodzin mona zidentyfikowa na
podstawie zakupu towarów przeznaczonych dla dzieci),
• które towary s czsto kupowane przez osoby robice drobne zakupy.
Oczywiste korelacje, takie jak powizanie midzy zakupami tapet a zakupami klejów do tapet,
nie s z punktu widzenia odkrywania wiedzy tak interesujce jak – przykładowo – korelacja
pomidzy pieluchami a piwem. Wzorce, które uwaa si za „interesujce” zazwyczaj dotycz
powiza, które nie s oczywiste, albo wrcz nieoczekiwane.
3. Zastosowania data mining w biznesie
W zastosowaniach biznesowych data mining jest uywane do odkrywania wzorców i relacji w
istniejcych danych. Celem jest oczywicie pomoc przy podejmowaniu lepszych decyzji
biznesowych. Zastosowanie systemu wykorzystujcego technologie data mining moe pomóc
wykry trendy w sprzeday artykułów, zaplanowa lepsz kampani marketingow, czy te
przewidzie ze znaczn dokładnoci lojalno klienta. Przykłady zastosowania data mining to
midzy innymi:
• segmentacja rynku – identyfikacja wspólnych cech klientów, którzy kupuj te same produkty,
• przewidywanie lojalnoci klientów – identyfikacja cech klientów, którzy ze znacznym
prawdopodobiestwem zrezygnuj z usług firmy na rzecz konkurencji,
• wykrywanie oszustw biznesowych – identyfikacja transakcji, które mog si okaza
oszustwem,
• marketing bezporedni – identyfikacja zainteresowa i potrzeb konkretnych klientów, do
których s wysyłane prospekty reklamowe,
• marketing interaktywny – przewidywanie, jakie produkty najbardziej interesuj osob, która
przeglda włanie firmowe strony WWW,
• analiza koszyka zakupów – zrozumienie, które produkty lub usługi s czsto kupowane
łcznie,
• analiza trendów – odkrywanie rónic pomidzy typowym zachowaniem klientów w tym
miesicu i w poprzednim.
Uogólniajc, zastosowania technologii data mining dziel si na dwie podstawowe kategorie:
• Automatyczne odkrywanie nie znanych wczeniej wzorców. Przykładem jest analiza sprzeday
w celu identyfikacji towarów, które mimo braku bezporedniego powizania, s czsto
sprzedawane razem. Innym przykładem jest wykrywanie oszustw dokonywanych przy pomocy
kart kredytowych czy te anomalii w bazie danych.
• Automatyczne przewidywanie trendów i zachowa. Typowym przykładem problemu
przewidywania jest kampania marketingu bezporedniego. W takim przypadku mona uy
dane historyczne z poprzednich kampanii, aby zidentyfikowa krg odbiorców, którzy z
wikszym ni przecitne prawdopodobiestwem odpowiedz na kampani.
104
Michał Gulczyski
Techniki „odkrywania wiedzy” (data mining) oraz ich zastosowania
Rys. 1. Przykład działania regresji liniowej
4. Jak działa data mining
Technika uywana przez data mining polega na zbudowaniu modelu opartego na danych
historycznych, dla których znana jest odpowied, a nastpnie zastosowaniu tego modelu do
nowych sytuacji, dla których odpowied nie jest jeszcze znana. Techniki modelowania s znane od
wieków, ale dopiero ostatnie lata sprawiły, e nastpił rozwój moliwoci składowania wielkich
iloci danych oraz wzrost moliwoci obliczeniowych.
Prost ilustracj modelu moe by przykład firmy telekomunikacyjnej, w której dyrektor
handlowy chce skupi swoj uwag na tej czci klientów, którzy przynosz najwiksze dochody
na połczeniach midzymiastowych. Ma on zebrane wiele informacji o klientach, ale nie jest w
stanie stworzy charakterystyki takiego klienta, poniewa kady klient jest opisany wielk liczb
cech, sporód których trudno jest wybra te istotne dla zadanego problemu. Na swojej bazie
danych klientów moe jednak zastosowa narzdzia data mining, które pozwol stworzy
charakterystyk klienta, który wykonuje wiele rozmów midzymiastowych. Przykładowo, moe
si dowiedzie, e najlepszymi klientami s niezamne kobiety w wieku od 34 do 42 lat.
Wówczas, posiadajc taki model najlepszego klienta, moe odpowiednio skierowa swoj ofert
handlow.
5. Problemy z danymi
W trakcie pracy z danymi przy pomocy technik data mining mona naley mie na uwadze
nastpujce problemy wynikajce z analizowanych danych:
• Niekompletne dane – niektóre rekordy mog mie niekompletny zestaw atrybutów (nie zostały
wypełnione w bazie danych). W takich przypadkach czsto zastpuje si niewypełnione pola
danymi urednionymi bd ignoruje si je w dalszych działaniach.
• Dane zaszumione – dane mog by wprowadzone niepoprawnie i wpływa na jako
generowanych wyników.
POLSKIE TOWARZYSTWO ZARZDZANIA WIEDZ
Seria: Studia i Materiały, nr2, 2004
105
Rys. 2. Algorytm K-najbliszych ssiadów
•
•
•
Dane temporalne – dane przybywaj w duym tempie, mog si równie zmienia. Problemem
jest uwzgldnianie zmian danych w otrzymanych ju wczeniej wynikach.
Wielka ilo danych – analizowanie ogromnych zbiorów danych jest niezwykle kosztowne
czasowo. Jedn z moliwoci jest zastosowanie przetwarzania równoległego. Inna polega na
próbkowaniu danych, zamiast przetwarzania całego zbioru danych. Mimo, e moe to
spowodowa utrat informacji i zmniejszy poziom zaufania do wyników, czasem warto
powici precyzj na rzecz wydajnoci.
Niestandardowe typy danych – niektóre typy danych s znacznie trudniejsze do przetwarzania,
jak na przykład obrazy, dane multimedialne, dane geograficzne.
6. Techniki data mining
Dziedzina data mining wykorzystuje wiele technik – jedne z nich s znane od dziesicioleci,
inne powstały w ostatnich latach. Przynajmniej cz sporód omówionych w artykule technik jest
wykorzystywana w wikszoci problemów biznesowych.
7. Statystyka
Metody statystyczne mog by bardzo pomocne w procesie data mining, poniewa
umoliwiaj uzyskanie odpowiedzi na wiele pyta dotyczcych analizowanych danych:
• Jak wyglda podsumowanie, które da pogld na zawarto bazy danych?
• Jakie wzorce znajduj si bazie danych?
• Jakie jest prawdopodobiestwo, e zajdzie zdarzenie X?
• Które wzorce s istotne?
Jednym z waniejszych zastosowa statystyki s metody wysokopoziomowej prezentacji
danych, które udostpniaj wartociowe informacje bez potrzeby dokładnego wnikania w
znaczenie kadego rekordu danych. Pogldowe zestawienia, jak wykresy, wskaniki procentowe,
rednie, odchylenia, histogramy nios równie istotne informacje, a s bardziej uyteczne przy
podejmowaniu decyzji.
106
Michał Gulczyski
Techniki „odkrywania wiedzy” (data mining) oraz ich zastosowania
Metody statystyczne mog by równie wykorzystywane do dokonywania predykcji.
Wykorzystywane s do tego midzy innymi metody regresji. Polegaj one na wykorzystaniu
danych historycznych w celu stworzenia modelu, który z najmniejszym błdem opisuje dane
zjawisko przy pomocy funkcji matematycznej – na przykład liniowej, lub kwadratowej (patrz rys.
1). Model ten moe by nastpnie stosowany do przewidywania wyników dla nowych danych. W
bardziej złoonych przypadkach funkcja regresji moe by funkcj wielowymiarow.
8. Algorytm najbliĪszego sąsiada
Prostym przykładem algorytmu najbliszego ssiada jest próba oszacowania dochodów osoby,
dla której znane jest miejsce zamieszkania. Łatwo zauway, e osoby mieszkajce w ssiedztwie
maj do zblione dochody. Std mona wnioskowa, e skoro najblisi ssiedzi interesujcej nas
osoby zarabiaj około 5.000zł miesicznie, to znaczne jest prawdopodobiestwo, e i jej zarobki
s na podobnym poziomie.
Algorytm najbliszego ssiada działa na bardzo zblionych zasadach z t rónic, e w bazie
danych „blisko” ssiada okrela si w o wiele bardziej skomplikowany sposób. Moe by
równie okrelana przez wiele czynników równoczenie. Przykładowo do oszacowania zarobków
osoby oprócz miejsca zamieszkania moe by równie przydatna znajomo jej wykształcenia. W
takim przypadku definicja „bliskoci” osób staje si bardziej skomplikowana.
W kadym przypadku algorytm ten oparty jest na załoeniu, e obiekty, które s sobie
„bliskie”, maj równie zblione wartoci cechy przewidywanej. Std, jeli znana jest warto
cechy dla jakiego obiektu, to mona przewidzie równie warto tej cechy dla jej najbliszego
ssiada.
Pewnym usprawnieniem tego algorytmu jest przyjcie zasady, e warto przewidywana jest
wnioskowana nie na podstawie najbliszego ssiada, lecz na podstawie „głosowania” K
najbliszych ssiadów. Na rysunku 2. przedstawiony jest przykład, w którym obiekt X znajduje si
w otoczeniu punktów, które symbolizuj klientów nie zalegajcych z opłatami, ale jego
najbliszym ssiadem jest klient, który jest dłunikiem. Poniewa w algorytmie przewidziane jest
jednak głosowanie, obiekt X zostanie zakwalifikowany jako klient, który prawdopodobnie nie
bdzie zalegał z opłatami.
Wanym aspektem kadego systemu data mining jest nie tylko przewidywanie i
klasyfikowanie, ale równie okrelanie stopnia pewnoci tych przepowiedni (na przykład: „szansa,
e klient bdzie dłunikiem, wynosi 75%”). W algorytmie najbliszego ssiada stopie pewnoci
mona okreli za pomoc dwóch kryteriów:
• odległo od najbliszego ssiada – jeli ssiad jest bardzo bliski, to pewno przepowiedni jest
wiksza ni w przypadku, gdy najbliszy rekord jest w znacznej odległoci od
klasyfikowanego rekordu,
• stopie jednoznacznoci wartoci predykowanych wród wszystkich K najbliszych ssiadów
– jeli wszyscy najblisi ssiedzi daj t sam warto predykowan, pewno przepowiedni
dla klasyfikowanego rekordu jest znacznie wiksza ni w przypadku, gdy tej jednoznacznoci
nie ma.
9. Klastrowanie
Klastrowanie jest metod, która polega na grupowaniu rekordów według ich podobiestwa.
Prostym przykładem klastrowania jest czynno wykonywana przez wikszo osób, które
POLSKIE TOWARZYSTWO ZARZDZANIA WIEDZ
Seria: Studia i Materiały, nr2, 2004
107
przygotowuj ubrania do prania. W trakcie przygotowania nastpuje segregacja rzeczy i podział
ich na białe, kolorowe oraz czarne. Wikszo decyzji podejmowanych przy tym klastrowaniu to
decyzje proste, ale bywaj i skomplikowane – do którego klastra przydzieli mona przykładowo
koszul biał w czerwon krat? Klastrowanie dokonywane w rzeczywistych zastosowaniach
biznesowych jest zazwyczaj znaczenie bardziej dynamiczne – kategorie mog si zmienia nawet
z tygodnia na tydzie, a podejmowanie decyzji o przydzieleniu do właciwego klastra moe by
znacznie bardziej złoone.
Podstawowe zastosowania klastrowania to midzy innymi:
• dostarczanie uytkownikowi pogldu na zawarto bazy danych – kartoteka klientów
podzielona na kilka przejrzystych klastrów jest dla uytkownika systemu bardziej przejrzysta i
łatwiej na takiej podstawie formułowa wnioski,
• automatyczne kategoryzowanie obiektów (segmentacja) – wród klientów podzielonych na
kilka kategorii łatwiej jest wychwyci pewne prawidłowoci i wspólne zachowania,
• wychwytywanie nieprawidłowoci w danych – po dokonaniu segmentacji łatwiej jest
wyizolowa dane błdne, lub takie, które wyranie odstaj od reszty.
Sposobów dokonania segmentacji jest wiele. Kartotek klientów mona równie dobrze
klastrowa uywajc za główne kryterium poziom dochodów, jak i kolor oczu, wzrost oraz wiek.
Oba sposoby klastrowania s równie dobre, a wybór kryterium powinien by podyktowany
potrzebami.
Algorytmy klastrowania danych dziel si na dwie kategorie: hierarchiczne i niehierarchiczne.
Klastrowanie hierarchiczne polega na utworzeniu hierarchii klastrów, w której kady klaster
składa si z mniejszych, bardziej szczegółowych. Klaster najwyszego poziomu zawiera w sobie
wszystkie rekordy, za klastry najniszego poziomu grupuj w sobie rekordy identyczne.
Hierarchiczna metoda klastrowania jest przeprowadzana wyłcznie na podstawie danych i nie
wymaga adnej interwencji uytkownika. Po dokonaniu klastrowania uytkownik systemu sam
moe dobra dogodn liczb klastrów poruszajc si w gór lub w dół utworzonej hierarchii.
Klastrowanie hierarchiczne moe by dokonane na dwa sposoby: albo poprzez utworzenie jednego
klastra obejmujcego wszystkie dane i kolejne podziały klastrów na coraz mniejsze a do
uzyskania klastrów o jednorodnej zawartoci, albo poprzez utworzenie klastrów elementarnych o
jednorodnej zawartoci i scalanie na kolejnych poziomach kolejnych klastrów w wiksze a do
uzyskania jednego.
Klastrowanie niehierarchiczne wymaga współpracy uytkownika systemu. Musi on poda
docelow liczb klastrów albo minimaln „blisko”, która pozwala zakwalifikowa dwa rekordy
do jednego klastra. Algorytm klastrowania moe w tym przypadku polega na utworzeniu
podanej liczby klastrów, przydzieleniu rekordów w sposób losowy i kolejnych
„przetasowaniach” danych, a do uzyskania najlepszej segmentacji.
Klastrowanie jest technik zblion do algorytmów najbliszego ssiada. Podstawowe
równice midzy tymi technikami przedstawia tabela 1.
108
Michał Gulczyski
Techniki „odkrywania wiedzy” (data mining) oraz ich zastosowania
NajbliĪszy sąsiad
Klastrowanie
Uywane głównie do predykcji.
Uywane głównie do konsolidacji danych na wyszym
poziomie, równie do predykcji.
Uczenie wymaga interakcji z uytkownikiem systemu. W trakcie uczenia nie jest wymagana interakcja z
uytkownikiem.
Okrelanie bliskoci ssiadów jest do prost operacj Okrelanie bliskoci dwóch rekordów jest złoone.
arytmetyczn.
Tabela 1. Zestawienie rónic pomidzy technik najbliszego ssiada i klastrowaniem
10. Drzewa decyzyjne
Drzewo decyzyjne jest modelem predykcyjnym, który – jak nazwa wskazuje – przedstawiany
jest w formie drzewa. Kada gał drzewa stanowi pytanie klasyfikacyjne, a licie drzewa s
czci danych, odpowiednio sklasyfikowan. Przykład drzewa decyzyjnego jest przedstawiony na
rysunku 3.
Na przedstawionym przykładzie wida, e drzewa decyzyjne s metod do prost do
zrozumienia dla przecitnego uytkownika, w przeciwiestwie do sieci neuronowych, czy
zaawansowanej statystyki. Zbudowany model moe by równie bez trudu wykorzystany do
dotarcia do klientów, których odejcie do konkurencji jest prawdopodobne.
Na podstawie drzewa decyzyjnego mona równie budowa reguły opisujce zjawisko. W
podanym przykładzie mona zauway, e klienci, którzy maj nowy telefon oraz s klientami od
dwóch lat, rzadko odchodz do konkurencji.
Drzewa decyzyjne mona łatwo tłumaczy na serie warunków, a wic mona na ich podstawie
budowa zapytania SQL. Dziki temu mone je wykorzystywa w relacyjnych bazach danych i
istniejcych systemach informatycznych.
Drzewa decyzyjne mog by uywane do eksploracji danych. Cenne informacje mona
odczyta z warunków i wartoci, które rozgraniczaj poszczególne gałzie struktury. Przykładowo,
wygenerowana reguła postaci „JEELI sta klienta < 1 rok ORAZ kanał pomocy technicznej =
serwis telefoniczny TO prawdopodobiestwo odejcia klienta = 65%” dałaby wiele do mylenia na
temat sposobu pracy serwisu telefonicznego.
Innym zastosowaniem drzew decyzyjnych jest wstpna obróbka danych przed przekazaniem
ich do innych algorytmów. Poniewa algorytmy drzew decyzyjnych s do szybkie i mona je
stosowa do rónych typów zmiennych (liczby, kategorie, wartoci logiczne), mona je
wykorzysta do odrzucania tych predyktorów, które nie maj wikszego wpływu na obserwowane
zjawisko. Zmniejszony zestaw zmiennych moe by póniej wykorzystany do zbudowania
prostszej sieci neuronowej lub zastosowany w standardowych metodach statystycznych.
Oczywistym jest równie zastosowanie modelu drzewa decyzyjnego do celów predykcyjnych.
Algorytm budowania drzewa decyzyjnego polega na próbie skonstruowania drzewa, które
działa w sposób najbardziej zbliony do idealnego dla danego zestawu danych. Zazwyczaj
skonstruowanie drzewa doskonałego jest niemoliwe.
W kadym momencie budowania drzewa celem jest znalezienie najlepszego pytania dla danej
gałzi. Dobrym pytaniem jest takie, które w wikszym stopniu organizuje dane. W omawianym
wczeniej przykładzie pytanie, które rozgraniczy liczb klientów lojalnych i nielojalnych w
POLSKIE TOWARZYSTWO ZARZDZANIA WIEDZ
Seria: Studia i Materiały, nr2, 2004
109
Rys. 3. Model prezentujcy lojalno klientów sieci komórkowej przy przedłuaniu kontraktu.
proporcji 40% do 60% jest pytaniem zdecydowanie słabszym od pytania, które rozgraniczy w
proporcjach 10% do 90%. Drugie organizuje dane znacznie lepiej.
Proces doboru pyta dla poszczególnych gałzi drzewa polega zazwyczaj na
wypróbowywaniu wszystkich moliwych pyta i wyborze tego, które rozgranicza dane na czci
w miar moliwoci homogeniczne. Proces ten jest nastpnie powtarzany dla nowo utworzonych
gałzi tak długo, a zajdzie który z poniszych warunków:
• utworzony segment zawiera rekordy o identycznej charakterystyce,
• dalsze dzielenie nie daje satysfakcjonujcego podziału danych – jest nieopłacalne.
11. Sztuczne sieci neuronowe
Sieci neuronowe s technik o wielkich moliwociach. Modele zbudowane przy pomocy
sieci neuronowych s jednak do skomplikowane, a przez to trudne do zrozumienia i analizy
nawet dla eksperta. Model jest reprezentowany przez szereg współczynników, które s
wykorzystywane w skomplikowanych wyliczeniach matematycznych. Inne techniki data mining,
jak klastrowanie czy drzewa decyzyjne, buduj modele łatwe do zrozumienia i wyjanienia. Sieci
neuronowe polegaj wyłcznie na współczynnikach, wic ich interpretacja jest w złoonych
przypadkach praktycznie niemoliwa. Naley je traktowa jako narzdzie niezwykle sprawne i
pomocne, ale zarazem bdce „czarn skrzynk”, której działanie jest bardzo trudne do
zrozumienia i wyjanienia. Przez to równie i wyniki działania sieci neuronowych mog si
cieszy mniejszym zaufaniem.
110
Michał Gulczyski
Techniki „odkrywania wiedzy” (data mining) oraz ich zastosowania
12. Reguły logiczne
Reguły logiczne s jedn z podstawowych form data mining. S te prawdopodobnie
najczstsz form odkrywania wiedzy w systemach eksploracji wiedzy. Przykładowe reguły
logiczne wydobyte z bazy danych to:
• jeeli zakupiono bagietki, to w 90% przypadków zakupiono równie ser twarogowy; schemat
taki powtarza si w 3% koszyków,
• jeeli zakupiono roliny doniczkowe, to w 60% przypadków zakupiono równie nawóz do
kwiatów; te dwie rzeczy naraz znajduj si w 6% koszyków.
Jak łatwo zauway, reguła ma zawsze form implikacji i jest podparta dwoma wskanikami:
wartoci zaufania do reguły (oddaje prawdopodobiestwo potwierdzenia zdarzenia w przyszłoci)
oraz wartoci wsparcia dla reguły (prezentuje czsto wystpowania zdarzenia). Reguły s
wydobywane z bazy danych, aby zaprezentowa je uytkownikowi według stopnia zaufania i
wsparcia.
Kiedy reguły s ju wydobyte z bazy danych, mona je wykorzysta zarówno do lepszego
zrozumienia zachodzcych w niej prawidłowoci, jak i do dokonywania predykcji na ich
podstawie. Wnioski z reguł logicznych mona wyciga skupiajc si na:
• poprzedniku implikacji – po wybraniu wszystkich reguł o identycznym poprzedniku implikacji
mona wnioskowa, jakie s konsekwencje danego zdarzenia;
• nastpniku implikacji – po wybraniu wszystkich reguł o identycznym nastpniku implikacji
mona wnioskowa, jakie zdarzenia prowadz do danego efektu;
• wartoci zaufania – wówczas otrzymujemy list reguł, których spełnianie jest najbardziej
prawdopodobne; reguły, których spełnienie jest bardzo prawdopodobne mog by interesujce
nawet, jeli czsto ich wystpowania jest niewielka;
• wartoci wsparcia – otrzymujemy wówczas list reguł, które czsto wystpuj w bazie danych;
• stopnia ciekawoci – ciekaw reguł jest taka, która ma wysok warto zaufania i wsparcie, a
zarazem odstaje od spodziewanych norm.
13. Uwagi koĔcowe
W artykule przedstawiono metody działania technik data mining oraz podstawowe algorytmy
słuce do eksploracji wiedzy w bazach danych. Metody te, mimo e wymagaj znacznych
nakładów obliczeniowych, daj znaczn przewag nad tradycyjnymi sposobami korzystania z baz
danych. Odczytywanie informacji ukrytych pomidzy wierszami w wielkich bazach danych i
wyciganie z nich wniosków moe sta si kluczem do sukcesu wielu przedsibiorstw.
Bibliografia
1. W. J. Frawley, G. Piatetsky-Shapiro, C. J. Matheus: Knowledge Discovery in Databases: An
Overview, AAAI/MIT Press
2. Sara Reese Hedberg: The Data Gold Rush, BYTE Magazine – October 1995
3. Alex Berson, Stephen Smith, Kurt Thearling: Building Data Mining Applications for CRM
4. Kurt Thearling: Data Mining and Analytic Technologies, http://www.thearling.com/
mgr in. Michał Gulczyski
Politechnika Szczeciska
Instytut Systemów Informatycznych,
ul. ołnierska 49, 71-210 Szczecin, e-mail: [email protected]
Download