DATA MINING

advertisement
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
DATA MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
02.06.2015
DATA
Co to jest Data Mining?
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
def 1
Proces zwi¡zany z odkrywaniem wzorców i relacji w
ekstremalnie du»ych zbiorach danych.
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
def 2
Zbiór metod pozwalaj¡cych na automatyczne wykrywanie
istotnych zale»no±ci i wzorców w bardzo du»ych zbiorach
Explore
danych, wraz z metodologi¡ prowadz¡c¡ od poznania danych,
Modify
do podj¦cia decyzji na podstawie przeprowadzonych analiz.
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
DATA
Co to jest Data Mining?
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
Data Mining od lat 90 XX wieku jest pewnym standardem w
dane
instytucjach biznesowych z bran»: bankowo±ci, ubezpiecze«,
Sample
telekomunikacji, handlu, farmacji.
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
DM jest stosowane jako wsparcie procesów decyzyjnych,
zarówno przez
predykcyjne.
eksploracj¦ danych jak i modelowanie
DATA
Co to jest Data Mining?
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Problemy zwi¡zane z tymi dwoma gaª¦ziami:
Modelowanie predykcyjne:
•
zrezygnuje z usªugi?)
•
Explore
Eksploracja danych:
•
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Analiza powi¡za« (np. czy produkt X jest zwykle kupowany
wraz z produktem Y?)
Modify
Model
Predykcja (np. jaka jest warto±¢ nieruchomo±ci o danych
parametrach?)
Sample
Importowanie
danych
Sampling
Partycjonowanie
Klasykacja (np. czy klient o danych parametrach
•
Klasteryzacja (np. czy istniej¡ grupy klientów z podobnymi
zachowaniami konsumenckimi?)
DATA
Co to jest Data Mining?
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
W porównaniu z poszczególnymi metodami statystycznymi
pojawiaj¡cymi si¦ wcze±niej na tym przedmiocie, Data Mining
nie narzuca z góry jednej metody któr¡ nale»y u»y¢.
Dopuszczanych jest wiele ró»nych metod statystycznych. W
oparciu o te metody tworzone s¡ modele, które nast¦pnie s¡
porównywane jako±ciowo.
Przedstawianymi w tej prezentacji metodami s¡:
•
drzewa decyzyjne
•
regresja logistyczna
•
sieci neuronowe
DATA
Metodologie
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
Aby skutecznie przeprowadzi¢ Data Mining, potrzebny jest
logiczny plan dziaªania uwzgl¦dniaj¡cy wszystkie kroki konieczne
dane
do zrozumienia i rozwi¡zania problemu.
Sample
Najcz¦±ciej spotyka si¦ poni»sze dwie metodologie:
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
•
•
CRISP-DM
SEMMA (u»ywana w tej prezentacji)
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Cross Industry Standard Process for
Data Mining
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Najcz¦±ciej u»ywana ogólna metodologia (nie w tej prezentacji).
DATA
SEMMA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
•
Sample
•
Explore
•
Modify
•
Model
•
Asses
SEMMA
Metodologia opracowana przez SAS Institute, stworzona i
Modify
dopasowana do Data Mining w SAS Enterprise Miner.
Model
Jest to logicznie uporz¡dkowana lista kroków, zorganizowana
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
pod k¡tem u»ywania kolejnych narz¦dzi w ±rodowisku Enterprise
Miner.
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Kilka sªów o SAS Enterprise Miner.
Jest to produkt SAS Institute stworzony z my±l¡ o DATA
MINING. Polega na budowie procesu DM na diagramie za
pomoc¡ w¦zªów.
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Opis danych
Dane na których b¦dziemy pracowa¢ to dane demograczne,
zebrane przez Ameryka«ski urz¡d statystyczny (census.gov) w
roku 1994. Dane dotycz¡ dorosªych pracj¡cych ludzi.
DATA
Opis danych
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Zbiór zawiera 15 zmiennych.
Ka»da obserwacja zawiera informacje dotycz¡ce jednej
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
ankietowanej osoby.
Zmienne wyst¦puj¡ce w zbiorze to:
•
•
dane
stanowy lub federalny), wªasna dziaªalno±¢ (praca w niej,
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
age - wiek osoby (zm. numeryczna)
workclass - rodzaj pracy: prywatny, rz¡dowy (lokalny,
lub posiadanie)
•
•
fnlwgt - zmienna wagowa (zm. numeryczna)
education - najwy»szy zdobyty poziom edukacji:
przedszkole, klasy 1
− 4,
klasy 5
− 6,
klasy 7
− 8,
klasa 9,
klasa 10, klasa 11, klasa 12, high-school, some-college (nie
uko«czone studia) , associate-vocational,
associate-academic (tytuª pracownika naukowego),
bachelors, masters, professional schools, doctorate.
DATA
Opis danych
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
•
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
education
•
Divorced, Separated, Widowed, Married-AF-spouse
dane
(maª»onek/maª»onka to osoba zwi¡zana z siªami
Sample
zbrojnymi), Married-spouse-absent (maª»onek/maª»onka
Importowanie
danych
Sampling
Partycjonowanie
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
marital_status - stan cywilny: Married-civ-spouse
(maª»onek/maª»onka to osoba cywilna), Never-married,
Analizowane
Explore
education_num - numeryczny odpowiednik zmiennej
nieobecna)
•
occupation - zawód: Adm-clerical, Craft-repair,
Exec-managerial, Farming-shing, Handlers-cleaners,
Machine-op-insp, Other-service, Priva-house-serv,
Prof-specialty, Protective-serv, Sales, Tech-support,
Transport-moving
DATA
Opis danych
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
•
Data Mining
Own-child, Unmarried, Other-relative
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
•
Analizowane
•
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
race - rasa: White, Black, Asian/Pacic islander,
American Indian/Eskimo, Other
•
•
•
sex - pªe¢: Female, Male
capital_gain - wzrost kapitaªu (zm. numeryczna)
capital_loss - strata kapitaªu (zm. numeryczna)
hours_per_week - ilo±¢ godzin przepracowywanych w
tygodniu
Modify
Model
relationship - zwi¡zek: Husband, Wife, Not-in-family,
•
•
native_country - kraj pochodzenia (42 kraje)
y : 1 = dana osoba osi¡gn¦ªa roczny dochód > 50 000 $, 0
= dana osoba osi¡gn¦ªa dochód poni»ej 50 000 $.
DATA
Opis danych
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
Zbiór danych posiada ª¡cznie okoªo 32000 obserwacji.
Zmienna Y jest zmienn¡ zale»n¡ - szuka¢ b¦dziemy najlepszego
dane
modelu, który b¦dzie ocenia¢ czy roczny dochód osoby o
Sample
zadanych, przez zmienne niezale»ne cechach przekroczy próg 50
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
000$. Model wyja±nia¢ b¦dzie tak»e, które z cech najbardziej
wpªywaj¡ na przekroczenie tego progu.
DATA
Sampling
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sampling jest pierwszym etapem metodyki SEMMA i skªada si¦
z trzech etapów
•
Importowanie danych(Input Data Source)
•
Dobór próby(Sampling)
•
Partycjonowanie(Data Partition)
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
DATA
Importowanie danych
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Ten w¦zeª mo»e wykonywa¢ nast¦puj¡ce dziaªania
•
2000 obserwacji. W przypadku danych maj¡cych mniej niz
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Dla ka»dej zmiennej tworzy metadane pobieraj¡c losowo
2000 obserwacji SAS wykorzystuje wszystkie dane
•
Na podstawie metadanych sprawdza poziom zmiennych
oraz ich granice
•
Tworzy statystyki opisowe dla ka»dych zmiennych(na
podstawie pobranych metadanych)
DATA
Sampling
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Ten w¦zeª jest opcjonalny w tym etapie, warto go stosowa¢ przy
du»ych zbiorach danych. Sampling polega na doborze próby z
wi¦kszego zbioru w taki sposób, aby dobór próby byª
reprezentatywny. Mo»na tego dokona¢ na kilka sposobów:
•
•
prawdopodobie«stwo zostania wylosowanej.
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
N pierwszych
Losowanie zwykªe Ka»da obserwacja ma to samo
•
Losowanie warstwowe Losowanie to ma nast¦puj¡ce
kryteria
Proporcjonalne Udziaª obserwacji na ka»dej z warstw
b¦dzie taki sam w populacji
• Równe W¦zeª losuje t¡ sam¡ liczb¦ obserwacji z ka»dej z
warstw.
• Optymalne Udziaª obserwacji na warstwach jak i
•
wariancja b¦d¡ takie same jak w populacji
DATA
Partycjonowanie
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Partycjonowanie polega na podziale zbioru na 3 cz¦±ci:
•
by¢ liczebno±ci 50%-70% próby wej±ciowej
•
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Walidacyjna- Wykorzystuje si¦ j¡ do porównywania
skuteczno±ci modeli
Sample
Importowanie
danych
Sampling
Partycjonowanie
Ucz¡cy - Sªu»y do zbudowania modelu. Próba powinna
•
Testowa- Sprawdza si¦ w niej ostateczn¡ ocen¦ modelu
wybranego w zbiorze walidacyjnym
Ten etap jest bardzo podobny do samplingu, gdy» dzielimy nasz
zbiór przez dobór próby, który mo»emy zrobi¢ na te same
sposoby co w sampilngu
DATA
MINING
G. Jaªocha
Partycjonowanie
A. Pomykaªa
B. Szymecki
K. Zera
W przypadku zagadnie« klasykacyjnych, stosuje si¦ podziaª
zachowuj¡cy rozkªad zmiennej obja±nianej we wszystkich
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
zbiorach. Je»eli mamy wybran¡ zmienn¡ celu(obja±nian¡) to
wybieramy domy±ln¡ metod¦ partycjonowania:
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
DATA
Eksploracja danych
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
W etapie eksploracji, b¦dziemy stara¢ si¦ "zrozumie¢" dane.
Bada¢ b¦dziemy rozkªady poszczególnych zmiennych oraz ich
statystyki opisowe, a tak»e analizowa¢ zale»no±ci wyst¦puj¡ce
mi¦dzy nimi.
Sprawdzona zostanie kompletno±¢ danych (braki danych), a
tak»e czy w zbiorze nie ma obserwacji odstaj¡cych (bª¦dy w
danych).
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Po otwarciu diagramu, górny pasek narz¦dzi zawiera w¦zªy
pogrupowane pod k¡tem kolejnych kroków wprowadzonej
metodologii. W tym kroku prezentacji gªównym w¦zªem b¦dzie
wezeª o nazwie "
rozbudowania.
Eksploracja statystyk" z powodu jego
DATA
MINING
G. Jaªocha
Eksploracja statystyk "StatExplore"
A. Pomykaªa
B. Szymecki
K. Zera
W¦zeª ten umo»liwia obliczenie podstawowych statystyk
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
opisowych oraz wst¦pn¡ analiz¦ wspóªzale»no±ci zmiennych.
Aby badane korelacje pomi¦dzy zmienn¡ zale»n¡ a zmiennymi
niezale»nymi obliczane byªy jedn¡ metod¡, nale»y umo»liwi¢
obliczenie statystyk Chi-kwadrat równie» dla zmiennych ci¡gªych
(przedziaªowych)
DATA
MINING
G. Jaªocha
Eksploracja statystyk "StatExplore"
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Umo»liwi to zastosowanie
wspóªczynnika V Cramera,
przyjmuj¡cego warto±ci od 0 do 1. Wspóªczynnik ten jest
unormowan¡ miar¡ wspóªzale»no±ci zmiennych.
Wspóªczynnik V Cramera oblicza si¦ w nast¦puj¡cy sposób:
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Eksploracja statystyk "StatExplore"
W rezultacie uruchomienia skongurowanego w ten sposób
w¦zªa SAS EM zwraca szereg statystyk oraz wykresów. Poni»ej
przedstawiony jest wykres wspóªzale»no±ci zmiennych
niezale»nych ze zmienn¡ zale»n¡.
DATA
MINING
G. Jaªocha
Eksploracja statystyk "StatExplore"
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
W dalszej cz¦±ci rezultatów umieszczone s¡ statystyki opisowe
dla wszystkich zmiennych, pocz¡wszy od zmiennych
klasykuj¡cych:
DATA
MINING
G. Jaªocha
Eksploracja statystyk "StatExplore"
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Kolejno statystyki dla zmiennych ci¡gªych:
DATA
MINING
G. Jaªocha
Eksploracja statystyk "StatExplore"
A. Pomykaªa
B. Szymecki
K. Zera
Zwracane s¡ równie» warto±ci statystyki Chi-kwadrat wraz z
warto±ciami p.
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Na tym etapie tylko zmienna fnlwgt jest naturalnie zmienn¡
nieistotn¡.
DATA
"MultiPlot"
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Poza zaprezentowanymi statystykami, w rezultacie poprzedniego
w¦zªa otrzymywane s¡ równie» statystyki poszczególnych
zmiennych bior¡c pod uwag¦ zmienn¡ zale»n¡.
Te wyniki lepiej jednak zobrazowa¢ za pomoc¡ kolejnego w¦zªa
o nazwie "
Wykresy ró»ne" ("MultiPlot").
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
W¦zeª ten tworzy dla ka»dej zmiennej niezale»nej wykres
sªupkowy uwzgl¦dniaj¡cy cz¦stotliwo±ci wyst¦powa« warto±ci
danej zmiennej, wraz z naªo»eniem na ka»d¡ kolumn¦ wykresu
rozkªadu zmiennej zale»nej. Dzi¦ki temu wykresowi mo»na lepiej
zrozumie¢ wpªyw danego efektu na zmienn¡ celu.
DATA
"MultiPlot"
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Wykres wieku.
DATA
"MultiPlot"
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Wykres lat edukacji.
DATA
MINING
G. Jaªocha
"MultiPlot"
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Wykres w zale»no±ci od stanu cywilnego.
DATA
MINING
G. Jaªocha
"MultiPlot"
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Wykres w zale»no±ci od przepracowywanych tygodniowo godzin.
DATA
"MultiPlot"
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
Wykres w zale»no±ci od zawodu.
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Na tym wykresie widzimy pojawienie si¦ warto±ci
"?" która jest
zakodowanym brakiem danych i której SAS nie wyªoniª we
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Macierz korelacji - "SAScode"
Poza zbadaniem zale»no±ci pomi¦dzy efektami a zmienn¡
zale»n¡, nale»y sprawdzi¢ tak»e korelacje wyst¦puj¡ce pomi¦dzy
silnie skorelowane zmienne
niezale»ne mogªyby znieksztaªci¢ tworzone modele.
poszczególnymi efektami, gdy»
Mo»na to zrobi¢ w 2 krokach. Po 1 mo»na skonstruowa¢
wspóªczynnikami Pearsona) mi¦dzy
zmiennymi ci¡gªymi za pomoc¡ w¦zªa "Kod SAS-owy"
macierz korelacji (ze
znajduj¡cego si¦ w zakªadce "Pomocnicze".
Po wybraniu w¦zªa, w oknie wªa±ciwo±ci w¦zªa klikamy "Edytor
Kodu" i umieszczamy tam kod:
DATA
MINING
G. Jaªocha
Macierz korelacji - "SAScode"
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Otrzymane rezultaty:
DATA
Lista korelacji - zmienne
klasykuj¡ce
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Poniewa» otrzymana w ten sposób macierz nie uwzgl¦dnia
zmiennych klasykuj¡cych, zbadamy korelacje pomi¦dzy
efektami za pomoc¡
wspóªczynnika V Cramera.
Kod ze wzgl¦du na dªugo±¢ zamieszczony jest w zaª¡czniku.
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Kod dziaªa w sposób nast¦puj¡cy: na ka»dej kombinacji dwóch
zmiennych ze zbioru bazacensus obliczony zostaje
wspóªczynnik V Cramera (wraz z informacj¡ czy wynik mo»e
by¢ uznany za wiarygodny). Nast¦pnie tworzony jest zbiór
ª¡cz¡cy wszystkie wyniki i posortowany malej¡co po
wspóªczynniku.
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Lista korelacji - zmienne
klasykuj¡ce
Posortowana malej¡co lista korelacji:
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
DATA
MINING
G. Jaªocha
Explore - podsumowanie
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
W tym etapie Data Mining'u lepiej poznali±my dane, ich
potencjalny wpªyw na zmienn¡ zale»n¡, ich rozkªady oraz
dane
korelacje mi¦dzy zmiennymi. Po statystykach opisowych mo»na
Sample
stwierdzi¢, »e dane s¡ wolne od bª¦dów, jednak»e odkryli±my »e
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
dla przynajmiej jednej zmiennej istnieje warto±¢ "?", która jest
zakodowanym brakiem danych. W kolejnym etapie sprawdzimy
dokªadnie warto±ci przyjmowane przez dane zmienne.
DATA
Modykowanie danych
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Modykacja to etap w którym nale»y przygotowa¢ dane do
drzew
decyzyjnych ró»ni si¦ od przygotowywania ich do regresji i
sieci neuronowych.
modelowania. Przygotowanie danych do budowy
Etap ten zostanie wi¦c podzielony ze wzgl¦du na metod¦
budowy modelu i zostanie rozwini¦ty w kroku "Model".
Teraz wi¦c zostanie przeprowadzona podstawowa modykacja
danych któr¡ mo»na zastosowa¢ zarówno do drzew jak i regresji
oraz sieci neuronowych.
Polega ona na:
•
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Porzuceniu nieistotnych dla budowy modelu oraz silnie
skorelowanych zmiennych
•
Sprawdzeniu obserwacji pod k¡tem zakodowanych braków
danych
DATA
Porzucanie
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
W pierwszym kroku tego etapu usuniemy zmienne których
napewno nie powinno by¢ w budowanych modelach. Po etapie
eksploracji wiadomo ju», »e korelacja pomi¦dzy
education_num
education
i
wynosi 1, wi¦c jedna z tych zmiennych
zostanie odrzucona.
Po za tym odrzucona zostanie równie» zmienna wagowa
fnlwgt.
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Dokonuje si¦ tego za pomoc¡ w¦zªa "Porzucanie", zmieniaj¡c
warto±¢ kolumny "Porzu¢" z "Domy±lne" na "Tak".
DATA
Zast¦powanie - braki danych
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Kolejnym krokiem tego etapu b¦dzie sprawdzenie obserwacji
zakodowanych braków danych i zmienienie ich
warto±ci na braki danych odczytywane przez SAS.
pod k¡tem
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
Ma to szczególne znaczenie przy budowie modeli, poniewa»
drzewa decyzyjne "radz¡ sobi¦" z brakami danych, natomiast
regresja i sieci neuronowe pomijaj¡ caªe obserwacje dla których
dane
wyst¦puj¡ w której± ze zmiennych braki danych.
Sample
Dla prawidªowego porównywania modeli nale»y je tworzy¢ na
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
tych samych zbiorach danych (lub mo»liwie jak najbardziej
zbli»onych). Problem ten zostanie rozwi¡zany przy budowie
modeli.
Z etapu eksploracji wiadomo ju», »e zmienne ci¡gªe i
klasykuj¡ce nie maj¡ braków danych.
Przyjrzyjmy si¦ jednak warto±ciom które przyjmuj¡ te zmienne
Mo»na tego dokona¢ w w¦¹le "Zast¦powanie" klikaj¡c na
"Edytor zast¡pie«" we wªa±ciwo±ciach w¦zªa.
DATA
Zast¦powanie - braki danych
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Jak wida¢ na zaª¡czonym wykresie warto±¢ "?" wyst¦puje dla 3
zmiennych.
Zast¦pujemy te warto±ci przez warto±¢ "_missing_". Dzi¦ki
temu SAS potraktuje te komórki jako braki danych.
DATA
Podsumowanie
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
W tym momencie otrzymali±my gotowy zbiór ucz¡cy, który
mo»e sªu»y¢ do dalszego modelowania
drzew decyzyjnych.
Na tym etapie mo»na równie» zmieni¢ spojrzenie na
dane
rozpatrywany problem i u»y¢ narz¦dzi analizy zmiennych
Sample
skªadowych za pomoc¡ w¦zªa "Zmienne skªadowe" czego nie
Importowanie
danych
Sampling
Partycjonowanie
b¦dziemy robi¢ w tej prezentacji. Mo»na równie» w tym
momencie r¦cznie zmodykowa¢ wybrane zmienne (np.
Explore
sklasykowa¢ zmienn¡ wiek) za pomoc¡ w¦zªa "Konstruowanie
Modify
reguª".
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Podsumowanie
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
DRZEWA DECYZYJNE
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
W praktycznych zastosowaniach modeli predykcyjnych istotna
jest ªatwo±¢ interpretacji i wyja±nienia generowanych wyników.
Bardzo pomocne s¡ przy tym
drzewa decyzyjne, które
generuj¡ zale»no±ci w postaci zbioru warunków logicznych.
DATA
MINING
G. Jaªocha
A. Pomykaªa
Budowa drzewa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Budow¦ drzewa zaczynamy od podziaªu korzenia.W pierwszym
kroku poszukujemy podziaªu,który pozwoli odnale¹¢ grupy
charakteryzuj¡ce si¦ du»¡ jednorodno±ci¡ ze wzgl¦du na warto±¢
zmiennej obja±nianej.Warunkiem koniecznym jest poprawa
stopnia takiej jednorodno±ci wzgl¦dem elementu,który jest
dzielony.Szukany jest podziaª,który zmaksymalizuje ró»nic¦:
Explore
∆Z = Z0 −
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
gdzie:
Z0 -stopie«
Zi -stopie«
r
P
i=1
ni
n0 Zi
niejednorodno±ci dzielonego elementu;
niejednorodno±ci i-tego elementu powstaj¡cego w
wyniku podziaªu; n0 -liczebno±¢ dzielonego elementu;
ni -liczebno±¢ i-tego elementu powstaj¡cego w wyniku
r -liczba elementów powstaj¡cych w wyniku podziaªu
podziaªu;
DATA
MINING
G. Jaªocha
A. Pomykaªa
Miary niejednorodno±ci
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Wspóªczynnik entropii
Analizowane
dane
H(p1 , ..., pk ) = −
Sample
Importowanie
danych
Sampling
Partycjonowanie
1
Modify
Model
Asses
i=1
pi log2 (pi )
Wspóªczynnik Giniego
Explore
Drzewa
Regresja
logistyczna
Sieci
neuronowe
k
P
gdzie:
−
k
P
i=1
pi2
k -liczba kategorii przyjmowanych przez zmienn¡
pi -odsetek populacji przyjmuj¡cy i-t¡ warto±¢
obja±nian¡;
zmiennej obja±nianej
DATA
MINING
G. Jaªocha
A. Pomykaªa
Miary niejednorodno±ci
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Log-warto±¢ chi-kwadrat
-log(p-warto±¢)
Analizowane
dane
gdzie p-warto±¢ jest granicznym poziomem istotno±ci statystyki:
Sample
k P
r
P
Importowanie
danych
Sampling
Partycjonowanie
i=1 j=1
R(ij)
(R(ij) −E(ij) )2
E(ij)
Explore
przy czym
Modify
wierszu i j-tej kolumnie warto±¢ równ¡ liczbie obserwacji
Model
przyjmuj¡cych i-t¡ warto±¢ zmiennej obja±nianej w j-tym w¦¹le,a
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
E(ij)
jest macierz¡ rzeczywist¡ przyjmuj¡c¡ w i-tym
jest macierz¡ przyjmuj¡c¡ w i-tym wierszu i j-tej kolumnie
warto±¢ równ¡ oczekiwanej na podstawie rozkªadu liczbie
obserwacji przyjmuj¡cych i-t¡ warto±¢ zmiennej obja±nianej w
j-tym w¦¹le
DATA
MINING
G. Jaªocha
A. Pomykaªa
Miary niejednorodno±ci
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Ostatnia statystyka ma tendencj¦ do "faworyzowania"
Sample
wielokrotnych podziaªów w¦zªa nad dwukrotnymi,dlatego cz¦sto
Importowanie
danych
Sampling
Partycjonowanie
modykuje si¦ wzór,uwzgl¦dniaj¡c kar¦ za liczb¦ badanych
podziaªów
Explore
Modify
-log(m*p-warto±¢)
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
gdzie m jest liczb¡ podziaªów
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Ustawienia drzewa
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Ustawienia drzewa cd.
DATA
MINING
G. Jaªocha
A. Pomykaªa
Dost¦pne metody tworzenia drzewa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
•
Najwi¦ksze -Wybiera caªe drzewo
•
Ocena -Wybiera najmniejsze drzewo o jak najlepszej
warto±ci oceny
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
•
N -Wybiera najwi¦ksze drzewo z co najwy»ej n li±cmi
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Wyniki
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Wyniki przedstawione s¡ w sze±ciu oknach
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Nakªadka rankingów ocen punktowych
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Porównanie wykresów wzrostu liftu dla zbioru treningowego i
walidacyjnego. Je»eli krzywe si¦ istotnie ró»ni¡,to ±wiadczy to o
przetrenowaniu lub niedotrenowaniu modelu.
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Statystyki li±ciowe
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
Wykres porównuje procentowy udziaª warto±ci zmiennej
obja±nianej równej 1 we wszystkich li±ciach dla danych
dane
treningowych i walidacyjnych.Du»e ró»nice w wysoko±ci sªupków
Sample
wskazuj¡,»e dany li±¢ nale»y przyci¡¢.
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Mapa drzewa
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Mapa drzewa pokazuje jego struktur¦,powierzchnia prostok¡tów
odpowiada liczebno±ci w danych w¦zªach drzewa.Nat¦»enie
koloru pokazuje stopie« jednorodno±ci populacji w danym w¦¹le.
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Statystyki dopasowania
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Tabela pokazuje statystyki dopasowania na zbiorach
Sample
treningowym, walidacyjnym i ewentualnie testowym. Du»e
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
ró»nice w warto±ciach statystyk dopasowania mog¡ wskazywa¢
na przetrenowanie lub niedotrenowanie modelu.
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Wynik
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
W wyniku warto zwróci¢ uwag¦ na tabel¦
klasykacji,pokazuj¡c¡ udziaª dobrze i ¹le sklasykowanych
obserwacji na zbiorach treningowym i walidacyjnym.
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Drzewo
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Drzewko
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Kolorem czerwonym oznaczone s¡ reguªy podziaªu,zielonym
zmienne dziel¡ce w¦zeª.Grubo±¢ czarnych linii wskazuje na
liczebno±¢ podzbioru. Stopie« jednorodno±ci w danym w¦¹le jest
tym wi¦kszy,im ciemniejszy jest jego kolor.
DATA
MINING
G. Jaªocha
A. Pomykaªa
W¦zeª
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
Z w¦zªa mo»emy odczyta¢ nast¦puj¡ce informacje:
•
dane
Ile zawiera obserwacji ze zbioru treningowego i
walidacyjnego
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
•
Rozkªad procentowy warto±ci zmiennej obja±nianej ze
zbioru treningowego i walidacyjnego w danym w¦¹le
•
Numer w¦zªa
DATA
MINING
G. Jaªocha
A. Pomykaªa
Interpretacja fragmentu drzewa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
W zbiorze jest 24, 1% bogatych ludzi,za± w podzbiorze ludzi
b¦d¡cych w zwi¡zku maª»e«skim bogaci stanowi¡ ponad 45%.
Dziel¡c dalej ten podzbiór stopniem wyksztaªcenia widzimy,»e
w±ród zam¦»nych/»onatych
ponad 72%.
≥
licencjatów odsetek ten wynosi
DATA
MINING
G. Jaªocha
A. Pomykaªa
English rules
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
W rezultatach klikamy
angielskiego
widok −→ model −→ reguªy j¦zyka
DATA
MINING
G. Jaªocha
A. Pomykaªa
ER
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Pokazuje nam si¦ okno peªne logicznych formuª. Np. je±li dany
osobnik z populacji jest w zwi¡zku maª»e«skim,ma ni»sze
wyksztaªcenie ni» licencjackie i wzrost kapitaªu
≥ 5095, 5
to na
podstawie wcze±niejszych obserwacji stwierdzamy,»e na 98%
jest bogaty.
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Budowa odpowiedniego drzewa
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Zbyt zªo»one drzewo (wielokrotno±¢ podziaªów,du»a gª¦boko±¢ i
ilo±¢ li±ci) jest nadmiernie dopasowane do zale»no±ci
charakterystycznych dla zbioru treningowego,przez co jest
bardziej niestabilne (przetrenowanie).Zbyt maªe drzewo ma
Explore
wi¦kszy odsetek bª¦dnych klasykacji. Optymaln¡ wielko±¢
Modify
drzewa mo»emy wybra¢ posªuguj¡c si¦ wykresem bª¦du
Model
±redniokwadratowego lub skuteczno±ci klasykacji wzgl¦dem
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
liczby li±ci drzewa.
DATA
MINING
G. Jaªocha
A. Pomykaªa
MSE
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
W rezultatach klikamy
poddrzewa
widok −→ model −→ wykres oceny
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Interakcyjne drzewo decyzyjne
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
W interakcyjnych drzewach decyzyjnych mamy "caª¡ wªadz¦"
podczas budowy.Mo»emy zmienia¢ reguªy podziaªu, dzieli¢ zbiór
najpierw przy pomocy zmiennych mniej istotnych,w peªni
decydujemy o wygl¡dzie drzewa.
Pokaz na »ywo
DATA
MINING
G. Jaªocha
A. Pomykaªa
Boosting Gradientowy
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Polega na stworzeniu szeregu drzew decyzyjnych,w których
ka»de nast¦pne drzewo nadaje wi¦ksz¡ wag¦ obserwacjom ¹le
sklasykowanym w poprzednim drzewie,a mniejsz¡ dobrze
sklasykowanym.Zachodzi formuªa:
wki =
Explore
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
(1+mk−1 (i)4 )
i=1
Modify
Model
1+mk−1 (i)4
n
P
wki -waga i-tej obserwacji w k-tej iteracji algorytmu;
mk−1 (i)-liczba niepoprawnych klasykacji i-tej obserwacji w
k − 1 poprzednich iteracjach; n-liczba obserwacji w zbiorze
gdzie:
treningowym
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Regresja logistyczna w porównaniu do drzew decyzyjnych
reprezentuje odmienne podej±cie do zagadnie« klasykacyjnych.
Zakªada si¦ bowiem, »e warto±¢ prawdopodobie«stwa jest
uzale»niona predyktorem liniowym
logit(p̂)
η = X β.
= X β = β0 + β1 X1 + β2 X 2 + · · · + βN XN
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Po estymacji parametrów modelu mo»emy dla wektora
X = (X1 , X2 , X3 . . . Xn )
policzy¢ wyestymowane
prawdopodobie«stwo:
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
p̂ =
1
1
+ exp(−X β)
DATA
Imputacja
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
W przypadku komercyjnych zagadnie« analitycznych, zale»nie
od ilo±ci danych, mo»na uzupeªni¢ braki w danych(w¦zeª
imputacja ). Mo»na to zrobi¢ na kilka sposobów:
•
•
Wykorzystuj¡c znajomo±¢ specyki modelu danych
Zastosowanie metod automatycznych:
•
•
•
Miara tendencji centralnej mediana, dominanta, ±rednia
Wylosowanie warto±ci zgodnie z rozkªadem zmiennej
Warto±¢ oparta na modelu drzewa decyzyjnego
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Przy doborze zmiennych obja±niaj¡cych warto zastanowi¢ si¦,
czy na pewno b¦d¡ miaªy wpªyw w modelu na zmienn¡
obja±nian¡ oraz usun¡¢ zmienne, które s¡ ze sob¡ silnie
skorelowane. W przypadku wyst¦powania interakcji mi¦dzy
dwoma zmiennymi, warto w modelu uwzgl¦dni¢ ich iloczyn.
Cz¦sto przy du»ej ilo±ci zmiennych klasykuj¡cych mo»emy
mie¢ problem z ich optymalnym doborem do modelu. Mo»na je
wyselekcjonowa¢ nast¦puj¡cymi metodami:
•
wolny, nast¦pnie dobieramy pojedynczo zmienne
•
Explore
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Krokowa wstecz(Backward)- Zaczynamy od doboru
wszystich zmiennych i usuwamy kolejno najmniej istotne
Modify
Model
Krokowa wprzód(Forward) - Najpierw dobieramy wyraz
•
Krokowa- Metoda analogiczna do metody Forward, z
ró»nic¡, »e po ka»dym kroku bada si¦ istotno±¢ zmiennych
obecnych ju» w modelu.
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
Aby u»y¢ modelu regresji logistycznej, nale»y u»y¢ w¦zªa
Regresja dla zmodykowanych danych, oraz wybra¢
odpowiednie zmienne klasykuj¡ce. Jak zmienna celu jest
dane
binarna, to model automatycznie dobiera funkcj¦ logitow¡ jako
Sample
wi¡»¡c¡
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
DATA
Przeksztaªcanie danych
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
Przy regresji logistycznej wa»ne jest, aby rozkªad zmiennych
ci¡gªych miaª sko±no±¢ blisk¡ zeru. Je»eli w rezultacie w¦zªa
dane
multiplot warto±¢ bezwzgl¦dna estymatora sko±no±ci dla danego
Sample
rozkªadu przekracza 5 to konieczne jest przeksztaªcenie danych.
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Równie» warto zwróci¢ uwag¦ na relacj¦ pomi¦dzy zmienn¡
obja±nian¡. Zmienna age b¦dzie wymagaªa przeksztaªcenia
kwadratowego.
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Wybieramy post¦puj¡c¡(forward) metod¦ iteracyjn¡
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Po uruchomieniu w¦zªa otrzymujemy okienko z rezultatami w
których s¡ pokazane kolejne iteracje procesu, oraz ostateczny
model. Wykres liftu:
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Budowa wykresu liftu
•
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Jak mamy dany model, to rankujemy dane wzgl¦dem
wyestymowanych prawdopodobie«stw
Data Mining
•
Dzielimy zbiór na równe cz¦±ci np co 5 centyli czyli 20
cz¦±ci.
•
Zliczamy w ka»dej cz¦±ci ilo±¢ sukcesów(y=1)
•
Liczymy skumulowan¡ ilo±¢ sukcesów
•
Obliczamy skumulowan¡ ilo±¢ sukcesów w ka»dej cz¦±ci w
procentach(tzw. Gain score)
•
W ostatnim kroku, dzielimy Gain score przez górny kwantyl
danego przedziaªu w procentach, np. dla przedziaªu z
górnym centylem 15% gain score dzielimy na 15
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Ostateczny model z nast¦puj¡cymi zmiennymi obja±niaj¡cymi
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Z racji tego, »e w modelu wi¦kszo±¢ zmiennych to zmienne
kategoryzuj¡ce, mo»na porówna¢ najbardziej istotne
wspóªczynniki
•
•
Analizowane
dane
•
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
βi ,
st¡d, najwi¦ksze efekty dodatnie wyst¦puj¡
dla:
Ludzi po ±lubach cywilnych - 1.58
Ludzi po ±lubach wojskowych- 1.49
Profesjonalistów w swoich dziedzinach(informatycy,
adwokaci itd.)- 1.47
za± najwi¦ksze efekty ujemne dla
•
•
•
Obywatele Kolumbii - 1.46
Usªugi domowe- 1.34
Obywatele Dominikany- 1.26
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Wykres efektów bezwzgl¦dnych
DATA
Sie¢ neuronowa
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
def 1
Zbiór prostych jednostek obliczeniowych przetwarzaj¡cych dane,
komunikuj¡cych si¦ ze sob¡ i pracuj¡cych równolegle.
def 2
Zbiór poª¡czonych ze sob¡ jednostek wej±ciowo-wyj±ciowych. Z
ka»dym poª¡czeniem skojarzona jest waga, która mo»e zosta¢
zmieniona w trakcie uczenia.
DATA
Sie¢ neuronowa
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
W zaªo»eniu s¡ to obiekty, które swoim dziaªaniem na±laduj¡
aktywno±¢ rzeczywistych ukªadów nerwowych w mózgach
dane
organizmów »ywych. W skutek poª¡czenia szeregu neuronów o
Sample
stosunkowo prostej budowie i niewielkich mo»liwo±ciach
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
uzyskuje si¦ struktur¦ zdoln¡ do przeprowadzania bardzo
skomplikowanych procesów rozpoznawania wzorców i
klasykacji.
DATA
Sie¢ neuronowa
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Prosta sie¢ neuronowa z skªada si¦ warstwy wej±ciowej
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
zawieraj¡cej n neuronów (odpowiadaj¡cych zmiennym) oraz
warstwy wyj±ciowej sumuj¡cej wa»one impulsy i transformuj¡c¡
je do skali oryginalnej zmiennej Y.
DATA
Sie¢ neuronowa
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Rozszerzeniem tak opisanej architektury s¡ modele, które
Analizowane
okre±lonej ilo±ci neuronów, które nieliniowo przeksztaªcaj¡
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
dodatkowo zawieraj¡ warstw¦ ukryt¡. Skªada si¦ ona z
kombinacj¦ liniow¡ otrzymanych sygnaªów. Pojedynczy neuron z
warstwy ukrytej skªada si¦ z dwóch elementów:
•
funkcji ª¡czenia
•
funkcji aktywacji
DATA
MINING
G. Jaªocha
Sie¢ neuronowa
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Funkcja ª¡czenia odpowiada za wytworzenie jednej warto±ci
wej±ciowej dla danego neuronu z warto±ci jego poprzedników.
Du»a cz¦±¢ dost¦pnych w SAS EM funkcji opiera si¦ na
radialnej funkcji bazowej - jest to funkcja, której warto±ci zale»¡
tylko od odlegªo±ci od ustalonego punktu.
DATA
MINING
G. Jaªocha
Sie¢ neuronowa
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Funkcja aktywacji oblicza warto±¢ na wyj±ciu neuronu.
DATA
MINING
G. Jaªocha
Sie¢ neuronowa
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Ostateczny wynik generowany przez sie¢ jest rezultatem
dziaªania funkcji transformuj¡cej sum¦ wa»onych wyj±¢ z
neuronów ukrytych. W zale»no±ci od tego, czy zmienna
obja±niana jest binarna, czy ci¡gªa, stosuje si¦ odpowiednie
przeksztaªcenie sªu»¡ce zachowaniu odpowiedniej skali (dla
zmiennej ci¡gªej jest to przeksztaªcenie identyczno±ciowe, dla
binarnej odwrotno±¢ przeksztaªcenia logitowego).
DATA
Sie¢ neuronowa
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Ogólny zapis sieci z jedn¡ warstw¡ ukryt¡ zawieraj¡c¡ n
neuronów.
DATA
MINING
G. Jaªocha
Sie¢ neuronowa
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Dodatkowym rozszerzeniem tak zdenioweanego modelu mo»e
by¢ wprowadzenie bezpo±redniego poª¡czenia pomi¦dzy warstw¡
wej±ciow¡ i wyj±ciow¡. Takie podej±cie umo»liwi wª¡czenie do
analizy równie» prostej kombinacji liniowej predyktorów, jednak
rozbuduje rozpatrywane zagadnienie estymacji
DATA
Sie¢ neuronowa
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
Sposobem na wyznaczenie niezb¦dnej liczby neuronów w
warstwie ukrytej mo»e by¢ tzw. reguªa piramidy geometrycznej,
która mówi, »e dla wielu praktycznych zastosowa« sieci liczba
neuronów w warstwach tworzy ksztaªt piramidy, przy czym
dane
liczba neuronów maleje od wej±cia w kierunku wyj±cia. Neurony
Sample
poszczególnych warstw tworz¡ ci¡g geometryczny.
Importowanie
danych
Sampling
Partycjonowanie
n=
√
xm
Explore
Modify
Nale»y pami¦ta¢, »e powy»sz¡ zale»no±¢ mo»na traktowa¢ jak
Model
wzór okre±laj¡cy minimaln¡ liczb¦ neuronów przy, której sie¢ si¦
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
uczy zadanego problemu.
DATA
Uczenie sieci
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Standardowo proces uczenia sieci odbywa si¦ w nast¦puj¡cy
sposób:
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
•
ryzyka bª¦dnej estymacji parametrów i umo»liwia
"sprawiedliwe" przydzielenie wag pocz¡tkowych,
•
dane
Ustalane s¡ parametry pocz¡tkowe - najcz¦±ciej przez
losowanie,
Sample
Importowanie
danych
Sampling
Partycjonowanie
Zmienne obja±niaj¡ce s¡ standaryzowane, co sªu»y redukcji
•
Ze zbioru treningowego wczytywane s¡ wszystkie
obserwacje. Po przeliczeniu predykcji dla ka»dej z nich
Explore
uruchamiany jest algorytm optymalizacyjny, który koryguje
Modify
wagi w celu poprawienia stopnia dopasowania modelu,
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
•
Poprzedni krok powtarzany jest do osi¡gni¦cia zbie»no±ci
algorytmu optymalizacyjnego lub osi¡gni¦cia innego
warunku stopu, którym mo»e by¢ np. przekroczenie
okre±lonej liczby iteracji,
DATA
Uczenie sieci cd.
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
•
Dla wszystkich zestawów wag otrzymanych w kolejnych
dane
iteracjach oceniany jest stopie« dopasowania modelu na
Sample
próbie walidacyjnej. Na tej podstawie wybierany jest
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
ostateczny model.
DATA
MINING
G. Jaªocha
Sie¢ neuronowa
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
W aplikacji SAS Enterprise Miner istnieje kilka narz¦dzi
wykorzystuj¡cych sieci neuronowe. U»yte zostanie jedno z nich -
Sie¢ neuronowa. Pozwala ono na budow¦ modelu sieci
neuronowej na podstawie architektury odpowiedaj¡cej m.in.
modelom liniowym lub perceptronowi wielowarstwowemu.
DATA
Sie¢ neuronowa
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
SAS EM posiada kilka predeniowanych architektur sieci
neuronowych.
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Sie¢ neuronowa
Po podª¡czenu w¦zªa i "klikni¦ciu" go otrzymujemy:
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Sie¢ neuronowa
Podª¡czenie w¦zªa i ustawienie kryterium wyboru modelu jako
bª¦dna klasykacja oraz architektury jako wielowarstwowy
perceptron
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
powoduje otrzymanie raportu zawieraj¡ce m.in okno output, w
Modify
którym mo»na zobaczy¢ nast¦puj¡cy komunikat:
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
DATA
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Sie¢ neuronowa
Oznacza to, »e zastosowany algorytm optymalizacyjny
(domy±lnie metoda quasi-Newtonowska) nie osi¡gn¡ª zbie»no±ci.
Przeprowadzenie 20 iteracji na zbiorze treningowym nie
pozwoliªo na znalezienie ostatecznego rozwi¡zania. Spojrzenie
na wykres iteracyjny pozwala zauwa»y¢ tendencj¦ spadkow¡
bª¦du klasykacji, a zatem prawdopodobnie mo»liwe jest lepsze
dopasowanie modelu, pod warunkiem zwi¦kszenia liczby iteracji.
DATA
Sie¢ neuronowa
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Zmiana opcji maksymalnie iteracji na wato±¢ równ¡ 200
powoduje wydªu»enie czasu uczenia modelu, ale algorytm osi¡ga
zbie»no±¢.
DATA
MINING
G. Jaªocha
Sie¢ neuronowa
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Na wykresie wida¢, »e najlepszy model osi¡gni¦to w okoªo 42
iteracji, co jets oznaczone niebiesk¡ lini¡. Stopie« dopasowania
otrzymanej sieci przedstawiony jest poni»ej:
DATA
MINING
G. Jaªocha
Sie¢ neuronowa
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Próbuj¡c poprawi¢ dopasowanie sieci stworzono now¡, w której
wª¡czone zostaªy bezpo±rednie poª¡czenia, a tak»e zwi¦kszono
liczb¦ jednostek ukrytych do 5 (domy±lnie 3).
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Otrzymano sie¢ o nast¦puj¡cych parametrach dopasowania:
DATA
Ocena i wybór modelu
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
Po wybudowaniu wielu konkurenyjnych modeli predykcyjnych
pozostaje zagadnienie wyboru najlepszego z nich, który b¦dzie
mógª by¢ zastosowany dla nowo napªywaj¡cych danych.
Dopasowanie modelu mo»e by¢ ocenione przy u»yciu ró»nych
statystyk. Przykªadowe z nich to:
•
dane
zaklasykowanych przypadków. Miara cz¦sto u»ywana do
Sample
oceny modeli klasykacyjnych wtedy, gdy ka»dy z
Importowanie
danych
Sampling
Partycjonowanie
obserwowanych przypadków mo»na traktowa¢ z równ¡
wag¡.
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Skuteczno±¢ klasykacji - odsetek poprawnie
•
Bª¡d ±redniokwadratowy - ±rednia warto±¢ kwadratu
ró»nicy pomi¦dzy predykcj¡ a rzeczywist¡ warto±ci¡. W
przypadku binarnych zagadnie« klasykacyjnych warto±ci¡
przewidywan¡ jest prawdopodobie«stwo, a warto±ci¡
rzeczywist¡ 0 lub 1.
DATA
Statystyki dopasowania
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
•
najwi¦kszej ró»nicy pomi¦dzy warto±ci¡ przewidywan¡ a
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Maksymalny bª¡d bezwzgl¦dny - warto±¢ bezwzgl¦dna
rzeczywist¡. Miara oceniaj¡ca maksymalny spodziewany
bª¡d predykcji.
•
Statystyka Koªmogorowa-Smirnowa - okre±la, jak dobrze
dwie klasy zmiennej obja±nianej s¡ rozró»niane przez
model. Jej warto±¢ obliczana jest jako:
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
maxt |F1 (t) − F0 (t)|,
gdzie
F0 (t), F1 (t)
- warto±ci dystrybuanty empirycznej
predykcji dla grup obserwacji, w których zmienna
obja±niana przyjmuje odpowiednio warto±ci 0 i 1. Im
wi¦ksza warto±¢ tej statystyki, tym wi¦ksze ró»nice w
prawdopodobie«stwach przydzielanych obu grupom, a wi¦c
tym wi¦ksza moc dyskryminacyjna modelu.
DATA
Statystyki dopasowania
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
•
Wzrost (Lift) - miara dla okre±lonego odsetka populacji
b¦d¡cej przedmiotem zagadnienia klasykacyjnego.
dane
Obliczana jest poprzez podzielenie odsetka
Sample
zaobserwowanych zdarze« w górnych
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
n%
populacji
posortowanej malej¡co wedªug przewidywanych
prawdopodobie«stw przez procent tych samych zdarze« w
caªej populacji.
DATA
Statystyki dopasowania
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
•
Indeks ROC - miara okre±laj¡ca skuteczno±¢ modelu w
rozpoznawaniu ro»nic pomi¦dzy podpopulacjami o ró»nych
warto±ciach zmiennej obja±nianej. Powstaje poprzez
obliczenie pola pod krzyw¡ ROC, któa konstruowana jest w
nast¦puj¡cy sposób:
• z populacji posortowanej malej¡co wedªug przydzielonych
prawdopodobie«stw wybierane jest górne k% obserwacji;
• przy zaªo»eniu, »e w wybranej podpopulacji znajduje si¦ x
jedynek i y zer oraz oznaczaj¡c przez n1 i n0 liczno±ci tych
klas w caªej rozpatrywanej próbie, obliczane s¡ nast¦puj¡ce
warto±ci:
1-specyczno±¢= ny0
wra»liwo±¢ = nx1
• tak opisane operacje powtarzane s¡ dla ró»nych warto±ci k ,
a otrzymane warto±ci ª¡czone s¡ w krzyw¡
W zwi¡zku z powy»szym im bardziej wykres krzywej skierowany
jest w stron¦ lewego górnego rogu, tym lepsze wªasno±ci
klasykacyjne badanego modelu.
DATA
Porównanie modeli
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Narz¦dziem umo»liwiaj¡cym porównanie dziaªania modeli
predykcyjnych w SAS EM jest w¦zeª
Porównanie modeli.
Poª¡czenie z nim wybranych w¦zªów odpowiadaj¡cym wcze±niej
wykorzystywanym metodom pozwoli na wybór najlepszego
modelu.
DATA
MINING
G. Jaªocha
Porównanie modeli
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Š¡cz¡c wszystkie modele z w¦zªem
Porównanie modeli i
uruchamiaj¡c go otrzymujemy m.in.:
DATA
Porównanie modeli
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Wykresy ROC
DATA
Porównanie modeli
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
dane
Sample
Importowanie
danych
Sampling
Partycjonowanie
Explore
Modify
Model
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
Wykresy klasykacji
DATA
Scoring
MINING
G. Jaªocha
A. Pomykaªa
B. Szymecki
K. Zera
Data Mining
Denicja
Metodologie
CRISP-DM
SEMMA
Enterprise
Miner
Analizowane
Zanim wybrany model b¦dzie mógª zosta¢ wdro»ony i
zastosowany do nowo napªywaj¡cych przypadków, nale»y
dokona¢ jego ostatecznej oceny na kolejnej niezale»nej próbie
danych. T¦ rol¦ odgrywa zbiór testowy, który w przypadku
dane
zastosowa« komercyjnych jest najcz¦±ciej wycinkiem danych z
Sample
najnowszego okresu.
Importowanie
danych
Sampling
Partycjonowanie
Nale»y pami¦ta¢, »e ka»dy model w przypadku danych
komercyjnych po pewnym czasie zacznie traci¢ na jako±ci,
Explore
dlatego niezb¦dnym jest monitorowanie jego skuteczno±ci.
Modify
Zatem poj¦cie DATA MINING powinno by¢ rozumiane jako
Model
proces cykliczny - wraz z napªywem nowych danych pojawia si¦
Drzewa
Regresja
logistyczna
Sieci
neuronowe
Asses
potrzeba zmiany zaªo»e« lub poprawy jako±ci analizy.
Download