DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses 02.06.2015 DATA Co to jest Data Mining? MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane def 1 Proces zwi¡zany z odkrywaniem wzorców i relacji w ekstremalnie du»ych zbiorach danych. dane Sample Importowanie danych Sampling Partycjonowanie def 2 Zbiór metod pozwalaj¡cych na automatyczne wykrywanie istotnych zale»no±ci i wzorców w bardzo du»ych zbiorach Explore danych, wraz z metodologi¡ prowadz¡c¡ od poznania danych, Modify do podj¦cia decyzji na podstawie przeprowadzonych analiz. Model Drzewa Regresja logistyczna Sieci neuronowe Asses DATA Co to jest Data Mining? MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane Data Mining od lat 90 XX wieku jest pewnym standardem w dane instytucjach biznesowych z bran»: bankowo±ci, ubezpiecze«, Sample telekomunikacji, handlu, farmacji. Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses DM jest stosowane jako wsparcie procesów decyzyjnych, zarówno przez predykcyjne. eksploracj¦ danych jak i modelowanie DATA Co to jest Data Mining? MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Problemy zwi¡zane z tymi dwoma gaª¦ziami: Modelowanie predykcyjne: • zrezygnuje z usªugi?) • Explore Eksploracja danych: • Drzewa Regresja logistyczna Sieci neuronowe Asses Analiza powi¡za« (np. czy produkt X jest zwykle kupowany wraz z produktem Y?) Modify Model Predykcja (np. jaka jest warto±¢ nieruchomo±ci o danych parametrach?) Sample Importowanie danych Sampling Partycjonowanie Klasykacja (np. czy klient o danych parametrach • Klasteryzacja (np. czy istniej¡ grupy klientów z podobnymi zachowaniami konsumenckimi?) DATA Co to jest Data Mining? MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses W porównaniu z poszczególnymi metodami statystycznymi pojawiaj¡cymi si¦ wcze±niej na tym przedmiocie, Data Mining nie narzuca z góry jednej metody któr¡ nale»y u»y¢. Dopuszczanych jest wiele ró»nych metod statystycznych. W oparciu o te metody tworzone s¡ modele, które nast¦pnie s¡ porównywane jako±ciowo. Przedstawianymi w tej prezentacji metodami s¡: • drzewa decyzyjne • regresja logistyczna • sieci neuronowe DATA Metodologie MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane Aby skutecznie przeprowadzi¢ Data Mining, potrzebny jest logiczny plan dziaªania uwzgl¦dniaj¡cy wszystkie kroki konieczne dane do zrozumienia i rozwi¡zania problemu. Sample Najcz¦±ciej spotyka si¦ poni»sze dwie metodologie: Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses • • CRISP-DM SEMMA (u»ywana w tej prezentacji) DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Cross Industry Standard Process for Data Mining Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Najcz¦±ciej u»ywana ogólna metodologia (nie w tej prezentacji). DATA SEMMA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore • Sample • Explore • Modify • Model • Asses SEMMA Metodologia opracowana przez SAS Institute, stworzona i Modify dopasowana do Data Mining w SAS Enterprise Miner. Model Jest to logicznie uporz¡dkowana lista kroków, zorganizowana Drzewa Regresja logistyczna Sieci neuronowe Asses pod k¡tem u»ywania kolejnych narz¦dzi w ±rodowisku Enterprise Miner. DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Kilka sªów o SAS Enterprise Miner. Jest to produkt SAS Institute stworzony z my±l¡ o DATA MINING. Polega na budowie procesu DM na diagramie za pomoc¡ w¦zªów. DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Opis danych Dane na których b¦dziemy pracowa¢ to dane demograczne, zebrane przez Ameryka«ski urz¡d statystyczny (census.gov) w roku 1994. Dane dotycz¡ dorosªych pracj¡cych ludzi. DATA Opis danych MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Zbiór zawiera 15 zmiennych. Ka»da obserwacja zawiera informacje dotycz¡ce jednej Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane ankietowanej osoby. Zmienne wyst¦puj¡ce w zbiorze to: • • dane stanowy lub federalny), wªasna dziaªalno±¢ (praca w niej, Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses age - wiek osoby (zm. numeryczna) workclass - rodzaj pracy: prywatny, rz¡dowy (lokalny, lub posiadanie) • • fnlwgt - zmienna wagowa (zm. numeryczna) education - najwy»szy zdobyty poziom edukacji: przedszkole, klasy 1 − 4, klasy 5 − 6, klasy 7 − 8, klasa 9, klasa 10, klasa 11, klasa 12, high-school, some-college (nie uko«czone studia) , associate-vocational, associate-academic (tytuª pracownika naukowego), bachelors, masters, professional schools, doctorate. DATA Opis danych MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera • Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner education • Divorced, Separated, Widowed, Married-AF-spouse dane (maª»onek/maª»onka to osoba zwi¡zana z siªami Sample zbrojnymi), Married-spouse-absent (maª»onek/maª»onka Importowanie danych Sampling Partycjonowanie Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses marital_status - stan cywilny: Married-civ-spouse (maª»onek/maª»onka to osoba cywilna), Never-married, Analizowane Explore education_num - numeryczny odpowiednik zmiennej nieobecna) • occupation - zawód: Adm-clerical, Craft-repair, Exec-managerial, Farming-shing, Handlers-cleaners, Machine-op-insp, Other-service, Priva-house-serv, Prof-specialty, Protective-serv, Sales, Tech-support, Transport-moving DATA Opis danych MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera • Data Mining Own-child, Unmarried, Other-relative Denicja Metodologie CRISP-DM SEMMA Enterprise Miner • Analizowane • dane Sample Importowanie danych Sampling Partycjonowanie Explore Drzewa Regresja logistyczna Sieci neuronowe Asses race - rasa: White, Black, Asian/Pacic islander, American Indian/Eskimo, Other • • • sex - pªe¢: Female, Male capital_gain - wzrost kapitaªu (zm. numeryczna) capital_loss - strata kapitaªu (zm. numeryczna) hours_per_week - ilo±¢ godzin przepracowywanych w tygodniu Modify Model relationship - zwi¡zek: Husband, Wife, Not-in-family, • • native_country - kraj pochodzenia (42 kraje) y : 1 = dana osoba osi¡gn¦ªa roczny dochód > 50 000 $, 0 = dana osoba osi¡gn¦ªa dochód poni»ej 50 000 $. DATA Opis danych MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane Zbiór danych posiada ª¡cznie okoªo 32000 obserwacji. Zmienna Y jest zmienn¡ zale»n¡ - szuka¢ b¦dziemy najlepszego dane modelu, który b¦dzie ocenia¢ czy roczny dochód osoby o Sample zadanych, przez zmienne niezale»ne cechach przekroczy próg 50 Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses 000$. Model wyja±nia¢ b¦dzie tak»e, które z cech najbardziej wpªywaj¡ na przekroczenie tego progu. DATA Sampling MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sampling jest pierwszym etapem metodyki SEMMA i skªada si¦ z trzech etapów • Importowanie danych(Input Data Source) • Dobór próby(Sampling) • Partycjonowanie(Data Partition) Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses DATA Importowanie danych MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Ten w¦zeª mo»e wykonywa¢ nast¦puj¡ce dziaªania • 2000 obserwacji. W przypadku danych maj¡cych mniej niz Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Dla ka»dej zmiennej tworzy metadane pobieraj¡c losowo 2000 obserwacji SAS wykorzystuje wszystkie dane • Na podstawie metadanych sprawdza poziom zmiennych oraz ich granice • Tworzy statystyki opisowe dla ka»dych zmiennych(na podstawie pobranych metadanych) DATA Sampling MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Ten w¦zeª jest opcjonalny w tym etapie, warto go stosowa¢ przy du»ych zbiorach danych. Sampling polega na doborze próby z wi¦kszego zbioru w taki sposób, aby dobór próby byª reprezentatywny. Mo»na tego dokona¢ na kilka sposobów: • • prawdopodobie«stwo zostania wylosowanej. Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses N pierwszych Losowanie zwykªe Ka»da obserwacja ma to samo • Losowanie warstwowe Losowanie to ma nast¦puj¡ce kryteria Proporcjonalne Udziaª obserwacji na ka»dej z warstw b¦dzie taki sam w populacji • Równe W¦zeª losuje t¡ sam¡ liczb¦ obserwacji z ka»dej z warstw. • Optymalne Udziaª obserwacji na warstwach jak i • wariancja b¦d¡ takie same jak w populacji DATA Partycjonowanie MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Partycjonowanie polega na podziale zbioru na 3 cz¦±ci: • by¢ liczebno±ci 50%-70% próby wej±ciowej • Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Walidacyjna- Wykorzystuje si¦ j¡ do porównywania skuteczno±ci modeli Sample Importowanie danych Sampling Partycjonowanie Ucz¡cy - Sªu»y do zbudowania modelu. Próba powinna • Testowa- Sprawdza si¦ w niej ostateczn¡ ocen¦ modelu wybranego w zbiorze walidacyjnym Ten etap jest bardzo podobny do samplingu, gdy» dzielimy nasz zbiór przez dobór próby, który mo»emy zrobi¢ na te same sposoby co w sampilngu DATA MINING G. Jaªocha Partycjonowanie A. Pomykaªa B. Szymecki K. Zera W przypadku zagadnie« klasykacyjnych, stosuje si¦ podziaª zachowuj¡cy rozkªad zmiennej obja±nianej we wszystkich Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses zbiorach. Je»eli mamy wybran¡ zmienn¡ celu(obja±nian¡) to wybieramy domy±ln¡ metod¦ partycjonowania: DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses DATA Eksploracja danych MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane W etapie eksploracji, b¦dziemy stara¢ si¦ "zrozumie¢" dane. Bada¢ b¦dziemy rozkªady poszczególnych zmiennych oraz ich statystyki opisowe, a tak»e analizowa¢ zale»no±ci wyst¦puj¡ce mi¦dzy nimi. Sprawdzona zostanie kompletno±¢ danych (braki danych), a tak»e czy w zbiorze nie ma obserwacji odstaj¡cych (bª¦dy w danych). Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Po otwarciu diagramu, górny pasek narz¦dzi zawiera w¦zªy pogrupowane pod k¡tem kolejnych kroków wprowadzonej metodologii. W tym kroku prezentacji gªównym w¦zªem b¦dzie wezeª o nazwie " rozbudowania. Eksploracja statystyk" z powodu jego DATA MINING G. Jaªocha Eksploracja statystyk "StatExplore" A. Pomykaªa B. Szymecki K. Zera W¦zeª ten umo»liwia obliczenie podstawowych statystyk Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses opisowych oraz wst¦pn¡ analiz¦ wspóªzale»no±ci zmiennych. Aby badane korelacje pomi¦dzy zmienn¡ zale»n¡ a zmiennymi niezale»nymi obliczane byªy jedn¡ metod¡, nale»y umo»liwi¢ obliczenie statystyk Chi-kwadrat równie» dla zmiennych ci¡gªych (przedziaªowych) DATA MINING G. Jaªocha Eksploracja statystyk "StatExplore" A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Umo»liwi to zastosowanie wspóªczynnika V Cramera, przyjmuj¡cego warto±ci od 0 do 1. Wspóªczynnik ten jest unormowan¡ miar¡ wspóªzale»no±ci zmiennych. Wspóªczynnik V Cramera oblicza si¦ w nast¦puj¡cy sposób: DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Eksploracja statystyk "StatExplore" W rezultacie uruchomienia skongurowanego w ten sposób w¦zªa SAS EM zwraca szereg statystyk oraz wykresów. Poni»ej przedstawiony jest wykres wspóªzale»no±ci zmiennych niezale»nych ze zmienn¡ zale»n¡. DATA MINING G. Jaªocha Eksploracja statystyk "StatExplore" A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses W dalszej cz¦±ci rezultatów umieszczone s¡ statystyki opisowe dla wszystkich zmiennych, pocz¡wszy od zmiennych klasykuj¡cych: DATA MINING G. Jaªocha Eksploracja statystyk "StatExplore" A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Kolejno statystyki dla zmiennych ci¡gªych: DATA MINING G. Jaªocha Eksploracja statystyk "StatExplore" A. Pomykaªa B. Szymecki K. Zera Zwracane s¡ równie» warto±ci statystyki Chi-kwadrat wraz z warto±ciami p. Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Na tym etapie tylko zmienna fnlwgt jest naturalnie zmienn¡ nieistotn¡. DATA "MultiPlot" MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Poza zaprezentowanymi statystykami, w rezultacie poprzedniego w¦zªa otrzymywane s¡ równie» statystyki poszczególnych zmiennych bior¡c pod uwag¦ zmienn¡ zale»n¡. Te wyniki lepiej jednak zobrazowa¢ za pomoc¡ kolejnego w¦zªa o nazwie " Wykresy ró»ne" ("MultiPlot"). Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses W¦zeª ten tworzy dla ka»dej zmiennej niezale»nej wykres sªupkowy uwzgl¦dniaj¡cy cz¦stotliwo±ci wyst¦powa« warto±ci danej zmiennej, wraz z naªo»eniem na ka»d¡ kolumn¦ wykresu rozkªadu zmiennej zale»nej. Dzi¦ki temu wykresowi mo»na lepiej zrozumie¢ wpªyw danego efektu na zmienn¡ celu. DATA "MultiPlot" MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Wykres wieku. DATA "MultiPlot" MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Wykres lat edukacji. DATA MINING G. Jaªocha "MultiPlot" A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Wykres w zale»no±ci od stanu cywilnego. DATA MINING G. Jaªocha "MultiPlot" A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Wykres w zale»no±ci od przepracowywanych tygodniowo godzin. DATA "MultiPlot" MINING G. Jaªocha A. Pomykaªa B. Szymecki Wykres w zale»no±ci od zawodu. K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Na tym wykresie widzimy pojawienie si¦ warto±ci "?" która jest zakodowanym brakiem danych i której SAS nie wyªoniª we DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Macierz korelacji - "SAScode" Poza zbadaniem zale»no±ci pomi¦dzy efektami a zmienn¡ zale»n¡, nale»y sprawdzi¢ tak»e korelacje wyst¦puj¡ce pomi¦dzy silnie skorelowane zmienne niezale»ne mogªyby znieksztaªci¢ tworzone modele. poszczególnymi efektami, gdy» Mo»na to zrobi¢ w 2 krokach. Po 1 mo»na skonstruowa¢ wspóªczynnikami Pearsona) mi¦dzy zmiennymi ci¡gªymi za pomoc¡ w¦zªa "Kod SAS-owy" macierz korelacji (ze znajduj¡cego si¦ w zakªadce "Pomocnicze". Po wybraniu w¦zªa, w oknie wªa±ciwo±ci w¦zªa klikamy "Edytor Kodu" i umieszczamy tam kod: DATA MINING G. Jaªocha Macierz korelacji - "SAScode" A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Otrzymane rezultaty: DATA Lista korelacji - zmienne klasykuj¡ce MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Poniewa» otrzymana w ten sposób macierz nie uwzgl¦dnia zmiennych klasykuj¡cych, zbadamy korelacje pomi¦dzy efektami za pomoc¡ wspóªczynnika V Cramera. Kod ze wzgl¦du na dªugo±¢ zamieszczony jest w zaª¡czniku. Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Kod dziaªa w sposób nast¦puj¡cy: na ka»dej kombinacji dwóch zmiennych ze zbioru bazacensus obliczony zostaje wspóªczynnik V Cramera (wraz z informacj¡ czy wynik mo»e by¢ uznany za wiarygodny). Nast¦pnie tworzony jest zbiór ª¡cz¡cy wszystkie wyniki i posortowany malej¡co po wspóªczynniku. DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Lista korelacji - zmienne klasykuj¡ce Posortowana malej¡co lista korelacji: Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses DATA MINING G. Jaªocha Explore - podsumowanie A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane W tym etapie Data Mining'u lepiej poznali±my dane, ich potencjalny wpªyw na zmienn¡ zale»n¡, ich rozkªady oraz dane korelacje mi¦dzy zmiennymi. Po statystykach opisowych mo»na Sample stwierdzi¢, »e dane s¡ wolne od bª¦dów, jednak»e odkryli±my »e Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses dla przynajmiej jednej zmiennej istnieje warto±¢ "?", która jest zakodowanym brakiem danych. W kolejnym etapie sprawdzimy dokªadnie warto±ci przyjmowane przez dane zmienne. DATA Modykowanie danych MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Modykacja to etap w którym nale»y przygotowa¢ dane do drzew decyzyjnych ró»ni si¦ od przygotowywania ich do regresji i sieci neuronowych. modelowania. Przygotowanie danych do budowy Etap ten zostanie wi¦c podzielony ze wzgl¦du na metod¦ budowy modelu i zostanie rozwini¦ty w kroku "Model". Teraz wi¦c zostanie przeprowadzona podstawowa modykacja danych któr¡ mo»na zastosowa¢ zarówno do drzew jak i regresji oraz sieci neuronowych. Polega ona na: • Model Drzewa Regresja logistyczna Sieci neuronowe Asses Porzuceniu nieistotnych dla budowy modelu oraz silnie skorelowanych zmiennych • Sprawdzeniu obserwacji pod k¡tem zakodowanych braków danych DATA Porzucanie MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample W pierwszym kroku tego etapu usuniemy zmienne których napewno nie powinno by¢ w budowanych modelach. Po etapie eksploracji wiadomo ju», »e korelacja pomi¦dzy education_num education i wynosi 1, wi¦c jedna z tych zmiennych zostanie odrzucona. Po za tym odrzucona zostanie równie» zmienna wagowa fnlwgt. Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Dokonuje si¦ tego za pomoc¡ w¦zªa "Porzucanie", zmieniaj¡c warto±¢ kolumny "Porzu¢" z "Domy±lne" na "Tak". DATA Zast¦powanie - braki danych MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Kolejnym krokiem tego etapu b¦dzie sprawdzenie obserwacji zakodowanych braków danych i zmienienie ich warto±ci na braki danych odczytywane przez SAS. pod k¡tem Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane Ma to szczególne znaczenie przy budowie modeli, poniewa» drzewa decyzyjne "radz¡ sobi¦" z brakami danych, natomiast regresja i sieci neuronowe pomijaj¡ caªe obserwacje dla których dane wyst¦puj¡ w której± ze zmiennych braki danych. Sample Dla prawidªowego porównywania modeli nale»y je tworzy¢ na Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses tych samych zbiorach danych (lub mo»liwie jak najbardziej zbli»onych). Problem ten zostanie rozwi¡zany przy budowie modeli. Z etapu eksploracji wiadomo ju», »e zmienne ci¡gªe i klasykuj¡ce nie maj¡ braków danych. Przyjrzyjmy si¦ jednak warto±ciom które przyjmuj¡ te zmienne Mo»na tego dokona¢ w w¦¹le "Zast¦powanie" klikaj¡c na "Edytor zast¡pie«" we wªa±ciwo±ciach w¦zªa. DATA Zast¦powanie - braki danych MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Jak wida¢ na zaª¡czonym wykresie warto±¢ "?" wyst¦puje dla 3 zmiennych. Zast¦pujemy te warto±ci przez warto±¢ "_missing_". Dzi¦ki temu SAS potraktuje te komórki jako braki danych. DATA Podsumowanie MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane W tym momencie otrzymali±my gotowy zbiór ucz¡cy, który mo»e sªu»y¢ do dalszego modelowania drzew decyzyjnych. Na tym etapie mo»na równie» zmieni¢ spojrzenie na dane rozpatrywany problem i u»y¢ narz¦dzi analizy zmiennych Sample skªadowych za pomoc¡ w¦zªa "Zmienne skªadowe" czego nie Importowanie danych Sampling Partycjonowanie b¦dziemy robi¢ w tej prezentacji. Mo»na równie» w tym momencie r¦cznie zmodykowa¢ wybrane zmienne (np. Explore sklasykowa¢ zmienn¡ wiek) za pomoc¡ w¦zªa "Konstruowanie Modify reguª". Model Drzewa Regresja logistyczna Sieci neuronowe Asses DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Podsumowanie DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera DRZEWA DECYZYJNE Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses W praktycznych zastosowaniach modeli predykcyjnych istotna jest ªatwo±¢ interpretacji i wyja±nienia generowanych wyników. Bardzo pomocne s¡ przy tym drzewa decyzyjne, które generuj¡ zale»no±ci w postaci zbioru warunków logicznych. DATA MINING G. Jaªocha A. Pomykaªa Budowa drzewa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Budow¦ drzewa zaczynamy od podziaªu korzenia.W pierwszym kroku poszukujemy podziaªu,który pozwoli odnale¹¢ grupy charakteryzuj¡ce si¦ du»¡ jednorodno±ci¡ ze wzgl¦du na warto±¢ zmiennej obja±nianej.Warunkiem koniecznym jest poprawa stopnia takiej jednorodno±ci wzgl¦dem elementu,który jest dzielony.Szukany jest podziaª,który zmaksymalizuje ró»nic¦: Explore ∆Z = Z0 − Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses gdzie: Z0 -stopie« Zi -stopie« r P i=1 ni n0 Zi niejednorodno±ci dzielonego elementu; niejednorodno±ci i-tego elementu powstaj¡cego w wyniku podziaªu; n0 -liczebno±¢ dzielonego elementu; ni -liczebno±¢ i-tego elementu powstaj¡cego w wyniku r -liczba elementów powstaj¡cych w wyniku podziaªu podziaªu; DATA MINING G. Jaªocha A. Pomykaªa Miary niejednorodno±ci B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Wspóªczynnik entropii Analizowane dane H(p1 , ..., pk ) = − Sample Importowanie danych Sampling Partycjonowanie 1 Modify Model Asses i=1 pi log2 (pi ) Wspóªczynnik Giniego Explore Drzewa Regresja logistyczna Sieci neuronowe k P gdzie: − k P i=1 pi2 k -liczba kategorii przyjmowanych przez zmienn¡ pi -odsetek populacji przyjmuj¡cy i-t¡ warto±¢ obja±nian¡; zmiennej obja±nianej DATA MINING G. Jaªocha A. Pomykaªa Miary niejednorodno±ci B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Log-warto±¢ chi-kwadrat -log(p-warto±¢) Analizowane dane gdzie p-warto±¢ jest granicznym poziomem istotno±ci statystyki: Sample k P r P Importowanie danych Sampling Partycjonowanie i=1 j=1 R(ij) (R(ij) −E(ij) )2 E(ij) Explore przy czym Modify wierszu i j-tej kolumnie warto±¢ równ¡ liczbie obserwacji Model przyjmuj¡cych i-t¡ warto±¢ zmiennej obja±nianej w j-tym w¦¹le,a Drzewa Regresja logistyczna Sieci neuronowe Asses E(ij) jest macierz¡ rzeczywist¡ przyjmuj¡c¡ w i-tym jest macierz¡ przyjmuj¡c¡ w i-tym wierszu i j-tej kolumnie warto±¢ równ¡ oczekiwanej na podstawie rozkªadu liczbie obserwacji przyjmuj¡cych i-t¡ warto±¢ zmiennej obja±nianej w j-tym w¦¹le DATA MINING G. Jaªocha A. Pomykaªa Miary niejednorodno±ci B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Ostatnia statystyka ma tendencj¦ do "faworyzowania" Sample wielokrotnych podziaªów w¦zªa nad dwukrotnymi,dlatego cz¦sto Importowanie danych Sampling Partycjonowanie modykuje si¦ wzór,uwzgl¦dniaj¡c kar¦ za liczb¦ badanych podziaªów Explore Modify -log(m*p-warto±¢) Model Drzewa Regresja logistyczna Sieci neuronowe Asses gdzie m jest liczb¡ podziaªów DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Ustawienia drzewa DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Ustawienia drzewa cd. DATA MINING G. Jaªocha A. Pomykaªa Dost¦pne metody tworzenia drzewa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie • Najwi¦ksze -Wybiera caªe drzewo • Ocena -Wybiera najmniejsze drzewo o jak najlepszej warto±ci oceny Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses • N -Wybiera najwi¦ksze drzewo z co najwy»ej n li±cmi DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Wyniki Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Wyniki przedstawione s¡ w sze±ciu oknach DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Nakªadka rankingów ocen punktowych Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Porównanie wykresów wzrostu liftu dla zbioru treningowego i walidacyjnego. Je»eli krzywe si¦ istotnie ró»ni¡,to ±wiadczy to o przetrenowaniu lub niedotrenowaniu modelu. DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Statystyki li±ciowe Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane Wykres porównuje procentowy udziaª warto±ci zmiennej obja±nianej równej 1 we wszystkich li±ciach dla danych dane treningowych i walidacyjnych.Du»e ró»nice w wysoko±ci sªupków Sample wskazuj¡,»e dany li±¢ nale»y przyci¡¢. Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Mapa drzewa Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Mapa drzewa pokazuje jego struktur¦,powierzchnia prostok¡tów odpowiada liczebno±ci w danych w¦zªach drzewa.Nat¦»enie koloru pokazuje stopie« jednorodno±ci populacji w danym w¦¹le. DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Statystyki dopasowania Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Tabela pokazuje statystyki dopasowania na zbiorach Sample treningowym, walidacyjnym i ewentualnie testowym. Du»e Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses ró»nice w warto±ciach statystyk dopasowania mog¡ wskazywa¢ na przetrenowanie lub niedotrenowanie modelu. DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Wynik Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses W wyniku warto zwróci¢ uwag¦ na tabel¦ klasykacji,pokazuj¡c¡ udziaª dobrze i ¹le sklasykowanych obserwacji na zbiorach treningowym i walidacyjnym. DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Drzewo DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Drzewko Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Kolorem czerwonym oznaczone s¡ reguªy podziaªu,zielonym zmienne dziel¡ce w¦zeª.Grubo±¢ czarnych linii wskazuje na liczebno±¢ podzbioru. Stopie« jednorodno±ci w danym w¦¹le jest tym wi¦kszy,im ciemniejszy jest jego kolor. DATA MINING G. Jaªocha A. Pomykaªa W¦zeª B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane Z w¦zªa mo»emy odczyta¢ nast¦puj¡ce informacje: • dane Ile zawiera obserwacji ze zbioru treningowego i walidacyjnego Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses • Rozkªad procentowy warto±ci zmiennej obja±nianej ze zbioru treningowego i walidacyjnego w danym w¦¹le • Numer w¦zªa DATA MINING G. Jaªocha A. Pomykaªa Interpretacja fragmentu drzewa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses W zbiorze jest 24, 1% bogatych ludzi,za± w podzbiorze ludzi b¦d¡cych w zwi¡zku maª»e«skim bogaci stanowi¡ ponad 45%. Dziel¡c dalej ten podzbiór stopniem wyksztaªcenia widzimy,»e w±ród zam¦»nych/»onatych ponad 72%. ≥ licencjatów odsetek ten wynosi DATA MINING G. Jaªocha A. Pomykaªa English rules B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses W rezultatach klikamy angielskiego widok −→ model −→ reguªy j¦zyka DATA MINING G. Jaªocha A. Pomykaªa ER B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Pokazuje nam si¦ okno peªne logicznych formuª. Np. je±li dany osobnik z populacji jest w zwi¡zku maª»e«skim,ma ni»sze wyksztaªcenie ni» licencjackie i wzrost kapitaªu ≥ 5095, 5 to na podstawie wcze±niejszych obserwacji stwierdzamy,»e na 98% jest bogaty. DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Budowa odpowiedniego drzewa Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Zbyt zªo»one drzewo (wielokrotno±¢ podziaªów,du»a gª¦boko±¢ i ilo±¢ li±ci) jest nadmiernie dopasowane do zale»no±ci charakterystycznych dla zbioru treningowego,przez co jest bardziej niestabilne (przetrenowanie).Zbyt maªe drzewo ma Explore wi¦kszy odsetek bª¦dnych klasykacji. Optymaln¡ wielko±¢ Modify drzewa mo»emy wybra¢ posªuguj¡c si¦ wykresem bª¦du Model ±redniokwadratowego lub skuteczno±ci klasykacji wzgl¦dem Drzewa Regresja logistyczna Sieci neuronowe Asses liczby li±ci drzewa. DATA MINING G. Jaªocha A. Pomykaªa MSE B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses W rezultatach klikamy poddrzewa widok −→ model −→ wykres oceny DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Interakcyjne drzewo decyzyjne Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses W interakcyjnych drzewach decyzyjnych mamy "caª¡ wªadz¦" podczas budowy.Mo»emy zmienia¢ reguªy podziaªu, dzieli¢ zbiór najpierw przy pomocy zmiennych mniej istotnych,w peªni decydujemy o wygl¡dzie drzewa. Pokaz na »ywo DATA MINING G. Jaªocha A. Pomykaªa Boosting Gradientowy B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Polega na stworzeniu szeregu drzew decyzyjnych,w których ka»de nast¦pne drzewo nadaje wi¦ksz¡ wag¦ obserwacjom ¹le sklasykowanym w poprzednim drzewie,a mniejsz¡ dobrze sklasykowanym.Zachodzi formuªa: wki = Explore Drzewa Regresja logistyczna Sieci neuronowe Asses (1+mk−1 (i)4 ) i=1 Modify Model 1+mk−1 (i)4 n P wki -waga i-tej obserwacji w k-tej iteracji algorytmu; mk−1 (i)-liczba niepoprawnych klasykacji i-tej obserwacji w k − 1 poprzednich iteracjach; n-liczba obserwacji w zbiorze gdzie: treningowym DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Regresja logistyczna w porównaniu do drzew decyzyjnych reprezentuje odmienne podej±cie do zagadnie« klasykacyjnych. Zakªada si¦ bowiem, »e warto±¢ prawdopodobie«stwa jest uzale»niona predyktorem liniowym logit(p̂) η = X β. = X β = β0 + β1 X1 + β2 X 2 + · · · + βN XN Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Po estymacji parametrów modelu mo»emy dla wektora X = (X1 , X2 , X3 . . . Xn ) policzy¢ wyestymowane prawdopodobie«stwo: Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses p̂ = 1 1 + exp(−X β) DATA Imputacja MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses W przypadku komercyjnych zagadnie« analitycznych, zale»nie od ilo±ci danych, mo»na uzupeªni¢ braki w danych(w¦zeª imputacja ). Mo»na to zrobi¢ na kilka sposobów: • • Wykorzystuj¡c znajomo±¢ specyki modelu danych Zastosowanie metod automatycznych: • • • Miara tendencji centralnej mediana, dominanta, ±rednia Wylosowanie warto±ci zgodnie z rozkªadem zmiennej Warto±¢ oparta na modelu drzewa decyzyjnego DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Przy doborze zmiennych obja±niaj¡cych warto zastanowi¢ si¦, czy na pewno b¦d¡ miaªy wpªyw w modelu na zmienn¡ obja±nian¡ oraz usun¡¢ zmienne, które s¡ ze sob¡ silnie skorelowane. W przypadku wyst¦powania interakcji mi¦dzy dwoma zmiennymi, warto w modelu uwzgl¦dni¢ ich iloczyn. Cz¦sto przy du»ej ilo±ci zmiennych klasykuj¡cych mo»emy mie¢ problem z ich optymalnym doborem do modelu. Mo»na je wyselekcjonowa¢ nast¦puj¡cymi metodami: • wolny, nast¦pnie dobieramy pojedynczo zmienne • Explore Drzewa Regresja logistyczna Sieci neuronowe Asses Krokowa wstecz(Backward)- Zaczynamy od doboru wszystich zmiennych i usuwamy kolejno najmniej istotne Modify Model Krokowa wprzód(Forward) - Najpierw dobieramy wyraz • Krokowa- Metoda analogiczna do metody Forward, z ró»nic¡, »e po ka»dym kroku bada si¦ istotno±¢ zmiennych obecnych ju» w modelu. DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane Aby u»y¢ modelu regresji logistycznej, nale»y u»y¢ w¦zªa Regresja dla zmodykowanych danych, oraz wybra¢ odpowiednie zmienne klasykuj¡ce. Jak zmienna celu jest dane binarna, to model automatycznie dobiera funkcj¦ logitow¡ jako Sample wi¡»¡c¡ Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses DATA Przeksztaªcanie danych MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane Przy regresji logistycznej wa»ne jest, aby rozkªad zmiennych ci¡gªych miaª sko±no±¢ blisk¡ zeru. Je»eli w rezultacie w¦zªa dane multiplot warto±¢ bezwzgl¦dna estymatora sko±no±ci dla danego Sample rozkªadu przekracza 5 to konieczne jest przeksztaªcenie danych. Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Równie» warto zwróci¢ uwag¦ na relacj¦ pomi¦dzy zmienn¡ obja±nian¡. Zmienna age b¦dzie wymagaªa przeksztaªcenia kwadratowego. DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Wybieramy post¦puj¡c¡(forward) metod¦ iteracyjn¡ DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Po uruchomieniu w¦zªa otrzymujemy okienko z rezultatami w których s¡ pokazane kolejne iteracje procesu, oraz ostateczny model. Wykres liftu: DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Budowa wykresu liftu • Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Jak mamy dany model, to rankujemy dane wzgl¦dem wyestymowanych prawdopodobie«stw Data Mining • Dzielimy zbiór na równe cz¦±ci np co 5 centyli czyli 20 cz¦±ci. • Zliczamy w ka»dej cz¦±ci ilo±¢ sukcesów(y=1) • Liczymy skumulowan¡ ilo±¢ sukcesów • Obliczamy skumulowan¡ ilo±¢ sukcesów w ka»dej cz¦±ci w procentach(tzw. Gain score) • W ostatnim kroku, dzielimy Gain score przez górny kwantyl danego przedziaªu w procentach, np. dla przedziaªu z górnym centylem 15% gain score dzielimy na 15 DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Ostateczny model z nast¦puj¡cymi zmiennymi obja±niaj¡cymi DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Z racji tego, »e w modelu wi¦kszo±¢ zmiennych to zmienne kategoryzuj¡ce, mo»na porówna¢ najbardziej istotne wspóªczynniki • • Analizowane dane • Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses βi , st¡d, najwi¦ksze efekty dodatnie wyst¦puj¡ dla: Ludzi po ±lubach cywilnych - 1.58 Ludzi po ±lubach wojskowych- 1.49 Profesjonalistów w swoich dziedzinach(informatycy, adwokaci itd.)- 1.47 za± najwi¦ksze efekty ujemne dla • • • Obywatele Kolumbii - 1.46 Usªugi domowe- 1.34 Obywatele Dominikany- 1.26 DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Wykres efektów bezwzgl¦dnych DATA Sie¢ neuronowa MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses def 1 Zbiór prostych jednostek obliczeniowych przetwarzaj¡cych dane, komunikuj¡cych si¦ ze sob¡ i pracuj¡cych równolegle. def 2 Zbiór poª¡czonych ze sob¡ jednostek wej±ciowo-wyj±ciowych. Z ka»dym poª¡czeniem skojarzona jest waga, która mo»e zosta¢ zmieniona w trakcie uczenia. DATA Sie¢ neuronowa MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane W zaªo»eniu s¡ to obiekty, które swoim dziaªaniem na±laduj¡ aktywno±¢ rzeczywistych ukªadów nerwowych w mózgach dane organizmów »ywych. W skutek poª¡czenia szeregu neuronów o Sample stosunkowo prostej budowie i niewielkich mo»liwo±ciach Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses uzyskuje si¦ struktur¦ zdoln¡ do przeprowadzania bardzo skomplikowanych procesów rozpoznawania wzorców i klasykacji. DATA Sie¢ neuronowa MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Prosta sie¢ neuronowa z skªada si¦ warstwy wej±ciowej Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses zawieraj¡cej n neuronów (odpowiadaj¡cych zmiennym) oraz warstwy wyj±ciowej sumuj¡cej wa»one impulsy i transformuj¡c¡ je do skali oryginalnej zmiennej Y. DATA Sie¢ neuronowa MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Rozszerzeniem tak opisanej architektury s¡ modele, które Analizowane okre±lonej ilo±ci neuronów, które nieliniowo przeksztaªcaj¡ dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses dodatkowo zawieraj¡ warstw¦ ukryt¡. Skªada si¦ ona z kombinacj¦ liniow¡ otrzymanych sygnaªów. Pojedynczy neuron z warstwy ukrytej skªada si¦ z dwóch elementów: • funkcji ª¡czenia • funkcji aktywacji DATA MINING G. Jaªocha Sie¢ neuronowa A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Funkcja ª¡czenia odpowiada za wytworzenie jednej warto±ci wej±ciowej dla danego neuronu z warto±ci jego poprzedników. Du»a cz¦±¢ dost¦pnych w SAS EM funkcji opiera si¦ na radialnej funkcji bazowej - jest to funkcja, której warto±ci zale»¡ tylko od odlegªo±ci od ustalonego punktu. DATA MINING G. Jaªocha Sie¢ neuronowa A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Funkcja aktywacji oblicza warto±¢ na wyj±ciu neuronu. DATA MINING G. Jaªocha Sie¢ neuronowa A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Ostateczny wynik generowany przez sie¢ jest rezultatem dziaªania funkcji transformuj¡cej sum¦ wa»onych wyj±¢ z neuronów ukrytych. W zale»no±ci od tego, czy zmienna obja±niana jest binarna, czy ci¡gªa, stosuje si¦ odpowiednie przeksztaªcenie sªu»¡ce zachowaniu odpowiedniej skali (dla zmiennej ci¡gªej jest to przeksztaªcenie identyczno±ciowe, dla binarnej odwrotno±¢ przeksztaªcenia logitowego). DATA Sie¢ neuronowa MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Ogólny zapis sieci z jedn¡ warstw¡ ukryt¡ zawieraj¡c¡ n neuronów. DATA MINING G. Jaªocha Sie¢ neuronowa A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Dodatkowym rozszerzeniem tak zdenioweanego modelu mo»e by¢ wprowadzenie bezpo±redniego poª¡czenia pomi¦dzy warstw¡ wej±ciow¡ i wyj±ciow¡. Takie podej±cie umo»liwi wª¡czenie do analizy równie» prostej kombinacji liniowej predyktorów, jednak rozbuduje rozpatrywane zagadnienie estymacji DATA Sie¢ neuronowa MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane Sposobem na wyznaczenie niezb¦dnej liczby neuronów w warstwie ukrytej mo»e by¢ tzw. reguªa piramidy geometrycznej, która mówi, »e dla wielu praktycznych zastosowa« sieci liczba neuronów w warstwach tworzy ksztaªt piramidy, przy czym dane liczba neuronów maleje od wej±cia w kierunku wyj±cia. Neurony Sample poszczególnych warstw tworz¡ ci¡g geometryczny. Importowanie danych Sampling Partycjonowanie n= √ xm Explore Modify Nale»y pami¦ta¢, »e powy»sz¡ zale»no±¢ mo»na traktowa¢ jak Model wzór okre±laj¡cy minimaln¡ liczb¦ neuronów przy, której sie¢ si¦ Drzewa Regresja logistyczna Sieci neuronowe Asses uczy zadanego problemu. DATA Uczenie sieci MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Standardowo proces uczenia sieci odbywa si¦ w nast¦puj¡cy sposób: Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane • ryzyka bª¦dnej estymacji parametrów i umo»liwia "sprawiedliwe" przydzielenie wag pocz¡tkowych, • dane Ustalane s¡ parametry pocz¡tkowe - najcz¦±ciej przez losowanie, Sample Importowanie danych Sampling Partycjonowanie Zmienne obja±niaj¡ce s¡ standaryzowane, co sªu»y redukcji • Ze zbioru treningowego wczytywane s¡ wszystkie obserwacje. Po przeliczeniu predykcji dla ka»dej z nich Explore uruchamiany jest algorytm optymalizacyjny, który koryguje Modify wagi w celu poprawienia stopnia dopasowania modelu, Model Drzewa Regresja logistyczna Sieci neuronowe Asses • Poprzedni krok powtarzany jest do osi¡gni¦cia zbie»no±ci algorytmu optymalizacyjnego lub osi¡gni¦cia innego warunku stopu, którym mo»e by¢ np. przekroczenie okre±lonej liczby iteracji, DATA Uczenie sieci cd. MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane • Dla wszystkich zestawów wag otrzymanych w kolejnych dane iteracjach oceniany jest stopie« dopasowania modelu na Sample próbie walidacyjnej. Na tej podstawie wybierany jest Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses ostateczny model. DATA MINING G. Jaªocha Sie¢ neuronowa A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses W aplikacji SAS Enterprise Miner istnieje kilka narz¦dzi wykorzystuj¡cych sieci neuronowe. U»yte zostanie jedno z nich - Sie¢ neuronowa. Pozwala ono na budow¦ modelu sieci neuronowej na podstawie architektury odpowiedaj¡cej m.in. modelom liniowym lub perceptronowi wielowarstwowemu. DATA Sie¢ neuronowa MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses SAS EM posiada kilka predeniowanych architektur sieci neuronowych. DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Sie¢ neuronowa Po podª¡czenu w¦zªa i "klikni¦ciu" go otrzymujemy: DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Sie¢ neuronowa Podª¡czenie w¦zªa i ustawienie kryterium wyboru modelu jako bª¦dna klasykacja oraz architektury jako wielowarstwowy perceptron Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore powoduje otrzymanie raportu zawieraj¡ce m.in okno output, w Modify którym mo»na zobaczy¢ nast¦puj¡cy komunikat: Model Drzewa Regresja logistyczna Sieci neuronowe Asses DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Sie¢ neuronowa Oznacza to, »e zastosowany algorytm optymalizacyjny (domy±lnie metoda quasi-Newtonowska) nie osi¡gn¡ª zbie»no±ci. Przeprowadzenie 20 iteracji na zbiorze treningowym nie pozwoliªo na znalezienie ostatecznego rozwi¡zania. Spojrzenie na wykres iteracyjny pozwala zauwa»y¢ tendencj¦ spadkow¡ bª¦du klasykacji, a zatem prawdopodobnie mo»liwe jest lepsze dopasowanie modelu, pod warunkiem zwi¦kszenia liczby iteracji. DATA Sie¢ neuronowa MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Zmiana opcji maksymalnie iteracji na wato±¢ równ¡ 200 powoduje wydªu»enie czasu uczenia modelu, ale algorytm osi¡ga zbie»no±¢. DATA MINING G. Jaªocha Sie¢ neuronowa A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Na wykresie wida¢, »e najlepszy model osi¡gni¦to w okoªo 42 iteracji, co jets oznaczone niebiesk¡ lini¡. Stopie« dopasowania otrzymanej sieci przedstawiony jest poni»ej: DATA MINING G. Jaªocha Sie¢ neuronowa A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Próbuj¡c poprawi¢ dopasowanie sieci stworzono now¡, w której wª¡czone zostaªy bezpo±rednie poª¡czenia, a tak»e zwi¦kszono liczb¦ jednostek ukrytych do 5 (domy±lnie 3). Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Otrzymano sie¢ o nast¦puj¡cych parametrach dopasowania: DATA Ocena i wybór modelu MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane Po wybudowaniu wielu konkurenyjnych modeli predykcyjnych pozostaje zagadnienie wyboru najlepszego z nich, który b¦dzie mógª by¢ zastosowany dla nowo napªywaj¡cych danych. Dopasowanie modelu mo»e by¢ ocenione przy u»yciu ró»nych statystyk. Przykªadowe z nich to: • dane zaklasykowanych przypadków. Miara cz¦sto u»ywana do Sample oceny modeli klasykacyjnych wtedy, gdy ka»dy z Importowanie danych Sampling Partycjonowanie obserwowanych przypadków mo»na traktowa¢ z równ¡ wag¡. Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Skuteczno±¢ klasykacji - odsetek poprawnie • Bª¡d ±redniokwadratowy - ±rednia warto±¢ kwadratu ró»nicy pomi¦dzy predykcj¡ a rzeczywist¡ warto±ci¡. W przypadku binarnych zagadnie« klasykacyjnych warto±ci¡ przewidywan¡ jest prawdopodobie«stwo, a warto±ci¡ rzeczywist¡ 0 lub 1. DATA Statystyki dopasowania MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera • najwi¦kszej ró»nicy pomi¦dzy warto±ci¡ przewidywan¡ a Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Maksymalny bª¡d bezwzgl¦dny - warto±¢ bezwzgl¦dna rzeczywist¡. Miara oceniaj¡ca maksymalny spodziewany bª¡d predykcji. • Statystyka Koªmogorowa-Smirnowa - okre±la, jak dobrze dwie klasy zmiennej obja±nianej s¡ rozró»niane przez model. Jej warto±¢ obliczana jest jako: Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses maxt |F1 (t) − F0 (t)|, gdzie F0 (t), F1 (t) - warto±ci dystrybuanty empirycznej predykcji dla grup obserwacji, w których zmienna obja±niana przyjmuje odpowiednio warto±ci 0 i 1. Im wi¦ksza warto±¢ tej statystyki, tym wi¦ksze ró»nice w prawdopodobie«stwach przydzielanych obu grupom, a wi¦c tym wi¦ksza moc dyskryminacyjna modelu. DATA Statystyki dopasowania MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane • Wzrost (Lift) - miara dla okre±lonego odsetka populacji b¦d¡cej przedmiotem zagadnienia klasykacyjnego. dane Obliczana jest poprzez podzielenie odsetka Sample zaobserwowanych zdarze« w górnych Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses n% populacji posortowanej malej¡co wedªug przewidywanych prawdopodobie«stw przez procent tych samych zdarze« w caªej populacji. DATA Statystyki dopasowania MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses • Indeks ROC - miara okre±laj¡ca skuteczno±¢ modelu w rozpoznawaniu ro»nic pomi¦dzy podpopulacjami o ró»nych warto±ciach zmiennej obja±nianej. Powstaje poprzez obliczenie pola pod krzyw¡ ROC, któa konstruowana jest w nast¦puj¡cy sposób: • z populacji posortowanej malej¡co wedªug przydzielonych prawdopodobie«stw wybierane jest górne k% obserwacji; • przy zaªo»eniu, »e w wybranej podpopulacji znajduje si¦ x jedynek i y zer oraz oznaczaj¡c przez n1 i n0 liczno±ci tych klas w caªej rozpatrywanej próbie, obliczane s¡ nast¦puj¡ce warto±ci: 1-specyczno±¢= ny0 wra»liwo±¢ = nx1 • tak opisane operacje powtarzane s¡ dla ró»nych warto±ci k , a otrzymane warto±ci ª¡czone s¡ w krzyw¡ W zwi¡zku z powy»szym im bardziej wykres krzywej skierowany jest w stron¦ lewego górnego rogu, tym lepsze wªasno±ci klasykacyjne badanego modelu. DATA Porównanie modeli MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Narz¦dziem umo»liwiaj¡cym porównanie dziaªania modeli predykcyjnych w SAS EM jest w¦zeª Porównanie modeli. Poª¡czenie z nim wybranych w¦zªów odpowiadaj¡cym wcze±niej wykorzystywanym metodom pozwoli na wybór najlepszego modelu. DATA MINING G. Jaªocha Porównanie modeli A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses ¡cz¡c wszystkie modele z w¦zªem Porównanie modeli i uruchamiaj¡c go otrzymujemy m.in.: DATA Porównanie modeli MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Wykresy ROC DATA Porównanie modeli MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample Importowanie danych Sampling Partycjonowanie Explore Modify Model Drzewa Regresja logistyczna Sieci neuronowe Asses Wykresy klasykacji DATA Scoring MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera Data Mining Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane Zanim wybrany model b¦dzie mógª zosta¢ wdro»ony i zastosowany do nowo napªywaj¡cych przypadków, nale»y dokona¢ jego ostatecznej oceny na kolejnej niezale»nej próbie danych. T¦ rol¦ odgrywa zbiór testowy, który w przypadku dane zastosowa« komercyjnych jest najcz¦±ciej wycinkiem danych z Sample najnowszego okresu. Importowanie danych Sampling Partycjonowanie Nale»y pami¦ta¢, »e ka»dy model w przypadku danych komercyjnych po pewnym czasie zacznie traci¢ na jako±ci, Explore dlatego niezb¦dnym jest monitorowanie jego skuteczno±ci. Modify Zatem poj¦cie DATA MINING powinno by¢ rozumiane jako Model proces cykliczny - wraz z napªywem nowych danych pojawia si¦ Drzewa Regresja logistyczna Sieci neuronowe Asses potrzeba zmiany zaªo»e« lub poprawy jako±ci analizy.