Ekstrakcja wiedzy z Polskiego Rejestru Wrodzonych Wad Rozwojowych Izabela Brzezińska Polski Rejestr Wrodzonych Wad Rozwojowych (PRWWR) PRWWR działa od 1997r. jako projekt Ministerstwa Zdrowia i Opieki Społecznej Obejmuje 74% powierzchni Polski, 72% populacji Ponad 32 000 wpisów dzieci z wrodzonymi wadami rozwojowymi Od 2001 r. członek EUROCAT’u- zrzeszania rejestrów europejskich 2 Zbiór danych do analizy Zbiór 867 dzieci z zespołem Downa, spośród których 290 ma wrodzoną wadę serca 10 atrybutów warunkowych (np. masa urodzen., wiek płodowy, kariotyp, itd.) 1 atrybut decyzyjny (wada_serca={tak, nie}) Problemy: brakujące wartości, niespójności Jakie czynniki wpływają na występowanie wrodzonych wad serca wśród dzieci z zespołem Downa? 3 Etapy procesu odkrywania wiedzy Identyfikacja dziedziny problemu, wybór/tworzenie docelowych danych, wstępne przetwarzanie danych, wybór zadania i algorytmów odkrywania wiedzy, pozyskiwanie wiedzy z danych, interpretacja i ocena wyników poszukiwań. 4 Wstępne przetwarzanie danych Usunięcie duplikatów Identyfikacja obserwacji nietypowych Dyskretyzacja atrybutów ciągłych Uwzględnianie nieznanych wartości 5 Wybrana metoda analizy danych Teoria zbiorów przybliżonych jako narzędzie do uwzględniania niespójności mogącej być wynikiem granularności dostępnej informacji, Narzędzie: ROSE 2.0, algorytm Explore, indukcji satysfakcjonującego zbioru reguł, 6 Wyniki Wada_serca=nie Wada_serca=tak Liczba reguł 31 4 Min. confidence [%] 75 75 Min. strength [%] 7 2 Jakość klasyfikacji w klasach [%] 98,18 (+-2,24) 1,27 (+-1,08) Średnia jakość klasyfikacji [%] 65,64 (+-6,41) 7 Inne metody Instance based learning (IBL1-3), Indukcja drzew decyzyjnych (C4.5), Regresja logistyczna (Statistica 6.0) 8 Porównanie wyników różnych metod Średnia Jakość klasyfikacji w jakość klasie klasyfikacji[%] wada_serca=nie Jakość klasyfikacji w klasie wada_serca=tak Rough sets 65,64 (+-6,41) 98,18 (+-2,24) 1,27 (+-1,08) IBL1 64,50 (+-1,34) 96,53 (+-2,24) 0,69 (+-0,58) C4.5 przed przycięciem 72,60 (+-1,40) 98,90 (+-1,91) 20,69 (+-1,20) C4.5 po przycięciu 66,60 (+-0,00) 100,00 (+-0,00) 0,00 (+-0,00) Regresja logistyczna 67,24 (+-1,24) 99,13 (+-1,43) 3,79 (+-1,01) 9 Dodatkowe eksperymenty Selekcja - w celu zrównoważenia liczności obu klas decyzyjnych Projekcja – 9 atrybutów warunkowych – 8 atrybutów warunkowych 10 Kierunki dalszych badań Rozszerzenie analizy na zbiór z atrybutem decyzyjnym wskazującym rodzaj/skalę wady serca, Ekstrakcja wiedzy z innych obszarów Rejestru, Zastosowanie innych podejść ekstrakcji wiedzy, np.sieci neuronowe, podejścia biorące pod uwagę uporządkowanie dziedzin atrybutów według preferencji, Analiza skalowalności wybranych metod ekstrakcji wiedzy. 11