prezentacja_pracy

advertisement
Ekstrakcja wiedzy
z Polskiego Rejestru Wrodzonych
Wad Rozwojowych
Izabela Brzezińska
Polski Rejestr Wrodzonych
Wad Rozwojowych (PRWWR)
 PRWWR działa od 1997r. jako projekt
Ministerstwa Zdrowia i Opieki Społecznej
 Obejmuje 74% powierzchni Polski, 72% populacji
 Ponad 32 000 wpisów dzieci z wrodzonymi
wadami rozwojowymi
 Od 2001 r. członek EUROCAT’u- zrzeszania
rejestrów europejskich
2
Zbiór danych do analizy
 Zbiór 867 dzieci z zespołem Downa, spośród których 290 ma
wrodzoną wadę serca
 10 atrybutów warunkowych
(np. masa urodzen., wiek płodowy, kariotyp, itd.)
 1 atrybut decyzyjny (wada_serca={tak, nie})
 Problemy: brakujące wartości, niespójności
 Jakie czynniki wpływają na występowanie wrodzonych wad serca
wśród dzieci z zespołem Downa?
3
Etapy procesu odkrywania wiedzy
 Identyfikacja dziedziny problemu,
 wybór/tworzenie docelowych danych,
 wstępne przetwarzanie danych,
 wybór zadania i algorytmów odkrywania wiedzy,
 pozyskiwanie wiedzy z danych,
 interpretacja i ocena wyników poszukiwań.
4
Wstępne przetwarzanie danych
 Usunięcie duplikatów
 Identyfikacja obserwacji nietypowych
 Dyskretyzacja atrybutów ciągłych
 Uwzględnianie nieznanych wartości
5
Wybrana metoda analizy danych
 Teoria zbiorów przybliżonych jako
narzędzie do uwzględniania niespójności
mogącej być wynikiem granularności
dostępnej informacji,
 Narzędzie: ROSE 2.0, algorytm Explore,
indukcji satysfakcjonującego zbioru reguł,
6
Wyniki
Wada_serca=nie
Wada_serca=tak
Liczba reguł
31
4
Min. confidence
[%]
75
75
Min. strength [%]
7
2
Jakość
klasyfikacji w
klasach [%]
98,18
(+-2,24)
1,27
(+-1,08)
Średnia jakość
klasyfikacji [%]
65,64 (+-6,41)
7
Inne metody
 Instance based learning (IBL1-3),
 Indukcja drzew decyzyjnych (C4.5),
 Regresja logistyczna (Statistica 6.0)
8
Porównanie wyników różnych metod
Średnia
Jakość klasyfikacji w
jakość
klasie
klasyfikacji[%]
wada_serca=nie
Jakość klasyfikacji
w klasie
wada_serca=tak
Rough sets
65,64
(+-6,41)
98,18
(+-2,24)
1,27
(+-1,08)
IBL1
64,50
(+-1,34)
96,53
(+-2,24)
0,69
(+-0,58)
C4.5 przed
przycięciem
72,60
(+-1,40)
98,90
(+-1,91)
20,69
(+-1,20)
C4.5 po
przycięciu
66,60
(+-0,00)
100,00
(+-0,00)
0,00
(+-0,00)
Regresja
logistyczna
67,24
(+-1,24)
99,13
(+-1,43)
3,79
(+-1,01)
9
Dodatkowe eksperymenty
 Selekcja - w celu zrównoważenia
liczności obu klas decyzyjnych
 Projekcja
– 9 atrybutów warunkowych
– 8 atrybutów warunkowych
10
Kierunki dalszych badań
 Rozszerzenie analizy na zbiór z atrybutem decyzyjnym
wskazującym rodzaj/skalę wady serca,
 Ekstrakcja wiedzy z innych obszarów Rejestru,
 Zastosowanie innych podejść ekstrakcji wiedzy, np.sieci
neuronowe, podejścia biorące pod uwagę
uporządkowanie dziedzin atrybutów według preferencji,
 Analiza skalowalności wybranych metod ekstrakcji
wiedzy.
11
Download