CLARIN-PL Rzutowanie Słowosieci na angielski Princeton Wordnet Ewa Rudnicka Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 [email protected] Plan Czym jest rzutowanie? Strategia powiązania zasobów i jej etapy System relacji międzyjęzykowych Procedura rzutowania Wyniki Wnioski Plany Czym jest rzutowanie? Rzutowanie (ang. mapping, dosł. 'odwzorowanie'): powiązanie dwóch sieci na podstawie podobieństw w strukturze poprzez łączenie odpowiadających sobie fragmentów grafów Rzutowanie wordnetów: Tworzenie powiązań pomiędzy synsetami na podstawie podobieństwa ich znaczeń oraz miejsca w strukturze macierzystej sieci Powiązanie przy użyciu zestawu relacji międzyjęzykowych i zgodnie z procedurą rzutowania Stosowane metody: • • • Transfer (półautomatycznie, w pełni automatycznie) Merge (półautomatycznie, ręcznie) (cf. GermaNet, Hamp & Feldweg 1997; EuroWordnet, Rzutowanie Słowosieci na WordNet princetoński Powiązania tworzone ręcznie, ale wspomagane przez system automatycznych podpowiedzi (cf. Kędzia et al. 2013, Rudnicka et al. 2015) Kierunek rzutowania: Słowosieć > Princeton WordNet od najniższych poziomów sieci stopniowo obejmując coraz wyższe (ang. bottom-up) Kolejność rzutowania kategorii gramatycznych: Rzeczownik Przymiotnik Przysłówek Czasownik (w planach) Kolejność rzutowania dziedzin semantycznych: Od konkretnych do abstrakcyjnych Relacje międzyjęzykowe Zbiór relacji międzyjęzykowych inspirowany relacjami międzyjęzykowymi z EuroWordNetu (ang. Equivalence Relations, Vossen 2002) Opracowano definicje, testy i hierarchię wprowadzania (cf. Rudnicka et al. 2012) Relacje: Synonimia (rozumiana jako ekwiwalencja) Hiponimia i hiperonimia Meronimia i holonimia Synonimia częściowa Synonimia międzyrejestrowa Synonimia międzyparadygmatyczna Synonimia Synonimia - oznacza dużą odpowiedniość znaczeń i struktur; traktowana jako podstawowa i priorytetowa relacja; może być tylko jedna dla jednego synsetu Synonimia częściowa - stosowana w przypadku częściowej odpowiedniości znaczeń i/lub struktur Synonimia międzyrejestrowa - dla odpowiedników znaczeniowych różniących się rejestrami stylistycznymi Synonimia częściowa Przykład Relacje międzyjęzykowe Hiponimia i hiperonimia zdefiniowane są w ramach zawierania się denotacji zbiorów: hiponim odnosi się do obiektu, który zawiera się w zbiorze denotatów hiperonimu Meronimia międzyjęzykowa – oznacza część większej całości Holonimia międzyjęzykowa – oznacza całość składającą się z mniejszych części Hyponimia i meronimia Synonimia międzyparadygmatyczna (2) <x#> jest przymiotnikiem w języku polskim, <y#> jest rzeczownikiem w języku angielskim, N jest rzeczownikiem w języku polskim <x#> i <y#> łączy relacja międzyjęzykowej synonimii międzyparadygmatycznej typu "przypominający" jeśli: <x#> określa właściwość fizyczną <y#> <x#> łączy relacja synonimii międzyparadygmatycznej lub derywacyjności z N N i <y#> łączy relacja międzyjęzykowa Warsztaty CLARINPL Warszawa 13-15 IV 2015 CLARIN-PL Synonimia międzyparadygmatyczna (3) Warsztaty CLARINPL Warszawa 13-15 IV 2015 CLARIN-PL <x#> jest przymiotnikiem w języku polskim, <y#> jest rzeczownikiem w języku angielskim, N jest rzeczownikiem w języku polskim <x#> i <y#> łączy relacja międzyjęzykowej synonimii międzyparadygmatycznej typu "odnoszący się do" jeśli: <x#> określa właściwości <y#>, które nie są jego cechami fizycznymi lub nie określają materiału, z którego jest wykonany <x#> łączy relacja synonimii międzyparadygmatycznej lub derywacyjności z N N i <y#> łączy relacja międzyjęzykowa Procedura rzutowania (1) Rozpoznanie znaczenia synsetu źródłowego: - miejsce w strukturze sieci - wszystkie istniejące relacje z naciskiem na hiperonim(y) i hiponimy; - definicje, komentarze; - porównanie pozostałych synsetów zawierających dany lemat) Przykład: {zagranica 1, obczyzna 1, obce terytorium 1}: - jest hiponimem {obszar 1, terytorium 1, obręb 1, strefa 1, zona 1, rejon 3} komentarz: 'ograniczona część przestrzeni, zwykle dużych rozmiarów, określona powierzchnia czegoś (np. obszar państwa, obszary niezalesione) - jest meronimem {świat 3, nieznane 1} komentarz: 'iść w świat' - jest w relacji fazynimii z {granica państwa 1} Procedura rzutowania (2) Poszukiwanie synsetu docelowego: wytypowanie kandydatów na synset docelowy przy wykorzystaniu intuicji, podpowiedzi automatycznych oraz słowników {foreign country 1} 'any state of which one is not a citizen' – 'każde państwo którego nie jest się obywatelem' jest hiponimem {state 1, nation 1, country 1, land 9, commonwealth 2, res publica 1, body politic 1} 'a politically organized body of people under a single government' – polityczna organizacja grupy ludzi skupiona pod jednym rządem' Procedura rzutowania (3) weryfikacja kandydatów na synset docelowy: porównanie struktur hipero i hiponimicznych (i innych jeśli istnieją) z synsetem źródłowym sprawdzenie istniejących i/lub potencjalnych relacji międzyjęzykowych; definicje, komentarze; słowniki np. {state 1, ..} jest międzyjęzykowym hiponimem {państwo 1, kraj 1} - 'zorganizowana politycznie społeczność, zamieszkująca określone terytorium, z niepodległą formą rządów' Procedura rzutowania (3) Wytypowanie synsetu docelowego oraz relacji międzyjęzykowej: {foreign country 1} Synonimia – nie (inne znaczenie, struktury i relacje) Hiponimia – nie (znaczenie, struktury i relacje nie kwalifikują jako rodzaj) Meronimia – tak (znaczenie, struktury i relacje kwalifikują jako część) Połączenie synsetu źródłowego z synsetem docelowym Warsztaty CLARINPL Warszawa 13-15 IV 2015 CLARIN-PL Statystyki relacji międzyjęzykowych Relacja/Część mowy Rzeczownik Synonimia 36 367 Hiponimia 74 394 Przymiotnik Przysłówek 4 077 448 40 893 781 104 391 51 4 339 29 216/9 930 Suma Hiperonimia 4 121 Meronimia 6 982 - - 6 982 Holonimia 3 471 - - 3 471 Synonimia częściowa 4 339 1 544 4 5 887 Synonimia międzyrejestrowa 1 672 54 22 1 748 Synonimia międzyparadygmatycz na 167 19 286 - 19 286 Jeszcze niezrzutowane Niezrzutowane synsety Słowosieci: - Rzeczowniki: 2 733 - Przymiotniki: 8 188 - Przysłówki: 7 529 - Czasowniki: 22 029 Total: 40 479 Niezrzutowane synsety Princeton WordNet: - Rzeczowniki: 43 575 - Przymiotniki: 11 298 - Przysłówki 2 704 - Czasowniki: 13 789 Total: 71 366 Wnioski Wyraźny prymat synonimii i hiponimii nad pozostałymi relacjami międzyjęzykowymi Wyraźna, dwukrotna przewaga w liczności relacji hiponimii międzyjęzykowej nad synonimią międzyjęzykową Duża liczba synonimii międzyparadygmatycznej dla przymiotnika Nadal duża liczba niezrzutowanych synsetów WordNetu princetońskiego, szczególnie w kategorii rzeczownika Dotychczas niezrzutowana kategoria czasownika Plany na przyszłość Uzupełnienie rzutowania rzeczownika, przymiotnika i przysłówka, głównie w kierunku ANG-PL Opracowanie strategii i implementacja rzutowania czasownika zwiększenie integracji z OpenMultiLingual WordNet oraz integracja z Global WordNet Grid - światową platformą połączonych leksykalno-semantycznych zasobów językowych Opracowanie strategii i przeprowadzenie pilotażowego rzutowania na poziomie jednostek leksykalnych w ramach nowego projektu w konkursie NCN Harmonia 7: 'Ekwiwalencja międzyjęzykowa w leksykalnych bazach danych' Bibliografia Bond, F., Fellbaum, Ch., Hsieh, S., Huang, Ch., Pease, A. and P. Vossen (2014). A Multilingual Lexico-Semantic Database and Ontology. In Towards the Multilingual Semantic Web Paul Buitelaar and Philipp Cimiano (eds), Springer pp. 243–258. (Publisher's page: http://compling.hss.ntu.edu.sg/who/bond/pdf/2014-msw-omw.pdf Fellbaum, Ch. (ed). (1998). WordNet: An Electronic Lexical Database. MIT Massachusets. Press: Cambridge, Hamp, B. & Feldweg, H. (1997). GermaNet - a Lexical Semantic Net for German in Proceedings of ACL workshop Automatic Information Extraction and Building of Lexical Semantic Resources for NLP Applications, Madrid. Kędzia, P., Piasecki, M., Rudnicka, E., Przybycień, K. (2013). Automatic Prompt System in the Process of Mapping plWordNet on Princeton WordNet. Cognitive Studies 13: 123-141. Piasecki, M., Szpakowicz, S. and B. Broda. (2009). A WordNet from the Ground Up. Oficyna Wydawnicza Politechniki Wrocławskiej: Wrocław. Princeton WordNet http://wordnet.princeton.edu/wordnet/ Rudnicka, E., Maziarz, M., Piasecki, M., & Szpakowicz, S. (2012). 'A Strategy of Mapping Polish WordNet onto Princeton WordNet'. In Proceedings of COLING 2012. ACL. Rudnicka, E., Witkowski, W. & Kaliński, M. (2015). Towards the Methodology for Extending Princeton WordNet. Cognitive Studies 15. Słowosieć http://plwordnet.pwr.wroc.pl/wordnet/ Vossen, P. (ed). (2002). EuroWordNet. General Document. Amsterdam. CLARIN-PL Dziękuję bardzo za uwagę