Rzutowanie_Premiera Slowosiec_3_0_2016

advertisement
CLARIN-PL
Rzutowanie Słowosieci na
angielski Princeton Wordnet
Ewa Rudnicka
Politechnika Wrocławska
Katedra Inteligencji
Obliczeniowej
Grupa Naukowa G4.19
[email protected]
Plan

Czym jest rzutowanie?

Strategia powiązania zasobów i jej etapy

System relacji międzyjęzykowych

Procedura rzutowania

Wyniki

Wnioski

Plany
Czym jest rzutowanie?

Rzutowanie (ang. mapping, dosł. 'odwzorowanie'):



powiązanie dwóch sieci na podstawie podobieństw w
strukturze
poprzez łączenie odpowiadających sobie fragmentów grafów
Rzutowanie wordnetów:



Tworzenie powiązań pomiędzy synsetami na podstawie
podobieństwa ich znaczeń oraz miejsca w strukturze
macierzystej sieci
Powiązanie przy użyciu zestawu relacji międzyjęzykowych i
zgodnie z procedurą rzutowania
Stosowane metody:
•
•
•
Transfer (półautomatycznie, w pełni automatycznie)
Merge (półautomatycznie, ręcznie)
(cf. GermaNet, Hamp & Feldweg 1997; EuroWordnet,
Rzutowanie Słowosieci na
WordNet princetoński




Powiązania tworzone ręcznie, ale wspomagane przez
system automatycznych podpowiedzi (cf. Kędzia et al.
2013, Rudnicka et al. 2015)
Kierunek rzutowania: Słowosieć > Princeton WordNet
od najniższych poziomów sieci stopniowo obejmując
coraz wyższe (ang. bottom-up)
Kolejność rzutowania kategorii gramatycznych:





Rzeczownik
Przymiotnik
Przysłówek
Czasownik (w planach)
Kolejność rzutowania dziedzin semantycznych:

Od konkretnych do abstrakcyjnych
Relacje międzyjęzykowe
Zbiór relacji międzyjęzykowych inspirowany relacjami
międzyjęzykowymi z EuroWordNetu
(ang. Equivalence Relations, Vossen 2002)

Opracowano definicje, testy i hierarchię wprowadzania
(cf. Rudnicka et al. 2012)

Relacje:

Synonimia (rozumiana jako ekwiwalencja)

Hiponimia i hiperonimia

Meronimia i holonimia

Synonimia częściowa

Synonimia międzyrejestrowa

Synonimia międzyparadygmatyczna

Synonimia
 Synonimia - oznacza dużą odpowiedniość znaczeń i struktur;
traktowana jako podstawowa i priorytetowa relacja; może być
tylko jedna dla jednego synsetu
 Synonimia częściowa - stosowana w przypadku częściowej
odpowiedniości znaczeń i/lub struktur
 Synonimia międzyrejestrowa - dla odpowiedników
znaczeniowych różniących się rejestrami stylistycznymi
Synonimia częściowa
Przykład
Relacje międzyjęzykowe
 Hiponimia i hiperonimia zdefiniowane są w ramach
zawierania się denotacji zbiorów: hiponim odnosi się do
obiektu, który zawiera się w zbiorze denotatów hiperonimu
 Meronimia międzyjęzykowa – oznacza część większej
całości
 Holonimia międzyjęzykowa – oznacza całość składającą się
z mniejszych części
Hyponimia i meronimia
Synonimia
międzyparadygmatyczna (2)
<x#> jest przymiotnikiem w języku polskim,
<y#> jest rzeczownikiem w języku angielskim,
N jest rzeczownikiem w języku polskim
<x#> i <y#> łączy relacja międzyjęzykowej synonimii międzyparadygmatycznej typu
"przypominający" jeśli:
<x#> określa właściwość fizyczną <y#>
<x#> łączy relacja synonimii międzyparadygmatycznej lub derywacyjności z N
N i <y#> łączy relacja międzyjęzykowa
Warsztaty CLARINPL
Warszawa
13-15 IV 2015
CLARIN-PL
Synonimia
międzyparadygmatyczna (3)
Warsztaty CLARINPL
Warszawa
13-15 IV 2015
CLARIN-PL
<x#> jest przymiotnikiem w języku polskim, <y#> jest rzeczownikiem w języku angielskim,
N jest rzeczownikiem w języku polskim
<x#> i <y#> łączy relacja międzyjęzykowej synonimii międzyparadygmatycznej typu "odnoszący się
do" jeśli:
<x#> określa właściwości <y#>, które nie są jego cechami fizycznymi lub nie określają materiału, z
którego jest wykonany
<x#> łączy relacja synonimii międzyparadygmatycznej lub derywacyjności z N
N i <y#> łączy relacja międzyjęzykowa
Procedura rzutowania (1)
Rozpoznanie znaczenia synsetu źródłowego:
- miejsce w strukturze sieci - wszystkie istniejące relacje z
naciskiem na hiperonim(y) i hiponimy;
- definicje, komentarze;
- porównanie pozostałych synsetów zawierających dany lemat)
 Przykład:
{zagranica 1, obczyzna 1, obce terytorium 1}:
- jest hiponimem {obszar 1, terytorium 1, obręb 1, strefa 1, zona
1, rejon 3} komentarz: 'ograniczona część przestrzeni, zwykle
dużych rozmiarów, określona powierzchnia czegoś (np. obszar
państwa, obszary niezalesione)
- jest meronimem {świat 3, nieznane 1} komentarz: 'iść w świat'
- jest w relacji fazynimii z {granica państwa 1}

Procedura rzutowania (2)
 Poszukiwanie synsetu docelowego:
wytypowanie kandydatów na synset docelowy
przy wykorzystaniu intuicji, podpowiedzi automatycznych
oraz słowników
{foreign country 1} 'any state of which one is not a citizen' –
'każde państwo którego nie jest się obywatelem'
jest hiponimem {state 1, nation 1, country 1, land 9,
commonwealth 2, res publica 1, body politic 1} 'a politically organized body of people under a single
government' – polityczna organizacja grupy ludzi skupiona
pod jednym rządem'
Procedura rzutowania (3)



weryfikacja kandydatów na synset docelowy:
porównanie struktur hipero i hiponimicznych
(i innych jeśli istnieją) z synsetem źródłowym
sprawdzenie istniejących i/lub potencjalnych relacji
międzyjęzykowych;
definicje, komentarze; słowniki
np. {state 1, ..} jest międzyjęzykowym hiponimem
{państwo 1, kraj 1} - 'zorganizowana politycznie
społeczność, zamieszkująca określone terytorium, z
niepodległą formą rządów'
Procedura rzutowania (3)
 Wytypowanie synsetu docelowego oraz relacji
międzyjęzykowej:
{foreign country 1}
Synonimia – nie (inne znaczenie, struktury i relacje)
Hiponimia – nie (znaczenie, struktury i relacje nie
kwalifikują jako rodzaj)
Meronimia – tak (znaczenie, struktury i relacje kwalifikują
jako część)
Połączenie synsetu źródłowego z synsetem docelowym
Warsztaty CLARINPL
Warszawa
13-15 IV 2015
CLARIN-PL
Statystyki relacji
międzyjęzykowych
Relacja/Część
mowy
Rzeczownik
Synonimia
36 367
Hiponimia
74 394
Przymiotnik
Przysłówek
4 077
448
40 893
781
104 391
51
4 339
29 216/9 930
Suma
Hiperonimia
4 121
Meronimia
6 982
-
-
6 982
Holonimia
3 471
-
-
3 471
Synonimia częściowa
4 339
1 544
4
5 887
Synonimia
międzyrejestrowa
1 672
54
22
1 748
Synonimia
międzyparadygmatycz
na
167
19 286
-
19 286
Jeszcze niezrzutowane
 Niezrzutowane synsety Słowosieci:
- Rzeczowniki: 2 733
- Przymiotniki: 8 188
- Przysłówki: 7 529
- Czasowniki: 22 029
Total:
40 479
 Niezrzutowane synsety Princeton WordNet:
- Rzeczowniki: 43 575
- Przymiotniki: 11 298
- Przysłówki
2 704
- Czasowniki: 13 789
Total:
71 366
Wnioski





Wyraźny prymat synonimii i hiponimii nad pozostałymi
relacjami międzyjęzykowymi
Wyraźna, dwukrotna przewaga w liczności relacji
hiponimii międzyjęzykowej nad synonimią
międzyjęzykową
Duża liczba synonimii międzyparadygmatycznej dla
przymiotnika
Nadal duża liczba niezrzutowanych synsetów WordNetu
princetońskiego, szczególnie w kategorii rzeczownika
Dotychczas niezrzutowana kategoria czasownika
Plany na przyszłość




Uzupełnienie rzutowania rzeczownika, przymiotnika i
przysłówka, głównie w kierunku ANG-PL
Opracowanie strategii i implementacja rzutowania
czasownika
zwiększenie integracji z OpenMultiLingual WordNet oraz
integracja z Global WordNet Grid - światową platformą
połączonych leksykalno-semantycznych zasobów językowych
Opracowanie strategii i przeprowadzenie pilotażowego
rzutowania na poziomie jednostek leksykalnych w ramach
nowego projektu w konkursie NCN Harmonia 7:
'Ekwiwalencja międzyjęzykowa w leksykalnych bazach
danych'
Bibliografia
Bond, F., Fellbaum, Ch., Hsieh, S., Huang, Ch., Pease, A. and P. Vossen (2014). A Multilingual
Lexico-Semantic Database and Ontology. In Towards the Multilingual Semantic Web Paul
Buitelaar and Philipp Cimiano (eds), Springer pp. 243–258. (Publisher's page:
http://compling.hss.ntu.edu.sg/who/bond/pdf/2014-msw-omw.pdf
Fellbaum, Ch. (ed). (1998). WordNet: An Electronic Lexical Database. MIT
Massachusets.
Press: Cambridge,
Hamp, B. & Feldweg, H. (1997). GermaNet - a Lexical Semantic Net for German in Proceedings of
ACL workshop Automatic Information Extraction and Building of Lexical Semantic Resources for
NLP Applications, Madrid.
Kędzia, P., Piasecki, M., Rudnicka, E., Przybycień, K. (2013). Automatic Prompt System in the
Process of Mapping plWordNet on Princeton WordNet. Cognitive Studies 13: 123-141.
Piasecki, M., Szpakowicz, S. and B. Broda. (2009). A WordNet from the Ground Up. Oficyna
Wydawnicza Politechniki Wrocławskiej: Wrocław.
Princeton WordNet http://wordnet.princeton.edu/wordnet/
Rudnicka, E., Maziarz, M., Piasecki, M., & Szpakowicz, S. (2012). 'A Strategy of Mapping Polish
WordNet onto Princeton WordNet'. In Proceedings of COLING 2012. ACL.
Rudnicka, E., Witkowski, W. & Kaliński, M. (2015). Towards the Methodology for Extending Princeton
WordNet. Cognitive Studies 15.
Słowosieć http://plwordnet.pwr.wroc.pl/wordnet/
Vossen, P. (ed). (2002). EuroWordNet. General Document. Amsterdam.
CLARIN-PL
Dziękuję bardzo za uwagę
Download