Ekstrakcja informacji w systemie NEKST

advertisement
_____________________________________________________________________________________________________________________________________________________________________________________________________________________________
INSTYTUT PODSTAW INFORMATYKI
POLSKIEJ AKADEMII NAUK
ul. Jana Kazimierza 5, 01-248 Warszawa
tel.: ++(48-22) 38-00-500
faks: ++(48-22) 38-00-510
mejl: [email protected]
www.ipipan.waw.pl
_______________________________________________________________________________________________________________________________________________________________________________________________________________________________
Warszawa, czerwiec 2014
Semantyczna polskojęzyczna wyszukiwarka NEKST (Narzędzia
EKsploracji Semantycznej Tekstów); w ramach projektu POIG.01.01.0214-013/09: Adaptacyjny system wspomagający rozwiązywanie problemów w oparciu o analizę
treści dostępnych źródeł elektronicznych.1
Wybrane funkcjonalności systemu NEKST - ekstrakcja informacji
Ekstrakcja informacji z danych częściowo ustrukturyzowanych
Głównym zadaniem modułu jest rozszerzanie zadanego zbioru nazw własnych/fraz o
dodatkowe nieznane frazy. Przykładowo, mając niewielki zbiór fraz składający się z
nazw marek samochodów osobowych, moduł będzie starał się rozszerzyć go do pełnej
listy wszystkich istniejących marek (o ile takowe wystąpiły w sieci Internet). Dodatkowo
rezultatem działania modułu jest anotacja wystąpień wykrytych fraz w dokumentach.
Moduł działa w oparciu o technologie: Java, Hadoop.
System ekstrakcji bazy faktów z dokumentów tekstowych
Moduł ekstrakcji bazy faktów ma za zadanie podział ciągłego tekstu na sekwencje
podmiot-orzeczenie-dopełnienie, które stanowią zapis w języku naturalnym informacji
faktograficznej. Poszczególnymi częściami tak powstałych trójek nie są pojedyncze
słowa lecz frazy, np.: [Galaxy S4] [posiada] [baterię o pojemności 2600 mAh]. Fakty są
ujednolicane przy użyciu informacji o frazach bliskoznacznych oraz przez pomijanie
nieistotnych elementów zdań. Moduł działa w oparciu o technologie: Java, Spring,
Hadoop, Oozie, narzędzia do NLP.
System ekstrakcji taksonomii (relacji IS-A) z dokumentów tekstowych
Celem całego projektu jest konstrukcja systemu wspomagającego rozwiązywanie szerokiej klasy
problemów w oparciu o analizę struktury i treści dostępnych dokumentów elektronicznych. Analiza ma dotyczyć
zawartej w dokumentach wiedzy i informacji reprezentowanej w postaci tekstu oraz wybranych elementów
multimedialnych. System będzie łączył mechanizmy: automatycznej odpowiedzi na zadane w języku polskim
pytania, automatycznej analizy opinii oraz wielkoskalowej, przekrojowej analizy semantycznej źródeł
elektronicznych, połączonej z wyszukiwaniem i wizualizacją wyników. Głównym obiektem analizy będą
polskojęzyczne dokumenty tekstowe. Kierownikiem projektu jest IPI PAN, partnerem Instytut Informatyki
Politechniki Wrocławskiej. Czas trwania projektu: 2009/04/01 - 2014/06/25, wartość projektu: 14.991.014 PLN.
1
System ekstrakcji taksonomii przyjmuje na wejściu zindeksowane dokumenty tekstowe
przechowywane w rozproszonej bazie danych, a na wyjściu zwraca ważoną
taksonomię. Relacje IS-A ekstrahowane są w oparciu o kilka metod analizujących
wewnętrzną strukturę zdań bądź poddrzewa DOM dokumentów HTML. Technologie
wykorzystane w systemie to: Java, Spring, Hadoop, Oozie, Hive oraz narzędzia do
NLP.
Zasób ontologii - bazy faktów
Zasób zawiera zbiór faktów reprezentowanych w postaci sekwencji podmiot-orzeczeniedopełnienie wydobytych z korpusu dokumentów tekstowych (np. [Poeta Adam
Mickiewicz] [urodził się] [24 grudnia 1798 roku pod Nowogródkiem]). Fakty są
ujednolicane przy użyciu informacji o frazach bliskoznacznych oraz przez pomijanie
nieistotnych elementów zdań. Z każdym faktem związany jest ranking oparty na jakości
tworzącej go trójki oraz jakości dokumentu, na którym został odnaleziony.
Zasób taksonomii (relacje IS-A)
System NEKST generuje na podstawie zindeksowanych dokumentów tekstowych oraz
zewnętrznych źródeł danych zbiór relacji instancja-klasa (relacji IS-A). Zbiór
wygenerowanych relacji nazywany jest taksonomią. Z każdą relacją IS-A związana jest
globalna waga niosąca informację o stopniu pewności z jakim system wygenerował tę
relację. Zasób zawiera (w zależności od konfiguracji systemu ekstrakcji) kilka milionów
relacji IS-A.
Analiza wydźwięku emocjonalnego w oparciu o słownik kolokacji
przymiotnikowych
Moduł odpowiada za generowanie słownika kolokacji przymiotnikowych (np. wysoka
cena) nacechowanych emocjonalnie. Każdej frazie przymiotnikowej przypisana jest
waga wydźwięku emocjonalnego z przedziału <-1,1>, gdzie -1 oznacza bardzo
negatywny wydźwięk, a 1 bardzo pozytywy. Słownik może być użyty jako dodatkowe
źródło informacji uwzględniane w procesie klasyfikacji tekstu pod względem jego
nacechowania emocjonalnego. Moduł działa w oparciu o technologie: Java, Hadoop,
narzędzia do NLP.
Inne moduły:
Wykrywanie plagiatów
Wykrywanie stron / witryn lustrzanych
Generowanie streszczeń
Download