_____________________________________________________________________________________________________________________________________________________________________________________________________________________________ INSTYTUT PODSTAW INFORMATYKI POLSKIEJ AKADEMII NAUK ul. Jana Kazimierza 5, 01-248 Warszawa tel.: ++(48-22) 38-00-500 faks: ++(48-22) 38-00-510 mejl: [email protected] www.ipipan.waw.pl _______________________________________________________________________________________________________________________________________________________________________________________________________________________________ Warszawa, czerwiec 2014 Semantyczna polskojęzyczna wyszukiwarka NEKST (Narzędzia EKsploracji Semantycznej Tekstów); w ramach projektu POIG.01.01.0214-013/09: Adaptacyjny system wspomagający rozwiązywanie problemów w oparciu o analizę treści dostępnych źródeł elektronicznych.1 Wybrane funkcjonalności systemu NEKST - ekstrakcja informacji Ekstrakcja informacji z danych częściowo ustrukturyzowanych Głównym zadaniem modułu jest rozszerzanie zadanego zbioru nazw własnych/fraz o dodatkowe nieznane frazy. Przykładowo, mając niewielki zbiór fraz składający się z nazw marek samochodów osobowych, moduł będzie starał się rozszerzyć go do pełnej listy wszystkich istniejących marek (o ile takowe wystąpiły w sieci Internet). Dodatkowo rezultatem działania modułu jest anotacja wystąpień wykrytych fraz w dokumentach. Moduł działa w oparciu o technologie: Java, Hadoop. System ekstrakcji bazy faktów z dokumentów tekstowych Moduł ekstrakcji bazy faktów ma za zadanie podział ciągłego tekstu na sekwencje podmiot-orzeczenie-dopełnienie, które stanowią zapis w języku naturalnym informacji faktograficznej. Poszczególnymi częściami tak powstałych trójek nie są pojedyncze słowa lecz frazy, np.: [Galaxy S4] [posiada] [baterię o pojemności 2600 mAh]. Fakty są ujednolicane przy użyciu informacji o frazach bliskoznacznych oraz przez pomijanie nieistotnych elementów zdań. Moduł działa w oparciu o technologie: Java, Spring, Hadoop, Oozie, narzędzia do NLP. System ekstrakcji taksonomii (relacji IS-A) z dokumentów tekstowych Celem całego projektu jest konstrukcja systemu wspomagającego rozwiązywanie szerokiej klasy problemów w oparciu o analizę struktury i treści dostępnych dokumentów elektronicznych. Analiza ma dotyczyć zawartej w dokumentach wiedzy i informacji reprezentowanej w postaci tekstu oraz wybranych elementów multimedialnych. System będzie łączył mechanizmy: automatycznej odpowiedzi na zadane w języku polskim pytania, automatycznej analizy opinii oraz wielkoskalowej, przekrojowej analizy semantycznej źródeł elektronicznych, połączonej z wyszukiwaniem i wizualizacją wyników. Głównym obiektem analizy będą polskojęzyczne dokumenty tekstowe. Kierownikiem projektu jest IPI PAN, partnerem Instytut Informatyki Politechniki Wrocławskiej. Czas trwania projektu: 2009/04/01 - 2014/06/25, wartość projektu: 14.991.014 PLN. 1 System ekstrakcji taksonomii przyjmuje na wejściu zindeksowane dokumenty tekstowe przechowywane w rozproszonej bazie danych, a na wyjściu zwraca ważoną taksonomię. Relacje IS-A ekstrahowane są w oparciu o kilka metod analizujących wewnętrzną strukturę zdań bądź poddrzewa DOM dokumentów HTML. Technologie wykorzystane w systemie to: Java, Spring, Hadoop, Oozie, Hive oraz narzędzia do NLP. Zasób ontologii - bazy faktów Zasób zawiera zbiór faktów reprezentowanych w postaci sekwencji podmiot-orzeczeniedopełnienie wydobytych z korpusu dokumentów tekstowych (np. [Poeta Adam Mickiewicz] [urodził się] [24 grudnia 1798 roku pod Nowogródkiem]). Fakty są ujednolicane przy użyciu informacji o frazach bliskoznacznych oraz przez pomijanie nieistotnych elementów zdań. Z każdym faktem związany jest ranking oparty na jakości tworzącej go trójki oraz jakości dokumentu, na którym został odnaleziony. Zasób taksonomii (relacje IS-A) System NEKST generuje na podstawie zindeksowanych dokumentów tekstowych oraz zewnętrznych źródeł danych zbiór relacji instancja-klasa (relacji IS-A). Zbiór wygenerowanych relacji nazywany jest taksonomią. Z każdą relacją IS-A związana jest globalna waga niosąca informację o stopniu pewności z jakim system wygenerował tę relację. Zasób zawiera (w zależności od konfiguracji systemu ekstrakcji) kilka milionów relacji IS-A. Analiza wydźwięku emocjonalnego w oparciu o słownik kolokacji przymiotnikowych Moduł odpowiada za generowanie słownika kolokacji przymiotnikowych (np. wysoka cena) nacechowanych emocjonalnie. Każdej frazie przymiotnikowej przypisana jest waga wydźwięku emocjonalnego z przedziału <-1,1>, gdzie -1 oznacza bardzo negatywny wydźwięk, a 1 bardzo pozytywy. Słownik może być użyty jako dodatkowe źródło informacji uwzględniane w procesie klasyfikacji tekstu pod względem jego nacechowania emocjonalnego. Moduł działa w oparciu o technologie: Java, Hadoop, narzędzia do NLP. Inne moduły: Wykrywanie plagiatów Wykrywanie stron / witryn lustrzanych Generowanie streszczeń