System do przetwarzania informacji prawnych Cezary Dołęga, [email protected], Neurosoft® Sp. z o.o. Plan prezentacji • • • • • • • • Wprowadzenie – trochę o Neurosofcie Co w prawie piszczy, definicja problemu Co to jest Neurolex, elementy Architektura danych Generowanie i tagowanie danych Wyszukiwanie informacji (serwis-prawny.pl) Problemy do rozwiązania Pytania... 2 Wprowadzenie • Neurosoft Sp. z o.o. – Rok założenia 1992 – Zaplecze to pracownicy PWr i UW – Produkcja oprogramowania z zakresu AI • Produkty Neurosoftu – – – – Neurosoft SynTalk® (1994 r. TTS) Neurosoft BIP® (1997 r. OCR, Archiwizacja) Neurosoft Gram (2000 r. NLP, Fulltext search) Neurosoft NeuroLex (2001 r., Prawo) 3 Co w prawie piszczy? • Prawo dotyczy każdego obywatela i bardzo wielu dziedzin życia • Liczba przepisów prawnych (aktów) i interpretacji (np. orzeczeń) jest bardzo duża i szybko się powiększa • Zmienność przepisów w czasie jest duża • Prawo stanowione jest przez wiele szczebli władzy „ustawodawczej” • Państwo nie informuje obywatela • W maju 2004 r. wchodzimy do UE 4 Co w prawie piszczy? (cd.1) • Prawo dotyczy każdego obywatela – „Ignorantia iuris nocet” – Prawo nie tylko dla prawników – Świadomość prawna w Polsce rośnie 5 Co w prawie piszczy? (cd.2) • Liczba przepisów prawnych – Promulgatory = ponad 210 tys. aktów + prawo lokalne + UE • • • • • Dziennik Ustaw, Monitor Polski (A) = ok. 16 tys. str./rok Monitor Polski B 21 dzienników urzędów centralnych = ok. 5 tys. str./rok 16 dzienników urzędów wojewódzkich = ok. ? tys. str./rok Prawo Unii Europejskiej = OJ L: ok. 22 tys. str./rok + C: 26 tys. str./rok – Orzeczenia (najważniejsze interpretacje prawa) • • • • • Trybunał Konstytucyjny Sąd Najwyższy Naczelny Sąd Administracyjny Sądy apelacyjne Sąd antymonopolowy – Przepisy niepromulgowane 6 Co w prawie piszczy? (cd.3) • Liczba przepisów prawnych Ilość stron w promulgatorach Dz.U. I M.P. ( wg roczników w latach 1990-2002) 18 000 Liczba stron / rok 16 000 14 000 12 000 10 000 M.P. Dz. U. 8 000 6 000 4 000 2 000 0 90 991 992 993 994 995 996 997 998 999 000 001 002 9 1 1 1 1 1 1 1 1 1 1 2 2 2 Lata 7 Co w prawie piszczy? (cd.4) • Zmienność przepisów w czasie – Akty wchodzą w życie – Akty są uchylane (pośrednio, bezpośrednio) – Akty są zmieniane Codziennie następuje zmiana/uchylenie/wprowadzenie kilku aktów 8 Co w prawie piszczy? (cd.5) • Źródła przepisów prawnych 9 Co w prawie piszczy? (cd.5) • Źródła przepisów prawnych Konstytucja RP Ustawy Umowy Międzynarodowe 10 Co w prawie piszczy? (cd.5) • Źródła przepisów prawnych Konstytucja RP Ustawy Umowy Międzynarodowe Rozporządzenia 11 Co w prawie piszczy? (cd.5) • Źródła przepisów prawnych Konstytucja RP Ustawy Umowy Międzynarodowe Rozporządzenia Zarządzenia Uchwały Regulaminy Inne akty wyk. Statuty 12 Co w prawie piszczy? (cd.5) • Źródła przepisów prawnych Konstytucja RP Ustawy Umowy Międzynarodowe Rozporządzenia Zarządzenia Uchwały Regulaminy Konstytucja UE Uchwały Parlamentu UE Dyrektywy Komisji Europejskiej Inne akty wyk. Statuty 13 Co w prawie piszczy? (cd.5) • Źródła przepisów prawnych Konstytucja RP Ustawy Konstytucja UE Umowy Międzynarodowe Dyrektywy Komisji Europejskiej Rozporządzenia Zarządzenia Uchwały Regulaminy Uchwały Parlamentu UE Inne akty wyk. Statuty Decyzje urzędników Orzecznictwo sądów 14 Co w prawie piszczy? (cd.6) • Państwo nie informuje obywatela – – – – – – Rozproszony system promulgatorów Brak kodyfikacji (np. na wzór FNA) Stary system wyszukiwania aktów Niespójność przepisów Dezinformacja (np. krótkie Vacatio legis) Prawo dostępne tylko w obcym języku (UE) 15 Czego oczekuje użytkownik? • Dostępu do kompletnego zbioru dokumentów • Szybki dostęp do najnowszych danych • Dostępu do obowiązującego brzmienia dowolnego dokumentu (tekstu ujednoliconego) dowolnym dniu (stan prawny) • Informacji na temat wszelkich powiązań między dokumentami • Możliwości wyszukania dokumentów przez wskazanie (opisowe) zagadnienia (UE) • Dostępu do różnego typu informacji syntetycznych 16 Neurolex • Cel – „Skonstruowanie systemu umożliwiającego szybkie dostarczenie użytkownikowi oczekiwanych przez niego, kompletnych i dobrych jakościowo informacji z zakresu prawa, za rozsądną cenę” • Środki – – – – Technologia XML, XSLT, XPATH OCR (Neurosoft BIP) Przetwarzania tekstów, NLP (Neurosoft Gram) Internet 17 Neurolex - elementy • Specjalna architektura danych (baza off-line) • Zestaw narzędzi do konwersji dokumentów z postaci papierowej lub/i prostej elektronicznej do pełnej postaci „wzbogaconej” – Etap 1: dane pierwotne – Etap 2: dane syntetyczne • Zestaw narzędzi do wizualizacji i wyszukiwania dokumentów (www.serwis-prawny.pl) 18 Architektura danych • Architektura bazy danych: – Typ bazy danych: – Silnik bazy danych: – Element bazy: – Relacje: – Wizualizacja: – Kontrola wersji: hierarchiczny system plików pojedynczy plik (element dokumentu) hiperlink Microsoft Internet Explorer 4.0+ Microsoft SourceSafe 6.0 19 Architektura danych (cd.1) • Podstawowe formaty plików w bazie danych XML – schematy, treści i opisy dokumentów BIP – obrazy stron promulgatorów, IDX, IDT* – pliki tekstowe ze słowami kluczowymi, • Pomocnicze formaty plików TIFF – zbiorcze obrazy całych numerów promulgatorów, CSV, TXT, CHN – pliki z informacjami pomocniczymi, PDF – oryginały promulgatorów, XLS, DOC – przetworzone, inteligentne formularze, XSL, GIF, JPEG, HTML, CSS – dodatki dla wizualizacji. * nie aktualne w wersji Neurolex 2.0 20 Architektura danych (cd.2) • Architektura bazy danych – hierarchia: Root Promulgator Pozycja = akt 21 Architektura danych (cd.3) • Zawartość pojedynczego dokumentu: – Metryka, spis treści, powiązania (XML), – Treść każdej z części oddzielnie (XML), (podział na części wg podziału na załączniki i wersje językowe) – – – – – Słowa kluczowe dla całej treści części (IDX), Słowa kluczowe dla tytułów (IDT), Plik BIP „spinający” obrazy stron dla pozycji, Pliki BIP „spinające” obrazy dla każdej części, Informacje o zmianach (podkatalogi) 22 Architektura danych (cd.4) • Dodatkowe pliki pomocnicze*: – – – – – Spis treści numeru (XML) „Spinacz” dla wszystkich stron numeru (BIP) Spis treści rocznika (XML) „Spinacz” dla wszystkich stron rocznika (BIP) Spis treści promulgatorów (HTML) * generowane na podstawie plików z zawartością dokumentów 23 Architektura danych (cd.5) • Struktura treści XML – poziomy „adresowalne*”: Artykuł Paragraf Ustęp Punkt Litera Sublitera * posiadają adres (bookmark) i można się na nich pozycjonować podczas przeglądania 24 Architektura danych (cd.6) • Struktura treści XML – poziomy „nieadresowalne*”: Część Księga Tytuł Dział Rozdział Oddział jednostki niższego poziomu + Jednostki tytularne w załącznikach lub w aktach zagranicznych * realizowane przy użyciu trzech elementów – JTC, JTL, JTN, nie posiadają bookmarków 25 Architektura danych (cd.7) • Struktura treści XML – elementy uniwersalne*: – – – – – – – – – – Tekst (z elementami formatowania), Wyliczenie (tiret), Objaśnienie (np. dla symboli we wzorach), Tabela (dwa poziomy – możliwość grupowania wierszy), Wzór matematyczny (w notacji XML+TEX), Przypis, Zastąpienie (zamiana), Cytat, Hyperlink, Dowolnie sformatowany fragment w HTML-u. * można je umieścić na każdym poziomie struktury 26 Architektura danych (cd.8) prezentacja fragmentu bazy off-line 27 Konwersja danych (etap 1) Pozyskanie surowców Wygenerowanie półproduktów Etykietowanie półproduktów Utworzenie danych wyjściowych Wzbogacanie danych wyjściowych Weryfikacja wewnętrzna Ekspedycja danych Weryfikacja zewnętrzna 28 Konwersja danych Skanowanie oryginałów, pobranie dostępnych danych z Internetu: - Neurosoft BIP - Neurosoft LexSpreacz (etap 1) Pozyskanie surowców Wygenerowanie półproduktów Etykietowanie półproduktów Utworzenie danych wyjściowych Wzbogacanie danych wyjściowych Weryfikacja wewnętrzna Ekspedycja danych Weryfikacja zewnętrzna 29 Konwersja danych Retusz skanów, OCR skanów do postaci HTML, korekta ortograficzna i porównawcza teksów, podział wolumenów i dokumentów, inicjacja struktury bazy off-line - Neurosoft BIP - Neurosoft LexGram - FineReader - Neurosoft MLParser - Neurosoft InitLex - Neurosoft CsvCheck (etap 1) Pozyskanie surowców Wygenerowanie półproduktów Etykietowanie półproduktów Utworzenie danych wyjściowych Wzbogacanie danych wyjściowych Weryfikacja wewnętrzna Ekspedycja danych Weryfikacja zewnętrzna 30 Konwersja danych Ręczne nanoszenie tagów w HTML-u usprawniających proces generowania XML-i, kontrola i weryfikacja niektórych błędów - Notepad - IE Explorer - Active Perl (etap 1) Pozyskanie surowców Wygenerowanie półproduktów Etykietowanie półproduktów Utworzenie danych wyjściowych Wzbogacanie danych wyjściowych Weryfikacja wewnętrzna Ekspedycja danych Weryfikacja zewnętrzna 31 Konwersja danych Generowanie i weryfikacja porównawcza danych metrykalnych, generowanie struktury aktu XML (hierarchizacja), generowanie spisu treści aktu, tagowanie zmian, tagowanie i identyfikacja referencji, tagowanie i identyfikacja powiązań z innymi aktami: - Neurosoft Analex (etap 1) Pozyskanie surowców Wygenerowanie półproduktów Etykietowanie półproduktów Utworzenie danych wyjściowych Wzbogacanie danych wyjściowych Weryfikacja wewnętrzna Ekspedycja danych Weryfikacja zewnętrzna 32 Konwersja danych Generowanie spisów treści dla wolumenu, rocznika itp., dowiązanie obrazów do dokumentów, generowanie protokołów powiązań: - Neurosoft InitLex (etap 1) Pozyskanie surowców Wygenerowanie półproduktów Etykietowanie półproduktów Utworzenie danych wyjściowych Wzbogacanie danych wyjściowych Weryfikacja wewnętrzna Ekspedycja danych Weryfikacja zewnętrzna 33 Konwersja danych (etap 2) (w początkowej fazie implementacji) Klasyfikacja treści Wyznaczenie „czasu życia” Wygenerowanie tekstu ujednoliconego Synteza informacji 34 Konwersja danych Ulokowanie dokumentu w analitycznym spisie prawa, generowanie i otagowanie słów kluczowych (EuroVoc) dla skorowidzów: - Neurosoft ConsoLex (etap 2) (w początkowej fazie implementacji) Klasyfikacja treści Wyznaczenie „czasu życia” Wygenerowanie tekstu ujednoliconego Synteza informacji 35 Konwersja danych Określenie wszystkich momentów (dat), w których dany dokument się zmienia/wchodzi w życie/dezaktualizuje się: - Neurosoft TimeLex (etap 2) (w początkowej fazie implementacji) Klasyfikacja treści Wyznaczenie „czasu życia” Wygenerowanie tekstu ujednoliconego Synteza informacji 36 Konwersja danych - Neurosoft ConsoLex (etap 2) (w początkowej fazie implementacji) Klasyfikacja treści Wyznaczenie „czasu życia” Wygenerowanie tekstu ujednoliconego Synteza informacji 37 Konwersja danych Określenie wpływu danego aktu na stan już istniejących syntetycznych zestawień, ew. utworzenie dodatkowego zestawienia (etap 2) (w początkowej fazie implementacji) Klasyfikacja treści Wyznaczenie „czasu życia” Wygenerowanie tekstów ujednoliconych Synteza informacji 38 Konwersja danych - NLP • Neurosoft LexGram – Weryfikacja ortograficzna i porównawcza tekstu – Identyfikacja potencjalnych błędów OCR-u • Neurosoft Analex – – – – Wyznaczanie struktury aktu na podstawie treści Generowanie informacji metrykalnych Tagowanie zmian Tagowanie powiązań z innymi aktami wraz z wykrywaniem rodzaju powiązania 39 Konwersja danych – NLP (cd. 1) • Neurosoft ConsoLex – Generowanie tekstów ujednoliconych* – Klasyfikacja aktu* • Automatyczna synteza informacji – odpowiadanie na pytania * w trakcie implementacji 40 Wyszukiwanie informacji (www.serwis-prawny.pl) 41 Wyszukiwanie informacji - NLP • Przeszukiwanie wg analitycznego spisu prawa oraz wg wybranych haseł – skorowidz* • Przeszukiwanie pełnotekstowe odporne na język polski (Neurosoft Gram) wraz z kolorowaniem wyniku z „autodezambiguacją” • Przeszukiwanie pełnotekstowe z użyciem sieci semantycznych (Polski WordNet)* • BECKspert - inteligentny analizator zapytań w języku naturalnym* * w fazie implementacji, uruchomienie 1 czerwca 2003 r. 42 Wyszukiwanie informacji – NLP prezentacja działania serwisu on-line 43 Problemy - NLP • Korekta gramatyczna tekstu (po OCR) • Systematyczne braki w słowniku Grama – Nazwy geograficzne i ich pochodne – Przedrostkowe formy niektórych wyrazów (konieczna morfologia algorytmiczna) – Grupy nazw własnych (np. leki) • „Prawdziwy” polski WordNet • Polska wersja EuroVoc’a (wersja 4.0) • Bardziej automatyczne generowanie tekstów ujednoliconych • Odpowiedni materiał językowy do wyszukiwania tyupu „cross-lingual search” (ang-pl) 44 Pytania Dziękuję za uwagę 45