prezentacja PPT

advertisement
System do przetwarzania informacji prawnych
Cezary Dołęga, [email protected], Neurosoft® Sp. z o.o.
Plan prezentacji
•
•
•
•
•
•
•
•
Wprowadzenie – trochę o Neurosofcie
Co w prawie piszczy, definicja problemu
Co to jest Neurolex, elementy
Architektura danych
Generowanie i tagowanie danych
Wyszukiwanie informacji (serwis-prawny.pl)
Problemy do rozwiązania
Pytania...
2
Wprowadzenie
• Neurosoft Sp. z o.o.
– Rok założenia 1992
– Zaplecze to pracownicy PWr i UW
– Produkcja oprogramowania z zakresu AI
• Produkty Neurosoftu
–
–
–
–
Neurosoft SynTalk® (1994 r. TTS)
Neurosoft BIP® (1997 r. OCR, Archiwizacja)
Neurosoft Gram (2000 r. NLP, Fulltext search)
Neurosoft NeuroLex (2001 r., Prawo)
3
Co w prawie piszczy?
• Prawo dotyczy każdego obywatela i bardzo
wielu dziedzin życia
• Liczba przepisów prawnych (aktów) i
interpretacji (np. orzeczeń) jest bardzo duża
i szybko się powiększa
• Zmienność przepisów w czasie jest duża
• Prawo stanowione jest przez wiele szczebli
władzy „ustawodawczej”
• Państwo nie informuje obywatela
• W maju 2004 r. wchodzimy do UE
4
Co w prawie piszczy?
(cd.1)
• Prawo dotyczy każdego obywatela
– „Ignorantia iuris nocet”
– Prawo nie tylko dla prawników
– Świadomość prawna w Polsce rośnie
5
Co w prawie piszczy?
(cd.2)
• Liczba przepisów prawnych
– Promulgatory = ponad 210 tys. aktów + prawo lokalne + UE
•
•
•
•
•
Dziennik Ustaw, Monitor Polski (A) = ok. 16 tys. str./rok
Monitor Polski B
21 dzienników urzędów centralnych = ok. 5 tys. str./rok
16 dzienników urzędów wojewódzkich = ok. ? tys. str./rok
Prawo Unii Europejskiej = OJ L: ok. 22 tys. str./rok + C: 26 tys. str./rok
– Orzeczenia (najważniejsze interpretacje prawa)
•
•
•
•
•
Trybunał Konstytucyjny
Sąd Najwyższy
Naczelny Sąd Administracyjny
Sądy apelacyjne
Sąd antymonopolowy
– Przepisy niepromulgowane
6
Co w prawie piszczy?
(cd.3)
• Liczba przepisów prawnych
Ilość stron w promulgatorach Dz.U. I M.P.
( wg roczników w latach 1990-2002)
18 000
Liczba stron / rok
16 000
14 000
12 000
10 000
M.P.
Dz. U.
8 000
6 000
4 000
2 000
0
90 991 992 993 994 995 996 997 998 999 000 001 002
9
1
1
1
1
1
1
1
1
1
1
2
2
2
Lata
7
Co w prawie piszczy?
(cd.4)
• Zmienność przepisów w czasie
– Akty wchodzą w życie
– Akty są uchylane (pośrednio, bezpośrednio)
– Akty są zmieniane
Codziennie następuje
zmiana/uchylenie/wprowadzenie kilku aktów
8
Co w prawie piszczy?
(cd.5)
• Źródła przepisów prawnych
9
Co w prawie piszczy?
(cd.5)
• Źródła przepisów prawnych
Konstytucja RP
Ustawy
Umowy
Międzynarodowe
10
Co w prawie piszczy?
(cd.5)
• Źródła przepisów prawnych
Konstytucja RP
Ustawy
Umowy
Międzynarodowe
Rozporządzenia
11
Co w prawie piszczy?
(cd.5)
• Źródła przepisów prawnych
Konstytucja RP
Ustawy
Umowy
Międzynarodowe
Rozporządzenia
Zarządzenia
Uchwały
Regulaminy
Inne akty wyk.
Statuty
12
Co w prawie piszczy?
(cd.5)
• Źródła przepisów prawnych
Konstytucja RP
Ustawy
Umowy
Międzynarodowe
Rozporządzenia
Zarządzenia
Uchwały
Regulaminy
Konstytucja UE
Uchwały
Parlamentu UE
Dyrektywy Komisji
Europejskiej
Inne akty wyk.
Statuty
13
Co w prawie piszczy?
(cd.5)
• Źródła przepisów prawnych
Konstytucja RP
Ustawy
Konstytucja UE
Umowy
Międzynarodowe
Dyrektywy Komisji
Europejskiej
Rozporządzenia
Zarządzenia
Uchwały
Regulaminy
Uchwały
Parlamentu UE
Inne akty wyk.
Statuty
Decyzje urzędników
Orzecznictwo sądów
14
Co w prawie piszczy?
(cd.6)
• Państwo nie informuje obywatela
–
–
–
–
–
–
Rozproszony system promulgatorów
Brak kodyfikacji (np. na wzór FNA)
Stary system wyszukiwania aktów
Niespójność przepisów
Dezinformacja (np. krótkie Vacatio legis)
Prawo dostępne tylko w obcym języku (UE)
15
Czego oczekuje użytkownik?
• Dostępu do kompletnego zbioru dokumentów
• Szybki dostęp do najnowszych danych
• Dostępu do obowiązującego brzmienia dowolnego
dokumentu (tekstu ujednoliconego) dowolnym dniu
(stan prawny)
• Informacji na temat wszelkich powiązań między
dokumentami
• Możliwości wyszukania dokumentów przez wskazanie
(opisowe) zagadnienia (UE)
• Dostępu do różnego typu informacji syntetycznych
16
Neurolex
• Cel
– „Skonstruowanie systemu umożliwiającego
szybkie dostarczenie użytkownikowi
oczekiwanych przez niego, kompletnych i
dobrych jakościowo informacji z zakresu
prawa, za rozsądną cenę”
• Środki
–
–
–
–
Technologia XML, XSLT, XPATH
OCR (Neurosoft BIP)
Przetwarzania tekstów, NLP (Neurosoft Gram)
Internet
17
Neurolex - elementy
• Specjalna architektura danych (baza off-line)
• Zestaw narzędzi do konwersji dokumentów z
postaci papierowej lub/i prostej
elektronicznej do pełnej postaci
„wzbogaconej”
– Etap 1: dane pierwotne
– Etap 2: dane syntetyczne
• Zestaw narzędzi do wizualizacji i
wyszukiwania dokumentów
(www.serwis-prawny.pl)
18
Architektura danych
• Architektura bazy danych:
– Typ bazy danych:
– Silnik bazy danych:
– Element bazy:
– Relacje:
– Wizualizacja:
– Kontrola wersji:
hierarchiczny
system plików
pojedynczy plik (element dokumentu)
hiperlink
Microsoft Internet Explorer 4.0+
Microsoft SourceSafe 6.0
19
Architektura danych
(cd.1)
• Podstawowe formaty plików w bazie danych
XML – schematy, treści i opisy dokumentów
BIP – obrazy stron promulgatorów,
IDX, IDT* – pliki tekstowe ze słowami kluczowymi,
• Pomocnicze formaty plików
TIFF – zbiorcze obrazy całych numerów promulgatorów,
CSV, TXT, CHN – pliki z informacjami pomocniczymi,
PDF – oryginały promulgatorów,
XLS, DOC – przetworzone, inteligentne formularze,
XSL, GIF, JPEG, HTML, CSS – dodatki dla wizualizacji.
* nie aktualne w wersji Neurolex 2.0
20
Architektura danych
(cd.2)
• Architektura bazy danych – hierarchia:
Root
Promulgator
Pozycja = akt
21
Architektura danych
(cd.3)
• Zawartość pojedynczego dokumentu:
– Metryka, spis treści, powiązania (XML),
– Treść każdej z części oddzielnie (XML),
(podział na części wg podziału na załączniki i wersje językowe)
–
–
–
–
–
Słowa kluczowe dla całej treści części (IDX),
Słowa kluczowe dla tytułów (IDT),
Plik BIP „spinający” obrazy stron dla pozycji,
Pliki BIP „spinające” obrazy dla każdej części,
Informacje o zmianach (podkatalogi)
22
Architektura danych
(cd.4)
• Dodatkowe pliki pomocnicze*:
–
–
–
–
–
Spis treści numeru (XML)
„Spinacz” dla wszystkich stron numeru (BIP)
Spis treści rocznika (XML)
„Spinacz” dla wszystkich stron rocznika (BIP)
Spis treści promulgatorów (HTML)
* generowane na podstawie plików z zawartością dokumentów
23
Architektura danych
(cd.5)
• Struktura treści XML – poziomy „adresowalne*”:
Artykuł
Paragraf
Ustęp
Punkt
Litera
Sublitera
* posiadają adres (bookmark) i można się na nich pozycjonować podczas przeglądania
24
Architektura danych
(cd.6)
• Struktura treści XML – poziomy „nieadresowalne*”:
Część
Księga
Tytuł
Dział
Rozdział
Oddział
jednostki
niższego
poziomu
+
Jednostki tytularne
w załącznikach lub
w aktach zagranicznych
* realizowane przy użyciu trzech elementów – JTC, JTL, JTN, nie posiadają bookmarków
25
Architektura danych
(cd.7)
• Struktura treści XML – elementy uniwersalne*:
–
–
–
–
–
–
–
–
–
–
Tekst (z elementami formatowania),
Wyliczenie (tiret),
Objaśnienie (np. dla symboli we wzorach),
Tabela (dwa poziomy – możliwość grupowania wierszy),
Wzór matematyczny (w notacji XML+TEX),
Przypis,
Zastąpienie (zamiana),
Cytat,
Hyperlink,
Dowolnie sformatowany fragment w HTML-u.
* można je umieścić na każdym poziomie struktury
26
Architektura danych
(cd.8)
prezentacja fragmentu bazy off-line
27
Konwersja danych
(etap 1)
Pozyskanie surowców
Wygenerowanie
półproduktów
Etykietowanie
półproduktów
Utworzenie danych
wyjściowych
Wzbogacanie
danych wyjściowych
Weryfikacja
wewnętrzna
Ekspedycja danych
Weryfikacja
zewnętrzna
28
Konwersja danych
Skanowanie oryginałów,
pobranie dostępnych danych
z Internetu:
- Neurosoft BIP
- Neurosoft LexSpreacz
(etap 1)
Pozyskanie surowców
Wygenerowanie
półproduktów
Etykietowanie
półproduktów
Utworzenie danych
wyjściowych
Wzbogacanie
danych wyjściowych
Weryfikacja
wewnętrzna
Ekspedycja danych
Weryfikacja
zewnętrzna
29
Konwersja danych
Retusz skanów, OCR skanów do
postaci HTML, korekta
ortograficzna i porównawcza
teksów, podział wolumenów i
dokumentów, inicjacja struktury
bazy off-line
- Neurosoft BIP
- Neurosoft LexGram
- FineReader
- Neurosoft MLParser
- Neurosoft InitLex
- Neurosoft CsvCheck
(etap 1)
Pozyskanie surowców
Wygenerowanie
półproduktów
Etykietowanie
półproduktów
Utworzenie danych
wyjściowych
Wzbogacanie
danych wyjściowych
Weryfikacja
wewnętrzna
Ekspedycja danych
Weryfikacja
zewnętrzna
30
Konwersja danych
Ręczne nanoszenie tagów w
HTML-u usprawniających
proces generowania XML-i,
kontrola i weryfikacja
niektórych błędów
- Notepad
- IE Explorer
- Active Perl
(etap 1)
Pozyskanie surowców
Wygenerowanie
półproduktów
Etykietowanie
półproduktów
Utworzenie danych
wyjściowych
Wzbogacanie
danych wyjściowych
Weryfikacja
wewnętrzna
Ekspedycja danych
Weryfikacja
zewnętrzna
31
Konwersja danych
Generowanie i weryfikacja
porównawcza danych
metrykalnych, generowanie
struktury aktu XML
(hierarchizacja), generowanie
spisu treści aktu, tagowanie
zmian, tagowanie i identyfikacja
referencji, tagowanie i
identyfikacja powiązań z innymi
aktami:
- Neurosoft Analex
(etap 1)
Pozyskanie surowców
Wygenerowanie
półproduktów
Etykietowanie
półproduktów
Utworzenie danych
wyjściowych
Wzbogacanie
danych wyjściowych
Weryfikacja
wewnętrzna
Ekspedycja danych
Weryfikacja
zewnętrzna
32
Konwersja danych
Generowanie spisów treści dla
wolumenu, rocznika itp.,
dowiązanie obrazów do
dokumentów, generowanie
protokołów powiązań:
- Neurosoft InitLex
(etap 1)
Pozyskanie surowców
Wygenerowanie
półproduktów
Etykietowanie
półproduktów
Utworzenie danych
wyjściowych
Wzbogacanie
danych wyjściowych
Weryfikacja
wewnętrzna
Ekspedycja danych
Weryfikacja
zewnętrzna
33
Konwersja danych
(etap 2)
(w początkowej fazie implementacji)
Klasyfikacja treści
Wyznaczenie
„czasu życia”
Wygenerowanie
tekstu ujednoliconego
Synteza informacji
34
Konwersja danych
Ulokowanie dokumentu w
analitycznym spisie prawa,
generowanie i otagowanie słów
kluczowych (EuroVoc) dla
skorowidzów:
- Neurosoft ConsoLex
(etap 2)
(w początkowej fazie implementacji)
Klasyfikacja treści
Wyznaczenie
„czasu życia”
Wygenerowanie
tekstu ujednoliconego
Synteza informacji
35
Konwersja danych
Określenie wszystkich
momentów (dat), w których
dany dokument się
zmienia/wchodzi w
życie/dezaktualizuje się:
- Neurosoft TimeLex
(etap 2)
(w początkowej fazie implementacji)
Klasyfikacja treści
Wyznaczenie
„czasu życia”
Wygenerowanie
tekstu ujednoliconego
Synteza informacji
36
Konwersja danych
- Neurosoft ConsoLex
(etap 2)
(w początkowej fazie implementacji)
Klasyfikacja treści
Wyznaczenie
„czasu życia”
Wygenerowanie
tekstu ujednoliconego
Synteza informacji
37
Konwersja danych
Określenie wpływu danego
aktu na stan już
istniejących syntetycznych
zestawień,
ew. utworzenie
dodatkowego zestawienia
(etap 2)
(w początkowej fazie implementacji)
Klasyfikacja treści
Wyznaczenie
„czasu życia”
Wygenerowanie
tekstów ujednoliconych
Synteza
informacji
38
Konwersja danych - NLP
• Neurosoft LexGram
– Weryfikacja ortograficzna i porównawcza tekstu
– Identyfikacja potencjalnych błędów OCR-u
• Neurosoft Analex
–
–
–
–
Wyznaczanie struktury aktu na podstawie treści
Generowanie informacji metrykalnych
Tagowanie zmian
Tagowanie powiązań z innymi aktami wraz z
wykrywaniem rodzaju powiązania
39
Konwersja danych – NLP
(cd. 1)
• Neurosoft ConsoLex
– Generowanie tekstów ujednoliconych*
– Klasyfikacja aktu*
• Automatyczna synteza informacji –
odpowiadanie na pytania
* w trakcie implementacji
40
Wyszukiwanie informacji
(www.serwis-prawny.pl)
41
Wyszukiwanie informacji - NLP
• Przeszukiwanie wg analitycznego spisu prawa
oraz wg wybranych haseł – skorowidz*
• Przeszukiwanie pełnotekstowe odporne na
język polski (Neurosoft Gram) wraz z
kolorowaniem wyniku z „autodezambiguacją”
• Przeszukiwanie pełnotekstowe z użyciem
sieci semantycznych (Polski WordNet)*
• BECKspert - inteligentny analizator zapytań
w języku naturalnym*
* w fazie implementacji, uruchomienie 1 czerwca 2003 r.
42
Wyszukiwanie informacji – NLP
prezentacja działania serwisu on-line
43
Problemy - NLP
• Korekta gramatyczna tekstu (po OCR)
• Systematyczne braki w słowniku Grama
– Nazwy geograficzne i ich pochodne
– Przedrostkowe formy niektórych wyrazów (konieczna
morfologia algorytmiczna)
– Grupy nazw własnych (np. leki)
• „Prawdziwy” polski WordNet
• Polska wersja EuroVoc’a (wersja 4.0)
• Bardziej automatyczne generowanie tekstów
ujednoliconych
• Odpowiedni materiał językowy do wyszukiwania
tyupu „cross-lingual search” (ang-pl)
44
Pytania
Dziękuję za uwagę
45
Download