Nowy sposób – integracja semantyczna

advertisement
Instytut Technik Innowacyjnych
Semantyczna integracja danych - metody,
technologie, przykłady, wyzwania
Michał Socha, Wojciech Górka
Integracja danych
• Prosty export/import
• Integracja 1:1 – łączenie baz danych
• Szyny danych oparte o wymianę
komunikatów
2
Nowy sposób – integracja semantyczna
• Nowa jakość w dziedzinie integracji
• Silnik mapujący dane
• Mapowanie tłumaczące dane z różnych
źródeł
3
Sieci semantyczne
• Idea sieci semantycznych jest bezpośrednio
związana z siecią Internet
• Dąży się do standaryzacji pewnych
rozwiązań w ramach funkcjonowania
Internetu
• Standaryzacja semantycznego opisu sieci
danych: RDF, RDF-S, OWL
Możliwości zastosowania sieci
semantycznych
• Powstają narzędzia umożliwiające
przetwarzanie danych semantycznych
• Wyznaczane są nowe obszary zastosowań
technologii semantycznych
• Zastosowanie w Internecie oraz na gruncie
lokalnych systemów informatycznych
• Standaryzacja opisu i wymiany danych
Integracja semantyczna – główne zalety
• Wspólna spójna przestrzeń danych
– ujednolicony dostęp do tych samych danych
– komplementarność danych
• Synchroniczny dostęp do danych
• Udostępniane dane to dane źródłowe
• Elastyczność – łatwość w rozszerzaniu o
nowe źródła danych
6
Dostępne narzędzia – silniki mapujące
dane
• D2RQ – narzędzie opensource
(akademickie)
• Virtuoso – narzędzie komercyjne, płatne
• Jboss Teiid – narzędzie opensource,
bezpłatne
7
Silnik D2RQ
• Mapowanie danych relacyjnych do trójek
RDF
• Odpytywanie danych za pomocą języka
SPARQL
• Możliwość bezpośredniego dostępu do
danych poprzez protokół HTTP i REST
API
8
Silnik Virtuoso
• Rozwiązanie komercyjne
• Kompleksowa integracja wielu źródeł
danych: baz danych, plików, web services
• Możliwość udostępniania zintegrowanych
danych na różne sposoby
• Dostęp do danych poprzez SQL lub
SPARQL
9
Silnik Jboss Teiid
• Integracja wielu baz danych w jedną
wirtualną przestrzeń
• Mapowanie danych do wirtualnych tabel
• Dane udostępnione jako baza danych
(dostęp poprzez JDBC, ODBC)
10
Use case – monitorowanie zużycia
mediów
Podpowiedzi w
formularzach
Moduł
raportów
Korporacyjne
bazy wiedzy
(wikipedie)
Inne aplikacje
wykorzystujące
warstwę danych
Warstwa pośrednicząca
(silnik D2RQ)
baza danych systemu
księgowego
baza danych innego
systemu
baza danych zużycia
mediów kopalni 1
baza danych zużycia
mediów kopalni 2
Use case – projekt CCMODE
Śledzenie
błędów
Zarządzanie
konfiguracją
Projektowanie
Zarządzanie
testami
Wersjonowanie
Dokumentacja
Wykorzystane cechy D2RQ
• Podpinanie wielu źródeł
• Podpinanie tych samych danych z różnych
źródeł
• Możliwość uzupełniania informacji o dane
z różnych źródeł
• Bazowanie na ontologii
Doświadczenia wykorzystania D2RQ
• Konieczność integracji z systemami bez
relacyjnej bazy danych (np. SVN)
• Zbudowane dodatkowe narzędzia
pomocnicze do budowy mapowania
• Kolejność realizacji: najpierw ontologia,
potem podłączanie kolejnych źródeł
danych
• Brak udostępniania zasobów binarnych
Przykładowe mapowanie
• Pokaz ontologii
• Pokaz pliku z mapowaniem
UseCace – Jboss Teiid
• Wykorzystanie Jboss Teiid do utworzenia
wspólnej przestrzeni danych dla jednego
systemu w wielu lokalizacjach
• Wszystko zamyka się w relacyjnych
bazach danych
• Silnik mapujący (Jboss Teiid) uruchamiany
w ramach serwera aplikacji
Jboss Teiid – sposób realizacji
Jboss Teiid – cd.
Jboss Teiid – cd.
Semantyczna integracja systemów
- zalety i wady
•
Wspólna terminologia
•
•
Jednorodna przestrzeń
dla integrowanych
systemów
•
•
Dynamicznie tworzone
widoki danych
•
Akceptowanie
zróżnicowania
technologicznego
Możliwość utraty lub
dublowania części
informacji
Narzut czasowy
na semantyczną
interpretację
Podsumowanie
• W technikach
semantycznych tkwi
potencjał, który może
odmienić nasze poglądy na
szeroko rozumiane dane
• Techniki semantyczne
dodają do danych nowy
wymiar
Gdzie stosować
utrwalanie
wiedzy
produkcja
monitorowanie
wspomaganie
decyzji
zarządzanie
Centrum Naukowo Badawcze
Instytutu EMAG
[email protected]
Download