Instytut Technik Innowacyjnych Semantyczna integracja danych - metody, technologie, przykłady, wyzwania Michał Socha, Wojciech Górka Integracja danych • Prosty export/import • Integracja 1:1 – łączenie baz danych • Szyny danych oparte o wymianę komunikatów 2 Nowy sposób – integracja semantyczna • Nowa jakość w dziedzinie integracji • Silnik mapujący dane • Mapowanie tłumaczące dane z różnych źródeł 3 Sieci semantyczne • Idea sieci semantycznych jest bezpośrednio związana z siecią Internet • Dąży się do standaryzacji pewnych rozwiązań w ramach funkcjonowania Internetu • Standaryzacja semantycznego opisu sieci danych: RDF, RDF-S, OWL Możliwości zastosowania sieci semantycznych • Powstają narzędzia umożliwiające przetwarzanie danych semantycznych • Wyznaczane są nowe obszary zastosowań technologii semantycznych • Zastosowanie w Internecie oraz na gruncie lokalnych systemów informatycznych • Standaryzacja opisu i wymiany danych Integracja semantyczna – główne zalety • Wspólna spójna przestrzeń danych – ujednolicony dostęp do tych samych danych – komplementarność danych • Synchroniczny dostęp do danych • Udostępniane dane to dane źródłowe • Elastyczność – łatwość w rozszerzaniu o nowe źródła danych 6 Dostępne narzędzia – silniki mapujące dane • D2RQ – narzędzie opensource (akademickie) • Virtuoso – narzędzie komercyjne, płatne • Jboss Teiid – narzędzie opensource, bezpłatne 7 Silnik D2RQ • Mapowanie danych relacyjnych do trójek RDF • Odpytywanie danych za pomocą języka SPARQL • Możliwość bezpośredniego dostępu do danych poprzez protokół HTTP i REST API 8 Silnik Virtuoso • Rozwiązanie komercyjne • Kompleksowa integracja wielu źródeł danych: baz danych, plików, web services • Możliwość udostępniania zintegrowanych danych na różne sposoby • Dostęp do danych poprzez SQL lub SPARQL 9 Silnik Jboss Teiid • Integracja wielu baz danych w jedną wirtualną przestrzeń • Mapowanie danych do wirtualnych tabel • Dane udostępnione jako baza danych (dostęp poprzez JDBC, ODBC) 10 Use case – monitorowanie zużycia mediów Podpowiedzi w formularzach Moduł raportów Korporacyjne bazy wiedzy (wikipedie) Inne aplikacje wykorzystujące warstwę danych Warstwa pośrednicząca (silnik D2RQ) baza danych systemu księgowego baza danych innego systemu baza danych zużycia mediów kopalni 1 baza danych zużycia mediów kopalni 2 Use case – projekt CCMODE Śledzenie błędów Zarządzanie konfiguracją Projektowanie Zarządzanie testami Wersjonowanie Dokumentacja Wykorzystane cechy D2RQ • Podpinanie wielu źródeł • Podpinanie tych samych danych z różnych źródeł • Możliwość uzupełniania informacji o dane z różnych źródeł • Bazowanie na ontologii Doświadczenia wykorzystania D2RQ • Konieczność integracji z systemami bez relacyjnej bazy danych (np. SVN) • Zbudowane dodatkowe narzędzia pomocnicze do budowy mapowania • Kolejność realizacji: najpierw ontologia, potem podłączanie kolejnych źródeł danych • Brak udostępniania zasobów binarnych Przykładowe mapowanie • Pokaz ontologii • Pokaz pliku z mapowaniem UseCace – Jboss Teiid • Wykorzystanie Jboss Teiid do utworzenia wspólnej przestrzeni danych dla jednego systemu w wielu lokalizacjach • Wszystko zamyka się w relacyjnych bazach danych • Silnik mapujący (Jboss Teiid) uruchamiany w ramach serwera aplikacji Jboss Teiid – sposób realizacji Jboss Teiid – cd. Jboss Teiid – cd. Semantyczna integracja systemów - zalety i wady • Wspólna terminologia • • Jednorodna przestrzeń dla integrowanych systemów • • Dynamicznie tworzone widoki danych • Akceptowanie zróżnicowania technologicznego Możliwość utraty lub dublowania części informacji Narzut czasowy na semantyczną interpretację Podsumowanie • W technikach semantycznych tkwi potencjał, który może odmienić nasze poglądy na szeroko rozumiane dane • Techniki semantyczne dodają do danych nowy wymiar Gdzie stosować utrwalanie wiedzy produkcja monitorowanie wspomaganie decyzji zarządzanie Centrum Naukowo Badawcze Instytutu EMAG [email protected]