Funkcjonalność SZD

advertisement
START
SYSTEM ZARZĄDZANIA DANYMI
PCSS 2003/2004
[email protected]
Plan prezentacji
 Projekt badawczo-wdrożeniowy PROGRESS
 Funkcjonalność SZD
 Architektura systemu
 Metadane w SZD
 Technologie
 Podsumowanie
PROGRESS - Parametry
 Środowisko zaawansowanej infrastruktury sieciowoobliczeniowej w sieci PIONIER (1-10 Gb/s)
 Instalacja pilotowa
 80-procesorowy klaster: 3*SUN Fire 6800, 2*SUN Fire V880
 Macierze dyskowe: 1,3 TB
 Oprogramowanie: ORACLE, iPlanet, Globus, Cluster Tools, SGE
 Rozwój narzędzi wspomagających architekturę gridowoportalową
 Rozwój modułów zarządzania danymi i wizualizacji
 Weryfikacja poprzez aplikacje bioinformatyczne
 Udostępnienie środowiska gridowo-portalowego innym
zaawansowanym aplikacjom (PIONIER)
PROGRESS
 Realizacja prac b+r:
 12.2001-05.2003
 Wdrożenie:
 06.2003-11.2003
 Partnerzy:
 SUN Microsystems
 PCSS/IChB
 Cyfronet Kraków
 Politechnika Łódzka
Podstawowe zadania SZD
 Przechowywanie i udostępnianie danych w środowisku gridowym
 Elastyczny dostęp do danych składowanych wewnątrz systemu
 Interfejs dostępu w technologii WebServices
 Wsparcie dla najpopularniejszych protokołów transmisji
 Składowanie danych na różnych typach medium
 Otwartość na standardy gridowe
 Wsparcie dla protokołów gridowych
 Zdefiniowanie interfejsów w standardzie OGSI/OGSA
 Poziom bezpieczeństwa wymagany dla aplikacji typu DataGRID
 Wysoki poziom niezawodności
 Ochrona danych przed awarią
 Minimalizacja czasu niedostępności systemu podczas awarii
 Udostępnienie środowiska przechowywania danych innym
zaawansowanym aplikacjom
Funkcjonalność SZD
 Wirtualny system operacyjny przechowujące dane w
postaci struktury drzewiastej
 Podstawowe elementy struktury SZD
 Metakatalog (Metadirectory lub Directory)
 Metaplik (Metafile lub Element)
 Kontener (Container)
 Dowiązanie (Link)
 Ukrycie przed użytkownikiem końcowym fizycznego
umiejscowienia danych
 Replikacja danych na wielu węzłach systemu
gridowego
Funkcjonalność SZD
 Dostępność poprzez protokoły HTTP, FTP, GridFTP,
GASS, secureGASS
 Niezależność aplikacji od sprzętu (język Java)
 Interfejs dostępu do danych zgromadzonych przez
system SRS
Funkcjonalność SZD
Root
Directory
Container
Element
Resource
Funkcjonalność SZD
Directory
Container
Directory
Directory
Container
Container
Element
Element
PROGRESS Overview
PORTAL
Presentation Module
Functional Module
Data
Management
GRID Broker
GLOBUS
SUN Servers
Struktura Logiczna SZD
Broker
Danych
Mirror,
Proxy, SRS
Przechowywanie Danych
Portal Administracyjny
Zarządzanie Metadanymi
(Repozytorium)
Architektura SZD
Clients
SOAP
Portal
RMI
Data Broker
RAD
SOAP
GMS
SOAP
Metadata
Management
GASS,
GridFTP
SOAP
Storage
Read-Only
SOAP
FTP,
HTTP
Data Storage
DB
File System
SRS
UniTree
Rozproszona architektura SZD
META
MGMT
MGMT
STOR
STOR
UDDI
MGMT
STOR
client
PROXY
Broker danych
 Asynchroniczne przyjmowanie żądań klientów, co nie
powoduje blokowania dostępu do usług dla innych
klientów,
 Realizacja polityki bezpieczeństwa na poziomie
dostępu do elementów repozytorium (dostęp do
plików, katalogów),
 Przekazywanie żądań klientów do repozytorium metadanych,
 Odebranie i wysłanie wyników do klienta.
 Występuje w systemie w n instancjach
Repozytorium
 Centralny element systemu SZD. Przechowuje następujące
rodzaje informacji:
 metadane o zasobach: pliki danych, fizyczne umiejscowienie danych,
sposób dostępu do danych,
 metadane o uprawnieniach: wszelkie informacje związane z
uprawnieniami jak użytkownicy, grupy, prawa dostępu.
 metadane dotyczące standardów opisu plików, np. Dublin Core (DC)
 Dostęp do zasobów repozytorium realizowany poprzez
moduł Zarządzania Metadanymi
 Występuje w systemie w jednej instancji
Usługi repozytorium
 Repozytorium udostępnia poprzez moduł brokera danych
następujące rodzaje usług
 usługi katalogowe - metadane opisujące zasoby zorganizowane w strukturę
drzewiastą, podobną do struktury katalogowej systemów operacyjnych.
Struktura ta składa się z katalogów, zwanych na potrzeby SZD
metakatalogami.
 usługi plikowe – pliki (przechowywane w repozytorium jako metapliki)
umieszczone są w metakatalogach. Podstawowym zadaniem repozytorium jest
jednoznaczne odwzorowanie pomiędzy metaplikiem, a jego instancją fizyczną
umieszczoną na kontenerze danych. SZD zapewnia w ten sposób możliwość
replikacji plików, która jest niewidoczna dla użytkownika końcowego.
 usługi związane z bezpieczeństwem – W celu autoryzacji użytkownika w
SZD zaimplementowano moduł, który na podstawie informacji z metadanych
określa czy użytkownik końcowy jest uprawniony do operacji na danym
zasobie.
Moduł przechowywania danych
 Moduł odpowiedzialny za zarządzanie fizycznymi
instancjami plików oraz realizowanie usług dostępu do
danych
 Zaprojektowany w postaci uniwersalnego kontenera
przechowującej dane na różnych typach medium – plikach
systemu operacyjnego, obiektach bazy danych i plikach
systemów archiwizujących.
 Moduł może występować w wielu instancjach w SZD
 zapewnienie ciągłej dostępności danych w systemie w wypadku awarii
połączeń sieciowych lub awarii systemów, na których uruchomione są moduły
przechowywania danych
 Zapewnienie wyboru optymalnego modułu w połączeniu z klientem systemu.
Metadane
 Każdy element w repozytorium SZD może zostać
opisany za pomocą metadanych
 Możliwość definiowania schematów metadanych
przez użytkowników SZD
 Wsparcie dla wielojęzykowości
 Podstawowe funkcje realizowane przez SZD
 Pobieranie informacji o zdefiniowanych schematach meta-danych
 Dodawanie i modyfikacja meta-danych
 Opisywanie dowolnych obiektów za pomocą meta-danych
 Wyszukiwanie informacji
Technologie
 Implementacja systemu w języku Java
 Interfejs dostępu do zasobów SZD w technologii
WebServices (protokół komunikacyjny SOAP)
 Apache SOAP
 Serwer aplikacji zapewniający komunikację po
protokole HTTP – Jetty
(http://jetty.mortbay.org/jetty)
 JDBC oraz Oracle
Download