START SYSTEM ZARZĄDZANIA DANYMI PCSS 2003/2004 [email protected] Plan prezentacji Projekt badawczo-wdrożeniowy PROGRESS Funkcjonalność SZD Architektura systemu Metadane w SZD Technologie Podsumowanie PROGRESS - Parametry Środowisko zaawansowanej infrastruktury sieciowoobliczeniowej w sieci PIONIER (1-10 Gb/s) Instalacja pilotowa 80-procesorowy klaster: 3*SUN Fire 6800, 2*SUN Fire V880 Macierze dyskowe: 1,3 TB Oprogramowanie: ORACLE, iPlanet, Globus, Cluster Tools, SGE Rozwój narzędzi wspomagających architekturę gridowoportalową Rozwój modułów zarządzania danymi i wizualizacji Weryfikacja poprzez aplikacje bioinformatyczne Udostępnienie środowiska gridowo-portalowego innym zaawansowanym aplikacjom (PIONIER) PROGRESS Realizacja prac b+r: 12.2001-05.2003 Wdrożenie: 06.2003-11.2003 Partnerzy: SUN Microsystems PCSS/IChB Cyfronet Kraków Politechnika Łódzka Podstawowe zadania SZD Przechowywanie i udostępnianie danych w środowisku gridowym Elastyczny dostęp do danych składowanych wewnątrz systemu Interfejs dostępu w technologii WebServices Wsparcie dla najpopularniejszych protokołów transmisji Składowanie danych na różnych typach medium Otwartość na standardy gridowe Wsparcie dla protokołów gridowych Zdefiniowanie interfejsów w standardzie OGSI/OGSA Poziom bezpieczeństwa wymagany dla aplikacji typu DataGRID Wysoki poziom niezawodności Ochrona danych przed awarią Minimalizacja czasu niedostępności systemu podczas awarii Udostępnienie środowiska przechowywania danych innym zaawansowanym aplikacjom Funkcjonalność SZD Wirtualny system operacyjny przechowujące dane w postaci struktury drzewiastej Podstawowe elementy struktury SZD Metakatalog (Metadirectory lub Directory) Metaplik (Metafile lub Element) Kontener (Container) Dowiązanie (Link) Ukrycie przed użytkownikiem końcowym fizycznego umiejscowienia danych Replikacja danych na wielu węzłach systemu gridowego Funkcjonalność SZD Dostępność poprzez protokoły HTTP, FTP, GridFTP, GASS, secureGASS Niezależność aplikacji od sprzętu (język Java) Interfejs dostępu do danych zgromadzonych przez system SRS Funkcjonalność SZD Root Directory Container Element Resource Funkcjonalność SZD Directory Container Directory Directory Container Container Element Element PROGRESS Overview PORTAL Presentation Module Functional Module Data Management GRID Broker GLOBUS SUN Servers Struktura Logiczna SZD Broker Danych Mirror, Proxy, SRS Przechowywanie Danych Portal Administracyjny Zarządzanie Metadanymi (Repozytorium) Architektura SZD Clients SOAP Portal RMI Data Broker RAD SOAP GMS SOAP Metadata Management GASS, GridFTP SOAP Storage Read-Only SOAP FTP, HTTP Data Storage DB File System SRS UniTree Rozproszona architektura SZD META MGMT MGMT STOR STOR UDDI MGMT STOR client PROXY Broker danych Asynchroniczne przyjmowanie żądań klientów, co nie powoduje blokowania dostępu do usług dla innych klientów, Realizacja polityki bezpieczeństwa na poziomie dostępu do elementów repozytorium (dostęp do plików, katalogów), Przekazywanie żądań klientów do repozytorium metadanych, Odebranie i wysłanie wyników do klienta. Występuje w systemie w n instancjach Repozytorium Centralny element systemu SZD. Przechowuje następujące rodzaje informacji: metadane o zasobach: pliki danych, fizyczne umiejscowienie danych, sposób dostępu do danych, metadane o uprawnieniach: wszelkie informacje związane z uprawnieniami jak użytkownicy, grupy, prawa dostępu. metadane dotyczące standardów opisu plików, np. Dublin Core (DC) Dostęp do zasobów repozytorium realizowany poprzez moduł Zarządzania Metadanymi Występuje w systemie w jednej instancji Usługi repozytorium Repozytorium udostępnia poprzez moduł brokera danych następujące rodzaje usług usługi katalogowe - metadane opisujące zasoby zorganizowane w strukturę drzewiastą, podobną do struktury katalogowej systemów operacyjnych. Struktura ta składa się z katalogów, zwanych na potrzeby SZD metakatalogami. usługi plikowe – pliki (przechowywane w repozytorium jako metapliki) umieszczone są w metakatalogach. Podstawowym zadaniem repozytorium jest jednoznaczne odwzorowanie pomiędzy metaplikiem, a jego instancją fizyczną umieszczoną na kontenerze danych. SZD zapewnia w ten sposób możliwość replikacji plików, która jest niewidoczna dla użytkownika końcowego. usługi związane z bezpieczeństwem – W celu autoryzacji użytkownika w SZD zaimplementowano moduł, który na podstawie informacji z metadanych określa czy użytkownik końcowy jest uprawniony do operacji na danym zasobie. Moduł przechowywania danych Moduł odpowiedzialny za zarządzanie fizycznymi instancjami plików oraz realizowanie usług dostępu do danych Zaprojektowany w postaci uniwersalnego kontenera przechowującej dane na różnych typach medium – plikach systemu operacyjnego, obiektach bazy danych i plikach systemów archiwizujących. Moduł może występować w wielu instancjach w SZD zapewnienie ciągłej dostępności danych w systemie w wypadku awarii połączeń sieciowych lub awarii systemów, na których uruchomione są moduły przechowywania danych Zapewnienie wyboru optymalnego modułu w połączeniu z klientem systemu. Metadane Każdy element w repozytorium SZD może zostać opisany za pomocą metadanych Możliwość definiowania schematów metadanych przez użytkowników SZD Wsparcie dla wielojęzykowości Podstawowe funkcje realizowane przez SZD Pobieranie informacji o zdefiniowanych schematach meta-danych Dodawanie i modyfikacja meta-danych Opisywanie dowolnych obiektów za pomocą meta-danych Wyszukiwanie informacji Technologie Implementacja systemu w języku Java Interfejs dostępu do zasobów SZD w technologii WebServices (protokół komunikacyjny SOAP) Apache SOAP Serwer aplikacji zapewniający komunikację po protokole HTTP – Jetty (http://jetty.mortbay.org/jetty) JDBC oraz Oracle