Architektura i mechanizmy systemu Warsztaty „Usługa powszechnej archiwizacji” Michał Jankowski, PCSS Maciej Brzeźniak, PCSS Plan prezentacji Podstawowe wymagania użytkowników - cel => Funkcjonalnośd i cechy systemu Zarys architektury - główne komponenty systemu Główne moduły oprogramowania i ich rola System od strony użytkownika Wyróżniające cechy systemu Podsumowanie Wymagania użytkowników => podstawowe funkcje systemu • Cel: Usługa kopii zapasowych i archiwizacji: => wymogi: • np. nie primary storage • np. nie współdzielenie danych Na podstawie: – ankieta przeprowadzona wśród potencjalnych użytkowników • Replikacja danych (min. 2 repliki) • Wysoka trwałośd danych • Wysoka dostępnośd Rozproszenie systemu • Skalowalnośd • Unikanie centralnego punktu awarii • Unikanie „wąskich gardeł” • Wiele punktów dostępu do danych • Dane replikowane do fizycznie różnych lokalizacji • Częściowe rozproszenie baz danych • Kompromis między pełnym rozproszeniem a centralizacją Wysoka dostępność • Dostęp do danych mimo awarii węzłów systemu lub separacji sieci: – wiele punktów dostępu – „maskowanie” awarii – replikacja danych i meta-danych • Wykrywanie anomalii działania: – monitoring – Raportowanie błędów (m.in. do NOC) Wysoka dostępność dzięki replikacji • Dostęp do danych mimo awarii węzłów systemu lub separacji sieci Użytkownik Dane użytkownika Usługa PLATON-U4 REPLIKACJA Replika 1 Centrum Danych 1 Replika 2 Centrum Danych 2 Replika 3 Centrum Danych 3 Wysoka dostępność dzięki replikacji • Dostęp do danych mimo awarii węzłów systemu lub separacji sieci Użytkownik Dane użytkownika Usługa PLATON-U4 Dane dostępne! ODTWARZANIE Replika 1 Centrum Danych 1 Replika 2 Centrum Danych 2 Replika 3 Centrum Danych 3 Integralność i trwałość danych • Replikacja: synchroniczna i asynchroniczna • Współbieżny dostęp – rzadko • Replikacja meta-danych – Slony-I – Mechanizm synchroniczny • Implementacja odporna na awarie i błędy przetwarzania – mechanizmy spójności Replikacja danych • Replikacja: – synchroniczna vs – asynchroniczna • Dłuższy czas odpowiedzi systemu • Krótszy czas odpowiedzi systemu • Pewnośd dot. stanu/ spójności wszystkich replik • Pewnośd dot. stanu / spójności tylko dla 1. repliki =? – W architekturze KMD/PLATON-U4 obsługiwane są obydwa tryby replikacji! Wydajność • • • • • Użycie lekkich, niskopoziomowych mechanizmów Adekwatny czas dostępu VLAN w sieci PIONIER Monitoring wydajności i predykcja Użycie wydajnych protokołów wewnątrz systemu (NFS, GridFTP) • Optymalizacja zakłada składowanie dużych plików Poufność i bezpieczeństwo danych • Szyfrowanie połączeo klient-system i wewnątrz systemu (X.509) • Oddzielne przestrzenie nazw dla instytucji • Audyty bezpieczeostwa systemu i oprogramowania • Przechowywanie odpowiedniej liczby replik • Wsparcie dla szyfrowania sprzętowego • Komunikacja przez VPN Zarządzanie cyklem życia informacji • • • • Zarządzanie ilością replik Synchroniczna i asynchroniczna replikacja Asynchroniczne usuwanie danych Retencja danych: – Jeśli wymagana... Dostęp do danych • Standardowe protokoły dostępu do danych i meta-danych – Po stronie użytkownika – typowe oprogramowanie klienckie: • SSH/SFTP (WinSCP, SSHFS) • HTTP/WebDAV (przeglądarka internetowa, klient WebDav, mapowanie dysków w Windows) • GridFTP – Po stronie systemu – emulowane systemy plików z danymi i meta-danymi Zarys architektury Meta-katalogi Węzły dostępowe Baza użytkowników Węzły przechowywania Baza rozliczeniowa System KMD - architektura a otoczenie Metakatalog Baza użytkowników Database Node Użytkownik Serwery metod dostępowych (SSH, HTTPs, WebDAV...) Wirtualny system plików dla danych i meta-danych Logika systemu KMD/PLATON-U4 Baza rozliczeo i limitów Access Node Replikacja Serwery metod dostępu do replik System plików GPFS i klient HSM System HSM Storage Node System HSM Storage Node Meta-katalog Użytkownik Metakatalog Baza użytkowników Database Node Serwery metod dostępowych (SSH, HTTPs, WebDAV...) Wirtualny system plików dla danych i meta-danych Logika systemu KMD/PLATON-U4 Baza rozliczeo i limitów Access Node Replikacja Serwery metod dostępu do replik System plików GPFS i klient HSM System HSM Storage Node System HSM Storage Node Meta-katalog • „Serce systemu”: – Logiczna struktura systemu plików – Mapowanie plików logicznych na repliki – Meta-dane o plikach: • np. adnotacje • wsparcie dla retencji danych • historia operacji Przykład meta-danych (historia operacji na pliku) Demon dla danych i demon dla meta-danych Metakatalog Baza użytkowników Database Node Użytkownik Serwery metod dostępowych (SSH, HTTPs, WebDAV...) Wirtualny system plików dla danych i meta-danych Logika systemu KMD/PLATON-U4 Baza rozliczeo i limitów Access Node Replikacja Serwery metod dostępu do replik System plików GPFS i klient HSM System HSM Storage Node System HSM Storage Node Demon dla Danych • „Koń roboczy” systemu KMD • Zapewnia dostęp do danych użytkowników • Realizuje polityki bezpieczeństwa, replikacji, limitów, optymalizacji • Emuluje logiczny system plików użytkownika na węźle dostępowym • Dostęp dla użytkownika standardowymi metodami oraz przez portal • Wytwarza dane accountingowe Demon dla Meta-danych • Emuluje system plików zawierający meta-dane na węźle dostępowym • Pliki z meta-danymi umieszczone w katalogach odpowiadających logicznym plikom i katalogom • Dostęp dla użytkownika standardowymi metodami oraz przez portal Dane vs meta-dane Baza użytkowników i baza rozliczeniowa Metakatalog Baza użytkowników Database Node Użytkownik Serwery metod dostępowych (SSH, HTTPs, WebDAV...) Wirtualny system plików dla danych i meta-danych Logika systemu KMD/PLATON-U4 Baza rozliczeo i limitów Access Node Replikacja Serwery metod dostępu do replik System plików GPFS i klient HSM System HSM Storage Node System HSM Storage Node Baza użytkowników • Instytucje – klienci • Kontrakty i profile (parametry usług) – Liczba i lokalizacja replik – Tryb replikacji – … • Użytkownicy (certyfikaty) Rozliczanie użytkowników (baza rozliczeniowa) • • • • • Zajęta przestrzeo Liczba plików Ilośd operacji na plikach Limity (quota) Generowanie raportów i rachunków • Statystyki Monitoring i predykcja • Monitoring – pozwala administratorom na bieżąco kontrolować stan wszystkich elementów systemu • Predykcja: – pomaga w optymalnym wyborze repliki do odczytu lub węzła do zapisu Metody dostępowe do danych a użytkownik Metakatalog Baza użytkowników Database Node Użytkownik Serwery metod dostępowych (SSH, HTTPs, WebDAV...) Wirtualny system plików dla danych i meta-danych Logika systemu KMD/PLATON-U4 Baza rozliczeo i limitów Access Node Replikacja Serwery metod dostępu do replik System plików GPFS i klient HSM System HSM Storage Node System HSM Storage Node Dostęp do danych • Po stronie systemu – odpowiednie serwery usług SSH/SFTP / HTTP / WebDAV • Po stronie klienta: – typowe oprogramowanie klienckie – specjalizowany portal Systemy przechowywania hierarchicznego Metakatalog Baza użytkowników Database Node Użytkownik Serwery metod dostępowych (SSH, HTTPs, WebDAV...) Wirtualny system plików dla danych i meta-danych Logika systemu KMD/PLATON-U4 Baza rozliczeo i limitów Access Node Replikacja Serwery metod dostępu do replik System plików GPFS i klient HSM System HSM Storage Node System HSM Storage Node Przechowywanie danych • HSM (Hierarchical Storage Management) – „pamięd systemu” Jak użytkownik widzi system? Wyróżniające cechy systemu • Replikacja synchroniczna i asynchroniczna – Semi-synchroniczna replikacja meta-danych • Oddzielne (logicznie i fizycznie) przestrzenie dla użytkowników • Wysoki stopieo decentralizacji – Niezależne meta-katalogi • Brak potrzeby specjalizowanego oprogramowania klienckiego Podsumowanie Oprogramowanie KMD i Usługa Powszechnej Archiwizacji dają użytkownikom dostęp do skalowalnej i rozproszonej infrastruktury opartej na nowoczesnej technologii – nieosiągalnej dla większości instytucji System został zaprojektowany tak, aby spełnid wymagania użytkowników w zakresie: Bezpieczeostwa danych Wysokiej trwałości danych Niezawodności Prostoty użytkowania System jest innowacyjny względem istniejących rozwiązao Usługa Powszechnej Archiwizacji Architektura i mechanizmy systemu Dziękujemy za uwagę Kontakt: [email protected] kmd.pcss.pl