Hurtownia Danych w Getin Noble Bank – odejście od utartych schematów. Andrzej Wojcieszyński, Gleb Samsonov Schemat standardowej hurtowni Kolejność budowania 1. Hurtownia danych detalicznych 2. Hurtownia danych analitycznych (Data Marty) Schemat standardowej hurtowni Kolejność zasilania 1. Zamknięte systemy źródłowe 2. Wystawianie danych w różnym czasie 3. Kompletowanie danych 4. Zasilanie Schemat standardowej hurtowni Kolejność przetwarzania 1. 2. 3. 4. Wczytanie kompletu danych źródłowych Czyszczenie i ujednolicenie danych Zasilenie hurtowni ostanim dniem Zasilenie agregatów …ale my odwróciliśmy kolejność Schemat budowy HD GNB 1. Najpierw Data Mart i Agregaty – potem reszta danych 2.Są dane ważne i ważniejsze. Nie czekamy na spóźnialskich i idziemy wraz z napływem danych. 3. Zasilamy po kawałku, różne obszary tematyczne (moduły) 4. Możliwe powtórzenie zasilania Inaczej, ponieważ … • Efekty miały być widoczne w krótkim czasie • Zasilanie systemów podstawowych nie musi czekać na systemy drugoplanowe • Możliwość przekazywania danych w zależności od priorytetów • Nie wszystko w jednym czasie! Cele 1. Jedno źródło prawdy 2. Zwiększenie wygody użytkowania 3. Przyśpieszenie zasilania 4. Prosta rozbudowa Punkt wyjścia • Ponad 20 systemów źródłowych ( duża zmienność ) • Kilka systemów księgowych (Księga Główna) • Kilka Hurtowni Danych podstawowych • Duże rozproszenie danych • Długie czasy zasileń • Skomplikowane i czasochłonne uzgodnienia danych z systemów Rozwiązanie Komponenty • Polski bankowy referencyjny model danych • IBM Pure Analytics (dawniej Netezza) • IBM Infosphere DataStage • Oracle Business Intelligence / QlickVIew Model hurtowni Dlaczego sprawdzony model? • Krótszy czas analizy wymagań • Łatwiejsze uzgodnienia między pionami biznesowymi • Sprawdzony i wzbogacony w bojach (ING, GNB) • Blisko 30 obszarów tematycznych: Wniosek -> Umowa -> Operacja -> Księga Główna • Czytelne ułożenie danych ( dopasowanie do Pionów Banku) Dlaczego sprawdzony model • Intuicyjnie uporządkowane dane • Prostsza administracja dostępami • Łatwe łączenie obszarów (wspólne identyfikatory) • Ustandaryzowane interfejsy zasilania