Analityka danych w środowisku Hadoop Piotr Czarnas, 5 czerwca 2017 Pytania stawiane przez biznes 1 Jaka jest aktualnie sytuacja w firmie? 2 Na czym jeszcze możemy zarobić? 3 Które procesy możemy usprawnić? Failure rate 6-9m 4 Gdzie ponosimy straty? Wyzwania przy wdrożeniu procesów analityki danych Biznes oczekuje odpowiedzi na wczoraj Dużo źródeł danych Długi czas przygotowania danych Koszty narzędzi i środowiska Ochrona danych osobowych (RODO) Wyzwania przy wdrożeniu procesów analityki danych Biznes oczekuje odpowiedzi na wczoraj • • • • Nie wszystkie dane potrzebne do raportu są dostępne Dane dostępne w hurtowni najwcześniej po kilku dniach Raport wykonuje się długo na obecnej infrastrukturze Biznes oczekuje danych w czasie rzeczywistym Wyzwania przy wdrożeniu procesów analityki danych Dużo źródeł danych • Analityk musi znaleźć potrzebne dane • Tabele w hurtowni danych nie są opisane • Nowe źródła danych (Google Analytics, plik z danymi rynkowymi, etc.) wymagają załadowania Wyzwania przy wdrożeniu procesów analityki danych Długi czas przygotowania danych • Analityk biznesowy jest uzależniony od IT • Dane trzeba załadować • Ładowanie danych do Hadoop-a nie jest proste: Wyzwania przy wdrożeniu procesów analityki danych Koszty narzędzi i środowiska • Tradycyjne bazy danych są kosztowne • Narzędzia wizualizacyjne (jak QlikView) tylko dla wybranych • Brak powszechnego dostępu do raportów dla wszystkich użytkowników $$$ Wyzwania przy wdrożeniu procesów analityki danych Ochrona danych osobowych • Regulacja RODO / GDPR wchodzi w życie 25 maja 2018 • Ewidencja źródeł z danymi personalnymi • Zapewnienie kontroli dostępu i audyt dostępu Obszary raportowania ad-hoc Obraz klienta 360 • Profilowanie klientów na podstawie dodatkowych źródeł informacji (Google Analytics, Facebook, etc.) • Łączenie danych CRM, ERP i rynkowych Logistyka • Monitorowanie łańcucha dostaw i dystrybucji • Analiza danych od partnerów handlowych Proces przygotowania danych do raportu Zamówienie raportu Znalezienie danych Przygotowanie danych Budowa raportu •Biznes prosi o przygotowanie raportu •Analityk szuka i analizuje źródła danych •Analityk prosi IT o załadowanie danych do hurtowni •Analityk buduje model danych oraz wizualizację Dostęp do danych dowolnym narzędziem Brak wpływu na obecne środowisko Wirtualna baza danych wspomagana przez Apache Spark Łatwe uruchamianie środowiska analitycznego Big Data Dostęp do wszystkich źródeł danych Progresywne wdrażanie analityki Big Data w firmie Zwinny process analityki danych Zamówienie raportu Znalezienie danych Przygotowanie danych Budowa raportu •Biznes może sam pobrać dane do Excela •Analityk łatwo znajduje dostępne dane •Analityk sam może podłączyć lub przeładować dane •Model danych raportu zostaje opublikowany na przyszość Apache Spark w analityce Najpopularniejszy silnik Big Data Open source Skalowalny Pełne wsparcie SQL Nastawiony na przetwarzanie ad-hoc Działa w każdym środowisku Spark vs Hadoop Spark • Wykonywanie zapytań SQL • Analityka w czasie rzeczywistym • Równoległa obsługa wielu użytkowników Hadoop • • • • Zarządzanie klastrem Bezpieczeństwo komunikacji Definicja metadanych Przechowywanie danych (HDFS) Tradycyjne ładowanie danych do Hadoop-a (push) 1 Przygotowanie plików Napisanie skryptów ładujących 3 2 Podpięcie skryptów ładujących pod harmonogramy Samoobsługowe odwrócone ładowanie danych (pull) 1 Podpięcie źródeł danych Wskazanie danych do załadowania Spark sam pobierze dane ze źródła 3 2 Wskazanie harmonogramu ładowania Demo Klasyczne środowisko Business Intelligence Narzędzia BI: Źródła danych Warstwa wizualna CRM ERP Baza danych Pliki tekstowe Procesy ETL Model danych Modele danych do raportów Dane dostępne tylko w ramach narzędzia BI Silnik ekstraktów Ekstrakty danych Rozmiar ograniczony wielkością serwera Hurtowni a Wyzwania w dostępie do danych Gdzie znajdę dane do raportu? Czy dane są zabezpieczone? Kiedy dane rynkowe lub od partnera będą raportowalne? Czy mogę użyć danych z raportu w Excelu? Czy są tam dane personalne? Czy hurtownia danych jest wystarczająco szybka? Środowisko ze współdzielonym modelem danych Narzędzia BI: Warstwa wizualna Logiczna hurtownia danych Model danych Definicja źródeł danych Centralna definicja uprawnień Inne narzędzia Warstwa utrzymania danych System harmonogramów Zarządzanie cyklem życia cache Źródła danych CRM ERP Baza danych Pliki tekstowe Opcjonalne procesy ETL Hurtowni a Zalety centralizacji modelu danych Dostęp do danych z dowolnego narzędzia Wszystkie źródła danych opisane Mniejsza zależność analityków od zespołu IT Pełny obraz źródeł danych na potrzeby regulacji RODO Łatwe i krokowe wdrażanie platformy Big Data do analityki Nieograniczone możliwości skalowania Dziękuję za uwagę Piotr Czarnas CEO Querona Ltd. [email protected] +48 536 133 114 www.querona.com