Analityka danych w środowisku Hadoop

advertisement
Analityka danych w środowisku Hadoop
Piotr Czarnas, 5 czerwca 2017
Pytania stawiane przez biznes
1
Jaka jest aktualnie sytuacja w firmie?
2
Na czym jeszcze możemy zarobić?
3
Które procesy możemy usprawnić?
Failure rate
6-9m
4
Gdzie ponosimy straty?
Wyzwania przy wdrożeniu procesów analityki danych
Biznes oczekuje odpowiedzi na wczoraj
Dużo źródeł danych
Długi czas przygotowania danych
Koszty narzędzi i środowiska
Ochrona danych osobowych (RODO)
Wyzwania przy wdrożeniu procesów analityki danych
Biznes oczekuje odpowiedzi na wczoraj
•
•
•
•
Nie wszystkie dane potrzebne do raportu są dostępne
Dane dostępne w hurtowni najwcześniej po kilku dniach
Raport wykonuje się długo na obecnej infrastrukturze
Biznes oczekuje danych w czasie rzeczywistym
Wyzwania przy wdrożeniu procesów analityki danych
Dużo źródeł danych
• Analityk musi znaleźć potrzebne dane
• Tabele w hurtowni danych nie są opisane
• Nowe źródła danych (Google Analytics, plik z danymi rynkowymi,
etc.) wymagają załadowania
Wyzwania przy wdrożeniu procesów analityki danych
Długi czas przygotowania danych
• Analityk biznesowy jest uzależniony od IT
• Dane trzeba załadować
• Ładowanie danych do Hadoop-a nie jest proste:
Wyzwania przy wdrożeniu procesów analityki danych
Koszty narzędzi i środowiska
• Tradycyjne bazy danych są kosztowne
• Narzędzia wizualizacyjne (jak QlikView) tylko dla wybranych
• Brak powszechnego dostępu do raportów dla wszystkich
użytkowników
$$$
Wyzwania przy wdrożeniu procesów analityki danych
Ochrona danych osobowych
• Regulacja RODO / GDPR wchodzi w życie 25 maja 2018
• Ewidencja źródeł z danymi personalnymi
• Zapewnienie kontroli dostępu i audyt dostępu
Obszary raportowania ad-hoc
Obraz klienta 360
• Profilowanie klientów na podstawie dodatkowych źródeł
informacji (Google Analytics, Facebook, etc.)
• Łączenie danych CRM, ERP i rynkowych
Logistyka
• Monitorowanie łańcucha dostaw i dystrybucji
• Analiza danych od partnerów handlowych
Proces przygotowania danych do raportu
Zamówienie
raportu
Znalezienie
danych
Przygotowanie
danych
Budowa
raportu
•Biznes prosi o przygotowanie raportu
•Analityk szuka i analizuje źródła danych
•Analityk prosi IT o załadowanie danych do hurtowni
•Analityk buduje model danych oraz wizualizację
Dostęp do danych
dowolnym narzędziem
Brak wpływu na obecne
środowisko
Wirtualna baza danych
wspomagana przez
Apache Spark
Łatwe uruchamianie
środowiska analitycznego
Big Data
Dostęp do wszystkich
źródeł danych
Progresywne wdrażanie
analityki Big Data w firmie
Zwinny process analityki danych
Zamówienie
raportu
Znalezienie
danych
Przygotowanie
danych
Budowa
raportu
•Biznes może sam pobrać dane do Excela
•Analityk łatwo znajduje dostępne dane
•Analityk sam może podłączyć lub przeładować dane
•Model danych raportu zostaje opublikowany na przyszość
Apache Spark w analityce
 Najpopularniejszy silnik Big Data
 Open source
 Skalowalny
 Pełne wsparcie SQL
 Nastawiony na przetwarzanie ad-hoc
 Działa w każdym środowisku
Spark vs Hadoop
Spark
• Wykonywanie zapytań SQL
• Analityka w czasie
rzeczywistym
• Równoległa obsługa wielu
użytkowników
Hadoop
•
•
•
•
Zarządzanie klastrem
Bezpieczeństwo komunikacji
Definicja metadanych
Przechowywanie danych
(HDFS)
Tradycyjne ładowanie danych do Hadoop-a (push)
1
Przygotowanie plików
Napisanie skryptów ładujących
3
2
Podpięcie skryptów ładujących pod harmonogramy
Samoobsługowe odwrócone ładowanie danych (pull)
1
Podpięcie źródeł danych
Wskazanie danych do załadowania
Spark sam pobierze dane ze źródła
3
2
Wskazanie harmonogramu ładowania
Demo
Klasyczne środowisko Business Intelligence
Narzędzia BI:
Źródła danych
Warstwa wizualna
CRM
ERP
Baza danych
Pliki
tekstowe
Procesy ETL
Model danych
Modele danych do raportów
Dane dostępne tylko w
ramach narzędzia BI
Silnik ekstraktów
Ekstrakty danych
Rozmiar ograniczony
wielkością serwera
Hurtowni
a
Wyzwania w dostępie do danych
Gdzie znajdę dane do raportu?
Czy dane są zabezpieczone?
Kiedy dane rynkowe lub od partnera będą raportowalne?
Czy mogę użyć danych z raportu w Excelu?
Czy są tam dane personalne?
Czy hurtownia danych jest wystarczająco szybka?
Środowisko ze współdzielonym modelem danych
Narzędzia BI:
Warstwa wizualna
Logiczna hurtownia danych
Model danych
Definicja źródeł danych
Centralna definicja
uprawnień
Inne narzędzia
Warstwa utrzymania danych
System harmonogramów
Zarządzanie cyklem życia
cache
Źródła danych
CRM
ERP
Baza danych
Pliki
tekstowe
Opcjonalne
procesy ETL
Hurtowni
a
Zalety centralizacji modelu danych
 Dostęp do danych z dowolnego narzędzia
 Wszystkie źródła danych opisane
 Mniejsza zależność analityków od zespołu IT
 Pełny obraz źródeł danych na potrzeby regulacji RODO
 Łatwe i krokowe wdrażanie platformy Big Data do analityki
 Nieograniczone możliwości skalowania
Dziękuję za uwagę
Piotr Czarnas
CEO
Querona Ltd.
[email protected]
+48 536 133 114
www.querona.com
Download