Hurtownie Danych i Business Intelligence: przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki [email protected] www.cs.put.poznan.pl/rwrembel Tematyka Architektury systemu hurtowni danych Business Intelligence Przetwarzanie OLTP vs. OLAP Wstęp do technologii BigData R.Wrembel - Politechnika Poznańska, Instytut Informatyki 2 Cele stosowania HD 1. Zapewnienie jednolitego dostępu do wszystkich danych gromadzonych w ramach przedsiębiorstwa 2. Dostarczenie technologii (platformy) przetwarzania analitycznego - technologii OLAP/BI R.Wrembel - Politechnika Poznańska, Instytut Informatyki 3 Business Intelligence OLAP - On-Line Analytical Processing klasyczna analiza danych (dane historyczne, predykcja - what if analysis) • analiza trendów sprzedaży • analiza nakładów reklamowych i zysków • analiza ruchu telefonicznego • credit scoring • churn analysis • customer profiling najczęściej SQL R.Wrembel - Politechnika Poznańska, Instytut Informatyki 4 Business Intelligence BI = OLAP+ eksploracja danych • reguły asocjacyjne, profile zachowań analiza tekstów (Facebook, Tweeter, ...) • hot topics, bezpieczeństwo narodowe analiza sieci powiązań • liderzy, zależności analiza logów przeglądarek R.Wrembel - Politechnika Poznańska, Instytut Informatyki 5 OLTP a OLAP użytkownik funkcja dane aplikacje dostęp transakcja l. przetwarzanych rek. l. użytkowników DB size metric OLTP OLAP "zwykły" bieżące operacje, kluczowe dla działania firmy bieżące, elementarne analityk wspomaganie decyzji powtarzalność działań odczyt/zapis krótka kilka, kilkadziesiąt kilkudzies., tysiące, setki tys. kilka - setki TB przepustowość (l. transakcji w jednostce czasu) R.Wrembel - Politechnika Poznańska, Instytut Informatyki elementarne, zagregowane, historyczne ad hoc odczyt długa (godziny) miliony lub więcej kilku, kilkunastu > setki TB czas odpowiedzi 6 Aplikacje BI Zapytania ad-hoc (okolo 10% aplikacji firmowych) prosty interfejs prezentacji wyników obliczenia ad-hoc drill-down, drill-accross Raporty firmowe (około 90% aplikacji firmowych) zaawansowany układ graficzny biblioteka predefiniowanych raportów subskrypcja raportów, harmonogram odświeżania raportów i ich dystrybucji uprawnienia użytkowników do raportów R.Wrembel - Politechnika Poznańska, Instytut Informatyki 7 Aplikacje BI Dedykowane aplikacje analityczne analiza przychodów i promocji przewidywanie trendów, symulacje zawierają specjalizowane algorytmy dla dziedziny zastosowań Pulpity (dashboards), karty wynikowe (scorecards), kokpity menadżerskie (management cockpits) interaktywny interfejs prezentacja zbiorcza najważniejszych danych miary jakości przedsięwzięcia (KPI - key performance indicators) alerty R.Wrembel - Politechnika Poznańska, Instytut Informatyki 8 Aplikacje BI Eksploracja danych złożone obliczeniowo algorytmy dedykowane algorytmy dla dziedziny zastosowań wizualizacja wyników R.Wrembel - Politechnika Poznańska, Instytut Informatyki 9 Użytkownicy Aktywni: 10% wszystkich użytkowników systemu BI Równocześnie pracujący: 1% użytkowników systemu BI storyborads R.Wrembel - Politechnika Poznańska, Instytut Informatyki 10 Wielkość systemu Mały system HD HD: kilkaset MB kilkadziesiąt tabel kilka mln rekordów w tabeli faktów 300 użytkowników kilkadziesiąt raportów, kilka kostek Duży system HD HD: kilkaset TB kilkaset tabel kilkaset mln rekordów w tabeli faktów kilka tysięcy użytkowników ponad 1000 raportów, kilkaset kostek R.Wrembel - Politechnika Poznańska, Instytut Informatyki 11 Business Intelligence Dwie kategorie danych wewnątrzfirmowe zewnętrzne (Internet) Dwie różne architektury/technologie analizy danych klasyczne BigData R.Wrembel - Politechnika Poznańska, Instytut Informatyki 12 Architektura 1 (podstawowa) ŹRÓDŁA DANYCH WARSTWA POŚREDNIA HURTOWNIA DANYCH WARSTWA ANALITYCZNA OPROGRAMOWANIE ETL Ekstrakcja Transformacja Czyszczenie Agregacja HURTOWNIA DANYCH model wielowymiarowy dane elementarne i zagregowane Zalety dane zintegrowane (spójna struktura i wartości) szybkość dostępu do danych niezależność od awarii źródeł Wady R.Wrembel - Politechnika Poznańska, Instytut Informatyki redundancja danych odświeżanie danych 13 Architektura 2 ŹRÓDŁA DANYCH WARSTWA POŚREDNIA HURTOWNIA DANYCH WARSTWA ANALITYCZNA OPROGRAMOWANIE ETL OPERACYJNA SKŁADNICA DANYCH Ekstrakcja Transformacja Czyszczenie Agregacja dane znormalizowane (3NF) dane elementarne możliwość przeszukiwania/analizow ania R.Wrembel - Politechnika Poznańska, Instytut Informatyki HURTOWNIA DANYCH model wielowymiarowy dane elementarne i zagregowane 14 Architektura 3 ŹRÓDŁA DANYCH WARSTWA POŚREDNIA HURTOWNIA DANYCH WARSTWA ANALITYCZNA OPROGRAMOWANIE ETL Hurtownie tematyczne OPERACYJNA SKŁADNICA DANYCH Ekstrakcja Transformacja Czyszczenie Agregacja dane znormalizowane (3NF) dane elementarne możliwość przeszukiwania/analizow ania HURTOWNIA DANYCH model wielowymiarowy dane elementarne i zagregowane R.Wrembel - Politechnika Poznańska, Instytut Informatyki 15 HD Allegro C. Maar, R. Kudliński: Allegro on the way from XLS based controlling to a modern BI environment. National conference on Data Warehousing and Business Intelligence, Warsaw, 2008 R.Wrembel - Politechnika Poznańska, Instytut Informatyki 16 Architektura ELT WARSTWA ANALITYCZNA ŹRÓDŁA DANYCH E+L ODS HD T+L R.Wrembel - Politechnika Poznańska, Instytut Informatyki 17 Architektura ELT Efektywność dane w bazie danych możliwość przetwarzania za pomocą dedykowanych języków (PL/SQL, SQL PL, Transact SQL) jeden serwer dla ODS i HD większe obciążenie Data provenance Drill through R.Wrembel - Politechnika Poznańska, Instytut Informatyki 18 Experiment I P. Wróblewski, M. Wojdowski: Implementacja i porównanie wydajności architektur ETL i ELT. Master thesis, Poznan University of Technology, 2014 Data sources Internet auctions Oracle11g (Object-Relational model) MySQL PostgreSQL XML a collection/table composed of 11 attributes Data warehouse: Oracle11g R.Wrembel - Politechnika Poznańska, Instytut Informatyki 19 Experiment I DW schema R.Wrembel - Politechnika Poznańska, Instytut Informatyki 20 Experiment I Transformations dimensions fact table Tools and architectures ETL Oracle Data Integrator (ODI) • ETL in a staging area on a separate server ELT ODI • TL in a staging area on the same server as a DW ELT ODI + materialized views (MVs) • TL in a staging area on the same server as a DW ELT stored packages (SPs) • TL in a staging area on the same server as a DW ELT SPs + MVs • TL in a staging area on the same server as a DW R.Wrembel - Politechnika Poznańska, Instytut Informatyki 21 elapsed time ETL + (MV creation) [sec] Experiment I # of rows R.Wrembel - Politechnika Poznańska, Instytut Informatyki 22 Experiment II K. Prałat, T. Skrzypczak, G. Stolarek: Efektywność ETL i ELT. Postrgaduate studies, term project, Poznan University of Technology, 2014 Data source flight and weather data in the US, from 1986 until 2008 6 tables in Oracle11g Data warehouse: Oracle11g R.Wrembel - Politechnika Poznańska, Instytut Informatyki 23 Experiment II Data source schema R.Wrembel - Politechnika Poznańska, Instytut Informatyki 24 Experiment II DW schema R.Wrembel - Politechnika Poznańska, Instytut Informatyki 25 Experiment II Architecture R.Wrembel - Politechnika Poznańska, Instytut Informatyki 26 Experiment II ETL Informatica ELT Informatica (load), DB views (transform) R.Wrembel - Politechnika Poznańska, Instytut Informatyki 27 Systemy komercyjne Tradycyjne Oracle11g, Hypersion Essbase - Oracle Corporation DB2 UDB - IBM Sybase IQ - Sybase MS SQL Server - Microsoft SAP Business Warehouse - SAP Teradata - Teradata Main memory (in-memory) Netezza - IBM Exadata - Oracle SAP Hana - SAP Teradata DW Appliance - Teradata R.Wrembel - Politechnika Poznańska, Instytut Informatyki 28 Gartner Report R.Wrembel - Politechnika Poznańska, Instytut Informatyki 29 Gartner Report http://www.gartner.com/technology/reprints.do?id =1-1DZLPEP&ct=130207&st=sb Assessment criteria Integration Analysis BI infrastructure Metadata management Development tools Collaboration Information Delivery Reporting Dashboards Ad hoc query Microsoft Office integration Mobile BI R.Wrembel - Politechnika Poznańska, Instytut Informatyki Online analytical processing (OLAP) - multidimensional analysis, what-if Interactive visualization Predictive modeling and data mining Scorecards- aligining KPIs with a strategic objective Prescriptive modeling, simulation and optimization 30 OLAP/BI - technologie Modele ROLAP MOLAP HOLAP Składowanie danych indeksy perspektywy zmaterializowane partycjonowanie column storage / row storage kompresja danych i indeksów Przetwarzanie zapytań top-n gwiaździste Przetwarzanie równoległe i rozproszone Jakość danych i ETL/ELT R.Wrembel - Politechnika Poznańska, Instytut Informatyki 31 OLAP/BI Trends Big Data mobile BI in-memory BI real-time /right-time /active BI cloud computing R.Wrembel - Politechnika Poznańska, Instytut Informatyki 32