Archiwizowanie danych i odtwarzanie bazy danych po awarii

advertisement
Hurtownie Danych i Business
Intelligence: przegląd
technologii
Robert Wrembel
Politechnika Poznańska
Instytut Informatyki
[email protected]
www.cs.put.poznan.pl/rwrembel
Tematyka




Architektury systemu hurtowni danych
Business Intelligence
Przetwarzanie OLTP vs. OLAP
Wstęp do technologii BigData
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
2
Cele stosowania HD
1. Zapewnienie jednolitego dostępu do wszystkich
danych gromadzonych w ramach przedsiębiorstwa
2. Dostarczenie technologii (platformy) przetwarzania
analitycznego - technologii OLAP/BI
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
3
Business Intelligence
 OLAP - On-Line Analytical Processing
 klasyczna analiza danych (dane historyczne,
predykcja - what if analysis)
• analiza trendów sprzedaży
• analiza nakładów reklamowych i zysków
• analiza ruchu telefonicznego
• credit scoring
• churn analysis
• customer profiling
 najczęściej SQL
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
4
Business Intelligence
 BI = OLAP+
 eksploracja danych
• reguły asocjacyjne, profile zachowań
 analiza tekstów (Facebook, Tweeter, ...)
• hot topics, bezpieczeństwo narodowe
 analiza sieci powiązań
• liderzy, zależności
 analiza logów przeglądarek
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
5
OLTP a OLAP
użytkownik
funkcja
dane
aplikacje
dostęp
transakcja
l. przetwarzanych rek.
l. użytkowników
DB size
metric
OLTP
OLAP
"zwykły"
bieżące operacje, kluczowe
dla działania firmy
bieżące, elementarne
analityk
wspomaganie decyzji
powtarzalność działań
odczyt/zapis
krótka
kilka, kilkadziesiąt
kilkudzies., tysiące, setki tys.
kilka - setki TB
przepustowość (l. transakcji
w jednostce czasu)
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
elementarne, zagregowane,
historyczne
ad hoc
odczyt
długa (godziny)
miliony lub więcej
kilku, kilkunastu
> setki TB
czas odpowiedzi
6
Aplikacje BI
 Zapytania ad-hoc (okolo 10% aplikacji firmowych)
 prosty interfejs prezentacji wyników
 obliczenia ad-hoc
 drill-down, drill-accross
 Raporty firmowe (około 90% aplikacji firmowych)
 zaawansowany układ graficzny
 biblioteka predefiniowanych raportów
 subskrypcja raportów, harmonogram odświeżania
raportów i ich dystrybucji
 uprawnienia użytkowników do raportów
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
7
Aplikacje BI
 Dedykowane aplikacje analityczne
 analiza przychodów i promocji
 przewidywanie trendów, symulacje
 zawierają specjalizowane algorytmy dla dziedziny
zastosowań
 Pulpity (dashboards), karty wynikowe
(scorecards), kokpity menadżerskie (management
cockpits)
 interaktywny interfejs
 prezentacja zbiorcza najważniejszych danych
 miary jakości przedsięwzięcia (KPI - key
performance indicators)
 alerty
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
8
Aplikacje BI
 Eksploracja danych
 złożone obliczeniowo algorytmy
 dedykowane algorytmy dla dziedziny zastosowań
 wizualizacja wyników
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
9
Użytkownicy
 Aktywni: 10% wszystkich użytkowników systemu
BI
 Równocześnie pracujący: 1% użytkowników
systemu BI
storyborads
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
10
Wielkość systemu
 Mały system HD





HD: kilkaset MB
kilkadziesiąt tabel
kilka mln rekordów w tabeli faktów
300 użytkowników
kilkadziesiąt raportów, kilka kostek
 Duży system HD





HD: kilkaset TB
kilkaset tabel
kilkaset mln rekordów w tabeli faktów
kilka tysięcy użytkowników
ponad 1000 raportów, kilkaset kostek
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
11
Business Intelligence
 Dwie kategorie danych
 wewnątrzfirmowe
 zewnętrzne (Internet)
 Dwie różne architektury/technologie analizy
danych
 klasyczne
 BigData
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
12
Architektura 1 (podstawowa)
ŹRÓDŁA DANYCH
WARSTWA POŚREDNIA
HURTOWNIA DANYCH
WARSTWA ANALITYCZNA
OPROGRAMOWANIE ETL
Ekstrakcja
Transformacja
Czyszczenie
Agregacja
HURTOWNIA
DANYCH
model wielowymiarowy
dane elementarne i
zagregowane
 Zalety
 dane zintegrowane (spójna struktura i wartości)
 szybkość dostępu do danych
 niezależność od awarii źródeł
 Wady
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
 redundancja danych
 odświeżanie danych
13
Architektura 2
ŹRÓDŁA DANYCH
WARSTWA POŚREDNIA
HURTOWNIA DANYCH
WARSTWA ANALITYCZNA
OPROGRAMOWANIE ETL
OPERACYJNA
SKŁADNICA DANYCH
Ekstrakcja
Transformacja
Czyszczenie
Agregacja
dane znormalizowane
(3NF)
dane elementarne
możliwość
przeszukiwania/analizow
ania
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
HURTOWNIA
DANYCH
model wielowymiarowy
dane elementarne i
zagregowane
14
Architektura 3
ŹRÓDŁA DANYCH
WARSTWA POŚREDNIA
HURTOWNIA DANYCH
WARSTWA ANALITYCZNA
OPROGRAMOWANIE ETL
Hurtownie
tematyczne
OPERACYJNA
SKŁADNICA DANYCH
Ekstrakcja
Transformacja
Czyszczenie
Agregacja
dane znormalizowane
(3NF)
dane elementarne
możliwość
przeszukiwania/analizow
ania
HURTOWNIA
DANYCH
model wielowymiarowy
dane elementarne i
zagregowane
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
15
HD Allegro
C. Maar, R. Kudliński: Allegro on the way from XLS based controlling to a modern BI
environment. National conference on Data Warehousing and Business Intelligence,
Warsaw, 2008
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
16
Architektura ELT
WARSTWA ANALITYCZNA
ŹRÓDŁA DANYCH
E+L
ODS
HD
T+L
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
17
Architektura ELT
 Efektywność
 dane w bazie danych  możliwość przetwarzania za
pomocą dedykowanych języków (PL/SQL, SQL PL,
Transact SQL)
 jeden serwer dla ODS i HD  większe obciążenie
 Data provenance
 Drill through
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
18
Experiment I
 P. Wróblewski, M. Wojdowski: Implementacja i
porównanie wydajności architektur ETL i ELT.
Master thesis, Poznan University of Technology,
2014
 Data sources






Internet auctions
Oracle11g (Object-Relational model)
MySQL
PostgreSQL
XML
a collection/table composed of 11 attributes
 Data warehouse: Oracle11g
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
19
Experiment I
 DW schema
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
20
Experiment I
 Transformations
 dimensions
 fact table
 Tools and architectures
 ETL  Oracle Data Integrator (ODI)
• ETL in a staging area on a separate server
 ELT  ODI
• TL in a staging area on the same server as a DW
 ELT  ODI + materialized views (MVs)
• TL in a staging area on the same server as a DW
 ELT  stored packages (SPs)
• TL in a staging area on the same server as a DW
 ELT  SPs + MVs
• TL in a staging area on the same server as a DW
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
21
elapsed time ETL + (MV creation) [sec]
Experiment I
# of rows
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
22
Experiment II
 K. Prałat, T. Skrzypczak, G. Stolarek: Efektywność
ETL i ELT. Postrgaduate studies, term project,
Poznan University of Technology, 2014
 Data source
 flight and weather data in the US, from 1986 until
2008
 6 tables in Oracle11g
 Data warehouse: Oracle11g
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
23
Experiment II
 Data source schema
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
24
Experiment II
 DW schema
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
25
Experiment II
 Architecture
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
26
Experiment II
 ETL  Informatica
 ELT  Informatica (load), DB views (transform)
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
27
Systemy komercyjne
 Tradycyjne
 Oracle11g, Hypersion Essbase - Oracle
Corporation
 DB2 UDB - IBM
 Sybase IQ - Sybase
 MS SQL Server - Microsoft
 SAP Business Warehouse - SAP
 Teradata - Teradata
 Main memory (in-memory)
 Netezza - IBM
 Exadata - Oracle
 SAP Hana - SAP
 Teradata DW Appliance - Teradata
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
28
Gartner Report
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
29
Gartner Report
 http://www.gartner.com/technology/reprints.do?id
=1-1DZLPEP&ct=130207&st=sb
 Assessment criteria
 Integration




 Analysis
BI infrastructure
Metadata management
Development tools
Collaboration
 Information Delivery





Reporting
Dashboards
Ad hoc query
Microsoft Office integration
Mobile BI
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
 Online analytical processing
(OLAP) - multidimensional
analysis, what-if
 Interactive visualization
 Predictive modeling and data
mining
 Scorecards- aligining KPIs with a
strategic objective
 Prescriptive modeling, simulation
and optimization
30
OLAP/BI - technologie
 Modele
 ROLAP
 MOLAP
 HOLAP
 Składowanie danych





indeksy
perspektywy zmaterializowane
partycjonowanie
column storage / row storage
kompresja danych i indeksów
 Przetwarzanie zapytań
 top-n
 gwiaździste
 Przetwarzanie równoległe i rozproszone
 Jakość danych i ETL/ELT
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
31
OLAP/BI
 Trends
 Big Data
 mobile BI
 in-memory BI
 real-time /right-time /active BI
 cloud computing
R.Wrembel - Politechnika Poznańska, Instytut Informatyki
32
Download