Banki danych

advertisement
Banki danych
WYKŁAD 6
dr Łukasz Murowaniecki
[email protected]
T-109
Łódź 2008
Hurtownia Danych


Data Warehouse według koncepcji Billa Inmona (1991) to
Kolekcja danych




niezmienna,
zorientowana tematycznie,
zintegrowana,
w której wartości zmiennej przypisane są do określonego momentu w
czasie.
Łódź 2008
Hurtownia Danych
Łódź 2008
Hurtownia Danych

Hurtownia danych musi mieć swój:



Model logiczny
Model fizyczny
Sposób implementacji
Łódź 2008
Hurtownia Danych – model logiczny

Należy zdefiniować:



Jakie funkcje ma pełnić hurtownia
Tematykę zagadnień
Poziom szczegółowości



danych
czasu
Dane przechowywane w hurtowni dzielą się na dwie kategorie:


Fakty - zmienne analizowane
Wymiary - zmienne klasyfikujące, które pozwalają na grupowanie
danych
Łódź 2008
Hurtownia Danych – model logiczny
Fakty
Wymiary
Dochód
Dostawy
klient, produkt, rynek, czas
produkt, rynek, czas
Łódź 2008
Hurtownia Danych – model fizyczny
Architektura
przechowywania
danych w hurtowni
Łódź 2008
Hurtownia Danych – model fizyczny –
schemat gwiazdy
Tabela faktów
Tabele wymiarów
Tabele wymiarów
Łódź 2008
Hurtownia Danych – model fizyczny –
schemat gwiazdy




Wykorzystuje centralną tabel faktów otoczoną tabelami wymiarów.
Tabela faktów zawiera mierzalne fakty i jest powiązana z tabelami
wymiarów za pomoc kluczy.
Tabele wymiarów przechowują opisy wymiarów.
Normalizacja w celu przyspieszenia wyszukiwania.
Łódź 2008
Hurtownia Danych – model fizyczny
Wielowymiarowa baza danych
Łódź 2008
Hurtownia Danych – model fizyczny
Jednowymiarowa baza danych
nazwa klienta nr klienta nr telefonu adres
COMPEX
1223 6543247 Limanowskiego 12
DARK
234 6789890 Lniana 7
BPM
3456 6335654 Zachodnia 47
Action
3334 6890965 Bandurskiego 56
Łódź 2008
Hurtownia Danych – model fizyczny
Wielowymiarowa baza danych
Wymiar klienta
COMPEX
DARK
BPM
Action
Wymiar nr telefonu
6543247
6789890
6335654
6890965
Łódź 2008
Hurtownia Danych – model fizyczny
Jednowymiarowa baza danych
Produkt
Komputer
Komputer
Komputer
Monitor
Monitor
Monitor
Drukarka
Drukarka
Drukarka
Skaner
Skaner
Skaner
Region
Północ
Południe
Wschód
Północ
Południe
Wschód
Północ
Południe
Wschód
Północ
Południe
Wschód
Łódź 2008
Sprzedaż
20
23
45
60
85
145
23
34
56
12
18
37
Hurtownia Danych – model fizyczny
Wielowymiarowa baza danych
Północ
Komputer
Monitor
Drukarka
Skaner
20
60
23
12
Południe Wschód
23
45
85
145
34
56
18
37
Łódź 2008
Hurtownia Danych –
model fizyczny
Konsolidacja w
bazie
jednowymiarowej
Łódź 2008
Produkt Region
Komputer Północ
Komputer Południe
Komputer Wschód
Komputer Suma
Monitor Północ
Monitor Południe
Monitor Wschód
Monitor Suma
Drukarka Północ
Drukarka Południe
Drukarka Wschód
Drukarka Suma
Skaner Północ
Skaner Południe
Skaner Wschód
Skaner Suma
Suma
Północ
Suma
Południe
Suma
Wschód
Suma całkowita
Sprzedaż
20
23
45
88
60
85
145
290
23
34
56
113
12
18
37
67
115
160
283
558
Hurtownia Danych – model fizyczny
Konsolidacja w bazie wielowymiarowej
Północ
Komputer
Monitor
Drukarka
Skaner
Suma
20
60
23
12
115
Południe Wschód Suma
23
45
88
85
145
290
34
56
113
18
37
67
160
283
558
Dane wejściowe
Łódź 2008
Dane wyjściowe
Hurtownia Danych – model fizyczny
Jednowymiarowa baza danych
Produkt
Komputer
Komputer
Komputer
Komputer
Komputer
Komputer
Komputer
Komputer
Region
Północ
Północ
Południe
Południe
Południe
Wschód
Wschód
Wschód
Sprzedaż
10
10
8
10
5
20
15
10
Łódź 2008
Województwo
Pomorskie
Warmińsko-Mazurskie
Śląskie
Opolskie
Małopolskie
Lubelskie
Podlaskie
Podkarpackie
Hurtownia Danych – model fizyczny
Wielowymiarowa baza danych
Produkt
Region
Województwo
Łódź 2008
Hurtownia Danych – model fizyczny
Wielowymiarowa baza danych
Suma: Region
Północ
Wschód
woj. lubelskie
woj. podkarpackie
Rzeszów
Południe
woj. podlaskie
Sanok
Łódź 2008
Hurtownia Danych – model fizyczny
Wielowymiarowa baza danych –
mieszanie różnych danych w wymiarach
Północ
Południe
Wschód
Rzeszów
Sanok
Produkty
Łódź 2008
Hurtownia Danych – model fizyczny
Wielowymiarowa baza danych –
hierarchia wewnątrz poziomów
Północ
woj. pomorskie
woj. warmińsko-mazurskie
Południe
woj. śląskie
woj. opolskie
Łódź 2008
Hurtownia Danych – model fizyczny
Wielowymiarowa baza danych –
hierarchia wewnątrz poziomów
woj. pomorskie
woj. śląskie
woj. opolskie
woj. podkarpackie
woj. małopolskie
Produkty
Łódź 2008
Hurtownia Danych – model fizyczny
Wielowymiarowa baza danych –
hierarchia wewnątrz poziomów
Gdańsk
Katowice
Opole
Rzeszów
Kraków
Produkty
Łódź 2008
Hurtownia Danych – model fizyczny

Wielowymiarowa baza danych




Przechowuje dane zagregowane na przecięciu wymiarów.
Każdy wymiar może tworzyć hierarchię z określoną liczbą poziomów.
Komórki w takiej tabeli są wyznaczone przez przecięcia wymiarów.
Każda komórka zawiera wektor wyliczonych wartości dla danego
przecięcia
Łódź 2008
Hurtownia Danych – implementacja
Procedury ekstrakcji, czyszczenia,
transformacji i ładowania danych do bazy
(ang. Extract, Transformation, Load – ETL)
Łódź 2008
Hurtownia Danych – implementacja
Łódź 2008
Hurtownia Danych – narzędzia analityczne



proste narzędzia raportowe służące tworzeniu powielanych
raportów wykorzystywanych przez szerokie rzesze użytkowników
biznesowych
narzędzia klasy OLAP (On-line Analytical Processing) służące
tworzeniu dowolnych, różnych raportów (ad-hoc)
zaawansowane narzędzia drążenia i eksploracji danych (ang. Data
Mining) służące do automatycznego znajdowania związków
między danymi
Łódź 2008
Hurtownia Danych - zastosowanie
Business Intelligence
szeroki wachlarz aplikacji i technologii służących do
zbierania, analizowania i udostępniania danych po to, aby
pomóc pracownikom organizacji w podejmowaniu lepszych
decyzji gospodarczych. Do aplikacji BI możemy zaliczyć
systemy wspomagania decyzji (DSS), systemy raportującopytające (Q&R), Online analytical processing (OLAP),
analizy statystyczne, prognozowanie i eksplorację danych
Łódź 2008
Hurtownia Danych - zastosowanie
Business Intelligence
Łódź 2008
Data Mining


Systemy informatyczne – źródło poprawy procesów gospodarczych
Przechowywanie ogromnych ilości danych



wg. Uniwersytetu w Berkeley w 2002 roku „wyprodukowano” około 5
exabajtów (5 milionów terabajtów) nowych danych
30% przyrost roczny
niewielkie procent danych poddawanych jest analizie
Łódź 2008
Data Mining




ukryta wiedza w nagromadzonych danych
potrzeba „wydobycia” tej wiedzy w celu zwiększenia
konkurencyjności
Data Mining – jako narzędzie wydobywania wiedzy z
nagromadzonych danych
Data Mining – dziedzina, która zajmuje się odkrywaniem i analizą
zależności, reguł, wzorców z bazach danych oraz hurtowniach
danych
Łódź 2008
Data Mining – eksploracja danych


Eksploracja danych - proces automatycznego odkrywania
nietrywialnych, dotychczas nieznanych, potencjalnie
użytecznych reguł, zależności, wzorców schematów,
podobieństw lub trendów w dużych repozytoriach danych
(bazach danych, hurtowniach danych, itp.)
Cel eksploracji danych - analiza danych i procesów w celu
lepszego ich rozumienia
Łódź 2008
Data Mining

Typy zapytań




eksploracja danych = zapytania złożone
zapytanie operacyjne do bazy danych:
Ile butelek wina sprzedano w IV kwartale 2006 roku w sklepie Geant
w Łodzi?
zapytanie do hurtowni danych:
Ile sprzedano butelek wina w sieci Geant na terenie kraju z podziałem
na województwa, gatunki win oraz kwartały, w ciągu ostatnich 6 lat?
zapytania eksploracyjne:
Jakie inne jeszcze produkty, najczęściej, kupują klienci, którzy kupują
wino?
Czym różnią się koszyki klientów kupujących wino i piwo?
W jaki sposób można scharakteryzować klientów kupujących wino?
W jaki sposób można pogrupować klientów kupujących wino?
Łódź 2008
Data Mining

Odkrywanie wiedzy w bazach danych



KDD (Knowledge Discovery in Databases)
SIGKDD (Special Interest Group On Knowledge Discovery and Data
Mining)
Eksploracja danych stanowi jeden z etapów procesu odkrywania
wiedzy
Łódź 2008
Data Mining

Etapy procesu odkrywania wiedzy (ang. KDD process):











Zapoznanie się z wiedzą dziedzinową aplikacji – aktualna wiedza i
cele aplikacji
Integracja danych
Selekcja danych
Czyszczenie danych: (około 60% czasu)
Konsolidacja i transformacja danych
Wybór metody (metod) eksploracji danych
Wybór algorytmów eksploracji danych
Eksploracja danych
Interpretacja, analiza i ocena wyników wizualizacja,
Transformacja, usuwanie redundantnych wzorców, etc.
Wykorzystanie pozyskanej wiedzy
Łódź 2008
Data Mining

Mieszanka wielu dyscyplin:







Systemy baz danych, hurtownie danych, OLAP
Statystyka
Uczenie maszynowe i odkrywanie wiedzy
Techniki wizualizacji danych
Teoria informacji
Wyszukiwanie informacji
Inne dyscypliny (sieci neuronowe, modelowanie matematyczne,
rozpoznawanie obrazów, technologie internetowe, systemy
reputacyjne, etc.)
Łódź 2008
Data Mining

Co można eksplorować:




Relacyjne bazy danych
Hurtownie danych
Repozytoria danych
Zaawansowane systemy informatyczne





Obiektowe i obiektowo-relacyjne bazy danych
Przestrzenne bazy danych
Przebiegi czasowe i temporalne bazy danych
Tekstowe i multimedialne bazy danych
WWW
Łódź 2008
Data Mining

Metody eksploracji danych:









klasyfikacja/regresja
grupowanie
odkrywanie sekwencji
odkrywanie charakterystyk
analiza przebiegów czasowych
odkrywanie asocjacji
wykrywanie zmian i odchyleń
eksploracja WWW
eksploracja tekstów
Łódź 2008
Download