Banki danych WYKŁAD 6 dr Łukasz Murowaniecki [email protected] T-109 Łódź 2008 Hurtownia Danych Data Warehouse według koncepcji Billa Inmona (1991) to Kolekcja danych niezmienna, zorientowana tematycznie, zintegrowana, w której wartości zmiennej przypisane są do określonego momentu w czasie. Łódź 2008 Hurtownia Danych Łódź 2008 Hurtownia Danych Hurtownia danych musi mieć swój: Model logiczny Model fizyczny Sposób implementacji Łódź 2008 Hurtownia Danych – model logiczny Należy zdefiniować: Jakie funkcje ma pełnić hurtownia Tematykę zagadnień Poziom szczegółowości danych czasu Dane przechowywane w hurtowni dzielą się na dwie kategorie: Fakty - zmienne analizowane Wymiary - zmienne klasyfikujące, które pozwalają na grupowanie danych Łódź 2008 Hurtownia Danych – model logiczny Fakty Wymiary Dochód Dostawy klient, produkt, rynek, czas produkt, rynek, czas Łódź 2008 Hurtownia Danych – model fizyczny Architektura przechowywania danych w hurtowni Łódź 2008 Hurtownia Danych – model fizyczny – schemat gwiazdy Tabela faktów Tabele wymiarów Tabele wymiarów Łódź 2008 Hurtownia Danych – model fizyczny – schemat gwiazdy Wykorzystuje centralną tabel faktów otoczoną tabelami wymiarów. Tabela faktów zawiera mierzalne fakty i jest powiązana z tabelami wymiarów za pomoc kluczy. Tabele wymiarów przechowują opisy wymiarów. Normalizacja w celu przyspieszenia wyszukiwania. Łódź 2008 Hurtownia Danych – model fizyczny Wielowymiarowa baza danych Łódź 2008 Hurtownia Danych – model fizyczny Jednowymiarowa baza danych nazwa klienta nr klienta nr telefonu adres COMPEX 1223 6543247 Limanowskiego 12 DARK 234 6789890 Lniana 7 BPM 3456 6335654 Zachodnia 47 Action 3334 6890965 Bandurskiego 56 Łódź 2008 Hurtownia Danych – model fizyczny Wielowymiarowa baza danych Wymiar klienta COMPEX DARK BPM Action Wymiar nr telefonu 6543247 6789890 6335654 6890965 Łódź 2008 Hurtownia Danych – model fizyczny Jednowymiarowa baza danych Produkt Komputer Komputer Komputer Monitor Monitor Monitor Drukarka Drukarka Drukarka Skaner Skaner Skaner Region Północ Południe Wschód Północ Południe Wschód Północ Południe Wschód Północ Południe Wschód Łódź 2008 Sprzedaż 20 23 45 60 85 145 23 34 56 12 18 37 Hurtownia Danych – model fizyczny Wielowymiarowa baza danych Północ Komputer Monitor Drukarka Skaner 20 60 23 12 Południe Wschód 23 45 85 145 34 56 18 37 Łódź 2008 Hurtownia Danych – model fizyczny Konsolidacja w bazie jednowymiarowej Łódź 2008 Produkt Region Komputer Północ Komputer Południe Komputer Wschód Komputer Suma Monitor Północ Monitor Południe Monitor Wschód Monitor Suma Drukarka Północ Drukarka Południe Drukarka Wschód Drukarka Suma Skaner Północ Skaner Południe Skaner Wschód Skaner Suma Suma Północ Suma Południe Suma Wschód Suma całkowita Sprzedaż 20 23 45 88 60 85 145 290 23 34 56 113 12 18 37 67 115 160 283 558 Hurtownia Danych – model fizyczny Konsolidacja w bazie wielowymiarowej Północ Komputer Monitor Drukarka Skaner Suma 20 60 23 12 115 Południe Wschód Suma 23 45 88 85 145 290 34 56 113 18 37 67 160 283 558 Dane wejściowe Łódź 2008 Dane wyjściowe Hurtownia Danych – model fizyczny Jednowymiarowa baza danych Produkt Komputer Komputer Komputer Komputer Komputer Komputer Komputer Komputer Region Północ Północ Południe Południe Południe Wschód Wschód Wschód Sprzedaż 10 10 8 10 5 20 15 10 Łódź 2008 Województwo Pomorskie Warmińsko-Mazurskie Śląskie Opolskie Małopolskie Lubelskie Podlaskie Podkarpackie Hurtownia Danych – model fizyczny Wielowymiarowa baza danych Produkt Region Województwo Łódź 2008 Hurtownia Danych – model fizyczny Wielowymiarowa baza danych Suma: Region Północ Wschód woj. lubelskie woj. podkarpackie Rzeszów Południe woj. podlaskie Sanok Łódź 2008 Hurtownia Danych – model fizyczny Wielowymiarowa baza danych – mieszanie różnych danych w wymiarach Północ Południe Wschód Rzeszów Sanok Produkty Łódź 2008 Hurtownia Danych – model fizyczny Wielowymiarowa baza danych – hierarchia wewnątrz poziomów Północ woj. pomorskie woj. warmińsko-mazurskie Południe woj. śląskie woj. opolskie Łódź 2008 Hurtownia Danych – model fizyczny Wielowymiarowa baza danych – hierarchia wewnątrz poziomów woj. pomorskie woj. śląskie woj. opolskie woj. podkarpackie woj. małopolskie Produkty Łódź 2008 Hurtownia Danych – model fizyczny Wielowymiarowa baza danych – hierarchia wewnątrz poziomów Gdańsk Katowice Opole Rzeszów Kraków Produkty Łódź 2008 Hurtownia Danych – model fizyczny Wielowymiarowa baza danych Przechowuje dane zagregowane na przecięciu wymiarów. Każdy wymiar może tworzyć hierarchię z określoną liczbą poziomów. Komórki w takiej tabeli są wyznaczone przez przecięcia wymiarów. Każda komórka zawiera wektor wyliczonych wartości dla danego przecięcia Łódź 2008 Hurtownia Danych – implementacja Procedury ekstrakcji, czyszczenia, transformacji i ładowania danych do bazy (ang. Extract, Transformation, Load – ETL) Łódź 2008 Hurtownia Danych – implementacja Łódź 2008 Hurtownia Danych – narzędzia analityczne proste narzędzia raportowe służące tworzeniu powielanych raportów wykorzystywanych przez szerokie rzesze użytkowników biznesowych narzędzia klasy OLAP (On-line Analytical Processing) służące tworzeniu dowolnych, różnych raportów (ad-hoc) zaawansowane narzędzia drążenia i eksploracji danych (ang. Data Mining) służące do automatycznego znajdowania związków między danymi Łódź 2008 Hurtownia Danych - zastosowanie Business Intelligence szeroki wachlarz aplikacji i technologii służących do zbierania, analizowania i udostępniania danych po to, aby pomóc pracownikom organizacji w podejmowaniu lepszych decyzji gospodarczych. Do aplikacji BI możemy zaliczyć systemy wspomagania decyzji (DSS), systemy raportującopytające (Q&R), Online analytical processing (OLAP), analizy statystyczne, prognozowanie i eksplorację danych Łódź 2008 Hurtownia Danych - zastosowanie Business Intelligence Łódź 2008 Data Mining Systemy informatyczne – źródło poprawy procesów gospodarczych Przechowywanie ogromnych ilości danych wg. Uniwersytetu w Berkeley w 2002 roku „wyprodukowano” około 5 exabajtów (5 milionów terabajtów) nowych danych 30% przyrost roczny niewielkie procent danych poddawanych jest analizie Łódź 2008 Data Mining ukryta wiedza w nagromadzonych danych potrzeba „wydobycia” tej wiedzy w celu zwiększenia konkurencyjności Data Mining – jako narzędzie wydobywania wiedzy z nagromadzonych danych Data Mining – dziedzina, która zajmuje się odkrywaniem i analizą zależności, reguł, wzorców z bazach danych oraz hurtowniach danych Łódź 2008 Data Mining – eksploracja danych Eksploracja danych - proces automatycznego odkrywania nietrywialnych, dotychczas nieznanych, potencjalnie użytecznych reguł, zależności, wzorców schematów, podobieństw lub trendów w dużych repozytoriach danych (bazach danych, hurtowniach danych, itp.) Cel eksploracji danych - analiza danych i procesów w celu lepszego ich rozumienia Łódź 2008 Data Mining Typy zapytań eksploracja danych = zapytania złożone zapytanie operacyjne do bazy danych: Ile butelek wina sprzedano w IV kwartale 2006 roku w sklepie Geant w Łodzi? zapytanie do hurtowni danych: Ile sprzedano butelek wina w sieci Geant na terenie kraju z podziałem na województwa, gatunki win oraz kwartały, w ciągu ostatnich 6 lat? zapytania eksploracyjne: Jakie inne jeszcze produkty, najczęściej, kupują klienci, którzy kupują wino? Czym różnią się koszyki klientów kupujących wino i piwo? W jaki sposób można scharakteryzować klientów kupujących wino? W jaki sposób można pogrupować klientów kupujących wino? Łódź 2008 Data Mining Odkrywanie wiedzy w bazach danych KDD (Knowledge Discovery in Databases) SIGKDD (Special Interest Group On Knowledge Discovery and Data Mining) Eksploracja danych stanowi jeden z etapów procesu odkrywania wiedzy Łódź 2008 Data Mining Etapy procesu odkrywania wiedzy (ang. KDD process): Zapoznanie się z wiedzą dziedzinową aplikacji – aktualna wiedza i cele aplikacji Integracja danych Selekcja danych Czyszczenie danych: (około 60% czasu) Konsolidacja i transformacja danych Wybór metody (metod) eksploracji danych Wybór algorytmów eksploracji danych Eksploracja danych Interpretacja, analiza i ocena wyników wizualizacja, Transformacja, usuwanie redundantnych wzorców, etc. Wykorzystanie pozyskanej wiedzy Łódź 2008 Data Mining Mieszanka wielu dyscyplin: Systemy baz danych, hurtownie danych, OLAP Statystyka Uczenie maszynowe i odkrywanie wiedzy Techniki wizualizacji danych Teoria informacji Wyszukiwanie informacji Inne dyscypliny (sieci neuronowe, modelowanie matematyczne, rozpoznawanie obrazów, technologie internetowe, systemy reputacyjne, etc.) Łódź 2008 Data Mining Co można eksplorować: Relacyjne bazy danych Hurtownie danych Repozytoria danych Zaawansowane systemy informatyczne Obiektowe i obiektowo-relacyjne bazy danych Przestrzenne bazy danych Przebiegi czasowe i temporalne bazy danych Tekstowe i multimedialne bazy danych WWW Łódź 2008 Data Mining Metody eksploracji danych: klasyfikacja/regresja grupowanie odkrywanie sekwencji odkrywanie charakterystyk analiza przebiegów czasowych odkrywanie asocjacji wykrywanie zmian i odchyleń eksploracja WWW eksploracja tekstów Łódź 2008