gstolecki - Projekty EFS WWSI

advertisement
SQL Server 2012 Codename Denali
Data Quality Services
Grzegorz Stolecki
Specjalne podziękowania dla Marcina Szeligi – współautora slajdów
Agenda
• Problem jakości danych
• Usługa Data Quality
Services
– Baza wiedzy
– Oczyszczanie danych
– Parowanie i deduplikacja
danych
• Integracja z usługą SSIS
O mnie…
Grzegorz Stolecki
[email protected]
• Konsultant i trener Business
Intelligence od 1998 roku
• SQL Server MVP
To jakość jest najważniejsza
• Jakość danych jest miarą ich przydatności
– Zależy od użycia danych
• Ilość cyfrowych danych podwaja się co niecałe
dwa lata
– W tym roku utworzonych
zostało już 1,8 zetabajta danych
Typowe problemy z danymi
Cecha
Problem
Przykład
Integralność
Te same dane mają różne
znaczenia, a te same znaczenia
reprezentowane są przez różne
dane
Płeć oznaczana za pomocą symboli K/M w
jednym systemie i symboli M/F w innym
Kompletność
Część danych nie istnieje lub
jest nieznana
Nazwiska 20% klientów są nieznane,
50% kodów pocztowych to 99999
Dokładność
Dane są niedokładne,
zaokrąglane lub pogrupowane
Odległość z Katowic do Warszawy jest
większa niż z Warszawy do Katowic
Poprawność
Dane nie są zgodne z regułami
biznesowymi
Najmłodszy klient ma 0 lat
Mężczyzna jest matką trojga dzieci
Unikatowość
Te same dane przechowywane
są wielokrotnie
W bazie klientów figurują Barack Obama i
Barak Obama – czy to ta sama osoba?
Wiarygodność
Dane nie odzwierciedlają
rzeczywistości
Firma wciąż ma status aktywnego dostawcy,
chociaż zbankrutowała 5 lat temu
Data Quality Services
Monitorowanie
procesu poprawy
jakości danych
Ocena jakości
danych
Poprawa błędnych
i uzupełnienie
niekompletnych
danych
Monitorowanie
Oczyszczanie
Profilowanie
Deduplikacja
Wyszukanie i
usunięcie
powtarzających
się danych
Cechy charakterystyczne DQS
Oparte na wiedzy
Uwzględniające
semantykę
Uczące się
Otwarte i
rozszerzalne
Łatwe w użyciu
• Korzystające z bazy wiedzy (DQKB)
• Domeny reprezentują znaczenie danych
• Dodatkowe informacje gromadzone są podczas
oczyszczania danych
• Korzystające z baz wiedzy użytkownika i firm
trzecich
• Upraszczające codzienną pracę z danymi
Funkcje Data Quality Services
Zarządzanie
wiedzą i danymi
referencyjnymi
Oczyszczanie i
deduplikacja
danych
Administracja
• Tworzenie i zarządzanie bazami wiedzy
• Odkrywanie informacji w przykładowych danych
• Praca z bazami wiedzy firm trzecich
• Poprawa, deduplikacja i standaryzacja danych
• Monitorowanie i zarządzanie procesem poprawy
jakości danych
Parowanie i deduplikacja
1. Określenie reguł porównywania
- Identyfikacja duplikatów
2. Trening
- Wykrycie duplikatów
3. Wybór poprawnych rekordów
- Usunięcie duplikatów
•
•
•
•
Microsoft Corporation, Bill
gates,
1 Microsoft way, Redmond, WA,
98052
Microsoft, Gates, One Microsoft
way, Redmond WA
Microsoft Corp, William Henry
Gates, 1 Microsfot way,
Redmond, WA
Microsfot, W. H. Gates,
Redmond, WA
Klient DQS – Wyniki parowania
Integracja z usługą SSIS
SSIS Data Flow
Pakiet SSIS
Reguły
Dane
referencyjne
Źródło
danych
Zadanie Data Przeznaczenie
Correction
danych
DQS - Podsumowanie
Bazujące na
wiedzy
Proste w użyciu
Otwarte
Bogate bazy wiedzy
Automatyczne
wzbogacane podczas
oczyszczania danych
Raz utworzona (centralna)
baza wiedzy może być
używana w wielu
projektach DQS
Zaprojektowane dla
użytkowników
biznesowych
Intuicyjne
Natychmiast gotowe do
użycia
Korzystające z baz wiedzy
znajdujących się w
Chmurze
Bazy wiedzy tworzone
przez użytkowników
Zintegrowane z usługą
SSIS
Dziękuję za uwagę !
Q&A
Download