SQL Server 2012 Codename Denali Data Quality Services Grzegorz Stolecki Specjalne podziękowania dla Marcina Szeligi – współautora slajdów Agenda • Problem jakości danych • Usługa Data Quality Services – Baza wiedzy – Oczyszczanie danych – Parowanie i deduplikacja danych • Integracja z usługą SSIS O mnie… Grzegorz Stolecki [email protected] • Konsultant i trener Business Intelligence od 1998 roku • SQL Server MVP To jakość jest najważniejsza • Jakość danych jest miarą ich przydatności – Zależy od użycia danych • Ilość cyfrowych danych podwaja się co niecałe dwa lata – W tym roku utworzonych zostało już 1,8 zetabajta danych Typowe problemy z danymi Cecha Problem Przykład Integralność Te same dane mają różne znaczenia, a te same znaczenia reprezentowane są przez różne dane Płeć oznaczana za pomocą symboli K/M w jednym systemie i symboli M/F w innym Kompletność Część danych nie istnieje lub jest nieznana Nazwiska 20% klientów są nieznane, 50% kodów pocztowych to 99999 Dokładność Dane są niedokładne, zaokrąglane lub pogrupowane Odległość z Katowic do Warszawy jest większa niż z Warszawy do Katowic Poprawność Dane nie są zgodne z regułami biznesowymi Najmłodszy klient ma 0 lat Mężczyzna jest matką trojga dzieci Unikatowość Te same dane przechowywane są wielokrotnie W bazie klientów figurują Barack Obama i Barak Obama – czy to ta sama osoba? Wiarygodność Dane nie odzwierciedlają rzeczywistości Firma wciąż ma status aktywnego dostawcy, chociaż zbankrutowała 5 lat temu Data Quality Services Monitorowanie procesu poprawy jakości danych Ocena jakości danych Poprawa błędnych i uzupełnienie niekompletnych danych Monitorowanie Oczyszczanie Profilowanie Deduplikacja Wyszukanie i usunięcie powtarzających się danych Cechy charakterystyczne DQS Oparte na wiedzy Uwzględniające semantykę Uczące się Otwarte i rozszerzalne Łatwe w użyciu • Korzystające z bazy wiedzy (DQKB) • Domeny reprezentują znaczenie danych • Dodatkowe informacje gromadzone są podczas oczyszczania danych • Korzystające z baz wiedzy użytkownika i firm trzecich • Upraszczające codzienną pracę z danymi Funkcje Data Quality Services Zarządzanie wiedzą i danymi referencyjnymi Oczyszczanie i deduplikacja danych Administracja • Tworzenie i zarządzanie bazami wiedzy • Odkrywanie informacji w przykładowych danych • Praca z bazami wiedzy firm trzecich • Poprawa, deduplikacja i standaryzacja danych • Monitorowanie i zarządzanie procesem poprawy jakości danych Parowanie i deduplikacja 1. Określenie reguł porównywania - Identyfikacja duplikatów 2. Trening - Wykrycie duplikatów 3. Wybór poprawnych rekordów - Usunięcie duplikatów • • • • Microsoft Corporation, Bill gates, 1 Microsoft way, Redmond, WA, 98052 Microsoft, Gates, One Microsoft way, Redmond WA Microsoft Corp, William Henry Gates, 1 Microsfot way, Redmond, WA Microsfot, W. H. Gates, Redmond, WA Klient DQS – Wyniki parowania Integracja z usługą SSIS SSIS Data Flow Pakiet SSIS Reguły Dane referencyjne Źródło danych Zadanie Data Przeznaczenie Correction danych DQS - Podsumowanie Bazujące na wiedzy Proste w użyciu Otwarte Bogate bazy wiedzy Automatyczne wzbogacane podczas oczyszczania danych Raz utworzona (centralna) baza wiedzy może być używana w wielu projektach DQS Zaprojektowane dla użytkowników biznesowych Intuicyjne Natychmiast gotowe do użycia Korzystające z baz wiedzy znajdujących się w Chmurze Bazy wiedzy tworzone przez użytkowników Zintegrowane z usługą SSIS Dziękuję za uwagę ! Q&A