SQL Server 2012 Codename Denali
description
Transcript of SQL Server 2012 Codename Denali
SQL Server 2012 Codename Denali
Data Quality ServicesGrzegorz Stolecki
Specjalne podziękowania dla Marcina Szeligi – współautora slajdów
Agenda
• Problem jakości danych• Usługa Data Quality
Services – Baza wiedzy– Oczyszczanie danych– Parowanie i deduplikacja
danych• Integracja z usługą SSIS
O mnie…Grzegorz [email protected]
• Konsultant i trener Business Intelligence od 1998 roku
• SQL Server MVP
To jakość jest najważniejsza
• Jakość danych jest miarą ich przydatności– Zależy od użycia danych
• Ilość cyfrowych danych podwaja się co niecałe dwa lata– W tym roku utworzonych
zostało już 1,8 zetabajta danych
Typowe problemy z danymiCecha Problem Przykład
Integralność Te same dane mają różne znaczenia, a te same znaczenia reprezentowane są przez różne dane
Płeć oznaczana za pomocą symboli K/M w jednym systemie i symboli M/F w innym
Kompletność Część danych nie istnieje lub jest nieznana
Nazwiska 20% klientów są nieznane, 50% kodów pocztowych to 99999
Dokładność Dane są niedokładne, zaokrąglane lub pogrupowane
Odległość z Katowic do Warszawy jest większa niż z Warszawy do Katowic
Poprawność Dane nie są zgodne z regułami biznesowymi
Najmłodszy klient ma 0 latMężczyzna jest matką trojga dzieci
Unikatowość Te same dane przechowywane są wielokrotnie
W bazie klientów figurują Barack Obama i Barak Obama – czy to ta sama osoba?
Wiarygodność Dane nie odzwierciedlają rzeczywistości
Firma wciąż ma status aktywnego dostawcy, chociaż zbankrutowała 5 lat temu
Data Quality Services
OczyszczanieDeduplikacjaProfilowanieMonitorowanie
Monitorowanie procesu poprawy jakości danych
Poprawa błędnych i uzupełnienie niekompletnych danych
Ocena jakości danych
Wyszukanie i usunięcie powtarzających się danych
• Korzystające z bazy wiedzy (DQKB)Oparte na wiedzy
• Domeny reprezentują znaczenie danych
Uczące się • Dodatkowe informacje gromadzone są podczas oczyszczania danych
Uwzględniające semantykę
• Korzystające z baz wiedzy użytkownika i firm trzecich
Otwarte i rozszerzalne
• Upraszczające codzienną pracę z danymiŁatwe w użyciu
Cechy charakterystyczne DQS
Funkcje Data Quality Services
• Tworzenie i zarządzanie bazami wiedzy• Odkrywanie informacji w przykładowych danych• Praca z bazami wiedzy firm trzecich
Zarządzanie wiedzą i danymi referencyjnymi
• Poprawa, deduplikacja i standaryzacja danychOczyszczanie i deduplikacja danych
• Monitorowanie i zarządzanie procesem poprawy jakości danychAdministracja
Parowanie i deduplikacja
• Microsoft Corporation, Bill gates, 1 Microsoft way, Redmond, WA, 98052
• Microsoft, Gates, One Microsoft way, Redmond WA
• Microsoft Corp, William Henry Gates, 1 Microsfot way, Redmond, WA
• Microsfot, W. H. Gates, Redmond, WA
Klient DQS – Wyniki parowania
1. Określenie reguł porównywania- Identyfikacja duplikatów
2. Trening - Wykrycie duplikatów
3. Wybór poprawnych rekordów- Usunięcie duplikatów
Integracja z usługą SSIS
Dane referencyjne
Reguły
Nowe rekordy
Poprawki & sugestie
Poprawione rekordy
Błędne rekordy
SSIS Data Flow
Źródło danych
Zadanie Data Correction
Pakiet SSISPrzeznaczenie
danych
Baza wiedzy
Serwer DQS
DQS - Podsumowanie
Bogate bazy wiedzyAutomatyczne wzbogacane podczas oczyszczania danychRaz utworzona (centralna) baza wiedzy może być używana w wielu projektach DQS
Zaprojektowane dla użytkowników biznesowychIntuicyjne Natychmiast gotowe do użycia
Korzystające z baz wiedzy znajdujących się w ChmurzeBazy wiedzy tworzone przez użytkownikówZintegrowane z usługą SSIS
Bazujące na wiedzy
Proste w użyciu Otwarte
Dziękuję za uwagę !
Q & A