Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. ·...
Transcript of Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. ·...
![Page 2: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/2.jpg)
WARIANTY BUDOWY HURTOWNI DANYCH
![Page 3: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/3.jpg)
Literatura
R. Kimball, The Data Warehouse Lifecycle, Wiley, 2013
W. Inmon, Building the Data Warehouse, Wiley, 2005
D. Linstedt, Super Charge your Data Warehouse. Dan Linstedt, 2010
![Page 4: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/4.jpg)
Warianty budowy Hurtowni Danych
• Hurtownia Dwuwarstwowa (podejście Top-Down)• Najpierw, w oparciu o Korporacyjny Model Danych, budujemy Centralną
Hurtownię Danych, gromadzącą dane na poziomie detalicznym
• Następnie, budujemy kolejne hurtownie tematyczne (Datamarty), wspierające konkretne analizy
• Podejście proponowane przez Billa Inmona
• Hurtownia Jednowarstwowa (podejście Bottom-Up)• Budujemy od razu hurtownie tematyczne (Datamarty)
• Podejście proponowane przez Ralpha Kimballa
![Page 5: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/5.jpg)
Hurtownia Dwuwarstwowa
Dane
źródłoweCentralna hurtownia danych (dane detaliczne)
OdbiorcyHurtownie tematyczne (datamarty)
![Page 6: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/6.jpg)
Architektura Dwuwarstwowa: zalety i wady
• Zalety
• Udostępnienie zintegrowanego i elastycznego źródła danych dla wszelkich aktywności analitycznych:• Wszystkie hurtownie tematyczne są zbudowane w oparciu o te same dane
• Detaliczny poziom danych daje ogromną elastyczność możliwych analiz
• Udostępnienie zintegrowanego widoku danych w ramach całej organizacji
• Wady
• Budowa Centralnej Hurtowni Danych trwa długo i kosztuje dużo• Budowa CHD jest przedsięwzięciem globalnym w ramach organizacji – wymaga odpowiednich
struktur organizacyjnych• Wymaga dodatkowych nakładów na sprzęt
![Page 7: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/7.jpg)
Hurtownia Jednowarstwowa
Dane źródłoweOdbiorcy
Hurtownie
tematyczne (data
marty)
![Page 8: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/8.jpg)
Architektura Jednowarstwowa: zalety i wady
• Zalety• Skupienie się na konkretnych wymaganiach użytkowników i szybkie dostarczenie wartości.
• Hurtownie tematyczne zawierają zarówno dane zagregowane jak i szczegółowe – wszystko jest dostępne w jednej bazie danych.
• Ponieważ nie ma zintegrowanej warstwy danych detalicznych, budując kolejne hurtownie tematyczne wykorzystuje się już zaimplementowane wymiary i miary.
• Brak wydzielonej warstwy danych detalicznych skutkuje też mniejszymi wymaganiami sprzętowymi.
• Wady• Uzgadnianie hurtowni tematycznych budowanych niezależnie jest trudne
• Mała elastyczność rozwiązania – trudno realizować nowe wymagania użytkowników
• Brak jednego zintegrowanego źródła danych
• Duża redundancja danych
![Page 9: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/9.jpg)
Podsumowanie
• W 1997 Kimball wskazał:• "...the data warehouse is nothing more than the union of all the data marts"
• W 1998 Inmon odpowiada:• "You can catch all the minnows in the ocean and stack them together and they still do not
make a whale"
![Page 10: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/10.jpg)
System 1 System n
Zbiór danych tymczasowych (STAGE)
Zbiór danych detalicznych (DETAIL)
Zbiór danych tematycznych(Data Marts)
Analityczne zbiory danych
(ADS)
Repozytorium danych
Systemy źródłowe
Modelowanie danych w hurtowni danych
▪ 3 postać normalna (3NF)▪ Gwiazda/płatek śniegu▪ Data Vault▪ Data mining (ADS)
System 2
![Page 11: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/11.jpg)
TRZECIA POSTAĆ NORMALNA
![Page 12: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/12.jpg)
3NF
FAKTURY KLIENT REGION
PRODUKT POZYCJE_FAKTUR
KATEGORIA
![Page 13: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/13.jpg)
MODELOWANIE WIELOWYMIAROWE
![Page 14: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/14.jpg)
Przykłady faktów
• Sprzedaż produktu lub usługi
• Pobranie towaru z magazynu
• Wykonanie połączenia telefonicznego
• Wypełnienie ankiety przez respondenta
• Wykonanie operacji na koncie bankowym
![Page 15: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/15.jpg)
Przykłady miar
• Ilość sprzedanego towaru
• Wartość sprzedaży
• Ilość towarów pobranych z magazynu
• Ilość respondentów, wskazujących jakąś odpowiedź w ankiecie
• Ilość połączeń telefonicznych
![Page 16: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/16.jpg)
Przykłady wymiarów
• Produkt
• Czas
• Oddział
• Klient
• Ankieta
• Województwo
• Rodzaj operacji bankowej
![Page 17: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/17.jpg)
Przykłady hierarchii
KRAJ
WOJEWÓDZTWO
POWIAT
ROK
MIESIĄC
DZIEŃ
![Page 18: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/18.jpg)
Kostki wielowymiarowe - definicja
• Pozwalają na skupienie informacji w wielu różnych ujęciach
• Podstawowe komponenty kostki OLAP to fakty, wymiary, miary oraz hierarchie• Fakt jest opisem zdarzenia operacyjnego, które miało miejsce
• Miara jest wartością liczbową, która podlega analizie (np.: wielkość sprzedaży, ilość sprzedanychproduktów, itp.) – Ile?
• Wymiar jest elementem opisującym miarę(np.: miasto, w którym dokonano sprzedaży; produkt, którysprzedano, itp.) – Co? Kto? Gdzie? Kiedy?
• Hierarchia określa zależności pomiędzy elementami wymiaru – pozwala na drzewiaste budowaniepołączeń
![Page 19: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/19.jpg)
Gwiazda
F_SPRZEDAZ
DIM_KLIENT
DIM_REGION
DIM_PRODUKT
DIM_CZAS
![Page 20: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/20.jpg)
Płatek śniegu
F_SPRZEDAZ
DIM_KLIENT
DIM_REGION
DIM_PRODUKT
DIM_CZAS
![Page 21: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/21.jpg)
DATA VAULT
![Page 22: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/22.jpg)
Data Vault - definicja
Data Vault – technika modelowania danych (w hurtowniach danych) zaprojektowana tak, aby zapewnić przechowywanie danych historycznych z wielorakich systemów operacyjnych (źródłowych). Data Vault oznacza również, obok aspektu modelowania, sposób patrzenia na dane historyczne, który zapewnia audytowalność, śledzenie danych, szybkość ładowania oraz odporność na zmiany biznesowe.
Źródło: wikipedia.pl
![Page 23: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/23.jpg)
http://www.GeneseeAcademy.com23
Data Vault - zasady
• Hub: unikalne klucze
• Link: unikalne połączenia pomiędzy Hubami (kluczami)
• Satellite: dane historyczne
Email ID
Sat
Sat
Sat
Link Bank ID
Sat
Sat
Sat
Passenger
ID
Sat
Sat
Sat
F(x)
Email Information Bank Transactions
Airline Reservations
Sat
Link
Records a history
of the interaction
** Dashed Line is a possible New Relationship
Hub
Satellite
Źródło: databaser.net
![Page 24: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/24.jpg)
Data Vault - przykład
LINK_SPRZEDAZ
HUB_KLIENT
HUB_REGION
HUB_PRODUKTSAT_KLIENT
SAT_PRODUKT
SAT_REGION
![Page 25: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/25.jpg)
MODELOWANIE DM
![Page 26: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/26.jpg)
Analytical Data Set - definicja (1)
• Analityczny zbiór danych jest uporządkowanym zestawem cech (zmiennych)
• Istotne cechy wskazywane są metodą ekspercką, na podstawie doświadczeń i najlepszych praktyk branżowych
• Przykładowe cechy klienta • Wartość zakupów w ciągu 36 miesięcy
• Liczba logowań do sklepu internetowego w ciągu 12 miesięcy
• Informacje demograficzne: wiek, płeć, zamieszkanie, itp.
![Page 27: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/27.jpg)
KLIENCI TRANSAKCJE PRODUKTY …
KLIENCI TRANSAKCJE PRODUKTY …CORE
ADS
Analytical Data Set - definicja(2)Obszary tematyczne – pochodzące z różnych źródeł informacje dotyczące klienta
CORE – zestaw podstawowych danych o kliencie (identyfikator, PESEL, itp.)
![Page 28: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/28.jpg)
Analytical Data Set - definicja(3)
![Page 29: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/29.jpg)
System 1 System n
Zbiór danych tymczasowych (STAGE)
Zbiór danych detalicznych (DETAIL)
Zbiór danych tematycznych(Data Marts)
Analityczne zbiory danych
(ADS)
Repozytorium danych
Systemy źródłowe
Modelowanie danych w hurtowni danych
▪ 3 postać normalna (3NF)▪ Gwiazda/płatek śniegu▪ Data Vault▪ Data mining (ADS)
System 2
![Page 30: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/30.jpg)
PRZYKŁAD: MODELOWANIE HIERARCHII
![Page 31: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/31.jpg)
Hierarchie – typy hierarchii
• Zbalansowana (ang. balanced) – stała liczba nazwanych poziomów, każde „dziecko” ma „rodzica” na poziomie bezpośrednio wyższym (struktura drzewa)
• Struktura drzewa o nieokreślonej liczbie poziomów – nieokreślona liczba poziomów, których nie da się nazwać
• Niezrównoważona (ang. ragged) – stała liczba nazwanych poziomów, „dziecko” może mieć „rodzica” na poziomie innym niż bezpośrednio wyższy
![Page 32: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/32.jpg)
Hierarchie – przykład (1)
Czas Id Data Miesiąc Nazwa Miesiąca Kwartał Rok
1 01-01-2006 2006.01 Styczeń Q1.2006 2006
2 23-02-2006 2006.02 Luty Q1.2006 2006
3 18-05-2006 2006.05 Maj Q2.2006 2006
4 12-07-2006 2006.07 Lipiec Q3.2006 2006
5 09-11-2006 2006.11 Listopad Q4.2006 2006
6 … … … … …
• Przykład wymiaru czas
ROK
KWARTAŁ
MIESIĄC
DZIEŃ
![Page 33: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/33.jpg)
Hierarchie – przykład (2)Pion Departament Dział
A B C
A B D
X ??? Y
Pion (A)
Departament (B)
Dział (C)
Dział (Y)
Dział (D)
Pion (X) Dział(Y)
Pion (X)
?
![Page 34: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/34.jpg)
Hierarchie – przykład (2)Pion Departament Dział
A B C
A B D
X ??? Y
Pion Departament Dział
Sposób 1 X X Y
Sposób 2 X Y Y
Sposób 3 X BRAK Y
Pion (A)
Departament (B)
Dział (C)
Dział (Y)
Dział (D)
Pion (X) Dział(Y)
Pion (X)
?
![Page 35: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,](https://reader035.fdocument.pub/reader035/viewer/2022071420/6119dbc15e15ee1395656655/html5/thumbnails/35.jpg)
Dziękuję za uwagę