Hurtownie danych i business intelligence -wykład II · 3 Miejsce i rola HD w firmie •...
Transcript of Hurtownie danych i business intelligence -wykład II · 3 Miejsce i rola HD w firmie •...
1
Hurtownie danych
i business intelligence
- wykład II
Paweł Skrobanek, C-3 pok. 321 [email protected]. Wrocław 2005-2008
Zagadnienia do omówienia
1. Miejsce i rola HD w firmie
2. Przegląd architektury HD
3. „Warsztaty”
Miejsce i rola HD w firmie
BD
sprzedaŜy
Serwer
WWW
2
Miejsce i rola HD w firmie
Umiejscowienie hurtowni danychUmiejscowienie hurtowni danych
ujednolicone,przetworzone
struktury danych
struktury operacyjne
(analiza danych)
struktury dla potrzeb prezentacji
danych
Miejsce i rola HD w firmie
Przykłady problemów:
• dobór odpowiedniej architektury HD (np. model relacyjny, wielowymiarowy, struktura scentralizowana, czy teŜ federacyjna) oraz odpowiedni model danych (np. ROLAP, MOLAP),
• opracowanie sposobu zasilania HD danymi ze źródeł zewn ętrznych (m. in. ujednolicenie, czyszczenie danych, postępowanie z brakującymi danymi, ale takŜe np. optymalizacja czasowa, problem aktualności danych, problem z dostępem do danych)
Miejsce i rola HD w firmie
Przykłady problemów – cd.:
• spełnienie wymogów zwi ązanych z wymaganiami dla zapyta ń analitycznych
- czas odpowiedzi (np. wymogi na poziomie sekund lub godzin),
- aktualność danych (np. problemy przy łączeniu danych z baz umiejscowionych w róŜnych krajach lub wynikające z opóźnionego wpisu danych przez system operacyjny do plików dyskowych)
3
Miejsce i rola HD w firmie
• optymalizacja zapyta ń analitycznych
- zastosowanie agregacji (problem z aktualnością danych, czasem obliczania perspektyw, czasem obliczeń zapytania),
- wykorzystanie perspektyw,
- inne techniki (o czym później ☺).
• dobór narz ędzi (m. in. platforma sprzętowa, wparcie ze strony SQL dla HD, moŜliwość partycjonowania danych, przetwarzanie rozproszone – np. optymalizacja przetwarzania z wykorzystaniem systemów agentowych)
Miejsce i rola HD w firmie
• dostosowanie całej architektury do struktury firmy oraz mo Ŝliwo ści „ewolucji HD” przy zmianach zachodzących w przyszłości w firmie (trudne do określenia) – łatwość rozszerzania i przebudowy,
• wsparcie ze strony narz ędzia oraz zaprojektowanie „zrozumiałej i czytelnej” prezentacji wyników dla personelu „nietechnicznego”,
• specyfikacja wymaga ń uŜytkowników dla potrzeb budowy procesów analitycznych (budowa HD, to często budowa systemu z niezdefiniowanymi wymaganiami w świecie rzeczywistym – naleŜy je dopiero określić wspólnie z personelem firmy),
Miejsce i rola HD w firmie
• inne aspekty , to np.: sposób zarządzania projektem, koszty projektu, ocena jakości,
• problemy zwi ązane z reorganizacj ą źródeł danych ,
• dobór technologii; nie zawsze „sprawdzona technologia” implementacyjna w jednym rozwiązaniu daje równie dobre wyniki w innym,
• zrozumienie „biznesu”,
• zabezpieczenie danych zarówno przed utratą, jak i dostępem nieupowaŜnionych osób.
4
Architektura HD
KomponentyKomponenty
Architektura HD
KomponentyKomponenty
• źródła danych:
– ORACLE, Informix, database, Teradata, MS SQL Server, arkusze kalkulacyjne, róŜne pliki,
• transformacja danych:
– porównywanie danych z róŜnych systemów w celu zapewnienia jakości (m. in. uzupełnianie brakujących – pola mogą być puste, wyszukiwanie i rozpoznawanie „tych samych” danych – jedna osoba moŜe występować w róŜnych źródłach, nawet z róŜnymi atrybutami),
Architektura HD
KomponentyKomponenty
• transformacja danych cd.:
– standaryzacja danych (jedne źródła mogą zapisywać WROCŁAW, inne Wroclaw lub Wrocław),
– integracja danych (jedne źródła pamiętają sprzedaŜ, inne dane sprzedawcy jako np. parametry konfiguracji – muszą one być połączone),
– i inne.
• hurtownia danych: odpowiednia organizacja, wspomaganie zapytań analitycznych, itp.
5
Architektura HD
KomponentyKomponenty
• raportowanie:
– narzędzia z obszaru „business intelligence”,
– narzędzia dla OLAP/MOLAP – tworzenie struktur wielowymiarowych oraz dostarczanie mechanizmów ich prezentacji w czytelnej, graficznej formie,
– „data mining” wykrywanie trendów, wzorców itp. z wykorzystaniem róŜnych metod, np. statystyki, sieci neuronowych ip.
– inne.
Architektura HD
KomponentyKomponenty
• metadane: „dane o danych”, mogą być wykorzystane np. do modyfikacji HD, w procesach integracji, ładowania i czyszczenia danych (patrz - ksero),
• operacje: odpowiadają m. in. za procesy ekstrakcji, manipulacji i ładowania danych do HD (narzędzia ETL)
Architektura HD
Architektura scentralizowana Architektura scentralizowana • łatwa skalowalność,
• brak konieczności przesyłania danych (oprócz ładowania),
• wspólne metadane.
6
Architektura HD
Architektura federacyjna Architektura federacyjna
• optymalizacja,
• trudniejsze odświeŜanie danych,
• trudniejsze modyfikacje procesów analitycznych
Architektura HD
Architektura warstwowa Architektura warstwowa
prz.: etapowe gromadzenie danych prz.: etapowe gromadzenie danych • integracja istniejących struktur,
• trudniejsza realizacja zapytań analitycznych
• moŜliwość autonomii oddziałów
Architektura HD
Architektura warstwowa, rozproszona Architektura warstwowa, rozproszona • optymalizacja przetwarzania,
• konieczność przesyłania danych
• trudniejsza aktualizacja danych,
• trudniejsza modyfikacja procesów
7
Architektura HD
Architektura Architektura –– inne pomysłyinne pomysły
• koncepcja „Data Hubs” (PowerCenter 6 INFORMATICA), ?,
• przetwarzanie zapytań analitycznych w systemie wieloagentowym (wykorzystanie mocy obliczeniowej róŜnego „sprzętu”, równowaŜenie obciąŜenia),
• wykorzystanie metadanych do zapamiętywania zmian w strukturze relacji (zmiana modelu relacyjnego)i „inteligentna” obsługa zapytań analitycznych.
Architektura HD
• gromadzenie informacji z róŜnych źródeł,
• organizacja danych dla potrzeb analitycznych
• gromadzenie i odpowiednia organizacja (jak obok),
• gromadzenie informacji o procesach w firmie (np. jak wygląda proces przyznania kredytu od złoŜenia wniosku do wypłaty środków w zaleŜności od tego, jacy pracownicy realizują poszczególne etapy) – często wymaga to opracowania metod pozyskiwania takich informacji, umoŜliwia np. wspomaganie decyzji personalnych
HURTOWNIA DANYCHtypowo
Przykład architektury – ksero.
Architektura HD
Warstwa prezentacji
IE, Office
lub
Business
Scorecard
Manager,
ProClarity
Analytics 6
(Performance
Point)
lub
innych firm
Przykład: propozycja Przykład: propozycja Microsoft’uMicrosoft’u