1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An...
-
Upload
alais-parmentier -
Category
Documents
-
view
106 -
download
1
Transcript of 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An...
1
Vue d’ensemble Vue d’ensemble du Data warehousing et de du Data warehousing et de
la technologie OLAPla technologie OLAP
D’après l’article écrit en 1996 :An Overview of Data Warehousing and OLAP Technology de Surajit Chaudhuri et Umeshwar Dayal
Li Wanjing
Rastoix Sylvia
2
Sommaire
1- Introduction 2- Architecture 3- Outils back end et utilitaires 4- Modèle conceptuel et outils front end 5- Méthodologie de Conception d’une BD 6- Meta-données et gestion de DW 7- Conclusion
3
1- Introduction
a- Définition d’un data warehouse b- Exemples d’utilisateurs c- Modèle multidimensionnel d- Séparation nécessaire OLAP/OLTP e- Serveurs ROLAP et MOLAP f- Architecture d’un data warehouse
4
1.a- Définition d’un data warehouse
Un Data warehouse est un entrepôt de données
Caractéristiques principales de ces données :intégrées non volatiles datées ou historiséesLa base est orientée sujet
But : permettre aux entreprises de prendre des décisions meilleures et de façon plus rapides.
5
Rappel de vocabulaire
OLAP (On-Line Analytical Processing)
OLTP (On-Line Transaction Processing)
Différence entre les deux
6
Rappel de vocabulaire (suite 1)
Data Mining
Le pincipe général du Data Mining est de creuser une mine (=Data Warehouse) pour rechercher un filon (=information).
Les principaux objectifs du Data Mining
7
Rappel de vocabulaire (suite 2)
L’architecture OLAP consiste en trois services principaux :
Bases de données Serveur OLAP Module client
8
1.b- Exemples d’utilisateurs
Croissance explosive ces dernières années. Beaucoup d’entreprises sont intéressées.
les entreprises de fabrication les services financiers les transports les télécommunications les services de santé
9
1.c- Modèle multidimensionnel
Le modèle multidimensionnel facilite les analyses
Exemple de dimensions intéressantes en vente :le jour de la vente, le lieu de la vente, le vendeur, le produit vendu
Souvent, ces dimensions sont hiérarchisées : la date de vente peut être organisée en une hiérarchie (année, mois, jour).
10
1.c- Modèle multidimensionnel (suite 1)
Représentation d’un modèle multidimensionnel
Lieu
Date
Produit
11
1.c- Modèle multidimensionnel (suite 2)
La norme OLAP incluent des opérations sur les données multidimensionnelles :
le drill-down.le roll-up.le slice_and_dice.le rotate ou pivoting.
12
1.d- Séparation nécessaire OLAP/OLTP
Les BD opérationnelles sont faites pour supporter les opérations d'OLTP.
Dans un DW, on a besoin de données : parfois absentes dans les BD opérationnelles. venant de beaucoup de sources hétérogènes.
Conclusion : Besoin d’une organisation spéciale Les DW sont implémentés séparément des BD
opérationnelles.
13
1.e- Serveurs ROLAP et MOLAP
ROLAP Les data warehouses peuvent être implémentés sur
des SGBD relationnels appelé serveurs relationnels OLAP (ROLAP).
MOLAP Les serveurs multidimensionnels OLAP (MOLAP)
sont des serveurs qui stockent direstement des données multi-dimensionnelles dans des structures spéciales de données.
14
1.f- Architecture d’un datawarehouse
Pour la construction et la maintenance d’un data warehouse :sélectionner un serveur OLAPdéfinir un schéma définir quelques requêtes complexes définir une architecture.
Plusieurs architectures possibles
15
1.f- Architecture d’un datawarehouse (suite)
Data mart (magasin de données) : Un data mart est une vue partielle et orientée métier sur les données du Data warehouse
Data Mart du service marketing
Data Marts
Data Mart du service production
16
Rappel de vocabulaire
Front end, avant-plan : interface avec l'utilisateur
Back end, arrière-plan : deux définitions possibles
Méta-données : Données sur les données. Ensemble des informations qui permettent de qualifier une donnée, par sa provenance, sa qualité, sa date de création ...
17
2- Architecture
Architecture d’un data warehouse
18
3- Outils back end et utilitaires
a- Nettoyage des données
b- Chargement
c- Rafraîchissement
Les DW emploient une variété d’outils pour les données des entrepôts.
19
3.a- Nettoyage des données(data cleaning)
Problème : grands volumes de données augmentations de la probabilité d’anomalies dans les données.
Exemple d’anomalies
20
3.b- Chargement (load)
Après leur extraction, leur nettoyage et leur transformation, chargement des données dans le data warehouse
Grand volumes de données mise à jour dans une petite période temps (souvent la nuit).
Intérêt du parallélisme
21
3.c- Rafraîchissement(Refresh)
Rafraîchissement : propagation des changements sur les données sources pour la mise à jour.
Deux questions : quand rafraîchir, et comment rafraîchir ?
Définir une politique de rafraîchissement
22
4- Modèle conceptuel et outils front end
a- Modèle multidimensionnel
b- Outils front end
23
4.a- Modèle multidimensionnel
modèle conceptuel = modèle multidimensionnelle
Dimensions : Produit, Ville, Date
Hiérarchies de dimension :
Date
Produit
Ville
Secteur industriel
Catégorie
Produit
Pays
Région
Ville
Année
Mois
Jour
24
4.b- Les outils front end
Les analystes utilisent beaucoup les tableurs. Problème : Comment supporter les opérations d’un
tableur sur d’énormes bases de données ?
Le tableur est l’application front end la plus contraignante d'OLAP
Nous allons voir une description brève des opérations principales qui sont supportées par les applications multidimensionnelles
25
4.b- Les outils front end (suite 1)
Pivoting ou rotating
pivotement ou rotation, ré-oriente la vue de des données multidimensionnelles.
26
4.b- Les outils front end (suite 2)
Drill-down " plonger" dans une information afin de connaître le
détail des données qui ont initialement servi à la constituer.
Roll-up : c’est l’opération contraire du drill-down.
27
Slice_and_dice : sélection et projection.
4.b- Les outils front end (suite 3)
Conclusion : Variété d'outils de data mining utilisés comme des outils front_end sur les data warehouses.
28
5- Méthodologie de Conception d’une Base de données
a- Nécessité de nouveaux diagrammes
b- Schéma en étoile
c- Schéma en flocons de neige
29
MOLAP pas besoin de concevoir des schémas
ROLAP concevoir des schémas de BD relationnelles qui tiennent compte des dimensions
Les diagrammes objets classiques sont inadéquates car ils ne prennent pas les dimensions en compte.
5.a- Nécessité de nouveaux diagrammes
30
La plupart des DW emploient un schéma en étoile Problème : pas de hiérarchies d'attributs.
5.b- Schéma en étoile
31
Schémas en flocons de neige = amélioration des schémas en étoile car normalisés
5.c- Schéma en flocons de neige
Les schémas en étoile bien que non normalisé reste pratiques pour passer les dimensions en revue.
32
6- Meta-données et gestion de data warehouse a- Les méta-données administratives
b- Les méta-données d’affaires
c- Les méta-données opérationnelles
33
6.a- Les méta-données administratives
Elles incluent toutes les informations nécessaires pour l'établissement et l’utilisation d'un DW
34
6.b- Les méta-données d’affaires(business metadata)
Elles incluent :
des termes et des définitions d'affaires, La propriété (l’appartenance) des données, des politiques de remplissage du DW.
35
6.c- Les méta-données opérationnelles Elles incluent les informations qui sont rassemblées
pendant l'opération de stockage :
le suivi des données qui ont migrées et qui ont été transformées
l’état des données dans l'entrepôt des informations de contrôle
36
7- Conclusion
Beaucoup de produits commerciaux et de services
Mais plusieurs problèmes subsistent : le nettoyage des données l'optimisation des requêtesl’évaluation des coûtsl’utilisation du parallélisme, le partitionnementproblèmes de contrôle et de gestion des
ressources dans les DW