1
Chapitre Préliminaire
Entrepôts de données
Christelle ScharffIFI
Juin 2004
2
Plan et objectifs Informatique de production Transactions Informatique décisionnelle Entrepôts de données Datamarts Construction des entrepôts Opérations OLAP Problèmes
3
Informatique de production Interrogations et modifications fréquentes
des données par de nombreux utilisateurs Nécessité de conserver la cohérence des
données Les systèmes transactionnels (OLTP)
garantissent la cohérence des données L’informatique de production est optimisée
pour les tâches répétitives et planifiées Exemples:
Factures, commandes…
4
Transactions Programmes informatiques qui
inter-agissent avec les bases de données ayant les propriétés suivantes: A - Atomicité C - Consistance I - Isolation D - Durée
5
Informatique décisionnelle
Chargement périodique des données Pas de modifications des données Interrogations non régulières, planifiées, parfois
longues des systèmes d’information décisionnels Exemples de questions:
Quelles sont les ventes du produit X pendant le trimestre A de l'année B dans la région C ?
Comment se comporte le produit X par rapport au produit Y?
Quel type de client peut acheter le produit X? Exemple: OLAP (Codd)
6
OLTP OLAP
Utilisateurs Lambda Spécialisés
Fonctions Journalier Décision
Design DB Oriente application Oriente sujet
Données Courantes, détaillées, plates, à jour
Historiques, résumées, multi-dimensionnelles, intégrées, consolidées
Utilisation Répétitive Ad hoc
Accès Écrire/LireIndex / Hachage sur les clés primaires
Lire
Transactions/Requêtes
Transaction courte et simple
Requêtes complexes
# lignes accédées Dizaines Millions
# utilisateurs Milliers Centaines
Taille DB 100 MG-GB 100 GB-TB
Métriques # Transactions Réponses, # requêtes
7
Entrepôt de données (1) Contient de grandes quantités de
données provenant de diverses sources, sauvées sous un schéma de données unique,
et résidant à un endroit unique
Construit par: Nettoyage, transformation, intégration,
chargement et rafraîchissement périodiques des données
8
Entrepôt de données (2) Organisés suivant des thèmes précis (clients,
activités, items…) Organisés suivant une chronologie historique Résument les données Plus lisibles et plus simples que les données
initiales Introduction de redondance éventuelle Cohérence globale des données Les données / informations des entrepôts ne
sont pas modifiees
9
Datamarts
Versions simplifiées, car plus ciblées, des entrepôts des données
10
Nettoyage des données
Erreurs de saisie Intégrité des domaines
Exemple: Les dates Données manquantes
11
Transformations des données Format
Exemple: Type des données Consolidation
Exemple: Choix des unités et des représentations
Uniformisation d’échelle Exemple: Homogénéisation des
échelles
12
Requêtes sur les entrepôts de données
Extraire des données: Les outils OLAP Le progiciel SAS
Un progiciel est un logiciel de gestion Outils de création de rapports Outils dans les SGBD Un language (Exemple: DMQL)
13
Représentation conceptuelle des entrepôts de données* Souvent représentés par une structure à
plusieurs dimensions Une dimension est un attribut ou un
ensemble d’attributs Les cellules sauvent des données agrégées
appelées faits Représentations: Relations, cube de
données, hyper-cube de données Utilisation d’un language (Exemples: SQL
ou DMQL) pour peupler les entrepôts
14
Exemple Total des ventes à un client dans
une tranche horaire d'un jour précis, pour un produit choisi
15
Représentation logique des entrepôts de données* Implantation classique: Modèle en étoile:
Au centre la table des faits Les dimensions comme autant de branches à
l'étoile. Les branches de l'étoile sont des relations de 1 à
plusieurs La table des faits est énorme contrairement aux
tables des dimensions Le modèle est très dissymétrique en
comparaison avec les modèles relationnels des bases de production
L’étoile est un modèle simple
16
Exemple Un enregistrement dans la table des
faits Ventes correspond à un total des ventes à un client dans une tranche horaire d'un jour précis, pour un produit choisi.
17
Autres modèles
Le modèle en flocon de neige Les tables des dimensions sont
normalisées Le modèle de la constellation des
faits Une table de faits peut être partagée
par plusieurs tables de dimension
18
Hiérarchies* Hiérarchies de schémas
Ordre total ou partiel sur les attributs des schémas Décrivent des relations sémantiques entre les
attributs Exemple: Rue < Ville < État_ou_Province < Pays
Hiérarchies de groupes Organise les valeurs d’attributs ou de dimensions
en groupes Un ordre total ou partiel peut être défini entre les
groupes Exemples: {0…45} Jeune, {46…150} Agé ,
{Jeune, Agé} all(age)
19
Opération: Navigation ou Forage*
Pour obtenir plus de détails sur la signification d'un résultat en affinant une dimension ou en ajoutant une dimension
Exemple: Supposons qu'un utilisateur final demande les chiffres
d'affaires par produit, et s'étonne d'un résultat pour un produit donné. Il aura sûrement l'envie d'en analyser les raisons. Une solution consisterait à ajouter la dimension temps, dans l'unité de temps trimestrielle pour trouver une variation saisonnière, dans l'unité hebdomadaire pour envisager l'effet week-end ou encore la dimension magasin pour mettre en évidence un effet géographique.
20
Opération: Agrégats* Pour obtenir moins de détails Élimination d’une dimension ou
regroupement des éléments d’une dimension
Exemple: Ville < Etat < Province < Pays Au lieu de regrouper les données par
ville, elles sont regroupées par pays
21
Autres opérations*
Sélection sur une dimension ou plusieurs dimensions (tranche du cube)
Rotation / pivot du cube D’autres opérations impliquent
plus d’une table des faits
22
Problèmes Supports physiques
Peupler l’entrepôt Calcul des valeurs de la table des faits
Structure creuse La valeur est 0 Exemple: 300 des 3000 produits sont vendus
chaque jour Problèmes des clés et des indexes
Organisation physique importante du point de vue des performances
Les tables de dimension sont souvent indexées suivant tous leurs champs
23
Exercice*
Exercice du magasin d’électronique
24
Références http://www.grappa.univ-lille3.fr/pol
ys/fouille/
J. Han, and M. Kamber. Data Mining Concepts and Techniques. Morgan Kaufmann.
Top Related