Data Mining 1 Mining...ถ้าไม่มีโครงสร้างจะเป็น text-mining, web-mining, image-mining
Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des...
Transcript of Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des...
![Page 1: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/1.jpg)
Data Mining
V. Augusto
1/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Data Mining
Vincent Augusto
Ecole Nationale Superieure des Mines de Saint-Etienne
2012-2013
![Page 2: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/2.jpg)
Data Mining
V. Augusto
2/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
1 Introduction
2 Traitement des donneesNettoyage des donneesIntegration des donneesTransformation des donneesSelection des donneesReduction des donnees
3 Extraction de connaissances
4 Post-traitement
5 Exemple de representation : Arbres de decision
6 Perspectives
![Page 3: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/3.jpg)
Data Mining
V. Augusto
3/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Definition generale
Le data mining est l’ensemble des algorithmes etmethodes :
• destines a l’exploration et a l’analyse,
• pour de grandes bases de donnees informatiques,
• sans a priori.
Le data mining permet la detection dans les donnees :
• de regles, d’associations, de tendances inconnues, destructures particulieres,
• restituant l’information utile,
• tout en reduisant la quantite de donnees.
⇒ pour l’aide a la decision.
![Page 4: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/4.jpg)
Data Mining
V. Augusto
4/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Objectif
On ne veut plus seulement savoir :≪ Combien de clients ont achete tel produit pendant telleperiode ? ≫
Mais :
• ≪ Quel est le profil des clients ? ≫
• ≪ Quels autres produits les interesseront ? ≫
• ≪ Quand seront-ils interesses ? ≫
![Page 5: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/5.jpg)
Data Mining
V. Augusto
5/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Des statistiques...
Statistiques :
• Quelques centaines d’individus.
• Quelques variables recueillies avec un protocole special(echantillonnage, plan d’experience).
• Hypotheses fortes (a priori) sur les lois statistiques suivies.
Analyse de donnees :
• Quelques milliers d’individus.
• Plusieurs dizaines de variables.
• Construction de tableaux Individus × Variables.
• Importance de la representation visuelle.
![Page 6: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/6.jpg)
Data Mining
V. Augusto
6/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
... au data mining.
Contexte actuel :
• Quelques millions d’individus.
• Quelques centaines de variables.
• De nombreux types de variables (numeriques ousymboliques).
• Donnees recueillies souvent avant l’etude et a d’autres fins.
• Mise en œuvre de calculs rapides.
Nouvel objectif :
• On ne cherche pas toujours l’optimum mathematique.
• On recherche le modele le plus facile a apprehender parun utilisateur non statisticien.
![Page 7: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/7.jpg)
Data Mining
V. Augusto
7/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Domaines d’application
Domaines concernes :
• Customer Relationship Management (CRM).
• Detection de fraude (CB, telephone mobile).
• Text Mining (etude de mails de reclamation, extraction etclassification de connaissance dans les textes).
• Web Mining (personnalisation de sites web en fonction deshabitudes et du contenu examine).
• Aide au diagnostic medical.Exemple : en fonction de points communs detectes avecles symptomes d’autres patients connus, le systeme peutcategoriser de nouveaux patients au vu de leurs analysesmedicales en risque estime (probabilite) de developper telleou telle maladie.
![Page 8: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/8.jpg)
Data Mining
V. Augusto
8/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Domaines d’application
Domaines pluridisciplinaires :
• Analyse de donnees, statistiques, probabilites.
• Bases de donnees.
• Intelligence artificielle :• systemes experts ;• apprentissage automatique ;• logique.
• Sciences cognitives :• neurosciences ;• psychologie experimentale ;• philosophie...
![Page 9: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/9.jpg)
Data Mining
V. Augusto
9/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
1 Introduction
2 Traitement des donneesNettoyage des donneesIntegration des donneesTransformation des donneesSelection des donneesReduction des donnees
3 Extraction de connaissances
4 Post-traitement
5 Exemple de representation : Arbres de decision
6 Perspectives
![Page 10: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/10.jpg)
Data Mining
V. Augusto
10/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Decouverte des connaissances
![Page 11: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/11.jpg)
Data Mining
V. Augusto
11/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Decouverte des connaissances
Exemple de base de donnees :
Un ensemble de supermarches localises dans differentes villes,en France et a l’etranger.
Caracteristiques :
• Chaque supermarche possede sa propre base.
• Informations sur les clients :Customer(c id, c name, c addr, c job, ...)
• Informations sur les produits/articles en vente :Item(i id, i name, i category, ...)
• Informations sur les achats/transactions realisees (pourchaque transaction, les articles sont stockes un par un) :Transaction(t id, c id, i id, t date, ...)
![Page 12: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/12.jpg)
Data Mining
V. Augusto
12/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
1 Introduction
2 Traitement des donneesNettoyage des donneesIntegration des donneesTransformation des donneesSelection des donneesReduction des donnees
3 Extraction de connaissances
4 Post-traitement
5 Exemple de representation : Arbres de decision
6 Perspectives
![Page 13: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/13.jpg)
Data Mining
V. Augusto
13/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Nettoyage des donnees
Objectif :
Supprimer les donnees bruitees ou non pertinentes.
Questions :
• Que faire si certaines donnees sont manquantes ?• Certains clients n’ont pas donne leur adresse.
• Toutes les donnees sont-elles fiables (problemesd’inconsistance) ?
• Un meme article appartient a differentes categories (dansdes magasins differents).
• Le prix d’un meme article est tres superieur a la normaledans un magasin donne.
• Que faire si certaines donnees sont numeriques dans le casou la technique d’extraction ne peut manipuler que desdonnees symboliques ?
![Page 14: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/14.jpg)
Data Mining
V. Augusto
14/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Donnees manquantes
Solutions :
• Ne pas tenir compte des tuples contenant des donneesmanquantes (valeurs nulles).
• Remplir manuellement les champs non remplis.
• Utiliser les valeurs connues :• Remplacer un salaire manquant par le salaire median des
clients.• Predire les valeurs manquantes, en le deduisant d’autres
parametres (salaire a partir de l’age et de la profession).
![Page 15: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/15.jpg)
Data Mining
V. Augusto
15/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Donnees bruitees
Plusieurs solutions : lissage, segmentation, regression lineaire.
Techniques de lissage (data smoothing) :
1 Trier les differentes valeurs de l’attribut considere.{4, 8, 15, 21, 21, 24, 25, 28, 34}
2 Partitionner l’ensemble resultat.{{4, 8, 15}, {21, 21, 24}, {25, 28, 34}}
3 Remplacer les valeurs initiales par de nouvelles valeurs enfonction du partitionnement realise :
• par la valeur moyenne des regroupements realises{9, 22, 29}
• par les min et max des regroupements realises.{{4, 4, 15}, {21, 21, 24}, {25, 25, 34}}
Implique une perte de precision ou d’information.
![Page 16: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/16.jpg)
Data Mining
V. Augusto
16/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Donnees bruitees
Techniques de segmentation (clustering) :
• Les valeurs similaires sont placees dans une meme classe.
• On ne tient pas compte des valeurs isolees (dans uneclasse comportant trop peu d’elements).
Techniques de regression lineaire :
• Hypothese : un attribut Y depend lineairement d’unattribut X .
• Annees d’experience X et salaire Y.
• Trouver les coefficients a et b tels que Y = aX + b.
• Remplacer les valeurs de Y par celles predites.
![Page 17: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/17.jpg)
Data Mining
V. Augusto
17/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Donnees bruitees : regression
lineaire
Donnees de depart :
Un ensemble de couples (Xi ,Yi ).
Determination des coefficients :
• Soient X et Y les valeurs moyennes des attributs X et Y .
• a =cov(x , y)
V (x).
• b = Y − aX .
![Page 18: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/18.jpg)
Data Mining
V. Augusto
18/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Donnees inconsistantes
Donnees inconsistantes dans une base de donnees :
• Contraintes d’integrites ou dependances fonctionnelles nonrespectees.
• Exemples :• La contrainte I ID→I CATEGORY n’est pas respectee au
moment de l’integration des donnees.• Unicite de cles non respectee.
![Page 19: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/19.jpg)
Data Mining
V. Augusto
19/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
1 Introduction
2 Traitement des donneesNettoyage des donneesIntegration des donneesTransformation des donneesSelection des donneesReduction des donnees
3 Extraction de connaissances
4 Post-traitement
5 Exemple de representation : Arbres de decision
6 Perspectives
![Page 20: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/20.jpg)
Data Mining
V. Augusto
20/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Integration des donnees
Objectif :
Regrouper les donnees provenant de differentes sources.→ Problematique typique lors de la construction d’entrepots dedonnees.
Exemple :
Un attribut nomme C ID dans la BD de Paris peut tres bien senommer CUST ID dans la BD de Londres.→ Utilisation de meta-donnees (XML) pour la mise encorrespondance.
![Page 21: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/21.jpg)
Data Mining
V. Augusto
21/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
1 Introduction
2 Traitement des donneesNettoyage des donneesIntegration des donneesTransformation des donneesSelection des donneesReduction des donnees
3 Extraction de connaissances
4 Post-traitement
5 Exemple de representation : Arbres de decision
6 Perspectives
![Page 22: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/22.jpg)
Data Mining
V. Augusto
22/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Transformation des donnees
• Lissage de donnees : utilisation de techniques deregression.
• Normalisation des donnees : normaliser certainsattributs numeriques afin qu’ils varient entre 0 et 1.
• Pour ne pas privilegier les attributs ayant les plus grandsdomaines de variation (salaire/age).
• Agregation des donnees : operations OLAP (On-LineAnalytical Processing) permettant une analysemultidimensionnelle sur les BD volumineuses afin demettre en evidence une analyse particuliere des donnees.
• Calculer les niveaux de ventes realisees de tel produit parmois plutot que par jour.
• Generalisation des donnees : remplacer les donneesfinies par des donnees de plus haut niveau.
• Remplacer les adresses precises des clients par leur codepostal.
• Remplacer l’age des clients par ≪ jeune ≫, ≪ adulte ≫,≪ senior ≫.
![Page 23: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/23.jpg)
Data Mining
V. Augusto
23/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Discretisation des connaissances
Repartition des valeurs des attributs :
A chaque etape, on cherche a decouper l’intervalle de variationdes donnees en K intervalles comportant le meme nombre devaleurs.On divise C AGE= [0, 100] en A1 = [0, 20] et A2 = [20, 100] si50 % des clients ont moins de 20 ans.
Entropie et classification a priori des donnees :
On cherche a caracteriser les individus achetant les differentstypes de lait (entier, demi-ecreme, ecreme).
Facilite a apprehender le decoupage obtenu :
On veut obtenir des intervalles du type [−12.5, 0] plutot que[−12.536, 0.0005].
![Page 24: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/24.jpg)
Data Mining
V. Augusto
24/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Discretisation basee sur l’entropie
(1/2)
Entropie d’un ensemble de donnees S :
Definition :
• S est decoupe en k classes C1,. . .,Ck .
• Ent(S) =∑
pi . log(pi ) avec pi =|Ci ||S| .
Proprietes :
• Ent(S) est maximale (egale a 0) si les donnees sontreparties dans une seule et meme classe.
• Ent(S) est minimale si les donnees sont uniformementreparties dans toutes les classes.
![Page 25: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/25.jpg)
Data Mining
V. Augusto
25/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Discretisation basee sur l’entropie
(2/2)
Methode :
• Decouper S = [a, b] en S1 = [a, c] et S2 = [c , b].
• Maximiser le gain d’informationI (S , c) = |S1|
|S| Ent(S1) +|S2||S| Ent(S2)− Ent(S).
• Arret du decoupage si le gain devient insuffisant, quel quesoit c .
![Page 26: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/26.jpg)
Data Mining
V. Augusto
26/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Variation de l’entropie
![Page 27: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/27.jpg)
Data Mining
V. Augusto
27/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
1 Introduction
2 Traitement des donneesNettoyage des donneesIntegration des donneesTransformation des donneesSelection des donneesReduction des donnees
3 Extraction de connaissances
4 Post-traitement
5 Exemple de representation : Arbres de decision
6 Perspectives
![Page 28: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/28.jpg)
Data Mining
V. Augusto
28/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Selection des donnees
Objectif :
Garder uniquement les donnees pertinentes pour l’etude arealiser.
Exemple :
• Doit-on s’interesser a toutes les categories de produits devente ?
• Doit-on s’interesser aux ventes realisees il y a plus d’unan ?
![Page 29: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/29.jpg)
Data Mining
V. Augusto
29/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
1 Introduction
2 Traitement des donneesNettoyage des donneesIntegration des donneesTransformation des donneesSelection des donneesReduction des donnees
3 Extraction de connaissances
4 Post-traitement
5 Exemple de representation : Arbres de decision
6 Perspectives
![Page 30: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/30.jpg)
Data Mining
V. Augusto
30/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Reduction des donnees
Reduction en ligne par echantillonnage :
• Pour des raisons de performance.
• Du fait de la complexite importante des algorithmesd’extraction.
• Plusieurs methodes : echantillonnage aleatoire (avec ousans remise), echantillonnage par clustering/segmentation.
Reduction en colonne par suppression des attributsredondants :
• Cas triviaux (age et date de naissance).
• Via une analyse des correlation entre attributs :corrA,B = P(A∧B)
P(A).P(B) =P(B/A)P(B)
• Independance : corrA,B = 1 si P(B/A) = P(B).
• Correlation positive : corrA,B > 1 si P(B/A) > P(B).
![Page 31: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/31.jpg)
Data Mining
V. Augusto
31/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Matrice de contingence
Exemple de matrice de contingence :
Avec pain Sans pain Total
Avec beurre 4.000 3.500 7.500Sans beurre 2.000 500 2.500Total 6.000 4.000 10.000
Analyse de correlation :
• P(Beurre) = 7.50010.000 = 0.75 et P(Pain) = 0.6.
• P(Beurre ∧ Pain) = 4.00010.000 = 0.4.
• corrPain,Beurre = 0.40.75×0.6 = 0.89 < 1
→ Indique une correlation negative.
![Page 32: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/32.jpg)
Data Mining
V. Augusto
32/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Qualite de la correlation
Coefficient de correlation :
rA,B =
∑
(Ai − A)(Bi − B)
σA.σB
avec σX =√
∑
(Xi − X )2.
Signification :
Plus rA,B s’eloigne de zero, meilleure est la correlation :
• rA,B = +1 : correlation positive parfaite.
• rA,B = −1 : correlation negative parfaite.
• rA,B = 0 : absence totale de correlation.
![Page 33: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/33.jpg)
Data Mining
V. Augusto
33/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
1 Introduction
2 Traitement des donneesNettoyage des donneesIntegration des donneesTransformation des donneesSelection des donneesReduction des donnees
3 Extraction de connaissances
4 Post-traitement
5 Exemple de representation : Arbres de decision
6 Perspectives
![Page 34: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/34.jpg)
Data Mining
V. Augusto
34/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Extraction de connaissances
![Page 35: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/35.jpg)
Data Mining
V. Augusto
35/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Extraction de connaissances (1/2)
Techniques descriptives :
• Visent a mettre en evidence des informations presentes,mais cachees dans les gros volumes de donnees.Cas de la segmentation de la clientele, de la recherched’association de produits sur les tickets de caisse.
• Permettent de reduire, de resumer et de synthetiser lesdonnees.
• Pas de variable ≪ cible ≫ a predire.
Exemples :
• Techniques de segmentation/clustering : nueesdynamiques, segmentation hierarchique, reseaux deneurones.
• Extraction de regles d’association.
![Page 36: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/36.jpg)
Data Mining
V. Augusto
36/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Extraction de connaissances (2/2)
Techniques predictives :
• Visent a extrapoler de nouvelles informations a partir desinformations presentes.Cas general du scoring (impayes, attrition, credit).
• Permettent d’≪ expliquer ≫ les donnees.
• Il existe une variable ≪ cible ≫ a predire.
Exemples :
• Classification/discrimination (variable cible qualitative) :• analyse discriminante ;• arbres de classification ;• reseaux neuronaux multi-couches.
• Prediction (variable cible quantitative) :• regression lineaire (simple et multiple) ;• arbres de regression.
![Page 37: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/37.jpg)
Data Mining
V. Augusto
37/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
1 Introduction
2 Traitement des donneesNettoyage des donneesIntegration des donneesTransformation des donneesSelection des donneesReduction des donnees
3 Extraction de connaissances
4 Post-traitement
5 Exemple de representation : Arbres de decision
6 Perspectives
![Page 38: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/38.jpg)
Data Mining
V. Augusto
38/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Post-traitement
• Presentation des connaissances.
• Visualisation des connaissances.
• Manipulation des connaissances.
![Page 39: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/39.jpg)
Data Mining
V. Augusto
39/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Presentation des connaissances
Probleme :Comment representer/visualiser les connaissances extraites ?
Formules logiques :
• Age(X , ‘jeune‘), Revenu(X , ‘eleve‘) → class(X , ‘A‘)[1.402].
• Age(X , ‘jeune‘), Revenu(X , ‘bas‘) → class(X , ‘B ‘)[1.038].
• Age(X , ‘senior ‘) → class(X , ‘C ‘) [2.160].
![Page 40: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/40.jpg)
Data Mining
V. Augusto
40/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Presentation des connaissances
Tableau :
Age Revenu Class Count
jeune eleve A 1.402
jeune bas B 1.038
senior eleve C 786
senior bas C 1.374
Arbre de decision :
![Page 41: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/41.jpg)
Data Mining
V. Augusto
41/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
1 Introduction
2 Traitement des donneesNettoyage des donneesIntegration des donneesTransformation des donneesSelection des donneesReduction des donnees
3 Extraction de connaissances
4 Post-traitement
5 Exemple de representation : Arbres de decision
6 Perspectives
![Page 42: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/42.jpg)
Data Mining
V. Augusto
42/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Generalites
Les origines :
• Intelligence artificielle [Quinlan, 1983].
• Statistiques [Breiman, 1986].
Points forts :
• Applicables a la fois a des attributs numeriques etsymboliques.
• Intelligibilite de la procedure de decision.
• Rapidite de la decision.
• Invariance des resultats a toute transformation monotonedes donnees.
Probleme :Comment construire un arbre de decision a partir d’unensemble de donnees ?
![Page 43: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/43.jpg)
Data Mining
V. Augusto
43/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Principe de construction
Donnees :
• Ensemble de K classes C1,C2, . . . ,CK .
• Ensemble d’objets decrits selon N + 1 attributs ouvariables :
• N variables descriptives (taille, couleurs, forme, etc.)• 1 variable de categorie : a quelle classe appartient un objet
donne (raisin, pomme, banane, etc.) ?
Principe de l’algorithme :
Partitionnement successif de l’ensemble de donnees.
![Page 44: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/44.jpg)
Data Mining
V. Augusto
44/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Definition d’une partition (1/2)
Variable binaire X ∈ {1, 0}
X?
1 0
Variable quantitative X
X < α ?
1 0
![Page 45: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/45.jpg)
Data Mining
V. Augusto
45/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Definition d’une partition (2/2)
Variable qualitative X
avec M modalites dans E = {e1, . . . , em}.
X ∈ E ′ ⊆ E ?
1 0
X ?
e1 e2 eM
![Page 46: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/46.jpg)
Data Mining
V. Augusto
46/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Choix d’une partition
Principe :
Partitionner les donnees en sous-ensembles les plus≪ purs ≫ possibles, i.e. contenant des objets d’une seule classe.
Exemples de criteres d’impurete :
Soit un ensemble S partitionne en K classes C1, . . . ,CK . SoitPk = |Ck |
|S| .
• Taux d’items mal classes : T (S) = 1−maxk(Pk).
• Entropie : I (S) = −∑
k Pk log2 Pk .
• Critere de Gini : G (S) = 1−∑
k P2k .
![Page 47: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/47.jpg)
Data Mining
V. Augusto
47/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Gain d’information (1/2)
Definition :∆I = I (S)− PLI (SL)− PR I (SR)
avec PL = |SL||S| et PR = |SR |
|S| . I est la fonction d’entropie.
Exemple :
S(20/30)
SL(15/5) SR(5/25)
• I (S) = −20/50 log2(20/50) − 30/50 log2(30/50) = 0, 971
• I (SL) = −15/20 log2(15/20) − 5/20 log2(5/20) = 0, 811
• I (SR) = −5/30 log2(5/30) − 25/30 log2(25/30) = 0, 65
∆I = 0, 971 − 20/50(0, 811) − 30/50(0, 65) = 0, 26
![Page 48: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/48.jpg)
Data Mining
V. Augusto
48/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Gain d’information (2/2)
Cas d’une partition quelconque :
∆I = I (S)−∑
k Pk I (Sk)
dans le cas ou S est decoupe en S1, . . . ,SK , avec Pk = |Sk ||S| .
Probleme :Les variables avec un grand nombre de modalites induisent uneplus grande reduction de l’impurete.⇒ ≪ Gain ratio impurity ≫
∆IK =∆I
−∑
k Pk logPk
![Page 49: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/49.jpg)
Data Mining
V. Augusto
49/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Algorithme de construction
Partionnement d’une feuille :
1 Pour chaque variable Xi , rechercher la partition optimaleP∗i = {S1, . . . ,SN}, i.e. la partition maximisant le gain
d’information.(Si Xi est quantitatif, chercher le seuil α maximisant legain d’information.)
2 Choisir parmi toutes les partition P∗i celle qui maximise le
gain d’information.
Arret :
• Lorsqu’une feuille contient uniquement des objets d’uneseule classe.
• Lorsque le gain en information est inferieur a un seuildonne.
![Page 50: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/50.jpg)
Data Mining
V. Augusto
50/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Exemple 1 (1/3)
![Page 51: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/51.jpg)
Data Mining
V. Augusto
51/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Exemple 1 (2/3)
![Page 52: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/52.jpg)
Data Mining
V. Augusto
52/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Exemple 1 (3/3)
Arbre de decision final :
X < 1, 5 ?
Cercle
1
Y < 2, 5 ?
0
Carre
1
Cercle
0
![Page 53: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/53.jpg)
Data Mining
V. Augusto
53/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Exemple 2 (1/6)
id age income student credit-rating class
1 <30 high no fair no2 <30 high no good no3 30-40 high no fair yes4 >40 medium no fair yes5 >40 low yes fair yes6 >40 low yes good no7 30-40 low yes good yes8 <30 medium no fair no9 <30 low yes fair yes10 >40 medium yes fair yes11 <30 medium yes good yes12 30-40 medium no good yes13 30-40 high yes fair yes14 >40 medium no good no
![Page 54: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/54.jpg)
Data Mining
V. Augusto
54/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Exemple 2 (2/6)• Entropie de depart : I (S) = 0, 940.• Avec l’attribut age :
• age < 30 : I (SL) = 0, 971 et I (SR) = 0, 764 donc∆I = 0, 102.
• age < 40 : I (SL) = 0, 918 et I (SR) = 0, 971 donc∆I = 0, 003.
• Avec l’attribut income :• income = low : I (SL) = 0, 811 et I (SR ) = 0, 971 donc
∆I = 0, 015.• income = medium : I (SL) = 0, 918 et I (SR ) = 0, 954 donc
∆I = 0, 001.• income = high : I (SL) = 1, 0 et I (SR ) = 0, 881 donc
∆I = 0, 025.• Avec l’attribut student :
• student = yes : I (SL) = 0, 592 et I (SR ) = 0, 985 donc∆I = 0.152.
• Avec l’attribut credit − rating :• rating = fair : I (SL) = 0, 811 et I (SR) = 1, 0 donc
∆I = 0, 048.
![Page 55: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/55.jpg)
Data Mining
V. Augusto
55/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Exemple 2 (3/6)
student = yesid age income student credit-rating class
5 >40 low yes fair yes6 >40 low yes good no7 30-40 low yes good yes9 <30 low yes fair yes10 >40 medium yes fair yes11 <30 medium yes good yes13 30-40 high yes fair yes
1 <30 high no fair no2 <30 high no good no3 30-40 high no fair yes4 >40 medium no fair yes8 <30 medium no fair no12 30-40 medium no good yes14 >40 medium no good no
![Page 56: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/56.jpg)
Data Mining
V. Augusto
56/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Exemple 2 (4/6)
• Entropie de depart (student = no) : I (S) = 0, 985.
• Avec l’attribut age :• age < 30 : I (SL) = 0 et I (SR ) = 0, 811 donc ∆I = 0,522.• age < 40 : I (SL) = 0, 811 et I (SR) = 1, 0 donc
∆I = 0, 006.
• Avec l’attribut income :• income = medium : I (SL) = 1, 0 et I (SR ) = 0, 918 donc
∆I = 0, 020.• income = high : I (SL) = 1, 0 et I (SR ) = 0, 918 donc
∆I = 0, 020.
• Avec l’attribut credit − rating :• rating = fair : I (SL) = 1, 0 et I (SR) = 0, 918 donc
∆I = 0, 020.
![Page 57: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/57.jpg)
Data Mining
V. Augusto
57/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Exemple 2 (5/6)
age < 30id age income student credit-rating class
5 >40 low yes fair yes6 >40 low yes good no7 30-40 low yes good yes9 <30 low yes fair yes10 >40 medium yes fair yes11 <30 medium yes good yes13 30-40 high yes fair yes
1 <30 high no fair no2 <30 high no good no8 <30 medium no fair no
3 30-40 high no fair yes4 >40 medium no fair yes12 30-40 medium no good yes14 >40 medium no good no
![Page 58: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/58.jpg)
Data Mining
V. Augusto
58/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Exemple 2 (6/6)
Arbre de decision final :
student ?
Yes
1
age < 30 ?
0
No
1
Yes
0
![Page 59: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/59.jpg)
Data Mining
V. Augusto
59/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Regles d’arret
Exemples de regles d’arret :
• Nombre d’elements dans une feuille inferieur a un seuil.
• Taux de bien classes dans une feuille superieur a un seuil(exemple : maxk(Pk) > 95%).
• Gain d’information inferieur a un seuil (exemple : ∆I < β).
Autre approche : test du χ2
Test de l’independance entre :
• la partition obtenue par maximisation du gaind’information ;
• la partition qui serait obtenue sous l’hypothesed’independance.
![Page 60: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/60.jpg)
Data Mining
V. Augusto
60/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Pour aller plus loin...
Elagage de l’arbre :
• Laisser l’arbre pousser jusqu’a l’obtention de feuillespratiquement pures, puis couper des branches poursimplifier l’arbre.
• Methode : rechercher le sous-arbre minimisant la fonctionde cout-capacite. [Breiman, Olshen et Stone, 1984]
![Page 61: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/61.jpg)
Data Mining
V. Augusto
61/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Pour aller plus loin...
Bagging :
• Amelioration de la stabilite de la methode de classification.
![Page 62: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/62.jpg)
Data Mining
V. Augusto
62/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Conclusion
Avantages :
• Applicables a des variables quantitatives ou qualitatives.
• Intelligibilite de la procedure de classification (avec unetraduction possible sous forme de regles).
• Rapidite du processus de classification (apres constructionde l’arbre).
• Invariance a toute transformation monotone des donnees.
• Selectionne automatiquement les variables les plusimportantes.
Problemes :
• Performance sur de grands volumes de donnees ?
• Choix des variables : arbres multi-varies potentiellementplus performant, mais au detriment de l’intelligibilite dessolutions proposees.
![Page 63: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/63.jpg)
Data Mining
V. Augusto
63/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
1 Introduction
2 Traitement des donneesNettoyage des donneesIntegration des donneesTransformation des donneesSelection des donneesReduction des donnees
3 Extraction de connaissances
4 Post-traitement
5 Exemple de representation : Arbres de decision
6 Perspectives
![Page 64: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/64.jpg)
Data Mining
V. Augusto
64/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Problemes et perspectives
Probleme de performance :
Les volumes de donnees a traiter peuvent etre tres importants.
Solutions :
• Calcul parallele et/ou distribue : utilisation de grilles decalcul.
• Techniques incrementales :• utilisation de resultats anterieurs pour l’optimisation des
calculs de nouvelles requetes d’extraction ;• stockage efficace des resultats de requetes d’extraction.
![Page 65: Data Mining - Accueilaugusto/enseignement/icm/gis1/UP3-2...Le data mining est l’ensemble des algorithmes et m´ethodes : • destin´es a l’exploration et a l’analyse, • pour](https://reader036.fdocument.pub/reader036/viewer/2022081405/5f0a30377e708231d42a7027/html5/thumbnails/65.jpg)
Data Mining
V. Augusto
65/65
Introduction
Traitementdes donnees
Nettoyage desdonnees
Integration desdonnees
Transformationdes donnees
Selection desdonnees
Reduction desdonnees
Extraction deconnaissances
Post-traitement
Exemple derepresentation :Arbres dedecision
Perspectives
Problemes et perspectives
Traitement de donnees de differents types :
• Feuilles de calcul MS Excel.
• Bases de donnees transactionnelles.
• Bases de donnees relationnelles.
• Structures complexes : donnees spatiales, temporelles, etc.
→ Probleme de l’heterogeneite des donnees.
Besoin de langages de requetes d’extraction :
• SQL ne permet pas de mesurer des notions floues(tendances).
• Introduction de nouveaux langages : MSQL, MINE-RULE,DMQL...
• Syntaxes proches de SQL.• Pas de theorie generale et/ou d’algebre.