Download - Fouilles de Données Introduction à la fouille de donn é es

Transcript

Fouilles de Données

Introduction à la fouille de données

Christelle ScharffIFI

Juin 2004

Page 2: Fouilles de Données Introduction à la fouille de donn é es

Exemples http://www.amazon.fr Le panier de la ménagère Connaissez-vous?

Page 3: Fouilles de Données Introduction à la fouille de donn é es

Questions Est-ce une bonne idée de faire de la

publicité de musique rap dans des magazines pour personnes âgées?

Est-ce que vous saviez que les compagnies de cartes de crédit peuvent suspecter un vol de carte, même si le propriétaire de la carte n’est pas encore au courant?

Est-ce que vous savez pourquoi les entreprises liées à la bourse sponsorisent les tournois de golfs télévisés?

Page 4: Fouilles de Données Introduction à la fouille de donn é es

Plan et objectifs

Comprendre ce qu’est la FDD? KDD Modèles Applications de la FDD Recherche en FDD

Page 5: Fouilles de Données Introduction à la fouille de donn é es

Données et information Les entreprises produisent des quantités

énormes de données Sources: affaires, science, géographie,

environnement… Les données sont des ressources de valeur Besoin de techniques pour analyser les

données et extraire des informations / connaissances automatiquement Données = faits Information = modèle / motif (pattern) dans les

données

Fouille de données (FDD) Fouille / découverte de connaissances dans

les données ou création d’un modèle des données

Processus qui emploie des techniques d’apprentissage automatiques et intelligentes pour analyser et extraire des connaissances, de grandes quantités de données

98% de ce que les humains apprennent proviennent de reconnaissance des formes [Kurzwell]

Page 7: Fouilles de Données Introduction à la fouille de donn é es

Pourquoi la FDD maintenant? Des machines plus puissantes Existence d’algorithmes de fouille de

données Collections et sauvegardes des données

améliorées Domaine à la confluence de différents

domaines: base de données, statistiques, intelligence artificielle, visualisation, parallélisme…

Domaine pluridisciplinaire

Page 8: Fouilles de Données Introduction à la fouille de donn é es

KDD* Découverte de connaissances dans les

données (KDD) Application de méthodes scientifiques à

la fouille de données Le processus de KDD est composé de:

Sélection des données Pré-traitement des données Transformation des données La fouille de données Interprétation et évaluation des modèles

Page 9: Fouilles de Données Introduction à la fouille de donn é es

Modèles pour KDD SEMMA

Échantillonner Explorer Modifier Modeler Évaluer

SAS

Page 10: Fouilles de Données Introduction à la fouille de donn é es

Systèmes pour la FDD* Composition:

Bases de données, entrepôts de données…

Serveurs de bases de données ou d’entrepôts de données

Bases de connaissances Engins de fouille de données Modules d’évaluation du modèle Interfaces graphiques pour l’utilisateur

Page 11: Fouilles de Données Introduction à la fouille de donn é es

Apprendre Apprendre quelque chose de nouveau Faits (vrais ou faux) Concepts

Ensembles de symboles, objets et évènements groupés parce qu’ils partagent les même caractéristiques

Procédures Cours d’actions réalisées étape par étape pour

atteindre un but Principes

Plus haut niveau d’abstraction Règles ou vérités qui sont les bases pour d’autres

vérités

Page 12: Fouilles de Données Introduction à la fouille de donn é es

Apprentissage supervisé Modèle inductif où l’apprenant considère

un ensemble d’exemples, et infère l’appartenance d’un objet à une classe en considérant les similarités entre l’objet et les éléments de la classe

Les classes sont étiquetées préalablement (sports et loisirs, art et culture…)

La plupart des algorithmes (classification, estimation, prédiction) utilisent l’apprentissage supervisé

Page 13: Fouilles de Données Introduction à la fouille de donn é es

Apprentissage non supervisé

Construction d’un modèle et découverte des relations dans les données sans référence à d’autres données

On ne dispose d'aucune autre information préalable que la description des exemples

La segmentation, le regroupement (cluster), la méthode des k-moyennes et les associations sont des méthodes d’apprentissage non supervisées

Page 14: Fouilles de Données Introduction à la fouille de donn é es

Concepts / Modèles Les concepts sont les résultats de la fouille de

données Ils montrent les relations dans les données ou

groupent des éléments fondés sur leur ressemblance Structures:

Arbres de décision Règles Réseaux de neurones Équations mathématiques…

Parfois, pas de réelles structures Exemples / Instances Regroupements (clusters)

Page 15: Fouilles de Données Introduction à la fouille de donn é es

Exemples de modèles Vue classique:

Si salaire annuel >= 30,000 et années de service >= 5 et propriétaire = vrai alors risque de défaut de paiement = faux

Age(X, “jeune”) et Salaire(X,”élevé”) Classe(X,”A”)

Vue probabilistique: La plupart des personnes qui ont un bon

crédit sont propriétaires

Page 16: Fouilles de Données Introduction à la fouille de donn é es

Exemples de modèles Vue exemplaire:

Un exemple est déterminé comme une instance d’un concept

Les exemples suivants sont considérés comme ayant un bon crédit:

Salaire = 32,000, années = 6, propriétaire

Salaire = 52,000, années = 16, locataire

Page 17: Fouilles de Données Introduction à la fouille de donn é es

Exemples de modèles Les exemples peuvent être présentés

par des tables:

Age Salaire

Classe Total

Jeune Elevé A 1402

Jeune Bas B 1038

Agé Elevé C 786

Page 18: Fouilles de Données Introduction à la fouille de donn é es

Exemples de modèles

Diagrammes: Histogramme Camembert

Arbre de décision Cube de données

Page 19: Fouilles de Données Introduction à la fouille de donn é es

Applications: Grande Distribution

Vente par correspondan

Définition de profils des

clientsAnalyse du panier de la ménagèreAnalyse des données liées au paiement (adresse, sexe…)

Prédiction des taux de réponses à des listes de diffusionsOptimisation des réapprovisionnementsPropositions spécifiques de services à des individus profilésÉlimination des “mauvais” clients

Page 20: Fouilles de Données Introduction à la fouille de donn é es

Application: AssurancesAssurances Définition des

profils des clients

Analyse des données personnelles (sexe, age, profession…)Analyse des données sur les éléments à assurer (type de voiture, puissance…)Analyse des sinistres

Élimination des “mauvais” clientsTarification du contratÉvaluation des risquesDétection des fraudes

Page 21: Fouilles de Données Introduction à la fouille de donn é es

Application: BanquesBanques Définition des

profils des clients

Analyse de la situation bancaire (solde, produits bancaires …)Analyse de données supplémentaires (sexe, profession, situation familiale…)

Élimination des “mauvais” clientsAutorisation de crédits aux “bons” clientsPropositions spécifiques de services

Page 22: Fouilles de Données Introduction à la fouille de donn é es

Application: BanquesBanques Détection des

évolutions de profils

Analyse de la situation bancaire (solde, produits bancaires possédés…)Analyse des données supplémentaires (situation familiale, profession…)

Détection de la lassitude d’un client (possibilité de trouver de nouvelles propositions plus adaptées)Détection de l’amélioration ou de la détérioration de la situation bancaire

Page 23: Fouilles de Données Introduction à la fouille de donn é es

Application: BanquesBanques Détection de

comportements particuliers

Analyse de la situation bancaire (solde, produits bancaires possédés…)Analyse des données supplémentaires (situation familiale, profession…)

Détection des fraudes (utilisation anormale des systèmes de paiement)

Page 24: Fouilles de Données Introduction à la fouille de donn é es

Application: Bourse

Analyse du cours de la bourse pour pouvoir passer des ordres automatiques de transactions boursières

Page 25: Fouilles de Données Introduction à la fouille de donn é es

Application: Production Industrielle

Production industrielle

Prédiction et détection

Analyse du fonctionnement de la chaîne de productionAnalyse des produitsAnalyse des ventesAnalyse de questionnaires (prospectifs, satisfaction…)

Optimisation de la productionAdéquation au marchéAnticipation des défautsDiagnostics de pannes

Page 26: Fouilles de Données Introduction à la fouille de donn é es

Application: InternetInternet Déterminatio

n d’un thème, d’un sujet

Analyse automatique de sites toileAnalyse automatique du courrier électronique

Aide à l’organisation des messages reçusMoteur de recherche évolué (design des systèmes)Décision de marketingEspionnage

Page 27: Fouilles de Données Introduction à la fouille de donn é es

Application: Sport

Le système SCOUT d’IBM analyse les matches de baskets de la NBA pour faire gagner les Knicks de New York

Page 28: Fouilles de Données Introduction à la fouille de donn é es

FDD: Sur quelles données? (1) Base de données relationnelles Base de données transactionnelles Base de données orientées objets Base de données relationnelles

objets Base de données temporelles

Exemple: Bourse

Page 29: Fouilles de Données Introduction à la fouille de donn é es

FDD: Sur quelles données? (2) Base de données spatiales

Exemples: Images provenant de satellites, cartes géographiques

Base de données hétérogènes Base de données “héréditaires” Entrepôts de données* Base de données textuelles

Les données sont décrites par des mots Exemples: La toile, le courrier électronique,

les pages html/xml

Page 30: Fouilles de Données Introduction à la fouille de donn é es

FDD: Sur quelles données? (3) Base de données multimédia

Des techniques de recherche et de stockage avancées sont nécessaires

La toile / Internet Besoins de techniques particulières

à chaque type de données pour la fouille de données

Page 31: Fouilles de Données Introduction à la fouille de donn é es

OLTP / OLAP / FDD / Systèmes Experts / Statistiques

OLTP OLAP FDD

Données Technique de FDD Modèle(s) Systèmes experts: Programmes qui simulent les habilités

de résolution de problèmes dans des domaines spécifiques

Expert (humain), ingénieur, scientifique Système Expert Modèle

Statistiques Obtention de modèles paramétrés, les données pour

les estimations et la validité des estimations sont les même, les données présentes sont les seules considérées

Page 32: Fouilles de Données Introduction à la fouille de donn é es

On ne peut pas tout faire…et tout n’est pas de la FDD La FDD offre des outils et des méthodologies

qui peuvent aider à comprendre les données et faire des prédictions

Mais: Il n’y a pas de solution générale et complètement

automatique Les techniques doivent être adaptées au

problème considéré La FDD doit être comprise La FDD ne remplace pas les experts, mais les

assiste

Page 33: Fouilles de Données Introduction à la fouille de donn é es

FDD: Vrai ou faux? Liste des produits vendus pendant le

premier semestre 2003 par le supermarché AUCHAN

Total des ventes de produits de AUCHAN en 2003

Les personnes qui achètent un ordinateur achètent parfois une imprimante en même temps

Les hommes de moins de 25 ans répondent aux offres X avec une probabilité de 90%

Page 34: Fouilles de Données Introduction à la fouille de donn é es

Classification des fonctions de la FDD Les fonctions de la FDD sont

classées en 2 catégories: Les fonctions descriptives

Description des propriétés des données Les fonctions prédictives

Inférence sur les données pour faire des prédictions

Page 35: Fouilles de Données Introduction à la fouille de donn é es

Les fonctions de la FDD: Classification et Prédiction Classification et prédiction

Diviser / grouper les instances dans des classes spécifiques pour des prédictions futures

Prédire des valeurs (classes) inconnues ou manquantes Exemples:

Les clients loyaux / les clients non-loyaux Les transactions frauduleuses / les transactions

générales Prédire les taux de réponses à une offre

Algorithmes: Arbres de décision, règles de classification,

classification Bayésienne, algorithmes génétiques, algorithme des k plus proches voisins, l’approche Rough Sets, régression linéaire et non linéaire

Page 36: Fouilles de Données Introduction à la fouille de donn é es

Les fonctions de la FDD: Regroupement (Cluster)

Regroupement d’éléments de proche en proche fondé sur leur ressemblance

Les classes sont inconnues, et sont donc créées

Exemple: Segmentation du marché

Algorithmes: K-moyennes Réseaux neuronaux

Page 37: Fouilles de Données Introduction à la fouille de donn é es

Les fonctions de la FDD:Associations

Mise en relation des données Exemples:

Le panier de la ménagère: Les personnes qui achètent des chips achètent

aussi du coca-cola Age(X, “20…29”) et Salaire(X, “20000…

29000”) Achete(X,”PC”) [ support = 2%, confidence = 60%]

L’algorithme A Priori pour obtenir des règles d’association

Page 38: Fouilles de Données Introduction à la fouille de donn é es

Les fonctions de la FDD: Caractérisation et Discrimination

Caractérisation: Généralise les données d’une classe

Exemple: Général profil des régions pluvieuses

Discrimination: Compare les données d’une classe avec une ou plusieurs classes (de comparaison) Gestion des anomalies

Exemple: Les ventes de logiciels qui ont augmenté de 10%

par rapport à celles qui ont augmente de 30%

Page 39: Fouilles de Données Introduction à la fouille de donn é es

Évaluation des modèles (1) Génération d’un grand nombre de modèles Le modèle est-il intéressant? Mesures d’intérêt d’un modèle:

Nouveau Facile à comprendre Valide sur de nouvelles données (avec une

certaine mesure de certitude) Utile Confirme (ou infirme) les hypothèses d’un expert

Page 40: Fouilles de Données Introduction à la fouille de donn é es

Évaluation des modèles (2) Évaluation d’un modèle

subjective (expert) objective (statistiques et structure des modèles)

Peut-on trouver tous les modèles? (Complétude)

Peut-on générer seulement les modèles intéressants? (Optimisation) Génération de tous les modèles et filtrage suivant

certaines mesures et caractéristiques Non réaliste

Générer seulement les modèles vérifiant une condition particulière

Page 41: Fouilles de Données Introduction à la fouille de donn é es

Mesure pour l’évaluation des modèles Exemple des règles d’association X Y Support (X Y ) = P(X et Y) Confidence ( X Y ) = P (Y | X) = P (X

et Y ) / P(X) Exemple: Age(X, “20…29”) et

Salaire(X, “20000…29000”) Achète(X,”PC”) [ support = 2%, confidence = 60%]

Page 42: Fouilles de Données Introduction à la fouille de donn é es

Construction et évaluation d’un modèle

Les données sont séparées en 3 ensembles: Ensemble d’entraiment Ensemble de validation Ensemble test

Page 43: Fouilles de Données Introduction à la fouille de donn é es

Logiciels Logiciels très sophistiqués Weka (installé pour vous à l’ IFI) Dbminer Xlminer SQL Server 2000 …

Page 44: Fouilles de Données Introduction à la fouille de donn é es

Recherche en FDD (1) Méthodologies de FDD et interaction avec

l’utilisateur: Découvrir différentes sortes de connaissances

dans les données La FDD interactive Incorporation d’un ensemble de connaissances

particulières Langage de FDD (tel que SQL, DMQL) Présentation et visualisation des résultats Traitement du bruit et des données incomplètes Évaluation du modèle

Page 45: Fouilles de Données Introduction à la fouille de donn é es

Recherche en FDD (2) Performance

Efficacité et adaptabilité des algorithmes de FDD

Algorithmes incrémentaux et parallèles Diversité des types de données

Données relationnelles et données complexes

Bases de données hétérogènes…

Page 46: Fouilles de Données Introduction à la fouille de donn é es

Exercice (1) Problème: Améliorer le processus

d’acceptation et de rejet des crédits pour diminuer les pertes dues aux défauts de paiements

Les étapes Les données Définir les objectifs Traduire le problème en un problème de

fouille de données

Exercice (2) Prédire si un client va être en défaut de

paiement ou pas (Classification) Prédire les profits escomptés résultant

de l’ajustement des défauts de paiement (Estimation et prédiction)

Sont à prendre en compte: Le domaine d’application Les données considérées Le(s) modèle(s) que l’on veut générer Les techniques que l’on veut/doit utiliser