Download - Techniques du data mining

Transcript

Techniques du Data Mining

DONIA HAMMAMI

ALYA LETAIF

Plan de la présentation

1) Introduction

2) Définition du Data Mining

3) Historique du Data Mining

4) Tâches du Data Mining

5) Techniques du Data Mining

6) Algorithmes du Data Mining

7) Conclusion

L’entreposage de données nous permet de regrouper toutes les données de l’entreprise dans un seul système. De cet entrepôt de données, nous pouvons sélectionner, combiner et analyser différents types de données.

Ce dernier processus s’appelle Data Mining. À l’aide des données disponibles, nous essayons de trouver des associations en comparant ou en combinant les données de différentes sources.

Introduction (1)

Introduction (2)

Le Data Mining est un domaine pluridisciplinaire permettant, à partir d’une

très importante quantité de données brutes, d’en extraire des informations

cachées, pertinentes et inconnues auparavant en vue d’une utilisation

industrielle ou opérationnelle de ce savoir.

Le Data Mining est une découverte de modèles intéressants à partir d’un

ensemble de données de grande taille dans le but est d'extraire des données

disponibles au sein de toute entreprise les informations exploitables.

Définition du Data Mining

Data Mining : forage de données

Data Mining: ensemble des techniques et méthodes destinées à

l’exploration et l’analyse de grandes bases de données informatiques en vue

de détecter dans ces données des règles, des Associations, des structures

pour en extraire l’essentiel de l’information utile dont l’objectif est l’aide à

la décision.

Historique du Data Mining

L’expression « Data Mining » serait apparue pour la première fois dans les années 60.

L’expression « Data Mining » réapparaît dans les années 80.

Le concept apparaît en 1989 sous un premier nom de KDD (Knowledge Discovery in Data bases).

En 1991, le concept du Data Mining ou «fouille des données » apparaisse pour la première fois aux États-Unis comme une nouvelle discipline à l’interface de la statistique et des technologies de l’information.

Tâches du Data Mining (1)

La classification automatique supervisée:

Elle consiste à examiner les caractéristiques d’un objet nouvellement présenté afin

de l’affecter à une classe d’un ensemble prédéfini.

Le modèle généré permet de prédire ou estimer la valeur manquante ou erronée

en utilisant le modèle de classification comme référence.

La classification automatique non supervisée:

Elle vise à identifier des ensembles d’éléments qui partagent certaines similarités.

Elle ne se base pas sur des classes prédéfinies.

Tâches du Data Mining (2)

Les règles d’association :

C’est une tâche qui permet de découvrir les rapports de lien qui peuvent

exister dans une base de données. Ces liens sont généralement exprimés

sous la forme ‘‘ A è B ’’ qui signifie que la présence de A implique la

présence de B (avec une certaine probabilité).

Exemple : Un étudiant qui réussit en mathématiques réussira en

algorithmique dans 80% des cas.

Techniques du Data Mining

Les techniques de « Data Mining » diffèrent en fonction des besoins de

l’utilisateur (selon les tâches à effectuer).

Chacune des tâches regroupe une multitude d’algorithmes pour construire le

modèle auquel elle est associée.

DataMining

Apprentissage Supervisé

Les arbres de décision

Les réseaux de neurones

Apprentissage non

supervisé

Clustering Règles Associatives

Sequence Mining

CART OC1 SLIQ …

AdaBoost Learn++ …

C.hiérarchique K-means EM …

Apriori FP-Growth ECLAT SSDM KDCI …

GSP SPADE …

Algorithmes de DATA Mining

11Algorithme de segmentation non supervisé : K-Means (1)

L’algorithme des K-moyennes est un algorithme qui permet de trouver des

classes dans des données.

Les classes qu’il construit n’entretiennent jamais de relations hiérarchiques:

une classe n’est jamais incluse dans une autre classe

L’algorithme fonctionne en précisant le nombre de classes attendues.

L’algorithme calcule les distances Intra-Classe et Inter-Classe.

Mesures de similarité :

Il n’y a pas de définition unique de la similarité entre objets .

Différentes mesures de distances d (x ,y).

La définition de la similarité entre objets dépend de :

Le type des données considérées

Le type de similarité recherchée

Algorithme de segmentation non supervisé : K-Means (2)

Données Numériques :

Distance de Minkowski:

Distance Euclidienne: K=2

Distance de Manhattan : K=1

Algorithme de segmentation non supervisé : K-Means (3)

14Algorithme de segmentation non supervisé : K-Means (4)

Données binaires: d(0,0)=d(1,1)=0, d(0,1)=d(1,0)=1

Donnée énumératives: Distance nulle si les valeurs sont égales et 1 sinon.

Donnée énumératives ordonnées: idem. On peut définir une distance utilisant la relation d’ordre.

15Algorithme de segmentation non supervisé : K-Means (5)

Algorithme K-Means

Entrée : k le nombre de groupes cherchés

DEBUT

Choisir aléatoirement les centres des groupes

REPETER

i. Affecter chaque cas au groupe dont il est le plus proche au son centre

ii. Recalculer le centre de chaque groupe

JUSQU‘A (stabilisation des centres) OU (nombre d'itérations =t) OU (stabilisation de l’inertie totale de la population)

FIN

16Algorithme de segmentation non supervisé : K-Means (6)

Inconvénients du K-Means

Le nombre de classes est un paramètre de l’algorithme. Un bon choix du nombre k est

nécessaire, car un mauvais choix de k produit de mauvais résultats.

Les points isolés sont mal gérés (doivent-ils appartenir obligatoirement à un cluster ?)

L'algorithme du K-Means ne trouve pas nécessairement la configuration la plus optimale

correspondant à la fonction objective minimale.

Les résultats de l'algorithme du K-Means sont sensibles à l'initialisation aléatoires des centres.

Algorithme de segmentation non supervisé : K-Means (7)

Domaines D’application : Marketing : segmentation du marché en découvrant des groupes de clients distincts à

partir de la base de données des achats.

Environnement : identification des zones terrestre similaire ( en terme d’utilisation ) dans une base de donné d’observation de la terre.

Assurance : identification des groupes d’assurés distincts associé à un nombre important de déclarations.

Planification de villes : identification des groupe d’habitants suivant le type d’habitation, ville , localisation géographique …

Médecine : Localisation de tumeurs dans le cerveau

Algorithme de segmentation non supervisé : K-Means (8)

Les règles d’association (1)

Les règles d'association sont traditionnellement liées au secteur de la distribution car leur

principale application est «l'analyse du panier de la ménagère» qui consiste en la recherche

d'associations entre produits sur les tickets de caisse.

Le but de la méthode est l'étude de ce que les clients achètent pour obtenir des

informations sur qui sont les clients et pourquoi ils font certains achats.

Exemples de règles d'association: Si un client achète des plantes alors il achète du terreau,

Si un client achète du poisson et du citron alors il achète du coca.

Si un client achète une télévision, il achètera un magnétoscope dans un an.

Description de la méthode :

On suppose avoir défini une liste d'articles.

On dispose en entrée d'une liste d'achats.

Définitions:

Une règle d'association est une règle de la forme: Si condition alors résultat.

Dans la pratique, on se limite, à des règles où la condition est une conjonction d'apparition d'articles et le

résultat est constitué d'un seul article.

Par exemple, une règle à trois articles sera de la forme: Si X et Y alors Z; règle dont la sémantique peut être

énoncée: Si les articles X et Y apparaissent simultanément dans un achat alors l'article Z apparaît.

Les règles d’association (2)

La méthode peut être appliquée à tout secteur d'activité pour lequel il est

intéressant de rechercher des groupements potentiels de produits ou de

services: services bancaires, services de télécommunications.

Elle peut être utilisée dans le secteur médical pour la recherche de

complications dues à des associations de médicaments ou à la recherche de

fraudes en recherchant des associations inhabituelles.

Les règles d’association (3)

Modèles de prédiction : Les arbres de décision (1)

« Les arbres de décision » permettent de classifier une population d’individus selon les valeurs

de leurs attributs. C’est une représentation graphique de la procédure de classification où :

Une feuille indique une classe ;

Un nœud spécifie un test que doit subir un certain attribut ;

Chaque branche correspond à une valeur possible de l’attribut.

Pour classifier un nouvel objet, on suit le chemin partant de la racine (nœud initial) à une feuille

en effectuant les différents tests d’attributs à chaque nœud.

Apprentissage des arbres de décisionAlgorithme d'apprentissage par arbres de décisiondonnée: un échantillon S de m enregistrements initialisation: arbre vide ; nœud courant : racine ; échantillon courant : SRépéterdécider si le nœud courant est terminalSi le nœud courant est terminal Alors

étiqueter le nœud courant par une feuilleSinon

sélectionner un test et créer le sous arbreFinsinœud courant : un nœud non encore étudiééchantillon courant : échantillon atteignant le nœud courantJusque production d'un arbre de décisionsortie

Modèles de prédiction : Les arbres de décision (2)

Modèles de prédiction : Les arbres de décision (3)

Exemple : Base d’apprentissage:

décisions prises les 8

jours précédents le

problème (4 attributs

binaires et une classe)

Modèles de prédiction : Les arbres de décision (4)

Entropie d’une variable aléatoire w :

Entropie de w conditionnée par a :

Résultat classique :

wDu

upupwH ))(log()()(

aw DDvu

vupvupawH*,

))|(log(),()|(

)|()()|( awHwHawI

Devoirs finis Maman de bonnehumeur

Temps = beau Goûterpris

Décision

1 Vrai Faux Vrai Faux OUI2 Faux Vrai Faux Vrai OUI3 Vrai Vrai Vrai Faux OUI4 Vrai Faux Vrai Vrai OUI5 Faux Vrai Vrai Vrai NON6 Faux Vrai Faux Faux NON7 Vrai Faux Faux Vrai NON8 Vrai Vrai Faux Faux NON

Modèles de prédiction : Les arbres de décision (5)

Calcul de H(w|DF), H(w|BH), H(w|TB) et H(w|GP)

H(w|BH) = 0.93, H(w|TB) = 0.8 et H(w|GP) = 1

)(83)(

85)|( FauxDFJVraiDFJDFwH

52log

53log

53)( VraiDFJ

32log

31log

31)( FauxDFJ

Modèles de prédiction : Les arbres de décision (6)

Modèles de prédiction : Les arbres de décision (7)

Compréhensible pour tout utilisateur (lisibilité du résultat –règles -arbre)

Justification de la classification d’une instance (racine -> feuille)

Tout type de données

Robuste au bruit et aux valeurs manquantes

Attributs apparaissent dans l’ordre de pertinence : tâche de pré- traitement (sélection

d’attributs)

Classification rapide (parcours d’un chemin dans un arbre)

Outils disponibles dans la plupart des environnements de data mining

Modèles de prédiction : Les arbres de décision (8)

C’est une approche qui a été privilégiée par l'Intelligence Artificielle.

Les réseaux de neurones sont fortement inspirés par le système nerveux

biologique.

On peut entraîner un réseau de neurone pour une tâche spécifique

(reconnaissance de caractères par exemple) en ajustant

les valeurs des connections (ou poids) entre les éléments

neurone).

Modèles de prédiction : Les réseaux de neurones(1)

Soma Soma

Synapse

Dendrites

Axon

Synapse

DendritesAxon

Qu'est-ce qu'un neurone ?

Un neurone est une cellule d'un

système permettant la

communication et le traitement

de l'information.

Qu'est-ce qu'un neurone

artificiel ?

Les réseaux de neurones artificiels sont un moyen de modéliser le mécanisme d'apprentissage et de

traitement de l'information qui se produit dans le cerveau humain.

Modèles de prédiction : Les réseaux de neurones(2)

Structure d’un neurone artificiel

Mise en correspondance neurone biologique / neurone artificiel

Modèles de prédiction : Les réseaux de neurones(3)

Biological Neuron Artificial Neuron

corps cellulaireneurone

Dendrites inputsAxoneoutputSynapsepoids

Réseaux de neurones naturels vs. artificiels

réseau naturel réseau artificiel

fonctionnement du neurone

réactions chimiques fonctionsmathématiques

temps de réaction relativement lent très rapide

nombre de neurones environ 10¹º entre 10 et 10⁴ ⁵

nombre de connexions environ 10¹³ jusqu'à 10⁷

Modèles de prédiction : Les réseaux de neurones(4)

Modèles de prédiction : Les réseaux de neurones(5)

• Les entrées "E" du neurone proviennent soit d’autres éléments "processeurs", soit de l’environnement.

• Les poids "W" déterminent l’influence de chaque entrée.

• La fonction de combinaison "p" combine les entrées et les poids.

• La fonction de transfert calcule la sortie "S" du neurone en fonction de la combinaison en entrée.

Σ Fct

w2w3w4wn

Σ fp

FONCTION de

TRANSFERT

FONCTION de

COMBINAISON

La Fonction de Combinaison calcule l’influence de chaque entrée en tenant compte de son poids. p = ∑ Wi Ei• Wi : Poids de la connexion à l’entrée i.

• Ei : Signal de l’entrée i.

Σ f

w2w3w4wn

FONCTION de

COMBINAISON

FONCTION de

TRANSFERT

La Fonction de Transfert détermine l'état du neurone (en sortie)

• Calcul de la sortie : S = f(p)

• La fonction de transfert "f" peut avoir plusieurs formes.

Modèles de prédiction : Les réseaux de neurones(6)

Modèles de prédiction : Les réseaux de neurones(7)

Les fonctions de transfert :

Domaines d’application : Traitement du signal

Reconnaissance des formes

Robotique

Diagnostique et suivi médical Demande de crédit

Modèles de prédiction : Les réseaux de neurones(8)

Reconnaissance des formes : A2iA est aujourd'hui un des spécialistes mondiaux de reconnaissance de

l‘écriture manuscrite ou imprimée de qualité quelconque.

Elle a mis au point un système opérationnel de lecture automatique des montants littéraux des chèques.

Modèles de prédiction : Les réseaux de neurones(9)

Reconnaissance des formes : Le logiciel permet de saisir le montant d'un cheque quelconque. Il combine la

reconnaissance du montant chiffre avec la reconnaissance du montant lettre, ce qui permet d'augmenter le taux d'acceptation et de diminuer le taux de rejet, et d'atteindre un taux de confusion très faible de l'ordre de 1 / 1 000, inférieur au taux d'erreur de saisie humaine.

Modèles de prédiction : Les réseaux de neurones(10)

Inconvénients :

Le modèle n’est pas très lisible

Traitement des données numériques après normalisation

Avantages :

Calcul de classification simple

Temps d’apprentissage

Apprentissage non incrémental

Pas pour un grand nombre d’entrées

Modèles de prédiction : Les réseaux de neurones(11)

Algorithme de classification supervisée : K-NN (1)

La méthode des k plus proches voisins est une méthode d’apprentissage supervisé, dédiée à la classification.

Encore appelée KNN : k-nearest neighbor.

L’algorithme KNN figure parmi les plus simples algorithmes d’apprentissage artificiel.

L’objectif de l’algorithme est de classer les exemples non étiquetés sur la base de leur similarité avec les exemples de la base d’apprentissage .

L’algorithme kNN est utilisée dans de nombreux domaines :

La reconnaissance de formes.

La recherche de nouveaux biomarqueurs pour le diagnostic.

Algorithmes de compression.

Analyse d’image satellite…

Principe de fonctionnement Paramètre : le nombre k de voisins

Donnée : un échantillon de m exemples et leurs classes

La classe d’un exemple X est c(X)

Entrée : un enregistrement Y

1. Déterminer les k plus proches exemples de Y en calculant les distances

2. Combiner les classes de ces k exemples en une classe c

Sortie : la classe de Y est c(Y)=c

Algorithme de classification supervisée : K-NN (2)

Principe:

Algorithme de classification supervisée : K-NN (3)

Algorithme de classification supervisée : K-NN (4)

Exemple:

Pas d’apprentissage: introduction de nouvelles données ne nécessite pas la reconstruction du

modèle. Tous les calculs doivent être effectues lors de la classification,

Clarté des résultats,

Tout type de données,

Nombre d’attributs : La méthode permet de traiter des problèmes avec un grand nombre

d'attributs,

Mais, plus le nombre d'attributs est important, plus le nombre d'exemples doit être grand.

Algorithme de classification supervisée : K-NN (4)

Conclusion

Les techniques de Data Mining ne font pas état des hypothèses fixées à priori, comme le font les

statistiques traditionnelles, mais cherchent à ‘‘établir’’ un modèle par l’exploration des bases de

données. Le Data Mining fait passer de l’analyse confirmatoire à l’analyse exploratoire.

Le choix d’un algorithme approprié dépend fortement du contexte de son application, la nature des

données et les ressources disponibles. Une analyse attentive des données aide à bien choisir le

meilleur algorithme à partir du moment qu’il n’existe pas un algorithme qui peut répondre à toutes

les demandes.

Merci Pour votre attention

Top Related

Data Mining: Concepts and Techniques - TUTavisa/5306lec4.pdf · Why Data Mining Primitives and Languages? • Finding all the patterns autonomously in a database? — unrealistic

Data are the new oil: Big data, data mining and bio - inspiring techniques

Data mining vs RFM en marketing: une étude … · d’un modèle RFM (Récence, Fréquence, Montant) et des techniques de data mining est proposée pour mener une étude de marché.

Machine Learning for Biological Data Mining · 2015-12-16 · Machine Learning Techniques for Bio Data Mining?Sequence Alignment? Simulated Annealing? Genetic Algorithms?Structure

Data Mining 1 Mining...ถ้าไม่มีโครงสร้างจะเป็น text-mining, web-mining, image-mining

DATA MINING TECHNIQUES FOR IDENTIFICATION OF …

Techniques du Data Mining - e-monsitefahmi-benrejab.e-monsite.com/medias/files/s03-clustering.pdf · 2019-11-06 · Techniques du Data Mining Clustering: K-means. Clustering 2. 3

3/5/10 Data Mining: Concepts and Techniques