Curso MNPS 2017: Segmentação e ROIs. Image Segmentation and ROIs
Datamining La famille des rois de France
Transcript of Datamining La famille des rois de France
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
1
Université Paris IX - Dauphine - DESS Informatique Décisionnelle
Projet Datamining – E. Diday
Datamining
La famille des rois de France Chrystelle Drouin
Sandrine Dyèvre
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
2
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
3
Introduction Présentation du contexte
Depuis deux décennies environ, l’attention des entreprises s’est progressivement
détournée des systèmes opérationnels, vitaux mais sans valeur ajoutée concurrentielle
réelle, pour se porter sur des systèmes décisionnels, sans apport direct en matière de
productivité mais qui contribuent véritablement à la différenciation de l’entreprise.
Ainsi, maîtriser l’information pour être meilleur que ses concurrents constitue l’enjeu majeur
de toute entreprise dans un contexte de concurrence mondiale. Mais qu’est-ce que maîtriser
l’information pour bien décider ? Il s’agit d’avoir les ‘bonnes’ données, exploitées par de
‘bons’ outils, au ‘bon’ moment.
Or, au premier rang des technologies actuelles de l’information, le Data Mining, dont
une traduction succincte pourrait être « fouille de données », offre une réelle possibilité
d’exploiter finement, rapidement et intelligemment les données, afin de permettre aux
utilisateurs de mieux orienter leurs actions.
En effet, le Data Mining regroupe un ensemble de procédures mathématiques qui
consistent à partir d’un ensemble de données, pouvant être de grande dimension ou de
grande complexité, afin d’en extraire des informations significatives. Cette connaissance
extraite peut venir corroborer des hypothèses envisagées, ou bien il peut s’agir
d’informations inconnues jusque là.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
4
Domaine d’étude
Comme l’analyse de données symboliques prend une importance grandissante, nous
proposons dans un premier temps de s’intéresser aux concepts relatifs au Data Mining, ainsi
qu’aux outils du marché ; pour ensuite se focaliser sur le logiciel SODAS.
Ce dernier sera utilisé afin d’extraire des informations concentrées dans une base de
données relationnelle portant sur la famille des rois de France.
Ainsi, dans un deuxième temps, nous expliquerons le contexte général de notre
étude, puis nous tenterons d’extraire de ces données des connaissances ou « pépites »
d’informations, grâce aux différentes méthodes disponibles dans le logiciel SODAS.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
5
Table des matières Introduction 3
Partie I 9
Définition du Datamining 11
1.1 Le Datamining ou fouille de données 11
1.2 Présentation du processus de Datamining 12
Positionnement du Datamining par rapport aux autres techniques du décisionnel 14
2.1 L’analyse de données 14
2.2 Le Datawarehouse 15
2.3 Positionnement global de ces techniques 16
Le processus de Datamining 18
3.1 Poser le problème 18
3.2 Rechercher les données 18
3.3 Sélectionner les données pertinentes 19
3.4 Nettoyer les données 19
3.5 Effectuer des actions sur les données 19
3.6 Rechercher le modèle 20
3.7 Evaluer le résultat 20
3.8 Intégrer la connaissance 20
Les outils du Datamining 22
4.1 Les logiciels du marché 22
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
6
4.1.1 Intelligent Miner d’IBM 22
4.1.2 Clementine d’ISL 24
4.1.3 Entreprise Miner de SAS 25
4.1.4 SPAD de DECISIA 26
4.1.5 SPSS 27
4.1.6 Insigntful Miner 2 de Insightful 28
4.2 Le logiciel SODAS 30
Partie I I 33
Présentation des données 35
1.1 Base de données 35
1.1.1 Modèle conceptuel 35
1.1.2 Schéma relationnel 36
1.1.3 Tables 36
1.2 Des données aux objets symboliques 37
1.2.1 Caractéristiques de la base de données 37
1.2.2 Analyse de données symboliques 38
1.2.3 Description symbolique des variables 38
1.3 Etude 39
1.3.1 Thème de l’étude 39
1.3.2 Analyses envisagées 39
Introduction au logiciel SODAS 41
2.1 Description générale 41
2.1.1 Fenêtre principale 41
2.1.2 Chaining 42
2.2 DB2SO : des bases de données aux données symboliques 44
2.2.1 Sélection de la base de données relationnelle 45
2.2.2 Extraction des individus 46
2.2.3 Création des fichiers SODAS 51
2.2.4 Ajout de variable classe 51
2.2.5 Ajout de taxonomie 52
2.2.6 Ajout de variable mère / fille 53
2.2.7 Vue générale de l’extraction 54
2.3 Présentation des méthodes d’analyse 55
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
7
SOE : Symbolic Object Editor 57
3.1 Présentation de la méthode SOE 57
3.2 Application de la méthode SOE 59
3.2.1 Les règnes des rois de France 60
3.2.2 Les enfants des rois de France 66
STAT : Méthode de statistiques élémentaires 69
4.1 Présentation de la méthode STAT 69
4.1.1 Fréquences relatives pour les variables multi-nominales 70
4.1.2 Fréquences relatives pour les variables intervalles 70
4.1.3 Capacités et Min/max/mean pour les variables probabilistes 71
4.1.4 Biplot pour les variables intervalles 71
4.2 Application de la méthode STAT 72
4.2.1 Années de naissance et de décès 72
4.2.2 Durée de vie 74
4.2.3 Biplots obtenus pour les variables intervalles correspondantes 76
TREE : Arbre de décision 78
5.1 Présentation de la méthode TREE 78
5.2 Application de la méthode TREE 79
5.2.1 Caractéristiques communes de la méthode TREE 80
5.2.2 Comparaison des arbres obtenus pour la famille entière,
la lignée directe et les rois de France 81
DIV : méthode de classification hiérarchique descendante 85
6.1 Présentation des méthodes de classification hiérarchique descendante 85
6.1.1 Principe des méthodes 85
6.1.2 Choix et partitionnement des classes 86
6.1.3 La méthode DIV de SODAS 87
6.2 Application de la méthode DIV 87
6.2.1 Le numéro de l’enfant dans la fratrie 87
6.2.2 Durée de vie et durée de règne 89
PYR : méthode de classification pyramidale 91
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
8
7.1 Présentation de la classification pyramidale 91
7.1.1 Principe 91
7.1.2 Données en entrées 91
7.2 Analyse de données 92
7.2.1 Les enfants des individus 92
PCM : Analyse en composantes principales 94
8.1 Principe de l’analyse en composantes principales 94
8.2 Application de la méthode PCM 96
8.2.1 Corrélations entre les années de naissance, de décès et durée de vie 96
Conclusion 99
Glossaire 100
Bibliographie 101
Annexes 102
Vue d’ensemble des filières 103
1.1 Les familles royales 103
1.2 La lignée directe 104
1.3 Les rois 105
Contenu du CD-ROM 106
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
9
Partie I
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
10
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
11
Définition du Datamining 1.1 Le datamining ou fouille de données
On appelle donnée ce qui est admis, connu ou reconnu et qui sert de base à un
raisonnement, de point de départ pour une recherche, une étude.
Le datamining correspond à l’ensemble à des techniques et des méthodes qui, à
partir de données, permettent d’obtenir des connaissances exploitables. C’est une discipline
d’exploration et d’analyse de grandes quantités de données afin de découvrir des formes et
des règles significatives en utilisant des moyens automatiques ou semi-automatiques. Le
datamining permet de faire apparaître des corrélations cachées dans des gisements de
données.
Il s’agit en fait d’une amélioration des approches d’analyses de données
traditionnelles et d’une extension de leur champs d’application par l’utilisation d’une nouvelle
génération d’outils d’analyse rendus plus performant par l’intégration de nouveaux types
d’algorithmes dits génétiques ou neuronaux pour la plupart, plus connus sous l’appellation
d’outils d’intelligence artificielle.
Les techniques de datamining existent depuis plusieurs décennies. Le recours au
datamining permet de traiter une très grande masse de données, et les types de traitement
qui caractérisent cette discipline permettent de découvrir des associations non soupçonnées
entre les données, de les segmenter, et ainsi de décrire ce qui se passe dans une base de
données complexe.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
12
1.2 Présentation du processus de Datamining Les tâches du datamining sont les suivantes :
§ La classification des éléments
§ L’estimation des éléments
§ La prédiction qui s’appuie sur le passé et le présent
§ Le regroupement des éléments par similitudes
§ La segmentation de la population hétérogène en sous- populations homogènes
§ La description les données en vue de fournir des explications
§ L’aide à la décision
Le cercle vertueux du datamining :
§ Identifier le domaine d’étude : il s’agit de définir un objectif général qui oriente
l’étude. Quel est le sujet traité et quel est le but recherché ?
§ Préparer les données : il s’agit de recenser les données relatives au domaine défini
précédemment, puis de les regrouper pour en faciliter l’exploration.
§ Agir sur la base de données : cette étape consiste à mettre en œuvre une ou
plusieurs techniques de datamining pour une première analyse. Après évaluation et
étude des résultats, des actions sont mises en œuvres.
§ Evaluer les actions : il s’agit d’évaluer les actions précédentes, ce qui débouche sur
l’expression de nouveaux objectifs affinés. Retour à la première étape.
Figure 1 : Cercle vertueux du Datamining
Dans le contexte actuel, où la masse d’information que l’on peut collecter est
considérable, il devient indispensable de pouvoir l’analyser et surtout d’en extraire
Préparer les données
Agir sur la base de données
Identifier le domaine d’étude
Evaluer les actions
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
13
l’information pertinente, c’est pourquoi on comprend aisément l’intérêt du recours au
datamining.
Il ne faut cependant pas perdre de vue qu’à la base de toute action d’analyse, il est
nécessaire de disposer d’une information complète, riche, structurée et actualisée, sans quoi
même les plus performants des outils ne pourraient révéler aucune connaissance à valeur
ajoutée.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
14
Positionnement du Datamining par rapport aux autres techniques du décisionnel
Dans l’univers du décisionnel, plusieurs concepts émergent ou ressurgissent grâce à
l’évolution des technologies de l’information ; parmi ces différents concepts, on peut
notamment citer l’analyse des données ou encore le Data Warehousing. Ainsi, dans un
premier temps, ce chapitre donnera une définition succincte de ces notions, puis
s’intéressera au positionnement du Data Mining par rapport à ces outils décisionnels.
2.1 L’analyse de données
La statistique est décrite par Spiegel (1947) comme étant l’ensemble des méthodes
scientifiques qui permettent de collecter, gérer, et analyser des données dans le but de
prendre des décisions judicieuses.
Depuis l’avènement des ordinateurs, vers 1960, un nouveau concept a surgi du
mariage de l’informatique naissante et de la statistique : l’analyse des données, encore
appelée Exploratory Data Analysis. Contrairement aux méthodes statistiques, qui mettent en
jeu des hypothèses mathématiques riches mais peu vérifiées ou peu vérifiables en pratique,
l’analyse des données utilise des méthodes inductives, telles que les analyses factorielles, la
classification, ou encore la discrimination.
En théorie, le Data Mining s’oppose aux statistiques classiques, car les algorithmes
du Data Mining sont exploratoires, c’est-à-dire qu’ils cherchent tous azimuts, alors que les
statistiques sont confirmatoires, ce qui signifie qu’elles interviennent pour vérifier une
hypothèse. Cependant, il est à noter que dans la pratique, les logiciels de Data Mining
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
15
demandent la plupart du temps des « pistes » à l’utilisateur afin d’éviter des recherches trop
longues.
2.2 Le Data Warehouse
C’est en parallèle à l’analyse des données qu’est apparu le concept moderne de base
de données, dont le management a fortement évolué depuis 1960.
Actuellement, les règles de E. Codd, également dites règles OLAP (On Line Analytical
Processing) définissent les caractéristiques de toutes bases de données utilisées à des fins
décisionnelles :
• Vues multidimensionnelles
• Transparence
• Accessibilité
• Architecture client-serveur
• Support multi-utilisateurs
• Opérations de navigation non restreinte à travers les données
• Manipulations intuitives des données
• Fonctions de reporting flexible et performant
• Niveaux de dimensions et d’agrégation illimités
Un Data Warehouse, ou entrepôt de données, est une collection de données structurées
consolidant les informations en provenance des différents systèmes opérationnels, tout en
étant dédié à l’aide à la décision.
Le père du Data Warehouse, Bill Inmon, a proposé une définition qui, plus de dix ans après,
s’avère toujours d’actualité :
« L’entrepôt de données est une collection de données orientées sujet,
intégrées, non volatiles et historisées, organisées pour le support du processus
d’aide à la décision »
Un Data Warehouse est un entrepôt de données d’une entreprise contenant à la fois
les données opérationnelles enregistrées au fil du temps, les données agrégées selon toutes
les dimensions, les données historicisées, les données de pilotage, et éventuellement toutes
données externes à l’entreprise mais ayant une relation possible avec les activités de
l’entreprise. Ces données sont consignées dans une ou plusieurs bases de données
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
16
relationnelles ou non, et accessibles pour toutes applications par des systèmes d’aide à la
décision, des requêteurs de données, des systèmes de reporting, des systèmes d’analyse
statistiques ou de Data Mining.
Le Data Warehouse se différencie du système d’information usuel par l’orientation de
l’usage des données vers la décision plutôt que vers l’archivage. Le fait qui différencie un
système d’information d’un Data Warehouse, du point de vue décideur-utilisateur des
données, est que ces données sont prêtes à l’emploi, accessibles en temps immédiat par
requête, qualifiées, et clairement définies, c’est-à-dire qu’une même donnée n’a pas
plusieurs définitions possibles.
2.3 Positionnement global de ces techniques
Bien qu’un entrepôt de données constitue une condition souhaitable, il ne s’agit
nullement d’un prérequis nécessaire. L’existence d’un entrepôt de données peut certes
faciliter l’utilisation du Data Mining ; mais à l’inverse, il est tout à fait possible de mener des
opérations de Data Mining sur des données extraites pour l’occasion.
Il semble important de noter que le Data Mining, grâce à sa capacité
d’industrialisation d’exploration des données, permet d’améliorer les phases de sélection et
d’acquisition des données, ainsi que la transformation de ces données en information. En
revanche, il n’intervient que faiblement lors de la prise de décision ; en effet, le Data Mining,
pas plus que toute autre technique basée sur l’informatique, ne prend de décision par lui-
même. Il facilite simplement la décision humaine en lui apportant des informations ; l’intérêt
du Data Mining est d’accélérer le processus de décision et d’action de l’entreprise.
Figure 2 : Des bases de données au Datamining
Bases de données sources
Travail amont pour la mise en place de l’entrepôt de données
Entrepôt de données
Utilisation et analyses Consultation
datamining
BD
BD
DW
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
17
La figure ci-après résume de manière synthétique les principales caractéristiques des
outils étudiés jusqu’à présent, et les positionne dans la problématique générale de prise de
décision.
Figure 3 : Positionnement du Data Mining, du Data Warehouse, de l’analyse des données par rapport à la décision
Généraliste, horizontal Universel Exploration libre Données de taille limitée Données indépendantes des métiers
Analyse des données
Fédération des données Qualification des données Organisation Mise à disposition métier
Data Warehouse
Spécificité métier Application verticale Exploration supervisée Données de taille importante Données métier
Data Mining
Décision &
Action
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
18
Le processus de Datamining
Littéralement traduit par « forage des données », et dans l’esprit par exploiter les
données comme on exploite les mines, le Data Mining met en jeu un processus
d’exploitation des données qui s’inscrit lui-même dans un processus plus complexe qui va de
l’information à la décision ; ce processus, s’appelant la méthodologie de l’information,
s’articule autour de huit étapes détaillées ci-après.
3.1 Poser le problème
Cette première phase consiste à exposer le problème et à définir les objectifs, le
résultat attendu, ainsi que les moyens de mesurer le succès de la phase de Data Mining. Il
s’agit de comprendre le contexte de la recherche pour donner une signification logique aux
variables.
3.2 Rechercher les données
Il s’agit dans cette phase de déterminer la structure générale des données ainsi que
les règles utilisées pour les constituer. Il faut pour cela identifier les informations exploitables
et vérifier leur qualité et leur facilité d’accès. La recherche d’une sélection optimale des
données est le point central d’un processus de Data Mining ; cette sélection nécessitant
souvent l’aide d’experts du domaine pour déterminer les attributs les plus aptes à décrire la
problématique. La structuration des variables contribue à réduire la taille du problème en
isolant les éléments les plus pertinents.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
19
3.3 Sélectionner les données pertinentes
La récupération des données peut être plus ou moins facilitée par des technologies
telles que des bases de données ouvertes, ou bien l’existence d’un entrepôt de données
exhaustif.
Cette étape implique de choisir entre une étude sur l’exhaustivité de la base de
données, et un travail sur un échantillon. Les analyses sur une base exhaustive présentent
certes une meilleure qualité des résultats, mais au prix d’investissements parfois démesurés
par rapport à une analyse portant sur une base échantillonnée ; en effet, le recours aux
échantillons convient pour la majorité des opérations et présente des avantages certains en
termes de maniabilité et de temps de réponse.
3.4 Nettoyer des données
La définition de la taille de la base d’exemples et le choix portant sur la manière de la
constituer passent par un diagnostic de la qualité potentielle des données. Une faible qualité
des données, se traduisant par des erreurs de saisie, des champs nuls, ou encore des
valeurs aberrantes, impose généralement une phase de nettoyage des données. Celle-ci a
pour objectif de corriger ou de contourner les inexactitudes ou les erreurs de données ; car
sans ce nettoyage, les résultats seront probablement peu pertinents.
3.5 Effectuer des actions sur les variables
Maintenant que les variables sont pertinentes et que les données sont fiables, on
peut éventuellement les transformer pour préparer le travail d’analyse. Il s’agit d’intervenir
sur les variables pour qu’elles soient mieux exploitables par les outils de modélisation. Ces
transformations peuvent être de deux types, selon qu’elles modifient une ou plusieurs
variables. Un exemple d’action sur les variables peut être de procéder à une normalisation
des distributions ; ce, afin d’éviter certaines disproportions dans les systèmes d’unités des
variables.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
20
3.6 Rechercher le modèle
L’étape de recherche du modèle, également appelée phase de modélisation, consiste
à extraire la connaissance utile à partir d’un volume de données et à la présenter sous forme
synthétique. Il s’agit là de la phase la plus souvent décrite sous le terme de Data Mining, et
qui repose en partie sur une recherche dépourvue de préjugés concernant les relations entre
les données.
3.7 Evaluer le résultat
L’évaluation du résultat permet d’estimer la qualité du modèle, c’est-à-dire sa
capacité à déterminer correctement les valeurs qu’il est censé avoir apprises sur des cas
nouveaux.
La capacité de généralisation d’un modèle est une mesure de la performance du
modèle ; elle est calculée en appliquant le modèle à des données nouvelles et en comparant
les résultats du modèle aux valeurs réelles.
Par ailleurs, la restitution de la connaissance sous forme graphique ou textuelle contribue
fortement à améliorer la compréhension des résultats et facilite le partage de la
connaissance.
Il faut noter que l’interprétation des résultats nécessite une certaine expertise
fonctionnelle pour mesurer le potentiel d’action qui peut être mis en œuvre grâce à cette
information révélée.
3.8 Intégrer la connaissance
L’ensemble des étapes précédentes a ainsi permis d’extraire de la connaissance,
mais la dernière phase, et non des moindres, consiste à convertir cette connaissance
extraite en décision puis en action. Cette phase d’intégration de la connaissance consiste à
implanter le modèle ou ses résultats dans les systèmes informatiques ou dans les processus
de l’entreprise. Elle est donc essentielle puisqu’il s’agit de la transition du domaine des
études au domaine opérationnel.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
21
Nous venons de détailler le processus de Data Mining, ou KDD (Knowledge
Discovery in Database) ; il est à noter que les outils, quant-à-eux, ne constituent qu’un
composant de ce processus de transformation des données en connaissance. En effet, les
logiciels de Data Mining interviennent essentiellement sur la recherche du modèle. Ils ne
couvrent donc, à l’heure actuelle, qu’une partie du processus de Data Mining ; cependant, la
tendance du marché va vers l’intégration dans les logiciels de Data Mining de fonctions
d’aide à tous les stades du processus (choix de la technique de modélisation par des
assistants, aide au diagnostic et au nettoyage des données, etc.).
Le chapitre suivant nous permet de s’intéresser plus précisément à quelques logiciels
du marché, ainsi qu’au logiciel SODAS, utilisé pour réaliser notre étude.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
22
Les outils du Datamining 4.1 Les logiciels du marché
Les entreprises s’intéressent de plus en plus au Data Mining, probablement en
grande partie à cause des promesses de rentabilité immédiate, vantée par les fournisseurs
de technologies et les médias.
Ainsi, depuis plusieurs années, les industriels développent des outils appropriés à la
résolution de problèmes relevant du Data Mining, ouvrant la voie à une nouvelle génération
d’outils, et permettant l’accès aux données détaillées, complexes ou volumineuses, pour les
besoins des décideurs.
L’offre de Data Mining semble à l’heure actuelle relativement atomisée : aucun
fournisseur ne constitue le standard du marché, ni même n’en détient une part réellement
significative. Il s’agit là d’un situation couramment rencontrée lorsqu’une nouvelle
technologie émerge commercialement. Cependant, il est à noter que depuis quelques
années, les offres tendent à se concentrer.
Les paragraphes suivants nous permettent de s’intéresser plus précisément à
quelques logiciels du marché qui proposent de multiples méthodes de modélisation. Il s’agit
bien évidemment d’une liste non exhaustive, mais qui permet d’avoir un petit aperçu de la
majorité des fonctionnalités offertes par les logiciels de Data Mining.
4.1.1 Intelligent Miner d’IBM
Intelligent Miner constitue un véritable logiciel intégré de Data Mining. Il couvre, par
ses différentes fonctions, les techniques de segmentation, de discrimination, de prédiction,
d’associations (temporelles ou non) et de comparaison de séries chronologiques.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
23
• Les différentes fonctionnalités du logiciel :
o Segmentation : Intelligent Miner propose deux algorithmes, l’un basé sur
l’analyse relationnelle, et l’autre sur les réseaux de neurones non supervisées
de Kohonen.
o Discrimination : Les techniques de classification mettent en œuvre des
réseaux de neurones et des arbres de décision.
o Prédiction : Ce logiciel propose des modélisations basées sur du scoring,
pour des modèles linéaires, et de la régression non linéaire pour des modèles
non linéaires.
o Associations : Intelligent Miner comprend des outils pour la recherche
d’associations entre valeurs ou dans le cadre de séries temporelles.
o Séries chronologiques : Un module spécifique permet de trouver des
similarités entre des séries temporelles comme des séries de cours de
bourses ou des commandes clients saisonnières.
Techniquement, l’outil permet de traiter de très importants volumes de données, non
limités en taille. Pour l’intégration aux systèmes d’informations, Intelligent Miner est
étroitement couplé avec la base de données relationnelle DB2 d’IBM, mais il sait également
travailler sur des fichiers plats, extraits d’autres systèmes de base de données ou de
fichiers ; de plus, ce logiciel propose une API, c’est-à-dire un ensemble de bibliothèques de
programmation.
Enfin, Intelligent Miner propose une interface utilisateur intuitive et agréable ; ce qui
facilite la prise en main tant sur le plan informatique que sur le plan statistique ; mais l’outil
reste d’abord dédié aux spécialistes.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
24
Figure 4 : Exemple d’interface du logiciel Intelligent Miner 4.1.2 Clementine d’ISL
Cet outil se positionne comme un système intégré comprenant des arbres de
décision, des réseaux de neurones, des outils de régression linéaire, des moteurs
d’association et des réseaux de Kohonen.
D’un point de vue technique, ce logiciel fonctionne à la fois sur Windows NT et sur
Unix, et sait dialoguer avec la plupart des bases de données via ODBC.
Cet outil dispose en outre d’une interface utilisateur conviviale, qui facilite la
description d’enchaînements de tâches (par exemple un apprentissage, le filtrage de
données ou la visualisation d’un graphique) dans le cadre d’un processus de Data Mining.
Cet accent mis sur l’aide à la modélisation du processus est un atout dans la mesure où il
facilite les itérations inévitables pour extraire des modèles pertinents.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
25
Figure 5 : Exemple d’interface du logiciel Clementine 4.1.3 Entreprise Miner de SAS
SAS possède une longue expérience des outils statistiques traditionnels. La société
propose la bibliothèque la plus complète pour construire des fonctions de régression, des
analyses factorielles ou des typologies. Enterprise Miner propose d’intégrer la puissance des
outils traditionnels SAS avec les nouveaux moteurs de Data Mining. L’outil se positionne
comme un système intégré comprenant des arbres de décision, des réseaux de neurones,
des outils de régression linéaire et des techniques de segmentation.
Ce logiciel s’avère très puissant pour réaliser des apprentissages non supervisés sur
de grosses bases de données. Il présente la particularité de permettre la construction de
trois modèles d’apprentissage supervisé (neurone, régression et arbre de décision) en
parallèle et de choisir au final le meilleur des trois.
Le niveau d’intégration avec les bases de données et les programmes est total ; et ce
produit fonctionne à la fois sur Windows NT et Unix.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
26
Enterprise Miner dispose de plus d’une interface utilisateur conviviale à base d’icônes
symbolisant les tâches et de flèches représentant les enchaînements, afin d’illustrer un
processus.
Figure 6 : Exemple d’interface du logiciel Enterprise Miner 4.1.4 SPAD de DECISIA
Développée par le Centre International de Statistique et d’Informatique Appliquées
(CISIA), la suite SPAD couvre une large part des techniques de modélisation :
• SPAD Base réalise les analyses de factorisation et de classification hiérarchique
• SPAD Segmentation comprend un module à base d’arbres de décision
• SPAD Décision intègre les techniques de régression, les réseaux de neurones, et
les méthodes de scoring.
La mise en place des filières permet à un utilisateur novice d’enchaîner de manière
automatique des processus sophistiqués de découverte.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
27
Le produit fonctionne sous Windows. La possibilité de manipuler les données
(sélection, visualisation) par des actions sur les graphiques rend le produit très convivial, et
les états de sortie permettant l’interprétation des résultats sont très détaillées.
Figure 7 : Exemple d’interface du logiciel SPAD 4.1.5 SPSS
Le logiciel Statistical Package for the Social Science (SPSS) est un logiciel de gestion
et d'analyse de données statistiques de portée générale.
Ce logiciel est relativement facile à utiliser, vu que de nombreuses analyses
statistiques peuvent être effectués sans lignes de programmation, par des menus déroulants
et des boîtes de dialogue. L'utilisateur peut toutefois avoir accès des fonctions plus
complexes ou des options qui n'apparaissent pas dans les boîtes de dialogue, en utilisant le
langage de commande SPSS.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
28
Figure 8 : Interface du logiciel SPSS 4.1.6 Insightful Miner 2 de Insightful
Insightful Miner 2 est une solution de Data Mining alliant simplicité d’utilisation et
puissance de traitement. Il permet d’accéder à des données pouvant être stockées sous
différents formats (fichier, base de données,…) ; et de plus, il possède les outils nécessaires
au nettoyage et à la manipulation de très grands volumes de données. De plus, on peut
noter sa souplesse d'utilisation, ses possibilités d'échanges de données avec d'autres outils
ainsi que son générateur graphique d'applications, qui le rendent particulièrement convivial.
Cet outil dispose de quantités de méthodes : réseaux de neurones, modèles
linéaires et non linéaires, arbres de classification, etc. ; ce, afin de construire le meilleur
modèle prédictif possible et de le diffuser aisément.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
29
Figure 9 : Interface du logiciel Insightful Miner 2
Nous venons ainsi de voir un ensemble, bien évidemment non exhaustif de logiciels
proposant de multiples méthodes de modélisation ; on peut par ailleurs noter que de
nombreux autres outils tendent vers une conception inverse, et se sont spécialisés pour cela
dans une seule méthode. Pour illustrer ces propos, on peut citer comme exemples dans le
domaine des réseaux de neurones des logiciels comme 4Thought de Cognos, Predict de
Neuralware, Previa de Elsware, ou encore Strada de Complex System. Qui plus est, d’autres
spécialités tels que les arbres de décision avec Answer Tree de SPSS, Scenario de Cognos,
ou Alice de Isoft, ou encore le domaine des règles d’association avec O. Datamining
d’Oracle, ou Wizwhy de Wizsoft, sont eux aussi propices au développement de logiciels
spécifiques.
Enfin, il reste un outil de Data Mining proposant de multiples méthodes de
modélisation, et que nous souhaitons tout particulièrement présenter : le logiciel SODAS, qui
est utilisé par la suite pour réaliser notre étude sur les familles des rois de France.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
30
4.2 Le logiciel SODAS
Le logiciel SODAS (Symbolic Official Data Analysis System) est issu du projet du
même nom, dirigé par EUROSTAT ; ce projet vise à faire bénéficier l’ensemble des
membres de cette communauté des avancées les plus récentes dans le domaine de
l’analyse de données symboliques.
Cet outil, lui aussi développé par le CISIA mais appartenant au domaine public,
permet d’obtenir, à partir d’une base de données relationnelle, un tableau de données
symboliques, auquel peuvent venir s’ajouter des taxonomies et des règles. L’intérêt est de
raisonner sur des concepts plutôt que sur des individus de premier ordre, puis d’appliquer
différentes méthodes d’analyse de données symboliques afin d’extraire de la connaissance
pertinente de ce tableau.
Ainsi, une analyse-type réalisée grâce au logiciel SODAS comporte les étapes suivantes :
1. Regrouper les données intéressantes dans une base de données relationnelle
2. Définir une requête sur cette base permettant d’obtenir un tableau contenant 3
catégories intéressantes :
o les individus de premier niveau ; il peut s’agir tout aussi bien de produits, que
de clients ou encore d’entreprises.
o les concepts : ils permettent de traiter la variation interne des individus
précédemment identifiés, chaque individu étant rattaché à un concept. Pour
reprendre les exemples précédents, il pourrait s’agir de catégories de
produits, de groupes socio-économiques, ou bien des départements où se
trouvent localisées les entreprises.
o Et enfin la troisième catégorie regroupe l’ensemble des variables qui décrivent
les individus ; ces variables pouvant soit être qualitatives soit quantitatives.
3. Une fois ce premier tableau constitué, SODAS dispose d’un module, intitulé DB2SO,
qui permet de passer à un tableau d’objets symboliques ; autrement dit, chaque
concept se trouve décrit par des intervalles, des histogrammes, etc. reflétant ainsi la
variation des individus appartenant à ce concept.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
31
Le schéma suivant résume les trois étapes décrites jusqu’à présent :
Figure 10 : Des bases de données relationnelles aux objets symboliques
4. A ce niveau, l’ensemble des méthodes disponibles dans le logiciel SODAS peuvent
être appliquées au fichier d’objets symboliques obtenu, afin d’extraire des « pépites »
d’information. Parmi les douze méthodes à notre disposition, on peut notamment citer
l’analyse factorielle, la classification automatique, les arbres de décision, ou encore
les pyramides ; ces différentes méthodes seront détaillées lors de notre analyse de la
base de données relative aux familles des rois de France.
Le schéma suivant résume les étapes successives d’une étude avec le logiciel SODAS :
Figure 11 : Processus général et méthodes de SODAS
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
32
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
33
Partie II
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
34
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
35
Présentation des données
Le thème de l’analyse concerne les membres de la famille des rois de France.
Aucune base de données concernant les rois de France n’étant répertoriée sur Internet,
nous avons dû nous documenter afin de regrouper toutes les données jugées intéressantes
pour la suite du projet. Ces données ont été rassemblées dans une base de données,
présentée ci-dessous.
1.1 Base de données 1.1.1 Modèle conceptuel
Voici le schéma entités-associations de la base de données :
Figure 12 : Modèle conceptuel de notre base de données
Mariage Id_mariage Date_mariage Nb_enfants
Individu Id_individu Nom Prénom Dynastie Qualificatif Sexe Date_naissance Date_décès
Titre Id_titre Titre Niveau_titre Domaine Obtention Date_début Date_fin Cause_fin
Lien maternel
Lien paternel
1..1
1..1 1..1 1..1 1..1
0..1
1..1 1..1
Nom
Attributs
Nom Attributs
Entité : Association :
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
36
1.1.2 Schéma relationnel
Voici le schéma relationnel de la base de données :
Figure 13 : Schéma relationnel de notre base de données 1.1.3 Tables
La base de données sur laquelle vont porter les analyses comporte trois tables dont
voici le descriptif :
Table Individu Description contient les caractéristiques concernant chaque individu Attributs Id_individu numéro identifiant l'individu entier clé primaire Nom nom de l'individu texte Prénom prénom de l’individu texte Qualificatif surnom de l’individu texte Dynastie dynastie de l'individu texte Sexe sexe de l'individu booléen Date_naissance date de naissance de l'individu entier Date_décès date de décès de l'individu entier Id_père numéro du père de l'individu dans la table entier clé étrangère Id_mère numéro de la mère de l'individu dans la table entier clé étrangère Id_titre numéro du titre de l'individu dans la table Titre entier clé étrangère
Table Titre Description contient les caractéristiques des titres accordés aux individus Attributs Id_titre numéro identifiant le titre de l'individu entier clé primaire Titre titre accordé à l'individu texte Niveau_titre Niveau d’importance du titre texte Domaine domaine auquel s'applique le titre texte Obtention manière dont l'individu a obtenu le titre texte Date_début année correspondant à l'obtention du titre entier Date_fin année correspondant à la fin du titre entier Cause_fin cause de la fin du titre texte
Individu Id_individu Nom Prénom Qualificatif Dynastie Sexe Date_naissance Date_décès Id_père Id_mère Id_titre
Titre Id_titre Titre Niveau_titre Domaine Obtention Date_début Date_fin Cause_fin
Mariage Id_mariage Id_marié Id_mariée Date_mariage Nb_enfants
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
37
Table Mariage Description contient les caractéristiques concernant les mariages entre individus Attributs Id_mariage numéro identifiant le mariage entre deux individus entier clé primaire Id_marié numéro du marié dans la table Individu entier clé étrangère Id_mariée numéro de la mariée dans la table Individu entier clé étrangère Date_mariage année du mariage entier Nb_enfants nombre d'enfants issus de ce mariage entier Figure 14 : Descriptif des tables de la base 1.2 Des données aux objets symboliques 1.2.1 Caractéristiques de la base de données
La base de données répertorie 855 individus, dont 86 rois de France. Elle comprend
6 variables quantitatives (variables continues ou discrètes), et 7 variables qualitatives
(variables nominales ou ordinales) dont 1 variable booléenne.
La notion d’individus et concepts : Les concepts représentent des ensembles d’individus à décrire. Un concept est défini par :
• une intention : ses propres caractéristiques
• une extension : l’ensemble des individus qui satisfont aux caractéristiques
Un concept est défini par une intention et par un moyen de travailler sur l’extension. Il
faut savoir que toute variable qualitative peut donner un concept, ainsi que tout produit
cartésien de variables qualitatives.
Présentation des individus et concepts de notre base de données :
Individus : les individus répertoriés dans la base de données
Concepts : les dynasties royales
Il existe donc 6 concepts : Mérovingiens, Carolingiens, Robertiens, Capétiens, Valois
et Bourbons.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
38
1.2.2 Analyse de données symboliques
L’analyse de données symboliques permet de traiter des données symboliques c’est-
à-dire des connaissances supplémentaires comme les dépendances entre variables ou
encore les variables taxonomiques. Il peut aussi s’agir d’imprécision, d’incertitude ou de
variation que l’on souhaite traduire dans la description des données.
Classiquement, les données sont décrites dans un tableau individus-variables par
une valeur unique. En analyse de données, chaque case peut contenir non seulement une
valeur unique mais également un ensemble de valeurs ou une distribution sur une ensemble
de valeurs. Ces descriptions symboliques permettent de tenir compte des notions
d’imprécision, d’incertitude ou de variation.
1.2.3 Description symbolique des variables En analyse de données, une variable symbolique Y est définie par une application
)(Y
O:Y
ωω
→Ω
a
où O est l’ensemble des individus et O le domaine d’observation de la variable Y.
Les descriptions symboliques des variables peuvent être des descriptions
multivaluées (des ensembles de valeurs ou des intervalles), des descriptions modales (des
distributions de probabilité).
Description par des relations mère-fille :
L’analyse de données symboliques permet d’exprimer des liens connus entre les
valeurs du domaine d’observation de certaines variables. Ces relations entre variables sont
appelées relations mère-fille. Il existe deux types de relations entre variables :
§ la dépendance conditionnelle : variable dépendant directement de l’existence d’une
autre.
§ la dépendance logique : sous-ensemble de valeurs d’une variable directement lié à
un sous-ensemble de valeurs d’une autre variable (ex : poids / taille).
Les variables taxonomiques :
Une variables dont le domaine d’observation est organisé dans une structure
hiérarchique est appelée variable taxonomique. C’est une connaissance supplémentaire que
l’on a sur la variable.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
39
1.3 Etude 1.3.1 Thème de l’étude
Cette base de données vise à regrouper les données concernant les membres de la
famille des rois de France, de la dynastie des Mérovingiens à la dynastie des Bourbons,
comprenant aussi les conjoints des membres de la famille, et les enfants issus des
mariages.
Nous avons choisi de faire cette étude car nous nous intéressons à l’Histoire de
France. Nous espérons découvrir à travers l’analyse qui va suivre, pourquoi chaque dynastie
s’est éteinte, quelles en ont été les causes et s’il y a eu répétition de phénomènes au cours
des générations comme certains peuvent le prétendre. Cette étude permettra aussi de
découvrir les caractéristiques des règnes des rois de France et d’avoir un aperçu général
des conditions de vie des individus et leur évolution au cours du temps.
Il aurait été tout aussi intéressant de connaître et d’étudier les individus n’appartenant
pas à la famille royale mais ayant un lien direct avec elle. Nous entendons par là les
maîtresses et enfants hors mariage, ce qui aurait mieux retranscrit les mœurs de l’époque.
Mais obtenir ces données de façon exact n’est pas possible car trop souvent dissimulées.
Nous en resterons donc à étudier la lignée royale directe.
L’analyse va s’effectuer en deux phases, menées en parallèle : une première phase
portant sur l’étude de la population globale de la base de données, puis une seconde phase
uniquement sur les membres, par filiation directe, de la famille royale car il semble
intéressant de comparer les membres de la lignée directe avec l’ensemble de la famille
royale.
1.3.2 Analyses envisagées Voici quelques types de données à extraire pour l’analyse :
• Sur la population globale :
- dates d’apparition et de disparition des prénoms
- fréquences des prénoms donnés
- durée de vie des individus
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
40
- nombre de mariages par individu
- âge des individus masculins ou féminins lors de leur mariage
- durée des mariages
- nombre d’enfants par mariage
- nombre d’enfants par individu masculin ou féminin
- nombre de naissances d’enfants de sexe masculin et féminin
- nombre d’enfants morts en bas âge
- sexe des enfants morts en bas âge
• Sur les membres de la famille royale, par filiation directe :
- dates d’apparition et de disparition des prénoms
- fréquences des prénoms donnés
- durée de vie des individus
- nombre de mariages par individu
- durée des mariages
- nombre d’enfants par mariage
- nombre d’enfants par individu masculin ou féminin
- nombre de naissances d’enfants de sexe masculin et féminin
- nombre d’enfants morts en bas âge
- sexe des enfants morts en bas âge
- durée des règnes des individus concernés
- cause des fins de règnes des individus concernés
- nombre de conjoints par alliance royale avec d’autres pays
- origine des conjoints issus d’alliances royales avec d’autres pays
- lieu d’origine des reines de France
- titres des conjoints des membres de la famille des rois de France
- pays où les filles de la famille des rois de France ont été reines
Une analyse intéressante serait notamment de découvrir quelle était la probabilité
pour un individu de devenir roi de France, sachant qu’il était fils de roi.
De plus, il pourrait être intéressant de comparer ces différentes variables, tant au
niveau de la famille royale entière, que de la lignée directe, mais aussi au niveau des rois
eux-mêmes.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
41
Introduction au logiciel SODAS
2.1 Description générale
2.1.1 Fenêtre principale
La fenêtre principale du logiciel SODAS comporte trois parties distinctes, comme le
montre la figure ci-dessous :
Figure 15 : Fenêtre principale du logiciel SODAS
1. La barre d’outils comporte les cinq menus suivants : SODAS file, Chaining, Options,
Window et Help ; chacun de ces menus permet respectivement de gérer les fichiers
SODAS, de gérer la filière des méthodes utilisées, de définir les options générales du
logiciel, de passer d’une filière à l’autre, et enfin de bénéficier d’aide pour le logiciel.
1
3
2
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
42
2. La fenêtre Methods permet de choisir la méthode, parmi les douze disponibles
actuellement, que l’on souhaite appliquer dans la filière.
3. La fenêtre Chaining permet de gérer la filière, c’est-à-dire la manière dont les
méthodes choisies s’enchaînent et s’appliquent sur le fichier d’objets symboliques.
2.1.2 Chaining
Le chaining, encore appelée filière, permet de suivre graphiquement l’enchaînement
des méthodes appliquées au fichier de données symboliques.
Initialement, il faut spécifier au logiciel le fichier SODAS sur lequel vont porter les
calculs, ce qui correspond à l’icône BASE du logiciel. Dans notre cas, le nom du fichier
ROIS.SDS apparaît alors dans la fenêtre Chaining.
Figure 16 : Ajout du fichier SODAS à la filière
Une fois le fichier SODAS précisé, on peut choisir les méthodes que l’on souhaite
appliquer aux objets symboliques, soit en utilisant une filière prédéfinie (via l’onglet Model \
Predefined Chaining), soit en définissant notre propre filière (en insérant au fur et à mesure
les méthodes présentes dans la fenêtre Methods).
Lorsque la filière a été définie, on peut voir l’ensemble des méthodes, représentées
dans la fenêtre chaining par les icones à la suite de la BASE, ainsi qu’une description
succincte de ces méthodes à gauche de chaque icône. A ce stade, il faut encore paramétrer
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
43
les méthodes choisies, puis après avoir sauvegardé la filière ainsi définie (sous un fichier
avec l’extension FIL), on peut alors exécuter cette filière (via le menu Chaining \ Run
Chaining).
L’exécution de la filière aboutit ensuite à l’apparition, à droite des icônes des
méthodes, des résultats, sous forme de listing et éventuellement sous forme de graphique.
Ce processus se trouve illustré par la figure ci dessous :
Figure 17 : Comparaison de la filière avant et après son exécution
Parmi les icônes apparues après l’exécution de la filière, on différencie :
1. Le listing
2. L’éditeur graphique de la méthode SOE
3. La représentation graphique du résultat de la méthode exécutée
4. La représentation graphique de la classification pyramidale
Ceci constitue un premier aperçu des méthodes qui seront employées et détaillées plus
précisément dans la suite de cette étude. Car, comme indiqué précédemment, avant de
pouvoir appliquer des méthodes d’analyse d’objets symboliques, il est nécessaire de
disposer de ces données dans un fichier SODAS ; cette étape est réalisée par l’intermédiaire
du module DB2SO, comme décrit ci-après.
1
2
4
3
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
44
2.2 DB2SO : des bases de données aux données symboliques
Comme nous l’avons vu lors de la présentation du logiciel SODAS, le module DB2SO
permet de constituer un tableau d’objets symboliques à partir d’une base de données
relationnelle.
Figure 18 : Des bases de données relationnelles aux objets symboliques
Nous détaillons, dans la suite de ce chapitre, les étapes, effectuées lors de
l’utilisation de DB2SO, et qui permettent d’obtenir les objets symboliques, auxquels peuvent
être appliqués par la suite des taxonomies et des relations mère / fille.
Le lancement du module DB2SO se fait par l’intermédiaire de la barre d’outil de la
fenêtre principale, via le menu SODAS file / Import … / Importation (DB2SO), comme indiqué
sur la figure ci-après :
Figure 19 : Fenêtre d’importation DB2SO
DESCRIPTION DES
INDIVIDUS
BASE DE
DONNEES RELATION-
NELLE
C O N C E P T S
I N D I V I D U S
VARIABLES SYMBOLIQUES
C O N C E P T S
requête DB2SO
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
45
2.2.1 Sélection de la base de données relationnelle
Après avoir ouvert un nouveau fichier d’importation, via le menu File / New, le module
SODAS nous invite à sélectionner la source de données machine (dans notre cas, il s’agit
d’une base de données Access), puis à spécifier l’emplacement de la base de données.
Figure 20 : Fenêtre de sélection de la source de données machine
Figure 21 : Fenêtre de sélection de la base de données
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
46
2.2.2 Extraction des individus
Dans la fenêtre qui se présente alors, intitulée Extraction of individuals, il faut alors
entrer la requête SQL qui permet de définir les concepts à partir des individus présents dans
la base de données sélectionnée. Cette requête doit être définie de sorte à renvoyer un
ensemble de lignes de la forme suivante : la première colonne contient les individus, la
deuxième les concepts correspondant à ces individus, et les autres colonnes permettent de
décrire les individus.
Figure 22 : Forme générale des enregistrements pour l’extraction des individus
Dans le cadre de notre étude, la requête permettant d’extraire les individus est la
suivante :
DESCRIPTION DES
INDIVIDUS
C O N C E P T S
I N D I V I D U S
select ind.id_txt_ind, ind.dynastie, ind.nom, ind.prenom, ind.qualificatif, ind.sexe, ind.annee_naissance, ind.annee_deces, (ind.annee_deces - ind.annee_naissance) as duree_vie, ( select distinct(mar.date) from Mariages mar where ( mar.id_marie = ind.id_Individu or mar.id_mariee = ind.id_Individu ) and (NOT ISNULL(ind.id_pere)or NOT ISNULL(ind.id_mere)) and NOT ISNULL(mar.date) and NOT EXISTS(select mar1.date from Mariages mar1 where ( ind.id_Individu = mar1.id_marie or ind.id_Individu = mar1.id_mariee ) and mar1.date < mar.date and NOT ISNULL(mar1.date) ) ) as date_premier_mariage,
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
47
( select distinct(mar.date - ind.annee_naissance) from Mariages mar where ( mar.id_marie = ind.id_Individu or mar.id_mariee = ind.id_Individu) and (NOT ISNULL(ind.id_pere)or NOT ISNULL(ind.id_mere)) and NOT ISNULL(mar.date) and NOT EXISTS(select mar1.date from Mariages mar1 where ( ind.id_Individu = mar1.id_marie or ind.id_Individu = mar1.id_mariee ) and mar1.date < mar.date and NOT ISNULL(mar1.date) ) ) as age_lors_premier_mariage, ind.a_enfant, ( select MIN(ind1.annee_naissance - ind.annee_naissance) from Individus ind1 where (ind1.id_pere = ind.id_Individu or ind1.id_mere = ind.id_Individu ) and NOT ISNULL(ind1.annee_naissance) )as age_lors_premier_enfant, ( select mar.nb_enfants from Mariages mar where ( mar.id_marie = ind.id_Individu or mar.id_mariee = ind.id_Individu) and (NOT ISNULL(ind.id_pere)or NOT ISNULL(ind.id_mere)) and NOT ISNULL(mar.date) and NOT EXISTS(select mar1.date from Mariages mar1 where ( ind.id_Individu = mar1.id_marie or ind.id_Individu = mar1.id_mariee ) and mar1.date < mar.date and NOT ISNULL(mar1.date) ) ) as nb_enfant_premier_mariage, ( select count(mar.id_mariage) from Mariages mar where ( mar.id_marie = ind.id_Individu or mar.id_mariee = ind.id_Individu) and NOT ISNULL(mar.date) ) as nb_mariage, ( select SUM(mar.nb_enfants) from Mariages mar where mar.id_marie = ind.id_Individu or mar.id_mariee = ind.id_Individu ) as nb_total_enfants, ( select count(ind1.id_Individu) from Individus ind1 where (ind1.id_pere = ind.id_Individu or ind1.id_mere = ind.id_Individu ) and ind1.sexe = 1 ) as nb_total_fils, ( select count(ind1.id_Individu) from Individus ind1 where (ind1.id_pere = ind.id_Individu or ind1.id_mere = ind.id_Individu ) and ind1.sexe = 0 ) as nb_total_filles,
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
48
( select count(ind1.id_Individu) from Individus ind1, Titres ti where (ind1.id_pere = ind.id_Individu or ind1.id_mere = ind.id_Individu ) and ind1.sexe = 1 and ti.id_Titres = ind1.id_titre and ti.Titre = 'Roi' ) as nb_total_fils_roi, ( select count(ind1.id_Individu) from Individus ind1 where (ind1.id_pere = ind.id_Individu or ind1.id_mere = ind.id_Individu ) and NOT ISNULL(ind1.annee_deces) and NOT ISNULL(ind1.annee_naissance) and (ind1.annee_deces - ind1.annee_naissance) < 10 ) as nb_enfants_morts_jeunes, ( select count(ind1.id_Individu) from Individus ind1 where (ind1.id_pere = ind.id_Individu or ind1.id_mere = ind.id_Individu ) and ind1.sexe = 1 and NOT ISNULL(ind1.annee_deces) and NOT ISNULL(ind1.annee_naissance) and (ind1.annee_deces - ind1.annee_naissance) < 10 ) as nb_fils_morts_jeunes, ( select count(ind1.id_Individu) from Individus ind1 where (ind1.id_pere = ind.id_Individu or ind1.id_mere = ind.id_Individu ) and ind1.sexe = 0 and NOT ISNULL(ind1.annee_deces) and NOT ISNULL(ind1.annee_naissance) and (ind1.annee_deces - ind1.annee_naissance) < 10 ) as nb_filles_morts_jeunes, ( select tit.Titre from Titres tit where tit.id_Titres = ind.id_titre )as titre, ( select tit.Domaine from Titres tit where tit.id_Titres = ind.id_titre )as domaine, ( select tit.Obtention from Titres tit where tit.id_Titres = ind.id_titre )as obtention_titre, ( select (tit.annee_debut - ind.annee_naissance) from Titres tit where tit.id_Titres = ind.id_titre and NOT ISNULL(tit.annee_debut) and NOT ISNULL(ind.annee_naissance) )as age_obtention_titre, ( select tit.annee_debut from Titres tit where tit.id_Titres = ind.id_titre )as annee_obtention_titre,
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
49
Figure 23 : Requête SQL d’extraction des individus, concepts, et variables descriptives
Cette requête doit impérativement renvoyer un individu par ligne.
( select (tit.annee_debut - ind.annee_naissance) from Titres tit where tit.id_Titres = ind.id_titre and NOT ISNULL(tit.annee_debut) and NOT ISNULL(ind.annee_naissance) )as age_obtention_titre, ( select tit.annee_debut from Titres tit where tit.id_Titres = ind.id_titre )as annee_obtention_titre, ( select tit.annee_fin from Titres tit where tit.id_Titres = ind.id_titre )as annee_fin_titre, ( select (tit.annee_fin - tit.annee_debut) from Titres tit where tit.id_Titres = ind.id_titre and NOT ISNULL(tit.annee_fin) and NOT ISNULL(tit.annee_debut) )as duree_titre, ( select tit.cause_fin_regne from Titres tit where tit.id_Titres = ind.id_titre )as cause_fin_titre, ( select p.id_txt_ind from Individus p where p.id_Individu = ind.id_pere )as id_pere, ( select m.id_txt_ind from Individus m where m.id_Individu = ind.id_mere )as id_mere, ( select tit.Titre from Titres tit, Individus ind2 where ind.id_pere = ind2.id_Individu and ind2.id_titre = tit.id_Titres ) as titre_pere, ( select tit.Domaine from Titres tit, Individus ind2 where ind.id_pere = ind2.id_Individu and ind2.id_titre = tit.id_Titres ) as domaine_pere, ( select tit.annee_fin from Titres tit, Individus ind2 where ind.id_pere = ind2.id_Individu and ind2.id_titre = tit.id_Titres ) as fin_titre_pere from Individus ind ;
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
50
Ainsi, une fois la requête définie, la fenêtre ‘Extraction of individuals’ a la forme
suivante :
Figure 24 : Forme générale des enregistrements pour l’extraction des individus
La fenêtre précédente contient notamment le bouton ‘Modify’, qui permet de changer
de base de données.
La première case à cocher ‘Last column is ponderation’ est utilisable si la dernière
colonne récupérée par la requête constitue un coefficient de pondération associé à chaque
individu.
La deuxième case à cocher intitulée ‘Sampling with X individuals per group’ peut être
utile lorsque la requête risque de renvoyer trop d’enregistrements : cette option permet de
limiter le nombre d’individus par concept, afin de ne pas surcharger la mémoire de
l’ordinateur.
Une fois l’extraction effectuée, DB2SO nous indique les étapes réalisées lors de
l’extraction des individus, comme illustré ci-après :
Figure 25 : Résultat de l’extraction réalisée sous DB2SO
Il est également possible d’accéder à la liste des individus et à celle des concepts,
respectivement via le menu View / Individuals et View / Assertions.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
51
2.2.3 Création de fichier SODAS
A ce niveau, il est possible de sauvegarder le fichier DB2SO ainsi généré, via le
menu File / Save ; ceci aboutit à la création d’un fichier avec l’extension .gaj. Cette opération
peut s’avérer utile si l’on souhaite ajouter par la suite d’autres informations concernant les
données, comme l’ajout de variables mère/fille, de taxonomies, ou encore de classes portant
sur les concepts.
Nous disposons alors à ce moment des données nécessaires pour étudier notre base
via le logiciel SODAS ; la dernière étape préliminaire avant l’étude à proprement parler reste
la création du fichier SODAS correspondant (fichier portant l’extension .sds). Pour ce faire, il
suffit de sélectionner le menu File / Export (ou File / Export and View si l’on souhaite
visionner en même temps le fichier .sds généré).
On est alors en mesure, selon la nature des données à étudier, d’ajouter des
caractéristiques supplémentaires telles que des variables mère/fille, des taxonomies, ou
encore des classes relatives aux concepts obtenus, ce qui se trouve détaillé dans les
chapitres suivants.
2.2.4 Ajout de variable classe
Jusqu’à présent, les variables extraites décrivent avant tout les individus. Si l’on
souhaite ajouter une variable descriptive portant sur les concepts uniquement, il faut pour
cela utiliser le menu Modify / Add single-valued variables … du module DB2SO.
Le logiciel nous invite alors à lui préciser la base sur laquelle porte la requête
permettant de lier une variable classe à chaque concept. Cette requête doit suivre la forme
suivante, à savoir : la première colonne correspond aux concepts, et la deuxième à la classe
définie sur ces concepts.
Dans le cadre de notre étude, nous avons ainsi été amenées à formuler deux
variables classes : l’une détermine la durée de règne de la dynastie en question, et peut
prendre quatre valeurs (1siècle, 2siècles, 3siècles, ou 4siècles de règne) , tandis que l’autre
permet de caractériser le concept selon le nombre de rois constituant une dynastie (moins
de 10, de 10 à 20, ou plus de 20). Les figures ci-dessous représentent les requêtes
effectuées afin d’associer ces classes aux concepts :
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
52
Figure 26 : Ajout de variables classes sous DB2SO
2.2.5 Ajout de taxonomie
L’intérêt d’une taxonomie est de pouvoir traduire des relations de dépendance
existant entre les variables descriptives. Ainsi, dans notre cas, les titres des individus
peuvent être organisés en plusieurs catégories, qui traduisent en fait le niveau d’importance
du titre attribué (par exemple, le titre le plus important, à savoir ‘Empereur’ se voit rattaché
au Niveau1).
Dans le module DB2SO, une taxonomie est définie via le menu Modify / Create a
taxonomy … ; les éléments à préciser sont alors la variable sur laquelle porte la taxonomie,
ainsi que la requête SQL récupérant en première colonne les valeurs de la variable enfant,
c’est-à-dire celle sur laquelle porte la taxonomie, suivie des valeurs de la variable parent
associée.
Figure 27 : Création d’une taxonomie sous DB2SO
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
53
Il est alors possible de vérifier la création de la taxonomie, via le menu View / Taxonomies... :
Figure 28 : Aperçu de la taxonomie créée
2.2.6 Ajout de variable mère / fille
Comme déjà vu précédemment, l’intérêt des variables mère/fille est de traduire simplement
des liens entre variables tels que des relations de dépendance conditionnelle. Un exemple
trivial de ce genre de relation, présent dans notre base d’étude, est que la variable
‘nb_total_enfant’ d’un individu n’a de sens que si la variable ‘a_enfant’ n’est pas nulle.
Ceci se traduit simplement dans DB2SO, en passant par le menu Modify / Add a rule … :
Figure 29 : Ajout d’une règle traduisant une relation de type mère/fille entre variables
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
54
Et là encore, l’utilisateur dispose de la possibilité de vérifier la règle ainsi ajoutée grâce au
menu View / Rules …
Figure 30 : Aperçu de la règle générée
2.2.7 Vue générale de l’extraction
Il est possible de visualiser les résultats de l’extraction à tout moment, via le menu
View / Individuals ou View / Assertions, selon que l’on souhaite respectivement voir les
individus extraits ou bien les concepts.
La figure ci-dessous est un aperçu de l’extraction complète que nous avons réalisée :
Figure 31 : Vue générale de l’extraction réalisée sous DB2SO
1
2
3
4
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
55
Les différentes étapes qui apparaissent sur la figure précédente sont :
1. Extraction initiale des individus et des concepts
2. Ajouts de variables classes
3. Ajout d’une taxonomie
4. Création d’une règle traduisant une relation de type mère/fille.
Ces étapes constituent la base du travail à fournir avant de pouvoir étudier les
données par l’intermédiaire des méthodes proposées dans le logiciel SODAS.
2.3 Présentation des méthodes d’analyse
Pour analyser nos données, nous disposons dans SODAS de techniques de
datamining ayant fait leurs preuves ; nous pouvons classer les principales méthodes
disponibles dans sept catégories, à savoir :
• La visualisation des données sous forme d’étoiles, par l’intermédiaire de la méthode
SOE.
• L’utilisation de techniques de statistiques ‘classiques’, comprenant entre autres des
histogrammes, mais qui sont appliquées ici à des objets symboliques grâce à la
méthode STAT.
• SODAS permet également de rendre compte de la notion de dissimilarité via DI.
• Plusieurs techniques de discrimination se trouvent également disponibles, telles que
DSD et DKS
• Les arbres de décisions (TREE, SDT), permettent quant-à-eux de déduire des règles
logiques afin d’expliquer une variable classe portant sur les concepts.
• Cette démarche est différente de la classification, réalisable grâce aux méthodes DIV
ou PYR ; appliquant diverses stratégies de partitionnement des données.
• Et enfin, SODAS propose également des analyses factorielles de type PCM ou FDA.
Le schéma suivant récapitule les différents types d’analyses réalisables sous
SODAS, et dont certaines seront approfondies dans la suite de ce rapport.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
56
Figure 32 : Aperçu général des types de méthodes disponibles sous SODAS
BDR
DB2SO
Symbolic Data File
Histogramme biplot
Dissimilarities
Clustering
Analyses factorielles
Stars graphics
Discrimination Decision
tree
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
57
SOE : Symbolic Object Editor 3.1 Présentation de la méthode SOE
L’éditeur d’objets symboliques permet aux utilisateurs, aussi bien experts que novices
de visualiser les données symboliques présentes dans un fichier SODAS ; et ce, très
simplement, même pour des objets symboliques parfois très complexes, à travers une
interface graphique agréable.
SOE présente les fonctionnalités suivantes :
• Il permet aux utilisateurs de voir dans une table l’ensemble des données présentes
dans un fichier SODAS ; et il permet également de réaliser quelques modifications
simples sur ces données, comme le choix des concepts, des variables… que l’on
souhaite garder.
Figure 33 : Exemple de table SOE contenant l’ensemble des données d’un fichier SODAS
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
58
On peut remarquer que les variables quantitatives se trouvent décrites par des
intervalles tandis que les variables nominales sont décrites par des histogrammes.
• De plus, cet éditeur permet de visualiser des représentations graphiques en deux ou
trois dimensions. Pour cela, il faut sélectionner dans la table au moins un concept (en
ligne) et trois variables (en colonne). Puis, selon notre choix, apparaissent alors des
représentations en étoile en deux ou trois dimensions, comme le montrent les figures
suivantes :
Figure 34 : Exemple de représentation graphique 2D dans SOE
Figure 35 : Exemple de représentation graphique 3D dans SOE
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
59
Les variables nominales se trouvent représentées par des histogrammes, tandis que
les intervalles traduisent les valeurs des variables quantitatives. De plus, il est également
possible d’afficher les résultats d’une hiérarchie telle que le titre selon les différents niveaux
de cette taxonomie.
• Enfin, SOE propose aussi une représentation SOL (i.e. Symbolic Object Language)
de chaque concept présent dans le tableau, comme illustré ci-dessous :
Figure 36 : Exemple de représentation SOL dans SOE
3.2 Application de la méthode SOE
La figure suivante représente un extrait de la table des concepts et des individus
obtenue suite à l’extraction des individus.
Figure 37 : Extrait de la table obtenue par la méthode SOE
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
60
En sélectionnant différentes variables, on peut réaliser, entre autres, des
interprétations portant sur les thèmes suivants :
3.2.1 Les règnes des rois de France
Nous avons sélectionné pour chacun des concepts, les variables qualitatives relatives
au prénom, au qualificatif, et au numéro du roi, ainsi que la cause de la fin de son titre ; et
concernant les variables quantitatives, elles portent sur le numéro de l’enfant dans la fratrie,
la durée de vie, les nombres totaux d’enfants et de fils rois, ainsi que l’âge d’obtention et la
durée du titre.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
61
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
62
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
63
Figure 38 : Ensemble des graphiques STAR 2D relatifs au règne des rois de France
Une première comparaison rapide entre ces six graphiques en étoile nous permet de
voir que tous les concepts s’avèrent relativement différents, même s’ils se rejoignent
effectivement sur quelques variables. Mais dans tous les cas, et comme cela sera également
approfondi par la suite, les Robertiens apparaissent déjà comme un concept à part ; cela
s’explique d’un point de vue historique par le fait que les Robertiens, qui se situent à la
même période que les Carolingiens, sont en fait une branche de la famille royale cousine
des Carolingiens, et dont le rôle a surtout été de servir en quelque sorte de ‘relais’ à ceux-ci
lorsque la descendance directe n’était pas assurée.
On peut commencer par remarquer que chaque concept possède son propre
ensemble de prénoms et qualificatifs les plus couramment usités ; de plus, au niveau de la
lecture des graphes SOE, le fait que plusieurs points aient été sélectionnés pour les
variables qualitatives signifie qu’elles apparaissent toutes avec la même fréquence.
Ainsi, on est passé progressivement, avec les Mérovingiens, des prénoms Clotaire et
Thierry, à Louis avec les Carolingiens, puis Raoul, Robert, Eudes pour les Robertiens, avant
de retrouver à nouveau Louis et Philippe chez les Capétiens, suivi de Charles pour les
Valois, et enfin, de nouveau Louis chez les Bourbons. Par conséquent, on voit clairement
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
64
que le prénom Louis apparaît régulièrement, et pour être plus exact, il se retrouve en tête
des prénoms les plus usités, apparaissant alternativement pour un concept sur deux.
Quant-aux qualificatifs les plus fréquemment utilisés, ils ne correspondent qu’à une
seule dynastie à la fois.
Il est également intéressant de noter que pour la quasi-majorité des concepts, le
numéro de roi principal est le I et/ou le II, excepté pour les Bourbons qui ont eu autant de IV,
VII, X, XIII, XIV, XV, XI, et XVIII.
Concernant le nombre total d’enfants, les intervalles des valeurs min et max s’avèrent
relativement proches l’un de l’autre pour les dynasties des Mérovingiens, Capétiens, Valois
et Bourbons, qui ont eu entre 0 et 12 enfants, à plus ou moins 3 près. En revanche, les
concepts Carolingiens et Robertiens font figure d’exception : le premier atteint au maximum
le nombre de 19 enfants, tandis que l’autre se contente au plus de 3 enfants.
On peut remarquer de plus, qu’à priori, il ne semble pas y avoir de lien direct entre le
nombre d’enfants et celui de fils rois. Car en effet, même si sur l’étendue du nombre
d’enfants les dynasties des Mérovingiens, Capétiens, Valois et Bourbons semblaient assez
proches, on note que les Bourbons se différencient alors concernant le nombre de fils rois,
compris entre 0 et 1, alors que les autres concepts (excepté à nouveau le concept des
Robertiens, qui n’ont aucun fils roi) s’étendent tous de 0 à 3 ou 4 enfants au maximum.
A propos des variables telles que l’âge d’obtention du titre, la durée de celui-ci ou
encore la durée de vie des rois, on peut noter dans tous les cas que l’âge maximal
d’accession au titre de roi est assez tardif ; par exemple chez les Bourbons, alors que la
durée de vie maximale est de 79 ans, l’âge d’accession au trône a lieu au plus tard à 67 ans,
ce type d’écart se retrouve encore chez les Mérovingiens, Carolingiens, Capétiens, et Valois,
avec des valeurs comprises entre 60 et 70 ans en ce qui concerne la durée de vie maximale
observée, et proches de la quarantaine pour l’âge maximal d’obtention du titre. Là encore les
Robertiens se distinguent des autres dynasties, car la différence entre l’âge maximal
d’accession au titre de roi (56 ans) et celui de la durée de vie maximale (57 ans) s’avère
nettement moindre que pour les autres concepts.
Ces différences se retrouvent également au niveau de l’étendue de la durée de titre,
car les Robertiens possèdent une étendue relativement faible, de l’ordre de 13 ans, alors
que pour les autres dynasties, cet intervalle est au minimum de 40 ans.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
65
Enfin, pour finir cette comparaison entre les différents concepts, nous avons souhaité
nous intéresser de plus près à la répartition des causes de fin de règne des rois ; ce qui se
trouve détaillé dans les histogrammes suivants :
Mérovingiens Carolingiens Robertiens
Capétiens Valois Bourbons
Figure 39 : Histogrammes des causes de fin de titre des rois de France selon la dynastie
Il ressort très nettement de ces histogrammes que la première cause de fin de titre
des différentes dynasties, jusqu’aux Capétiens, est le décès naturel des rois ; puis, pour les
deux concepts suivants, à savoir les Valois et les Bourbons, ce pourcentage de fin de règne
dû à une mort naturelle s’amenuise, pour laisser en cause principale de fin de titre les
maladies.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
66
Par ailleurs, la répartition des différents pourcentages traduit bien le climat ambiant
qui existait aux époques des différentes dynasties. Ainsi, on voit clairement que pour les
Mérovingiens, il apparaît une proportion non négligeable de fin de règne due à des
assassinats, ce qui traduit effectivement les nombreux complots existants alors, en vue
d’accéder au trône.
De plus, les nombreuses guerres ayant eu lieu lors de la dynastie des Robertiens et
des Capétiens constituent effectivement la cause de la fin de plusieurs règnes.
Et enfin, même si le pourcentage de maladies va croissant pour les trois derniers
concepts, cela n’éclipse pas pour autant la période de trouble qui a accompagné les
Bourbons, dont beaucoup ont dû faire face à la révolution française, qui a vu de nombreux
assassinats, exils et décapitations, comme spécifié dans l’histogramme correspondant.
3.2.2 Les enfants des rois de France
Dans ce cas, nous avons sélectionné pour chacun des concepts, des variables
quantitatives portant sur différentes notions telles que le nombre d’enfants, décliné selon
plusieurs critères (morts jeunes, rois, …), la durée de vie, et d’autres variables relatives aux
mariages, ainsi qu’une variable booléenne déterminant si les rois de France ont eu ou non
des enfants.
Les deux graphiques suivants illustrent les résultats obtenus pour les dynasties des
Valois et des Bourbons.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
67
Figure 40 : Deux graphiques STAR 3D relatifs aux enfants des rois de France
D’après les graphiques 2D en étoiles précédents, les dynasties des Bourbons et des
Valois semblent fortement différentes, excepté pour la cause de fin de titre, dû aux maladies.
Il peut être pertinent de s’intéresser de plus près à ces deux concepts afin de déterminer de
façon plus fine les points communs et les différences existant entre ces deux dynasties, qui
s’avèrent relativement proches l’une de l’autre dans le temps, mais éloignées sur de
nombreux autres critères.
Ainsi, jusqu’à un certain point, les Valois et Bourbons paraissent relativement
similaires, en particulier en ce qui concerne le nombre de mariages peu élevé (jusqu’à 2 ou
3, respectivement pour les Bourbons et les Valois) ; l’âge lors du premier mariage s’avère
dans les deux cas assez jeune (entre 14 et 22 ans pour les Bourbons, et de 12 à 24 ans
pour les Valois) ; et enfin, le nombre d’enfants issus du premier mariage et le nombre total
d’enfants s’étendent de 0 à 12, à plus ou moins 2 près pour les Bourbons.
En revanche, des disparités apparaissent en ce qui concerne l’âge lors du premier
enfant ; ainsi, alors que les Bourbons se sont mariés au plus tard à 22 ans, l’âge maximal
auquel un individu a eu son premier enfant est de 48 ans, soit au minimum 26 ans après son
mariage ; tandis que pour les Valois, cet écart n’est que de 12 ans.
En outre, on remarque que la quasi totalité des Va lois ont eu des enfants, alors que
chez les Bourbons, cette proportion s’avère moindre. On peut noter par ailleurs que, bien
que les intervalles du nombre total d’enfants soient quasiment identiques, ainsi que ceux sur
le nombre total de filles, il en est autrement du nombre de fils qui s’étend jusqu’à 7 pour les
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
68
Valois, tandis que les Bourbons ont eu au maximum 3 fils. Qui plus est, les premiers ont eu
jusqu’à 3 fils rois, alors que les Bourbons n’ont eu au maximum qu’un fils roi.
Par ailleurs, des différences apparaissent également au niveau de la mortalité
infantile ; ainsi, même si les intrevalles relatifs aux nombres d’enfants et de filles sont
quasiment identiques pour les deux concepts, en revanche ceux portant sur la mortalité
infantile des filles se révèlent très différents : les Valois ont vu jusqu’à 5 filles mourir jeunes,
tandis que ce nombre ne dépasse pas 3 pour les Bourbons.
Et enfin, une autre différence flagrante entre ces deux dynasties concerne la durée
de vie ; en effet, les Valois sont morts entre 13 et 60 ans, alors que les Bourbons, quant-à
eux, ont atteint au minimum l’âge de 36 ans , et ont pu vivre jusqu’à l’âge de 79 ans.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
69
STAT : Méthode de statistiques élémentaires 4.1 Présentation de la méthode STAT
La méthode STAT (Histogram, Elementary Statistics), comme son nom l’indique,
permet d’étendre des méthodes ‘classiques’ des statistiques, à des objets symboliques
représentés par des variables descriptives, et non pas à des individus de premier niveau.
Cette méthode peut prend en entrée trois types de variables différentes : des
variables multi-nominales, des variables multi-nominales probabilistes, ou bien des variables
intervalles.
En fonction du type des variables d’entrées choisies, plusieurs méthodes STAT
peuvent être appliquées ; ceci se trouve résumé dans le tableau suivant :
TYPE DE VARIABLES EN ENTREE
Multi-nominales Multi-nominales probabilistes Intervalles
Fréquences relatives
Capacité
Min/Max/Mean
ME
THO
DE
S
AP
PLI
CA
BLE
S
Biplot
Figure 41 : Tableau récapitulatif des méthodes STAT disponibles en fonction du type des
variables d’entrée
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
70
4.1.1 Fréquences relatives pour les variables multi-nominales
En prenant en compte les éventuelles règles qui ont été définies sur la base, cette
méthode permet de visualiser la fréquence relative de chaque modalité de la variable
sélectionnée.
On peut de plus spécifier le type de diagramme que l’on souhaite obtenir en sortie, à
savoir soit un diagramme en bâtons, soit un camembert.
Figure 42 : Exemple de camembert traduisant les fréquences relatives de la variable
multi-nominale cause_fin_titre des rois de France
4.1.2 Fréquences relatives pour les variables intervalles
En plus de la variable intervalle spécifiée, cette méthode prend un deuxième
paramètre d’entrée : le nombre de classes utilisé pour découper l’intervalle. Elle calcule ainsi
pour chaque classe sa fréquence relative tout en tenant compte, pour tous les objets
symboliques, du recouvrement de chaque classe par les valeurs intervalles.
Figure 43 : Exemple de graphique sur les fréquences relatives de la variable intervalle
nb_total_enfants des familles des rois de France
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
71
4.1.3 Capacités et Min/Max/Mean pour les variables multi-nominales probabilistes
En considérant les différentes modalités de la variable sélectionnée, cette méthode
permet de construire un histogramme des capacités de ces modalités.
Le deuxième graphique disponible est un graphique min/max/mean, qui correspond à
un diagramme représentant l’étendue et la moyenne de la probabilité de chaque modalité.
Figure 44 : Exemple de graphique min/max/mean pour la variable multi-nominale
probabiliste prénom des rois de France
4.1.4 Biplot pour les variables intervalles
Contrairement aux individus de premier niveau, habituellement représentés dans le
plan par un point, ici, les objets symboliques sont représentés par un rectangle dans le plan
(plan défini par le choix de deux variables par l’utilisateur). La dimension de chaque côté du
rectangle correspond à l’étendue de la variation de l’objet symbolique relativement à la
variable de l’axe considéré.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
72
Figure 45 : Exemple de diagramme biplot sur la famille des rois de France, relatif à l’âge
de fin du titre en fonction de l’année de naissance
4.2 Application de la méthode STAT 4.2.1 Années de naissance et de décès
• Les deux histogrammes suivants reflètent la répartition des naissances et des décès
au cours du temps des différentes branches de la famille des rois de France :
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
73
Figure 46 : Histogrammes des années de naissance et de décès de la famille des rois de
France
En observant ces deux graphiques, on note plusieurs pics, tant au niveau de la
natalité que des décès ; et qui plus est, chacun de ces pics de naissance précède une
augmentation des décès, avec un décalage dans le temps d’environ 50 ans (par exemple le
1er pic des naissances commence vers 750 et dure jusqu’en 950, alors que les décès
augmentent à leur tour significativement entre 800 et 1000). Ceci signifie tout simplement
que les individus des concepts, nés à un moment donné, meurent de manière générale
environ 50 ans après.
Concernant les deux derniers pics de natalité, l’existence de grosses épidémies de
peste en 1300 et 1500 pourraient expliquer l’accroissement démographique observé juste
après ces périodes. En revanche, concernant le premier pic entre 750 et 950, plusieurs
causes possibles pourraient être mises en avant, telles que les nombreuses croisades,
guerres, et épidémies relatives à cette période. Il est à noter qu’au cours de cet intervalle de
temps, correspondant globalement au règne des Carolingiens, ceux-ci ont en effet eu
nettement plus d’enfants que les autres dynasties.
Enfin, après ces différents pics, s’ensuit à chaque fois un retour à la normale. On peut
cependant affiner cette observation en remarquant qu’entre les deux premiers pics on se
situe aux alentours de 2 %, puis entre les deux pics suivants on passe à 2,5%, pour ensuite
se rapprocher des 3 % après le dernier pic de 1500. Autrement dit, cette évolution traduit bel
et bien une tendance générale d’accroissement démographique de la famille des rois de
France.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
74
• Il est également possible d’étudier l’évolution des naissances au cours du temps pour
la lignée royale directe, comme représenté sur l’histogramme suivant :
Figure 47 : Histogramme de l’année de naissance de la lignée royale
On peut ainsi noter que la lignée royale suit la même tendance que la famille entière,
à la différence près que les pics de natalité s’étendent sur des périodes moins importantes ;
ceci s’expliquant par le fait que la lignée royale ne concerne que les descendants directs.
4.2.2 Durée de vie
On se propose d’étudier la durée de vie tant pour la famille entière, que pour les rois
de France eux-mêmes, afin de mettre en évidence leurs caractéristiques distinctives.
Figure 48 : Histogramme de la durée de vie de la famille des rois de France
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
75
Le diagramme précédent permet d’observer la répartition de le population de la
famille des rois de France de la manière suivante :
Environ 15 % des individus, tous concepts confondus, meurent avant l’âge de 15 ans ; puis
la plus grande probabilité, avec un taux de 72 %, est de vivre entre 15 et 70 ans ; et enfin,
seuls 8 % et 5 % vivent respectivement au delà de 70 et de 80 ans.
Cette réparttion de la durée de vie change en revanche en ce qui concerne les rois
de France, comme indiqué par l’histogramme correspondant à une loi normale, représentée
ci-après :
Figure 49 : Histogramme de la durée de vie des rois de France
Dans ce cas, seuls 5 % des rois meurent avant l’âge de 15 ans, soit 3 fois moins que
par rapport à l’ensemble de la famille entière des rois de France ; cela pouvant s’expliquer
par le fai que les rois, du fait de leur statut potentiel, bénéficient d’attentions et de conditions
de vie nettement plus favorables.
On observe ensuite que 18 % vivent entre 15 et 30 ans, et que la grande majorité
possède une durée de vie comprise entre 30 et 60 ans, avec un taux de 61 %. Ces
proportions, 79 % au total, correspondent globalement aux 72 % des familles dont la durée
de vie s’étend entre 15 et 70 ans. Reste alors environ 16 % de personnes qui vivent au delà
de 60 ans. Ainsi, on peut remarquer que, contrairement à la famille entière, qui voit 3 fois
plus de morts avant l’âge de 15 ans qu’après celui de 60 ans, les rois de France quant-à eux
voient ce ratio inversé, avec une probabilité de vivre au delà de 60 ans , en étant roi, 3 fois
plus élevée que celle de mourir jeune.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
76
4.2.3 Biplots obtenus pour les variables intervalles correspondantes
Pour corroborer les résultats mis en évidence précédemment, on peut également
s’intéresser aux biplots suivants :
Figure 50 : Biplot sur la lignée royale de France, relatif à la durée de vie par rapport à
l’année de naissance
On voit là encore que la durée de vie des dynasties augmente sensiblement avec
l’année de naissance : ainsi, tandis que les Mérovingiens ont vécu au maximum 63 ans, les
Bourbons ont quant-à eux pu atteindre l’âge de 77 ans.
En revanche, les Robertiens font de nouveau figure d’exception, en effet, ils
correspondent à la dynastie dont le maximum de durée de vie est le plus faible, et d’un autre
côté, ce sont également eux dont la durée de vie minimale est la plus forte.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
77
Figure 51 : Biplot sur la famille des rois de France, relatif au nombre total d’enfants en
fonction de l’année de naissance
De nouveau, d’après ce graphique, les dynasties des Mérovingiens et des Bourbons,
bien qu’éloignées l’une de l’autre de plus de 1000 ans, paraissent cependant similaires sur
plusieurs points, comme ici sur l’étendue du nombre d’enfants.
Si l’on se place par rapport à la tendance globale qui se dégage de ce graphique, les
dynasties des Mérovingiens, Capétiens, Valois et Bourbons s’avèrent plutôt semblables avec
un nombre d’enfants variant de 0 à 13 au maximum.
En revanche les Robertiens et Carolingiens font une fois de plus figure d’exception, et
constituent les deux concepts extrêmes. En effet, les Robertiens ont eu moins d’enfants que
les autres dynasties, avec un maximum de 8 enfants, tandis que les Carolingiens ont quant-à
eux eu jusqu’à 19 enfants.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
78
TREE : Arbre de décision 5.1 Présentation de la méthode TREE
Un arbre de décision est un enchaînement hiérarchique de règles construites de
manière automatique à partir d’une base d’exemples. Un exemple, quant-à-lui, est constitué
d’une liste d’attributs, dont la valeur détermine l’appartenance à une classe donnée.
La construction de l’arbre de décision consiste à utiliser les variables explicatives
pour subdiviser progressivement l’ensemble d’exemples en sous-ensembles de plus en plus
fins. Ainsi, l’arbre de classification est obtenu en recherchant à chaque niveau le paramètre
le plus discriminant pour classifier un exemple.
Avant tout, il faut préciser qu’un pré-requis nécessaire au bon fonctionnement de
cette méthode est d’avoir déclaré au préalable dans SODAS une classe associée à chaque
concept ; cette opération s’effectuant par l’intermédiaire du sous-menu ‘Add single’ dans
SODAS.
Afin de paramétrer la méthode, il nous faut déterminer, en plus de la variable class à
expliquer, un ensemble de variables prédictives parmi des variables quantitatives (ou
intervalles), et des variables qualitatives (c’est-à-dire multi valuées ou modales) ; le choix
entre ces deux types de variables étant exclusif.
Une fois, la méthode TREE appliquée, on récupère en sortie un listing contenant les
informations suivantes :
• la liste des variables utilisées
• la liste des objets symboliques appartenant à un « training set »
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
79
• la liste des objets symboliques appartenant à un « test set»
• la liste des nœuds ; chacun de ces nœuds se trouvant décrit par une règle
• et enfin, la liste des nœuds terminaux, encore appelés feuilles.
Figure 52 : Exemple d’arbre de décision généré par SODAS
Comme l’illustre la figure précédente, on récupère notamment en sortie un ensemble
de règles, aisément compréhensibles. En effet, une règle logique simple comprend une
prémisse et une conclusion ; la prémisse exprime une condition logique bâtie sur des tests
portant sur des variables combinées par des opérateurs logiques (par exemple le ‘et’) ; la
conclusion, quant-à-elle, se trouve complétée par une fréquence d’appartenance (si la
variable à expliquer est qualitative), ou bien par une moyenne (dans le cas d’une variable
continue).
Pour reprendre notre exemple, cet arbre se traduit plus simplement par la phrase
suivante :
Si la variable num_enfant a une valeur inférieure à 2,54
Alors le concept correspond à la classe ‘de 10 à 20’, avec une probabilité de 98,3 %
Sinon le concept peut correspondre à 39,7 % à la classe ‘plus de 20’.
5.2 Application de la méthode TREE
La méthode TREE nous permet de définir les concepts de dynastie selon un
ensemble organisé, grâce à une procédure récursive de partitionnement.
Nos concepts sont décrits notamment par la variable de classe correspondant à la
durée de la dynastie, ajoutée via add single ; la méthode TREE sera par la suite appliquée à
+---- < 2 > de 10 à 20 ( 6.24 6.03 9.83 ) ! !----1[ num_enfant <= 2.540000] ! +---- < 3 > plus de 20 ( 3.76 3.97 0.17 )
1
1
2
3
2
3
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
80
NUMBER OF A PRIORI CLASSES : 4 ID_CLASS NAME_CLASS 1 2siecles 2 4siecles 3 1siecle 4 3siecles
GROUP OF PREDICATE VARIABLES : ( 5 ) num_enfant ( 6 ) annee_naissance ( 7 ) annee_deces ( 8 ) duree_vie ( 9 ) nb_mariage ( 10 ) date_premier_mariage ( 11 ) age_lors_premier_mariage ( 12 ) nb_enfant_premier_mariage ( 14 ) age_lors_premier_enfant ( 15 ) nb_total_enfants ( 16 ) nb_total_fils ( 17 ) nb_total_filles ( 18 ) nb_total_fils_roi ( 19 ) nb_enfants_morts_jeunes ( 20 ) nb_fils_morts_jeunes ( 21 ) nb_filles_morts_jeunes ( 25 ) age_obtention_titre ( 26 ) age_fin_titre ( 27 ) annee_obtention_titre ( 28 ) annee_fin_titre ( 29 ) duree_titre ( 34 ) fin_titre_pere ( 35 ) age_deces_pere
cette variable de partitionnement, successivement pour chacune des notions suivantes : la
famille des rois de France, la lignée directe, et les rois de France eux-mêmes.
5.2.1 Caractéristiques communes de la méthode TREE
Le concept de dynastie peut être caractérisé par la variable durée de la dynastie, qui
comporte quatre valeurs, comme indiqué ci-après :
Figure 53 : Liste des classes relatives à la durée de règne des dynasties
Les variables explicatives choisies en entrée sont les variables continues suivantes :
Figure 54 : Liste des variables explicatives potentielles pour la méthode TREE
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
81
+ --- SI ASSERTION EST VRAIE (Branche du Haut) ! --- x [ ASSERTION ] ! + --- SI ASSERTION EST FAUSSE (Branche du Bas)
+---- [ 4 ]3siecles ( 0.00 0.00 0.00 1.00 ) ! !----2[ date_premier_mariage <= 737.000000] ! ! ! ! +---- [ 20 ]2siecles (1.00 0.00 0.00 0.00) ! ! ! ! ! !---10[ nb_enfants_morts_jeunes <= 0.000000] ! ! ! ! ! ! ! +---- [ 21 ]4siecles (0.00 1.00 0.50 0.00) ! ! ! ! !----5[ annee_fin_titre <= 1328.000000] ! ! ! +---- [ 11 ]2siecles (1.00 0.00 0.00 1.00) ! !----1[ nb_mariage <= 3.000000] ! +---- [ 3 ]1siecle ( 0.00 0.00 0.50 0.00 )
De manière générale, l’arbre de décision se lit ainsi :
Figure 55 : Explications relatives à la lecture de l’arbre de décision
5.2.2 Comparaison des arbres obtenus pour la famille entière, la lignée directe et les rois de France
• L’arbre obtenu pour la famille entière est le suivant :
Figure 56 : Arbre obtenu pour la famille des rois de France
Cet arbre nous permet de définir des règles caractérisant les dynasties selon leur
durée de règne :
Ainsi, les dynasties ayant régné pendant 1 siècle sont définies par le fait que le
nombre de mariages est supérieur à 3.
Quant-aux dynasties ayant régné pendant 2 siècles, elles se se sont mariées moins
de 3 fois, la date de leur premier mariage étant postérieure à l’an 737, et l’année de fin de
titre a lieu après 1328, ou bien si elle a lieu avant, il n’y a pas d’enfants morts jeunes.
Les dynasties ayant régné pendant 3 siècles sont caractérisées par le fait qu’elles se
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
82
+---- [ 4 ]3siecles (0.00 0.00 0.29 1.00) ! !----2[ annee_naissance <= 865.000000] ! ! ! ! +---- [ 20 ]2siecles(1.00 0.00 0.00 0.00) ! ! ! ! ! !---10[ nb_enfants_morts_jeunes <= 0.000000] ! ! ! ! ! ! ! +---- [ 21 ]4siecles(0.00 1.00 0.21 0.00) ! ! ! ! !----5[ annee_fin_titre <= 1328.000000] ! ! ! +---- [ 11 ]2siecles (1.00 0.00 0.00 1.00) ! !----1[ nb_mariage <= 3.000000] ! +---- [ 3 ]1siecle (0.00 0.00 0.50 0.00)
sont mariées moins de trois fois, et que la date du premier mariage se situe avant l’an 737.
Enfin, la dernière classe, à savoir les dynasties dont la durée de règne est de 4
siècles, est définie par moins de 3 mariages, la date du premier mariage se situant après
737, le titre s’étant terminé avant l’an 1328, et aussi par le fait qu’il y a eu des enfants morts
jeunes.
• Nous nous sommes ensuite intéressées à l’arbre obtenu pour la lignée directe :
Figure 57 : Arbre obtenu pour la lignée directe
La première remarque que l’on puisse tirer de cet arbre est sa ressemblance
frappante avec l’arbre relatif à la famille entière des rois de France ; la seule différence
provient de la variable explicative portant sur la date du premier mariage, qui s’avère
remplacée ici par l’année de naissance ; tous les autres critères étant identiques par ailleurs.
Ainsi, les dynasties ayant régné pendant 1 siècle se trouvent là encore avoir un
nombre de mariages supérieur à 3.
Quant-aux dynasties ayant régné pendant 2 siècles, elles se se sont mariées moins
de 3 fois, leur date de naissance étant postérieure à l’an 865, et l’année de fin de titre a lieu
après 1328, ou bien si elle a lieu avant, il n’y a pas d’enfants morts jeunes. Comparé aux
règles énoncées précédemment pour la famille entière, la règle caractérisant les dynasties
ayant régné pendant 2 siècles s’avère quelque peu plus restrictive car le critère selon lequel
les individus de la dynastie se sont mariés après 737 se trouve ici remplacé par le fait que
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
83
+---- [ 4 ]2siecles (2.00 0.11 0.11 0.17) ! !----2[ nb_total_fils_roi <= 1.000000] ! ! ! +---- [ 5 ]3siecles (0.00 0.22 0.22 0.41) ! !----1[ nb_total_fils_roi <= 1.000000] ! ! +---- [ 6 ]3siecles (0.00 0.00 0.67 0.75) ! ! !----3[ annee_deces <= 987.000000] ! +---- [ 7 ]4siecles (0.00 0.67 0.00 0.67)
ces individus sont nés après 865.
Les dynasties ayant régné pendant 3 siècles sont caractérisées par le fait qu’elles se
sont mariées moins de trois fois, et que la date de naissance se situe avant l’an 865 ;
contrairement à ce qui a été dit pour les dynasties ayant régné pendant 2 siècles, la variable
prédictive ‘date de naissance’ s’avère moins restrictive pour la lignée directe que le critère
‘date du premier mariage’ pour la famille entière.
Et enfin, la dernière classe, à savoir les dynasties dont la durée de règne est de 4
siècles, est définie par moins de 3 mariages, la date de naissance se situant après 865, le
titre s’étant terminé avant l’an 1328, et aussi par le fait qu’il y a eu des enfants morts jeunes.
Là aussi, le critère ‘date de naissance’ s’avère plus restrictif que la variable descriptive ‘date
du premier mariage’.
• Et en dernier lieu, il s’avère intéressant de comparer les arbres obtenus
précédemment avec celui relatif aux rois de France :
Figure 58 : Arbre obtenu pour les rois de France
Bien que l’on ait gardé exactement le même ensemble de variables descriptives lors
du paramétrage de l’arbre, on remarque que l’arbre ainsi généré pour les rois de France ne
possède pas du tout les mêmes variables explicatives que pour les deux arbres obtenus
précédemment. De plus, cet arbre ne nous permet pas, contrairement aux deux autres, de
caractériser les dynasties ayant régné pendant 1 siècle.
Ainsi, les dynasties dont la durée de règne est de 2 siècles possèdent un nombre de
fils rois inférieur ou égal à 1.
Quant-aux dynasties ayant régné pendant 3 siècles, elles ont, à l’inverse, plus d’un
fils roi, et leur année de décès se situe éventuellement avant l’an 987. Cependant, il est à
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
84
noter que pour cette classe, la matrice de confusion correspondante s’avère telle que l’on a
seulement une probabilité d’un sur deux de classer correctement les individus appartenant à
la dynastie dont la durée de règne est de 3 siècles.
Enfin, les dynasties dont la durée de règne est de 4 siècles correspondent aux
critères suivants : un nombre de fils rois supérieur à 1, et l’année de décès postérieure à l’an
987.
Pour conclure sur ces différents arbres obtenus, on peut se référer aux matrices de
confusions correspondantes : ainsi, l’arbre relatif à la famille entière possède un taux global
d’erreur de 33.33 %, à égalité avec celui portant sur les rois ; mais en revanche, l’arbre
obtenu pour la lignée directe possède un taux global d’erreur deux fois moindre, ce qui fait
de lui l’arbre le plus fiable, avec un taux de fiabilité de 83.33 %.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
85
DIV : méthode de classification hiérarchique descendante 6.1 Présentation des méthodes de classification hiérarchiques descendantes 6.1.1 Principe des méthodes
Les méthodes divisives de classification sont des méthodes de classification
hiérarchique. Elles partent d’un ensemble O d’individus et construisent de manière itérative
une famille F de classes de O vérifiant les propriétés suivantes :
(1) F∈Ω
(2) F, ∈ωΩ∈ω∀
(3) deux classes de F sont soit disjointes soit contenues l’une dans l’autre
La famille F de classes est une hiérarchie, les classes en sont les paliers. Voici un arbre
hiérarchique représentant la famille F suivante :
Les méthodes divisives de classification construisent une hiérarchie en effectuant des
divisions successives de O, jusqu’à la partition des singletons. Ces méthodes sont
4,3,2,1
2,1
4,3
1 2 3 4
4,3,2,1,4,3,2,1,4,3,2,1F =
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
86
descendantes par opposition aux méthodes ascendantes qui partent de la partition des
singletons et qui procèdent par agrégations successives.
6.1.2 Choix et partitionnement de classes
Les méthodes divisives sont itératives et procèdent à chaque itération, au choix de la
classe à diviser et au partitionnement de cette classe. Nous allons voir par la suite les
différentes stratégies de choix ainsi que les stratégies de partitionnement rencontrées dans
les diverses méthodes. Notons que ces méthodes utilisent des critères usuels en analyse de
données comme l’inertie ou le diamètre pour évaluer la qualité de la partition.
A chaque étape d’un algorithme divisif de classification, on connaît une partition
)C,...,C,C(P k21k = en k classes de O.
Ω=
∅=∪
=U
k
1ii
ji
C
CC
On doit alors choisir la classe que l’on veut diviser en m classes pour obtenir une partition en
( )1mk −+ classes. Généralement 2m = , et on obtient une partition en ( )1k + classes.
Présentons maintenant différentes stratégies de choix de classe à diviser.
§ Première stratégie
Elle consiste à ne pas faire de choix. Toutes les classes obtenues à l’étapes précédentes
sont systématiquement divisées.
§ Deuxième stratégie
Cette stratégie consiste à choisir la classe que l’on va diviser en fonction d’une
caractéristique définie arbitrairement.
§ Troisième stratégie
Elle consiste à choisir de diviser la classe qui donne la « meilleure » partition au sens d’un
critère d’évaluation W. On cherche parmi toutes les partitions en ( )1k + classes, résultant de
la division d’une classe, celle qui optimise le critère. On retient la classe qui induit cette
partition.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
87
6.1.3 La méthode DIV de SODAS
La méthode DIV ou Divising Clustering Method est une méthode de classification
hiérarchique descendante. Elle procède donc, à chaque étape, par division successive des
classes en deux conformément à une question binaire. Cette question binaire est telle qu’elle
induit le meilleur partitionnement optimisant le critère d’inertie (inertie intra-classe – théorème
de Huygens).
Les données en entrée de la méthode sont soit quantitatives soit qualitatives. Ces
deux types ne peuvent être mélangés. Les variables ainsi choisies vont permettre de
partitionner les concepts selon un critère d’inertie. Le choix du nombre de classes de
partitionnement doit être paramétré. On obtient en sortie un arbre de classification
hiérarchique descendante permettant d’expliquer les concepts.
6.2 Application de la méthode DIV
Nous avons choisi d’étudier les différents concepts, c’est-à-dire les dynasties, par
rapport uniquement aux rois de France.
6.2.1 Le numéro de l’enfant dans la fratrie
Il s’agit d’expliquer les différentes dynasties par rapport à la place de l’enfant dans sa
fratrie, ce que nous appelons son numéro. En effet, nous souhaitions trouver une corrélation
entre la position de l’enfant par rapport à ses frères et sœurs et la dynastie durant laquelle il
avait été roi. Il s’avère que les résultats observés sont très intéressants car le critère d’inertie
est très fort.
Nous avons choisi un partitionnement en 5 classes :
§ classe 1 (n=1) : dynastie des Robertiens § classe 2 (n=1) : dynastie des Carolingiens § classe 3 (n=1) : dynastie des Capétiens § classe 4 (n=2) : dynastie des Mérovingiens et des Valois § classe 5 (n=1) : dynastie des Bourbons
Le partitionnement s’explique à 98,932384.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
88
Voici l’arbre représentant la classification hiérarchique :
Figure 59 : Rois de France – position de l’enfant dans la fratrie
Résultats observés :
§ Mérovingiens : 5.5 < numéro § Carolingiens : 4,5 < numéro ≤ 5.5 § Robertiens : numéro ≤ 3 § Capétiens : 3 < numéro ≤ 3.75 § Valois : 5,5 < numéro § Bourbons : 3,75 < numéro ≤ 4.5
On constate que les enfants appelés à régner n’étaient en moyenne pour aucune dynastie le
fils aîné, mis à part les Robertiens dont la dynastie a été très courte et donc difficilement
comparables aux autres.
Ceci peut s’expliquer par une mort infantile élevée. Notamment, le diagramme SOE sur les
enfants de la dynastie des Valois confirme la position tardive de l’enfant dans sa fratrie. En
ce qui concerne les Mérovingiens, on peut ajouter le fait qu’à la mort d’un roi, le royaume
était divisé entre ses fils, ce qui fait 3 ou 4 enfants régnant en même temps.
On peut également s’attarder sur les Carolingiens, qui ont eu plus de filles que les individus
des autres dynasties, ce qui peut faire reculer la position des fils dans la fratrie. Rappelons
que le numéro de l’enfant est indépendant de son sexe.
+---- Classe 1 (Ng=1) Robertiens ! !----2- [num_enfant <= 3.000000] ! ! ! ! +---- Classe 3 (Ng=1) Capétiens ! ! ! ! !----4- [num_enfant <= 3.750000] ! ! ! +---- Classe 5 (Nd=1) Bourbons ! !----1- [num_enfant <= 4.500000] ! ! +---- Classe 2 (Ng=1) Carolingiens ! ! !----3- [num_enfant <= 5.500000] ! +---- Classe 4 (Nd=2) Mérovingiens, Valois
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
89
6.2.2 Durée de vie et durée de règne Nous avons choisi un autre critère d’explication des dynasties : la durée de règne des rois de
France.
Partitionnement en 5 classes :
§ classe 1 (n=1) : Robertiens § classe 2 (n=1) : Valois § classe 3 (n=1) : Bourbons § classe 4 (n=1) : Carolingiens § classe 5 (n=2) : Mérovingiens, Capétiens
Le partitionnement s’explique à 99.889135.
Figure 60 : Rois de France – durée de règne
Résultats observés :
§ Mérovingiens : 23,75 < durée du règne ≤ 32,25 ans § Carolingiens : 22,25 < durée du règne ≤ 23 ,75 ans § Robertiens : durée du règne ≤ 14,00 ans § Capétiens : 23,75 < durée du règne ≤ 32,25 ans § Valois : 14,00 < durée du règne ≤ 22,25 ans § Bourbons : 32,25 < durée du règne
Nous allons recouper les résultats obtenus avec la durée de vie des rois :
Partitionnement expliqué avec 98.586073 :
§ classe 1 (n=1) : Robertiens § classe 2 (n=1) : Capétiens § classe 3 (n=1) : Bourbons § classe 4 (n=1) : Valois § classe 5 (n=2) : Mérovingiens, Carolingiens
+---- Classe 1 (Ng=1) Robertiens ! !----1- [duree_titre <= 14.000000] ! ! +---- Classe 2 (Ng=1) Valois ! ! ! !----3- [duree_titre <= 22.250000] ! ! ! ! ! ! +---- Classe 4 (Ng=1) Carolingiens ! ! ! ! ! ! !---4- [duree_titre <= 23.750000] ! ! ! ! ! +---- Classe 5 (Nd=2) Mérovingiens, Capétiens ! ! !----2- [duree_titre <= 32.250000] ! +---- Classe 3 (Nd=1) Bourbons
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
90
Figure 61 : Rois de France – durée de règne et durée de titre
On constate que les Capétiens ont régné approximativement toute la durée de leur
vie ou du moins une grande partie, au contraire des Mérovingiens, des Carolingiens et des
Valois qui ont vécu plus longtemps que n’a duré leur titre. On explique cela par le fait qu’ils
ont accédé au trône de France plus tardivement que les Capétiens.
Quant à la dynastie des Bourbons, elle est caractérisée par des durées de règnes
beaucoup plus longues que les autres dynasties. Si nous nous penchons sur la filiation
existante entre les rois de cette branche, nous constatons qu’elle est de nature indirecte. En
effet, certains rois ont régnés jusqu’à un âge particulièrement avancé et n’ont donc pu
passer le pouvoir qu’à leurs petits fils. Citons notamment Louis XIV qui a vécu jusqu’à 77 ans
et son petit fils Louis XV jusqu’à 64 ans et ont régné respectivement 72 ans et 59 ans. De
même, deux des petits fils de Louis XV ont vécu 69 ans et 79 ans, même si la durée de leur
règne a été nettement plus courte à cause de la révolution française.
+---- Classe 1 (Ng=1) Robertiens ! !----1- [duree_titre <= 14.000000] ! ! +---- Classe 2 (Ng=1) Capétiens ! ! ! !----3- [duree_vie <= 34.000000] ! ! ! ! ! ! +---- Classe 4 (Ng=1) Valois ! ! ! ! ! ! !---4- [duree_titre <= 22.250000] ! ! ! ! ! +---- Classe 5 (Nd=2) Mérovingiens, Carolingiens ! ! !----2- [duree_titre <= 32.250000] ! +---- Classe 3 (Nd=1) Bourbons
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
91
PYR : méthode de classification pyramidale 7.1 Présentation de la classification pyramidale 7.1.1 Principe
La classification pyramidale est une extension du modèle de classification
hiérarchique, présentée au chapitre précédent. C’est une technique de classification
automatique permettant, à partir d'un ensemble fini d'objets et un indice d'agrégation,
d'organiser ces objets en une structure de synthèse pyramidale.
Cette méthode permet de classer et d’analyser des données plus complexes. La
pyramide est construite suivant un algorithme d’empilement ascendant. Chaque classe ainsi
formée est définie non seulement par l’ensemble des éléments correspondant à son
extension, mais également par un objet symbolique décrivant les caractéristiques de la
classe c’est-à-dire son intention. Ces propriétés sont obtenues par héritage.
7.1.2 Données en entrée Les données initiales nécessaires à la méthode sont :
o soit une table de données symboliques auquel cas la pyramide de données sera
symbolique
o soit une table de distances et la pyramide obtenue sera numérique.
La pyramide est construite en fonction des variables que l’on souhaite expliquer. Elle a pour
objectif de mettre en avant les similitudes entre les concepts. Notons qu’il est possible de
mélanger les types des variables pour une même pyramide.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
92
7.2 Analyse de données
Nous nous sommes attachées ici à étudier les dynasties au travers des enfants des
individus et de leur comportement. En particulier, en poussant l’étude sur les fils des
individus car ce sont les fils qui sont appelés à régner. Nous nous sommes appuyées sur la
lignée royale et sur les rois.
7.2.1 Les enfants des individus Variables explicatives :
§ nb_total_enfants § nb_total_fils § nb_total_filles § nb_total_fils_roi § nb_enfants_morts_jeunes § nb_fils_morts_jeunes § nb_filles_morts_jeunes
Figure 62 : Lignée royale – Enfants
D’après la pyramide concernant la lignée royale, il existe des similitudes très fortes
entre la dynastie des Mérovingiens et celle des Robertiens en ce qui concerne la
descendance directe des individus. Cependant la dynastie des Robertiens est particulière
car très courte. Nous ne pouvons donc pas totalement nous appuyer sur ce résultat. En
revanche, les Carolingiens ont aussi une forte similitude avec les deux dynasties
précédentes.
On constate également que la dynastie des Valois a un comportement particulier. Elle
se distingue nettement des autres dynasties au travers de l’héritage des caractères. On
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
93
observe un résultat similaire pour la pyramide suivante qui concerne les individus ayant
régné uniquement.
Figure 63 : Rois – Enfants
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
94
PCM : Analyse en composantes principales 8.1 Principe de l’Analyse en Composantes Principales
La méthode PCM correspond à l’analyse en composante principale (autrement
appelée ACP), technique mathématique permettant de réduire un système complexe de
corrélations en un plus petit nombre de dimensions. L'ACP est une méthode factorielle qui
construit de nouveaux caractères synthétiques, obtenus en combinant les caractères initiaux
au moyen des "facteurs". Le but est alors d’étudier l’intensité des liaisons entre les variables
et de repérer les concepts présentant des caractéristiques voisines.
Contrairement à l’analyse en composantes principales portant sur des individus de
premier ordre, qui aboutit à une représentation par points sur un plan factoriel ; la méthode
PCM s’applique quant-à-elle à des objets symboliques, et propose donc une visualisation de
chaque concept par des rectangles.
En entrée, la méthode PCM prend uniquement des variables continues ; et ainsi, les
éléments de la matrice de données correspondent à des intervalles (avec les valeurs
minimales et maximales) décrivant la variation de la variable observée.
L’exécution de la méthode nous donne en sortie deux types de résultats : un listing et
la représentation graphique correspondante.
Le listing contient plusieurs éléments dont :
• La matrice avec les données d’entrée de la méthode, où chaque ligne correspond
à un concept.
• La matrice de variance et covariance.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
95
• Les valeurs propres, le pourcentage d’inertie et les descriptions des concepts par
des intervalles, pour chaque axe d’analyse potentiel.
• Les corrélations entre chaque variable descriptive et les composantes principales.
Pour la représentation graphique, l’utilisateur est invité à choisir deux axes d’analyse
parmi ceux proposés ; le but étant que la somme des pondérations de ces axes soit la plus
proche de 100 %, afin de ne pas perdre trop d’information, c’est-à-dire de choisir les axes de
plus forte inertie. Un exemple de représentation graphique obtenue par la méthode PCM est
donné par la figure suivante :
Figure 64 : Exemple de biplot obtenu par la méthode PCM
Il est à noter que ce qui fait la spécificité de l'analyse en composantes principales, par
rapport à d’autres méthodes factorielles, est qu'elle porte uniquement sur des variables
continues, alors que l'analyse des correspondances par exemple porte sur des variables
qualitatives, et qu’en analyse discriminante les variables se trouvent réparties en groupes
bien distincts.
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
96
Matrix of input data: annee_naissance annee_deces duree_vie "Mérovingiens" [405.00 , 725.00] [448.00 , 812.00] [0.00 , 74.00] "Carolingiens" [715.00 , 970.00] [761.00 , 1026.00] [1.00 , 96.00] "Robertiens" [750.00 , 946.00] [798.00 , 1004.00] [13.00, 72.00] "Capétiens" [937.00 , 1333.00] [996.00 , 1398.00] [0.00 , 82.00] "Valois" [1286.00, 1586.00] [1309.00, 1624.00] [0.00 , 76.00] "Bourbons" [1503.00, 1798.00] [1555.00, 1870.00] [0.00 , 84.00]
Correlations Matrix : annee_naissance 1.0000 0.8514 -0.0059 annee_deces 0.8514 1.0000 -0.0058 duree_vie -0.0059 -0.0058 1.0000
8.2 Application de la méthode PCM 8.2.1 Corrélations entre les années de naissance, de décès et la durée de vie
Il est à noter que la méthode PCM n’accepte que des variables quantitatives en entrée,
nous avons ainsi choisi d’analyser chacune des dynasties à partir des variables prédictives
suivantes :
• L’année de naissance
• L’année de décès
• La durée de vie
Les intervalles des variables descriptives, pour chaque concept, sont donnés par la
matrice ci-après :
Figure 65 : Matrice des intervalles des données en entrée pour la méthode PCM
Les corrélations entre ces trois variables descriptives se trouvent décrites par la
matrice de corrélation suivante :
Figure 66 : Matrice de corrélation entre les variables descriptives
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
97
Propers Values and inerty percentage: annee_naissance= 1.852 (61.72%) annee_deces= 0.149 (4.95%) duree_vie= 1.000 (33.33%)
On peut noter que, comme l’on s’y attendait, il existe une très forte liaison entre les
années de naissance et de décès (leurs corrélations étant positives et proches de 0.85) ;
ainsi, l’évolution entre ces deux années vont dans le même sens.
En revanche, les corrélations entre la durée de vie et les années de naissance et de
décès s’avèrent négatives. Ceci signifierait que plus l’on avance dans le temps, plus la durée
de vie des individus diminue. Ce résultat, qui peut paraître plutôt surprenant, est à nuancer
par la très faible valeur négative des corrélations (moins de 0.06) ; de plus, cette
interprétation se trouve éclairée par la suite, grâce aux graphiques biplots obtenus.
Figure 67 : Valeurs propres et pourcentage d’inertie des différentes variables prédictives
D’après les valeurs propres des différentes variables descriptives, et le pourcentage
d’inertie correspondant, il apparaît très clairement que les axes factoriels relatifs à l’année de
naissance et à la durée de vie structurent très fortement le problème (en effet, la somme de
leurs pourcentages d’inertie avoisine les 95 %)
Figure 68 : Biplot correspondant aux axes factoriels année de naissance et durée de vie
pour les familles des rois de France
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
98
Ainsi, ce graphique nous permet d’observer l’évolution des intervalles de durée de vie
des différentes dynasties, en fonction de la date de naissance. Une première observation de
ce graphe aboutit au constat selon lequel la majorité des concepts possèdent des intervalles
de durée de vie quasiment semblables, excepté pour les Robertiens et les Carolingiens. Ces
deux derniers, pourtant situés à la même période font figure d’exception : en effet, les
Robertiens correspondent à la dynastie dont le maximum de durée de vie est le plus bas,
alors que d’un autre côté, ce sont également eux dont la durée de vie minimale est la plus
forte. Quant-aux Carolingiens, ils possèdent la durée de vie la plus longue parmi l’ensemble
des autres concepts.
Ces différentes remarques sont à mettre en parallèle avec le biplot obtenu pour la
lignée directe, lors de l’application de la méthode STAT ; car dans ce cas, pour rappel, la
durée de vie des dynasties augmentait sensiblement avec l’année de naissance, passant
pour les Mérovingiens de 63 ans maximum, à 77 ans pour les Bourbons. En revanche, les
Robertiens faisaient là encore figure d’exception ; en effet, ils correspondaient à la dynastie
dont le maximum de durée de vie était le plus faible, et d’un autre côté, ce sont également
eux dont la durée de vie minimale était la plus forte.
L’analyse précédente peut encore être affinée grâce au biplot suivant, basé sur les
axes factoriels année de naissance et année de décès, qui structurent également plutôt bien
le problème, avec un taux approchant les 67 %.
Figure 69 : Biplot correspondant aux axes factoriels année de naissance et année de
décès
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
99
Conclusion
La réalisation de ce projet a été pour nous l’occasion de s’intéresser aux différentes
étapes du processus de Datamining, à commencer par rechercher et garder les données
pertinentes afin d’analyser correctement notre domaine d’étude, à savoir la famille des rois
de France. De plus, il nous a fallu également nous documenter sur le thème du Datamining,
afin de pouvoir aborder l’étape d’analyse de données symboliques à proprement parler, en
ayant à l’esprit les différents éléments que l’on pouvait espérer obtenir par l’application des
diverses méthodes mises à notre disposition par le logiciel SODAS.
En effet, ce projet a également été pour nous l’occasion de découvrir et manipuler le
logiciel SODAS, puissant outil d’analyse de données symboliques, qui nous a permis
d’extraire des pépites d’information de notre importante base de données relationnelle
initiale.
Cependant, l’utilisation optimale de ce logiciel requiert une très bonne connaissance
du langage SQL, permettant d’exécuter des requêtes à partir de notre importante base de
données relationnelle. En effet, via le module DB2SO, ces requêtes se sont avérées
primordiales pour extraire les individus, les concepts, et les variables descriptives utilisés par
la suite dans notre étude.
En revanche, la grande facilité de prise en main de ce logiciel, ainsi que son interface
graphique conviviale, disposant de schémas colorés et de textes facilement
compréhensibles par l’utilisateur, constituent des atouts indiscutables de ce logiciel, même si
des graphiques ne sont pas disponibles pour toutes les méthodes.
Enfin, pour conclure, le fait d’avoir réalisé ce projet en binôme constitue sans aucun
doute un point positif pour notre étude, car cela nous a permis de confronter nos différentes
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
100
interprétations des résultats, et d’aboutir ainsi une analyse fortement détaillée, et
certainement plus pertinente que si ce travail avait été réalisé seul.
Glossaire
DB2SO DataBase To Symbolic Objects
DIV Divisive Classification
DM Data Mining
DSD Discriminant Symbolic Descriptions
DW Data Warehouse
FDA Factorial Discriminant Analysis
KDD Knowledge Discovery in Database
OLAP On Line Analytical Processing
PCM Principal Component Analysis
PYR Pyramides
SODAS Symbolic Official Data Analysis System
SOE Symbolic Object Editor
STAT Histogram, Elementary Statistics
TREE Decision Tree
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
101
Bibliographie
• Livres :
[1] Larousse Encyclopédique [2] Les Souverains de France
M. Griffe – Editions T.S.H
[3] An introduction to symbolic data analysis ans its application to the Sodas project Edwin Diday
[4] Data Mining : Techniques appliqués au marketing, à la vente et aux services clients. M.J.A.Berry, G. Linoff – Ed. InterEditions
[5] Introduction au Data Mining : Analyse intelligente des données. M. Jambu – Ed. Eyrolles.
[6] Le Data Mining : Gestion de la relation client, Personnalisation de sites Web.
R. Lefebure, G. Venturi – Ed. Eyrolles.
• Sites internet :
[1] Généalogie des rois de France http://jeanjacques.villemag.free.fr/
[2] Des Mérovingiens aux Bourbons http://www.geocities.com/Paris/Metro/7070/merov.html
[3] The Royal Family : A Genealogy http://www.heraldica.org/topics/france/roygenea.htm
[4] Publius Historicus
http://www.publius-historicus.com/ [5] SODAS – manuel utilisateur http://www.ceremade.dauphine.fr/~touati/manutilisateur.htm
[6] Site de BERRY M.J.A & LINOFF G. :
http://www.data-miners.com
[7] Site français d’informations et d’échanges sur le Data Mining : http://www.web-datamining.net/
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
102
Annexes
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
103
Vue d’ensemble des filières 1.1 Les familles royales
Figure 70 : Filière globale relative aux familles royales
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
104
1.2 La lignée directe
Figure 71 : Filière globale relative à la lignée royale directe
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
105
1.3 Les rois
Figure 73 : Filière globale relative aux rois de France
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
106
Contenu du CD-ROM
Ci-joint à ce rapport se trouve un CD-ROM comprenant :
• Le présent rapport au format électronique :
Rapport_La famille des rois de France_Drouin & Dyèvre_Dess ID.pdf
• La base de données à partir de laquelle nous avons extrait les
informations utilisées par la suite :
Base_La famille des rois de France.mdb
• Les différentes requêtes d’extraction des individus, concepts et variables
descriptives :
req_famille entière.txt
req_lignée directe.txt
req_rois de France.txt
• Les requêtes nous ayant permis d’ajouter des variables classe portant sur les
concepts, ainsi qu’une taxonomie :
ads_durée dynastie.txt
ads_nb rois.txt
taxo_titre.txt
• Les fichiers du module DB2SO correspondants :
gaj_famille entière.gaj
gaj_lignée directe.gaj
gaj_rois de France.gaj
Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France
107
• Les fichiers utilisés par le logiciel SODAS :
sds_famille entière.sds
sds_lignée directe.sds
sds_rois de France.sds
• Les différentes filières utilisées pour enchaîner les méthodes disponibles :
fil_famille entière.fil
fil_lignée directe.fil
fil_rois de France.fil