Datamining La famille des rois de France

Chrystelle DROUIN - Sandrine DYÈVRE Datamining – La famille des rois de France

1

Université Paris IX - Dauphine - DESS Informatique Décisionnelle

Projet Datamining – E. Diday

Datamining

La famille des rois de France Chrystelle Drouin

Sandrine Dyèvre


2


3

Introduction Présentation du contexte

Depuis deux décennies environ, l’attention des entreprises s’est progressivement

détournée des systèmes opérationnels, vitaux mais sans valeur ajoutée concurrentielle

réelle, pour se porter sur des systèmes décisionnels, sans apport direct en matière de

productivité mais qui contribuent véritablement à la différenciation de l’entreprise.

Ainsi, maîtriser l’information pour être meilleur que ses concurrents constitue l’enjeu majeur

de toute entreprise dans un contexte de concurrence mondiale. Mais qu’est-ce que maîtriser

l’information pour bien décider ? Il s’agit d’avoir les ‘bonnes’ données, exploitées par de

‘bons’ outils, au ‘bon’ moment.

Or, au premier rang des technologies actuelles de l’information, le Data Mining, dont

une traduction succincte pourrait être « fouille de données », offre une réelle possibilité

d’exploiter finement, rapidement et intelligemment les données, afin de permettre aux

utilisateurs de mieux orienter leurs actions.

En effet, le Data Mining regroupe un ensemble de procédures mathématiques qui

consistent à partir d’un ensemble de données, pouvant être de grande dimension ou de

grande complexité, afin d’en extraire des informations significatives. Cette connaissance

extraite peut venir corroborer des hypothèses envisagées, ou bien il peut s’agir

d’informations inconnues jusque là.


4

Domaine d’étude

Comme l’analyse de données symboliques prend une importance grandissante, nous

proposons dans un premier temps de s’intéresser aux concepts relatifs au Data Mining, ainsi

qu’aux outils du marché ; pour ensuite se focaliser sur le logiciel SODAS.

Ce dernier sera utilisé afin d’extraire des informations concentrées dans une base de

données relationnelle portant sur la famille des rois de France.

Ainsi, dans un deuxième temps, nous expliquerons le contexte général de notre

étude, puis nous tenterons d’extraire de ces données des connaissances ou « pépites »

d’informations, grâce aux différentes méthodes disponibles dans le logiciel SODAS.


5

Table des matières Introduction 3

Partie I 9

Définition du Datamining 11

1.1 Le Datamining ou fouille de données 11

1.2 Présentation du processus de Datamining 12

Positionnement du Datamining par rapport aux autres techniques du décisionnel 14

2.1 L’analyse de données 14

2.2 Le Datawarehouse 15

2.3 Positionnement global de ces techniques 16

Le processus de Datamining 18

3.1 Poser le problème 18

3.2 Rechercher les données 18

3.3 Sélectionner les données pertinentes 19

3.4 Nettoyer les données 19

3.5 Effectuer des actions sur les données 19

3.6 Rechercher le modèle 20

3.7 Evaluer le résultat 20

3.8 Intégrer la connaissance 20

Les outils du Datamining 22

4.1 Les logiciels du marché 22


6

4.1.1 Intelligent Miner d’IBM 22

4.1.2 Clementine d’ISL 24

4.1.3 Entreprise Miner de SAS 25

4.1.4 SPAD de DECISIA 26

4.1.5 SPSS 27

4.1.6 Insigntful Miner 2 de Insightful 28

4.2 Le logiciel SODAS 30

Partie I I 33

Présentation des données 35

1.1 Base de données 35

1.1.1 Modèle conceptuel 35

1.1.2 Schéma relationnel 36

1.1.3 Tables 36

1.2 Des données aux objets symboliques 37

1.2.1 Caractéristiques de la base de données 37

1.2.2 Analyse de données symboliques 38

1.2.3 Description symbolique des variables 38

1.3 Etude 39

1.3.1 Thème de l’étude 39

1.3.2 Analyses envisagées 39

Introduction au logiciel SODAS 41

2.1 Description générale 41

2.1.1 Fenêtre principale 41

2.1.2 Chaining 42

2.2 DB2SO : des bases de données aux données symboliques 44

2.2.1 Sélection de la base de données relationnelle 45

2.2.2 Extraction des individus 46

2.2.3 Création des fichiers SODAS 51

2.2.4 Ajout de variable classe 51

2.2.5 Ajout de taxonomie 52

2.2.6 Ajout de variable mère / fille 53

2.2.7 Vue générale de l’extraction 54

2.3 Présentation des méthodes d’analyse 55


7

SOE : Symbolic Object Editor 57

3.1 Présentation de la méthode SOE 57

3.2 Application de la méthode SOE 59

3.2.1 Les règnes des rois de France 60

3.2.2 Les enfants des rois de France 66

STAT : Méthode de statistiques élémentaires 69

4.1 Présentation de la méthode STAT 69

4.1.1 Fréquences relatives pour les variables multi-nominales 70

4.1.2 Fréquences relatives pour les variables intervalles 70

4.1.3 Capacités et Min/max/mean pour les variables probabilistes 71

4.1.4 Biplot pour les variables intervalles 71

4.2 Application de la méthode STAT 72

4.2.1 Années de naissance et de décès 72

4.2.2 Durée de vie 74

4.2.3 Biplots obtenus pour les variables intervalles correspondantes 76

TREE : Arbre de décision 78

5.1 Présentation de la méthode TREE 78

5.2 Application de la méthode TREE 79

5.2.1 Caractéristiques communes de la méthode TREE 80

5.2.2 Comparaison des arbres obtenus pour la famille entière,

la lignée directe et les rois de France 81

DIV : méthode de classification hiérarchique descendante 85

6.1 Présentation des méthodes de classification hiérarchique descendante 85

6.1.1 Principe des méthodes 85

6.1.2 Choix et partitionnement des classes 86

6.1.3 La méthode DIV de SODAS 87

6.2 Application de la méthode DIV 87

6.2.1 Le numéro de l’enfant dans la fratrie 87

6.2.2 Durée de vie et durée de règne 89

PYR : méthode de classification pyramidale 91


8

7.1 Présentation de la classification pyramidale 91

7.1.1 Principe 91

7.1.2 Données en entrées 91

7.2 Analyse de données 92

7.2.1 Les enfants des individus 92

PCM : Analyse en composantes principales 94

8.1 Principe de l’analyse en composantes principales 94

8.2 Application de la méthode PCM 96

8.2.1 Corrélations entre les années de naissance, de décès et durée de vie 96

Conclusion 99

Glossaire 100

Bibliographie 101

Annexes 102

Vue d’ensemble des filières 103

1.1 Les familles royales 103

1.2 La lignée directe 104

1.3 Les rois 105

Contenu du CD-ROM 106


9

Partie I


10


11

Définition du Datamining 1.1 Le datamining ou fouille de données

On appelle donnée ce qui est admis, connu ou reconnu et qui sert de base à un

raisonnement, de point de départ pour une recherche, une étude.

Le datamining correspond à l’ensemble à des techniques et des méthodes qui, à

partir de données, permettent d’obtenir des connaissances exploitables. C’est une discipline

d’exploration et d’analyse de grandes quantités de données afin de découvrir des formes et

des règles significatives en utilisant des moyens automatiques ou semi-automatiques. Le

datamining permet de faire apparaître des corrélations cachées dans des gisements de

données.

Il s’agit en fait d’une amélioration des approches d’analyses de données

traditionnelles et d’une extension de leur champs d’application par l’utilisation d’une nouvelle

génération d’outils d’analyse rendus plus performant par l’intégration de nouveaux types

d’algorithmes dits génétiques ou neuronaux pour la plupart, plus connus sous l’appellation

d’outils d’intelligence artificielle.

Les techniques de datamining existent depuis plusieurs décennies. Le recours au

datamining permet de traiter une très grande masse de données, et les types de traitement

qui caractérisent cette discipline permettent de découvrir des associations non soupçonnées

entre les données, de les segmenter, et ainsi de décrire ce qui se passe dans une base de

données complexe.


12

1.2 Présentation du processus de Datamining Les tâches du datamining sont les suivantes :

§ La classification des éléments

§ L’estimation des éléments

§ La prédiction qui s’appuie sur le passé et le présent

§ Le regroupement des éléments par similitudes

§ La segmentation de la population hétérogène en sous- populations homogènes

§ La description les données en vue de fournir des explications

§ L’aide à la décision

Le cercle vertueux du datamining :

§ Identifier le domaine d’étude : il s’agit de définir un objectif général qui oriente

l’étude. Quel est le sujet traité et quel est le but recherché ?

§ Préparer les données : il s’agit de recenser les données relatives au domaine défini

précédemment, puis de les regrouper pour en faciliter l’exploration.

§ Agir sur la base de données : cette étape consiste à mettre en œuvre une ou

plusieurs techniques de datamining pour une première analyse. Après évaluation et

étude des résultats, des actions sont mises en œuvres.

§ Evaluer les actions : il s’agit d’évaluer les actions précédentes, ce qui débouche sur

l’expression de nouveaux objectifs affinés. Retour à la première étape.

Figure 1 : Cercle vertueux du Datamining

Dans le contexte actuel, où la masse d’information que l’on peut collecter est

considérable, il devient indispensable de pouvoir l’analyser et surtout d’en extraire

Préparer les données

Agir sur la base de données

Identifier le domaine d’étude

Evaluer les actions


13

l’information pertinente, c’est pourquoi on comprend aisément l’intérêt du recours au

datamining.

Il ne faut cependant pas perdre de vue qu’à la base de toute action d’analyse, il est

nécessaire de disposer d’une information complète, riche, structurée et actualisée, sans quoi

même les plus performants des outils ne pourraient révéler aucune connaissance à valeur

ajoutée.


14

Positionnement du Datamining par rapport aux autres techniques du décisionnel

Dans l’univers du décisionnel, plusieurs concepts émergent ou ressurgissent grâce à

l’évolution des technologies de l’information ; parmi ces différents concepts, on peut

notamment citer l’analyse des données ou encore le Data Warehousing. Ainsi, dans un

premier temps, ce chapitre donnera une définition succincte de ces notions, puis

s’intéressera au positionnement du Data Mining par rapport à ces outils décisionnels.

2.1 L’analyse de données

La statistique est décrite par Spiegel (1947) comme étant l’ensemble des méthodes

scientifiques qui permettent de collecter, gérer, et analyser des données dans le but de

prendre des décisions judicieuses.

Depuis l’avènement des ordinateurs, vers 1960, un nouveau concept a surgi du

mariage de l’informatique naissante et de la statistique : l’analyse des données, encore

appelée Exploratory Data Analysis. Contrairement aux méthodes statistiques, qui mettent en

jeu des hypothèses mathématiques riches mais peu vérifiées ou peu vérifiables en pratique,

l’analyse des données utilise des méthodes inductives, telles que les analyses factorielles, la

classification, ou encore la discrimination.

En théorie, le Data Mining s’oppose aux statistiques classiques, car les algorithmes

du Data Mining sont exploratoires, c’est-à-dire qu’ils cherchent tous azimuts, alors que les

statistiques sont confirmatoires, ce qui signifie qu’elles interviennent pour vérifier une

hypothèse. Cependant, il est à noter que dans la pratique, les logiciels de Data Mining


15

demandent la plupart du temps des « pistes » à l’utilisateur afin d’éviter des recherches trop

longues.

2.2 Le Data Warehouse

C’est en parallèle à l’analyse des données qu’est apparu le concept moderne de base

de données, dont le management a fortement évolué depuis 1960.

Actuellement, les règles de E. Codd, également dites règles OLAP (On Line Analytical

Processing) définissent les caractéristiques de toutes bases de données utilisées à des fins

décisionnelles :

• Vues multidimensionnelles

• Transparence

• Accessibilité

• Architecture client-serveur

• Support multi-utilisateurs

• Opérations de navigation non restreinte à travers les données

• Manipulations intuitives des données

• Fonctions de reporting flexible et performant

• Niveaux de dimensions et d’agrégation illimités

Un Data Warehouse, ou entrepôt de données, est une collection de données structurées

consolidant les informations en provenance des différents systèmes opérationnels, tout en

étant dédié à l’aide à la décision.

Le père du Data Warehouse, Bill Inmon, a proposé une définition qui, plus de dix ans après,

s’avère toujours d’actualité :

« L’entrepôt de données est une collection de données orientées sujet,

intégrées, non volatiles et historisées, organisées pour le support du processus

d’aide à la décision »

Un Data Warehouse est un entrepôt de données d’une entreprise contenant à la fois

les données opérationnelles enregistrées au fil du temps, les données agrégées selon toutes

les dimensions, les données historicisées, les données de pilotage, et éventuellement toutes

données externes à l’entreprise mais ayant une relation possible avec les activités de

l’entreprise. Ces données sont consignées dans une ou plusieurs bases de données


16

relationnelles ou non, et accessibles pour toutes applications par des systèmes d’aide à la

décision, des requêteurs de données, des systèmes de reporting, des systèmes d’analyse

statistiques ou de Data Mining.

Le Data Warehouse se différencie du système d’information usuel par l’orientation de

l’usage des données vers la décision plutôt que vers l’archivage. Le fait qui différencie un

système d’information d’un Data Warehouse, du point de vue décideur-utilisateur des

données, est que ces données sont prêtes à l’emploi, accessibles en temps immédiat par

requête, qualifiées, et clairement définies, c’est-à-dire qu’une même donnée n’a pas

plusieurs définitions possibles.

2.3 Positionnement global de ces techniques

Bien qu’un entrepôt de données constitue une condition souhaitable, il ne s’agit

nullement d’un prérequis nécessaire. L’existence d’un entrepôt de données peut certes

faciliter l’utilisation du Data Mining ; mais à l’inverse, il est tout à fait possible de mener des

opérations de Data Mining sur des données extraites pour l’occasion.

Il semble important de noter que le Data Mining, grâce à sa capacité

d’industrialisation d’exploration des données, permet d’améliorer les phases de sélection et

d’acquisition des données, ainsi que la transformation de ces données en information. En

revanche, il n’intervient que faiblement lors de la prise de décision ; en effet, le Data Mining,

pas plus que toute autre technique basée sur l’informatique, ne prend de décision par lui-

même. Il facilite simplement la décision humaine en lui apportant des informations ; l’intérêt

du Data Mining est d’accélérer le processus de décision et d’action de l’entreprise.

Figure 2 : Des bases de données au Datamining

Bases de données sources

Travail amont pour la mise en place de l’entrepôt de données

Entrepôt de données

Utilisation et analyses Consultation

datamining

BD

BD

DW


17

La figure ci-après résume de manière synthétique les principales caractéristiques des

outils étudiés jusqu’à présent, et les positionne dans la problématique générale de prise de

décision.

Figure 3 : Positionnement du Data Mining, du Data Warehouse, de l’analyse des données par rapport à la décision

Généraliste, horizontal Universel Exploration libre Données de taille limitée Données indépendantes des métiers

Analyse des données

Fédération des données Qualification des données Organisation Mise à disposition métier

Data Warehouse

Spécificité métier Application verticale Exploration supervisée Données de taille importante Données métier

Data Mining

Décision &

Action


18

Le processus de Datamining

Littéralement traduit par « forage des données », et dans l’esprit par exploiter les

données comme on exploite les mines, le Data Mining met en jeu un processus

d’exploitation des données qui s’inscrit lui-même dans un processus plus complexe qui va de

l’information à la décision ; ce processus, s’appelant la méthodologie de l’information,

s’articule autour de huit étapes détaillées ci-après.

3.1 Poser le problème

Cette première phase consiste à exposer le problème et à définir les objectifs, le

résultat attendu, ainsi que les moyens de mesurer le succès de la phase de Data Mining. Il

s’agit de comprendre le contexte de la recherche pour donner une signification logique aux

variables.

3.2 Rechercher les données

Il s’agit dans cette phase de déterminer la structure générale des données ainsi que

les règles utilisées pour les constituer. Il faut pour cela identifier les informations exploitables

et vérifier leur qualité et leur facilité d’accès. La recherche d’une sélection optimale des

données est le point central d’un processus de Data Mining ; cette sélection nécessitant

souvent l’aide d’experts du domaine pour déterminer les attributs les plus aptes à décrire la

problématique. La structuration des variables contribue à réduire la taille du problème en

isolant les éléments les plus pertinents.


19

3.3 Sélectionner les données pertinentes

La récupération des données peut être plus ou moins facilitée par des technologies

telles que des bases de données ouvertes, ou bien l’existence d’un entrepôt de données

exhaustif.

Cette étape implique de choisir entre une étude sur l’exhaustivité de la base de

données, et un travail sur un échantillon. Les analyses sur une base exhaustive présentent

certes une meilleure qualité des résultats, mais au prix d’investissements parfois démesurés

par rapport à une analyse portant sur une base échantillonnée ; en effet, le recours aux

échantillons convient pour la majorité des opérations et présente des avantages certains en

termes de maniabilité et de temps de réponse.

3.4 Nettoyer des données

La définition de la taille de la base d’exemples et le choix portant sur la manière de la

constituer passent par un diagnostic de la qualité potentielle des données. Une faible qualité

des données, se traduisant par des erreurs de saisie, des champs nuls, ou encore des

valeurs aberrantes, impose généralement une phase de nettoyage des données. Celle-ci a

pour objectif de corriger ou de contourner les inexactitudes ou les erreurs de données ; car

sans ce nettoyage, les résultats seront probablement peu pertinents.

3.5 Effectuer des actions sur les variables

Maintenant que les variables sont pertinentes et que les données sont fiables, on

peut éventuellement les transformer pour préparer le travail d’analyse. Il s’agit d’intervenir

sur les variables pour qu’elles soient mieux exploitables par les outils de modélisation. Ces

transformations peuvent être de deux types, selon qu’elles modifient une ou plusieurs

variables. Un exemple d’action sur les variables peut être de procéder à une normalisation

des distributions ; ce, afin d’éviter certaines disproportions dans les systèmes d’unités des

variables.


20

3.6 Rechercher le modèle

L’étape de recherche du modèle, également appelée phase de modélisation, consiste

à extraire la connaissance utile à partir d’un volume de données et à la présenter sous forme

synthétique. Il s’agit là de la phase la plus souvent décrite sous le terme de Data Mining, et

qui repose en partie sur une recherche dépourvue de préjugés concernant les relations entre

les données.

3.7 Evaluer le résultat

L’évaluation du résultat permet d’estimer la qualité du modèle, c’est-à-dire sa

capacité à déterminer correctement les valeurs qu’il est censé avoir apprises sur des cas

nouveaux.

La capacité de généralisation d’un modèle est une mesure de la performance du

modèle ; elle est calculée en appliquant le modèle à des données nouvelles et en comparant

les résultats du modèle aux valeurs réelles.

Par ailleurs, la restitution de la connaissance sous forme graphique ou textuelle contribue

fortement à améliorer la compréhension des résultats et facilite le partage de la

connaissance.

Il faut noter que l’interprétation des résultats nécessite une certaine expertise

fonctionnelle pour mesurer le potentiel d’action qui peut être mis en œuvre grâce à cette

information révélée.

3.8 Intégrer la connaissance

L’ensemble des étapes précédentes a ainsi permis d’extraire de la connaissance,

mais la dernière phase, et non des moindres, consiste à convertir cette connaissance

extraite en décision puis en action. Cette phase d’intégration de la connaissance consiste à

implanter le modèle ou ses résultats dans les systèmes informatiques ou dans les processus

de l’entreprise. Elle est donc essentielle puisqu’il s’agit de la transition du domaine des

études au domaine opérationnel.


21

Nous venons de détailler le processus de Data Mining, ou KDD (Knowledge

Discovery in Database) ; il est à noter que les outils, quant-à-eux, ne constituent qu’un

composant de ce processus de transformation des données en connaissance. En effet, les

logiciels de Data Mining interviennent essentiellement sur la recherche du modèle. Ils ne

couvrent donc, à l’heure actuelle, qu’une partie du processus de Data Mining ; cependant, la

tendance du marché va vers l’intégration dans les logiciels de Data Mining de fonctions

d’aide à tous les stades du processus (choix de la technique de modélisation par des

assistants, aide au diagnostic et au nettoyage des données, etc.).

Le chapitre suivant nous permet de s’intéresser plus précisément à quelques logiciels

du marché, ainsi qu’au logiciel SODAS, utilisé pour réaliser notre étude.


22

Les outils du Datamining 4.1 Les logiciels du marché

Les entreprises s’intéressent de plus en plus au Data Mining, probablement en

grande partie à cause des promesses de rentabilité immédiate, vantée par les fournisseurs

de technologies et les médias.

Ainsi, depuis plusieurs années, les industriels développent des outils appropriés à la

résolution de problèmes relevant du Data Mining, ouvrant la voie à une nouvelle génération

d’outils, et permettant l’accès aux données détaillées, complexes ou volumineuses, pour les

besoins des décideurs.

L’offre de Data Mining semble à l’heure actuelle relativement atomisée : aucun

fournisseur ne constitue le standard du marché, ni même n’en détient une part réellement

significative. Il s’agit là d’un situation couramment rencontrée lorsqu’une nouvelle

technologie émerge commercialement. Cependant, il est à noter que depuis quelques

années, les offres tendent à se concentrer.

Les paragraphes suivants nous permettent de s’intéresser plus précisément à

quelques logiciels du marché qui proposent de multiples méthodes de modélisation. Il s’agit

bien évidemment d’une liste non exhaustive, mais qui permet d’avoir un petit aperçu de la

majorité des fonctionnalités offertes par les logiciels de Data Mining.

4.1.1 Intelligent Miner d’IBM

Intelligent Miner constitue un véritable logiciel intégré de Data Mining. Il couvre, par

ses différentes fonctions, les techniques de segmentation, de discrimination, de prédiction,

d’associations (temporelles ou non) et de comparaison de séries chronologiques.


23

• Les différentes fonctionnalités du logiciel :

o Segmentation : Intelligent Miner propose deux algorithmes, l’un basé sur

l’analyse relationnelle, et l’autre sur les réseaux de neurones non supervisées

de Kohonen.

o Discrimination : Les techniques de classification mettent en œuvre des

réseaux de neurones et des arbres de décision.

o Prédiction : Ce logiciel propose des modélisations basées sur du scoring,

pour des modèles linéaires, et de la régression non linéaire pour des modèles

non linéaires.

o Associations : Intelligent Miner comprend des outils pour la recherche

d’associations entre valeurs ou dans le cadre de séries temporelles.

o Séries chronologiques : Un module spécifique permet de trouver des

similarités entre des séries temporelles comme des séries de cours de

bourses ou des commandes clients saisonnières.

Techniquement, l’outil permet de traiter de très importants volumes de données, non

limités en taille. Pour l’intégration aux systèmes d’informations, Intelligent Miner est

étroitement couplé avec la base de données relationnelle DB2 d’IBM, mais il sait également

travailler sur des fichiers plats, extraits d’autres systèmes de base de données ou de

fichiers ; de plus, ce logiciel propose une API, c’est-à-dire un ensemble de bibliothèques de

programmation.

Enfin, Intelligent Miner propose une interface utilisateur intuitive et agréable ; ce qui

facilite la prise en main tant sur le plan informatique que sur le plan statistique ; mais l’outil

reste d’abord dédié aux spécialistes.


24

Figure 4 : Exemple d’interface du logiciel Intelligent Miner 4.1.2 Clementine d’ISL

Cet outil se positionne comme un système intégré comprenant des arbres de

décision, des réseaux de neurones, des outils de régression linéaire, des moteurs

d’association et des réseaux de Kohonen.

D’un point de vue technique, ce logiciel fonctionne à la fois sur Windows NT et sur

Unix, et sait dialoguer avec la plupart des bases de données via ODBC.

Cet outil dispose en outre d’une interface utilisateur conviviale, qui facilite la

description d’enchaînements de tâches (par exemple un apprentissage, le filtrage de

données ou la visualisation d’un graphique) dans le cadre d’un processus de Data Mining.

Cet accent mis sur l’aide à la modélisation du processus est un atout dans la mesure où il

facilite les itérations inévitables pour extraire des modèles pertinents.


25

Figure 5 : Exemple d’interface du logiciel Clementine 4.1.3 Entreprise Miner de SAS

SAS possède une longue expérience des outils statistiques traditionnels. La société

propose la bibliothèque la plus complète pour construire des fonctions de régression, des

analyses factorielles ou des typologies. Enterprise Miner propose d’intégrer la puissance des

outils traditionnels SAS avec les nouveaux moteurs de Data Mining. L’outil se positionne

comme un système intégré comprenant des arbres de décision, des réseaux de neurones,

des outils de régression linéaire et des techniques de segmentation.

Ce logiciel s’avère très puissant pour réaliser des apprentissages non supervisés sur

de grosses bases de données. Il présente la particularité de permettre la construction de

trois modèles d’apprentissage supervisé (neurone, régression et arbre de décision) en

parallèle et de choisir au final le meilleur des trois.

Le niveau d’intégration avec les bases de données et les programmes est total ; et ce

produit fonctionne à la fois sur Windows NT et Unix.


26

Enterprise Miner dispose de plus d’une interface utilisateur conviviale à base d’icônes

symbolisant les tâches et de flèches représentant les enchaînements, afin d’illustrer un

processus.

Figure 6 : Exemple d’interface du logiciel Enterprise Miner 4.1.4 SPAD de DECISIA

Développée par le Centre International de Statistique et d’Informatique Appliquées

(CISIA), la suite SPAD couvre une large part des techniques de modélisation :

• SPAD Base réalise les analyses de factorisation et de classification hiérarchique

• SPAD Segmentation comprend un module à base d’arbres de décision

• SPAD Décision intègre les techniques de régression, les réseaux de neurones, et

les méthodes de scoring.

La mise en place des filières permet à un utilisateur novice d’enchaîner de manière

automatique des processus sophistiqués de découverte.


27

Le produit fonctionne sous Windows. La possibilité de manipuler les données

(sélection, visualisation) par des actions sur les graphiques rend le produit très convivial, et

les états de sortie permettant l’interprétation des résultats sont très détaillées.

Figure 7 : Exemple d’interface du logiciel SPAD 4.1.5 SPSS

Le logiciel Statistical Package for the Social Science (SPSS) est un logiciel de gestion

et d'analyse de données statistiques de portée générale.

Ce logiciel est relativement facile à utiliser, vu que de nombreuses analyses

statistiques peuvent être effectués sans lignes de programmation, par des menus déroulants

et des boîtes de dialogue. L'utilisateur peut toutefois avoir accès des fonctions plus

complexes ou des options qui n'apparaissent pas dans les boîtes de dialogue, en utilisant le

langage de commande SPSS.


28

Figure 8 : Interface du logiciel SPSS 4.1.6 Insightful Miner 2 de Insightful

Insightful Miner 2 est une solution de Data Mining alliant simplicité d’utilisation et

puissance de traitement. Il permet d’accéder à des données pouvant être stockées sous

différents formats (fichier, base de données,…) ; et de plus, il possède les outils nécessaires

au nettoyage et à la manipulation de très grands volumes de données. De plus, on peut

noter sa souplesse d'utilisation, ses possibilités d'échanges de données avec d'autres outils

ainsi que son générateur graphique d'applications, qui le rendent particulièrement convivial.

Cet outil dispose de quantités de méthodes : réseaux de neurones, modèles

linéaires et non linéaires, arbres de classification, etc. ; ce, afin de construire le meilleur

modèle prédictif possible et de le diffuser aisément.


29

Figure 9 : Interface du logiciel Insightful Miner 2

Nous venons ainsi de voir un ensemble, bien évidemment non exhaustif de logiciels

proposant de multiples méthodes de modélisation ; on peut par ailleurs noter que de

nombreux autres outils tendent vers une conception inverse, et se sont spécialisés pour cela

dans une seule méthode. Pour illustrer ces propos, on peut citer comme exemples dans le

domaine des réseaux de neurones des logiciels comme 4Thought de Cognos, Predict de

Neuralware, Previa de Elsware, ou encore Strada de Complex System. Qui plus est, d’autres

spécialités tels que les arbres de décision avec Answer Tree de SPSS, Scenario de Cognos,

ou Alice de Isoft, ou encore le domaine des règles d’association avec O. Datamining

d’Oracle, ou Wizwhy de Wizsoft, sont eux aussi propices au développement de logiciels

spécifiques.

Enfin, il reste un outil de Data Mining proposant de multiples méthodes de

modélisation, et que nous souhaitons tout particulièrement présenter : le logiciel SODAS, qui

est utilisé par la suite pour réaliser notre étude sur les familles des rois de France.


30

4.2 Le logiciel SODAS

Le logiciel SODAS (Symbolic Official Data Analysis System) est issu du projet du

même nom, dirigé par EUROSTAT ; ce projet vise à faire bénéficier l’ensemble des

membres de cette communauté des avancées les plus récentes dans le domaine de

l’analyse de données symboliques.

Cet outil, lui aussi développé par le CISIA mais appartenant au domaine public,

permet d’obtenir, à partir d’une base de données relationnelle, un tableau de données

symboliques, auquel peuvent venir s’ajouter des taxonomies et des règles. L’intérêt est de

raisonner sur des concepts plutôt que sur des individus de premier ordre, puis d’appliquer

différentes méthodes d’analyse de données symboliques afin d’extraire de la connaissance

pertinente de ce tableau.

Ainsi, une analyse-type réalisée grâce au logiciel SODAS comporte les étapes suivantes :

1. Regrouper les données intéressantes dans une base de données relationnelle

2. Définir une requête sur cette base permettant d’obtenir un tableau contenant 3

catégories intéressantes :

o les individus de premier niveau ; il peut s’agir tout aussi bien de produits, que

de clients ou encore d’entreprises.

o les concepts : ils permettent de traiter la variation interne des individus

précédemment identifiés, chaque individu étant rattaché à un concept. Pour

reprendre les exemples précédents, il pourrait s’agir de catégories de

produits, de groupes socio-économiques, ou bien des départements où se

trouvent localisées les entreprises.

o Et enfin la troisième catégorie regroupe l’ensemble des variables qui décrivent

les individus ; ces variables pouvant soit être qualitatives soit quantitatives.

3. Une fois ce premier tableau constitué, SODAS dispose d’un module, intitulé DB2SO,

qui permet de passer à un tableau d’objets symboliques ; autrement dit, chaque

concept se trouve décrit par des intervalles, des histogrammes, etc. reflétant ainsi la

variation des individus appartenant à ce concept.


31

Le schéma suivant résume les trois étapes décrites jusqu’à présent :

Figure 10 : Des bases de données relationnelles aux objets symboliques

4. A ce niveau, l’ensemble des méthodes disponibles dans le logiciel SODAS peuvent

être appliquées au fichier d’objets symboliques obtenu, afin d’extraire des « pépites »

d’information. Parmi les douze méthodes à notre disposition, on peut notamment citer

l’analyse factorielle, la classification automatique, les arbres de décision, ou encore

les pyramides ; ces différentes méthodes seront détaillées lors de notre analyse de la

base de données relative aux familles des rois de France.

Le schéma suivant résume les étapes successives d’une étude avec le logiciel SODAS :

Figure 11 : Processus général et méthodes de SODAS


32


33

Partie II


34


35

Présentation des données

Le thème de l’analyse concerne les membres de la famille des rois de France.

Aucune base de données concernant les rois de France n’étant répertoriée sur Internet,

nous avons dû nous documenter afin de regrouper toutes les données jugées intéressantes

pour la suite du projet. Ces données ont été rassemblées dans une base de données,

présentée ci-dessous.

1.1 Base de données 1.1.1 Modèle conceptuel

Voici le schéma entités-associations de la base de données :

Figure 12 : Modèle conceptuel de notre base de données

Mariage Id_mariage Date_mariage Nb_enfants

Individu Id_individu Nom Prénom Dynastie Qualificatif Sexe Date_naissance Date_décès

Titre Id_titre Titre Niveau_titre Domaine Obtention Date_début Date_fin Cause_fin

Lien maternel

Lien paternel

1..1

1..1 1..1 1..1 1..1

0..1

1..1 1..1

Nom

Attributs

Nom Attributs

Entité : Association :


36

1.1.2 Schéma relationnel

Voici le schéma relationnel de la base de données :

Figure 13 : Schéma relationnel de notre base de données 1.1.3 Tables

La base de données sur laquelle vont porter les analyses comporte trois tables dont

voici le descriptif :

Table Individu Description contient les caractéristiques concernant chaque individu Attributs Id_individu numéro identifiant l'individu entier clé primaire Nom nom de l'individu texte Prénom prénom de l’individu texte Qualificatif surnom de l’individu texte Dynastie dynastie de l'individu texte Sexe sexe de l'individu booléen Date_naissance date de naissance de l'individu entier Date_décès date de décès de l'individu entier Id_père numéro du père de l'individu dans la table entier clé étrangère Id_mère numéro de la mère de l'individu dans la table entier clé étrangère Id_titre numéro du titre de l'individu dans la table Titre entier clé étrangère

Table Titre Description contient les caractéristiques des titres accordés aux individus Attributs Id_titre numéro identifiant le titre de l'individu entier clé primaire Titre titre accordé à l'individu texte Niveau_titre Niveau d’importance du titre texte Domaine domaine auquel s'applique le titre texte Obtention manière dont l'individu a obtenu le titre texte Date_début année correspondant à l'obtention du titre entier Date_fin année correspondant à la fin du titre entier Cause_fin cause de la fin du titre texte

Individu Id_individu Nom Prénom Qualificatif Dynastie Sexe Date_naissance Date_décès Id_père Id_mère Id_titre

Titre Id_titre Titre Niveau_titre Domaine Obtention Date_début Date_fin Cause_fin

Mariage Id_mariage Id_marié Id_mariée Date_mariage Nb_enfants


37

Table Mariage Description contient les caractéristiques concernant les mariages entre individus Attributs Id_mariage numéro identifiant le mariage entre deux individus entier clé primaire Id_marié numéro du marié dans la table Individu entier clé étrangère Id_mariée numéro de la mariée dans la table Individu entier clé étrangère Date_mariage année du mariage entier Nb_enfants nombre d'enfants issus de ce mariage entier Figure 14 : Descriptif des tables de la base 1.2 Des données aux objets symboliques 1.2.1 Caractéristiques de la base de données

La base de données répertorie 855 individus, dont 86 rois de France. Elle comprend

6 variables quantitatives (variables continues ou discrètes), et 7 variables qualitatives

(variables nominales ou ordinales) dont 1 variable booléenne.

La notion d’individus et concepts : Les concepts représentent des ensembles d’individus à décrire. Un concept est défini par :

• une intention : ses propres caractéristiques

• une extension : l’ensemble des individus qui satisfont aux caractéristiques

Un concept est défini par une intention et par un moyen de travailler sur l’extension. Il

faut savoir que toute variable qualitative peut donner un concept, ainsi que tout produit

cartésien de variables qualitatives.

Présentation des individus et concepts de notre base de données :

Individus : les individus répertoriés dans la base de données

Concepts : les dynasties royales

Il existe donc 6 concepts : Mérovingiens, Carolingiens, Robertiens, Capétiens, Valois

et Bourbons.


38

1.2.2 Analyse de données symboliques

L’analyse de données symboliques permet de traiter des données symboliques c’est-

à-dire des connaissances supplémentaires comme les dépendances entre variables ou

encore les variables taxonomiques. Il peut aussi s’agir d’imprécision, d’incertitude ou de

variation que l’on souhaite traduire dans la description des données.

Classiquement, les données sont décrites dans un tableau individus-variables par

une valeur unique. En analyse de données, chaque case peut contenir non seulement une

valeur unique mais également un ensemble de valeurs ou une distribution sur une ensemble

de valeurs. Ces descriptions symboliques permettent de tenir compte des notions

d’imprécision, d’incertitude ou de variation.

1.2.3 Description symbolique des variables En analyse de données, une variable symbolique Y est définie par une application

)(Y

O:Y

ωω

→Ω

a

où O est l’ensemble des individus et O le domaine d’observation de la variable Y.

Les descriptions symboliques des variables peuvent être des descriptions

multivaluées (des ensembles de valeurs ou des intervalles), des descriptions modales (des

distributions de probabilité).

Description par des relations mère-fille :

L’analyse de données symboliques permet d’exprimer des liens connus entre les

valeurs du domaine d’observation de certaines variables. Ces relations entre variables sont

appelées relations mère-fille. Il existe deux types de relations entre variables :

§ la dépendance conditionnelle : variable dépendant directement de l’existence d’une

autre.

§ la dépendance logique : sous-ensemble de valeurs d’une variable directement lié à

un sous-ensemble de valeurs d’une autre variable (ex : poids / taille).

Les variables taxonomiques :

Une variables dont le domaine d’observation est organisé dans une structure

hiérarchique est appelée variable taxonomique. C’est une connaissance supplémentaire que

l’on a sur la variable.


39

1.3 Etude 1.3.1 Thème de l’étude

Cette base de données vise à regrouper les données concernant les membres de la

famille des rois de France, de la dynastie des Mérovingiens à la dynastie des Bourbons,

comprenant aussi les conjoints des membres de la famille, et les enfants issus des

mariages.

Nous avons choisi de faire cette étude car nous nous intéressons à l’Histoire de

France. Nous espérons découvrir à travers l’analyse qui va suivre, pourquoi chaque dynastie

s’est éteinte, quelles en ont été les causes et s’il y a eu répétition de phénomènes au cours

des générations comme certains peuvent le prétendre. Cette étude permettra aussi de

découvrir les caractéristiques des règnes des rois de France et d’avoir un aperçu général

des conditions de vie des individus et leur évolution au cours du temps.

Il aurait été tout aussi intéressant de connaître et d’étudier les individus n’appartenant

pas à la famille royale mais ayant un lien direct avec elle. Nous entendons par là les

maîtresses et enfants hors mariage, ce qui aurait mieux retranscrit les mœurs de l’époque.

Mais obtenir ces données de façon exact n’est pas possible car trop souvent dissimulées.

Nous en resterons donc à étudier la lignée royale directe.

L’analyse va s’effectuer en deux phases, menées en parallèle : une première phase

portant sur l’étude de la population globale de la base de données, puis une seconde phase

uniquement sur les membres, par filiation directe, de la famille royale car il semble

intéressant de comparer les membres de la lignée directe avec l’ensemble de la famille

royale.

1.3.2 Analyses envisagées Voici quelques types de données à extraire pour l’analyse :

• Sur la population globale :

- dates d’apparition et de disparition des prénoms

- fréquences des prénoms donnés

- durée de vie des individus


40

- nombre de mariages par individu

- âge des individus masculins ou féminins lors de leur mariage

- durée des mariages

- nombre d’enfants par mariage

- nombre d’enfants par individu masculin ou féminin

- nombre de naissances d’enfants de sexe masculin et féminin

- nombre d’enfants morts en bas âge

- sexe des enfants morts en bas âge

• Sur les membres de la famille royale, par filiation directe :

- dates d’apparition et de disparition des prénoms

- fréquences des prénoms donnés

- durée de vie des individus

- nombre de mariages par individu

- durée des mariages

- nombre d’enfants par mariage

- nombre d’enfants par individu masculin ou féminin

- nombre de naissances d’enfants de sexe masculin et féminin

- nombre d’enfants morts en bas âge

- sexe des enfants morts en bas âge

- durée des règnes des individus concernés

- cause des fins de règnes des individus concernés

- nombre de conjoints par alliance royale avec d’autres pays

- origine des conjoints issus d’alliances royales avec d’autres pays

- lieu d’origine des reines de France

- titres des conjoints des membres de la famille des rois de France

- pays où les filles de la famille des rois de France ont été reines

Une analyse intéressante serait notamment de découvrir quelle était la probabilité

pour un individu de devenir roi de France, sachant qu’il était fils de roi.

De plus, il pourrait être intéressant de comparer ces différentes variables, tant au

niveau de la famille royale entière, que de la lignée directe, mais aussi au niveau des rois

eux-mêmes.


41

Introduction au logiciel SODAS

2.1 Description générale

2.1.1 Fenêtre principale

La fenêtre principale du logiciel SODAS comporte trois parties distinctes, comme le

montre la figure ci-dessous :

Figure 15 : Fenêtre principale du logiciel SODAS

1. La barre d’outils comporte les cinq menus suivants : SODAS file, Chaining, Options,

Window et Help ; chacun de ces menus permet respectivement de gérer les fichiers

SODAS, de gérer la filière des méthodes utilisées, de définir les options générales du

logiciel, de passer d’une filière à l’autre, et enfin de bénéficier d’aide pour le logiciel.

1

3

2


42

2. La fenêtre Methods permet de choisir la méthode, parmi les douze disponibles

actuellement, que l’on souhaite appliquer dans la filière.

3. La fenêtre Chaining permet de gérer la filière, c’est-à-dire la manière dont les

méthodes choisies s’enchaînent et s’appliquent sur le fichier d’objets symboliques.

2.1.2 Chaining

Le chaining, encore appelée filière, permet de suivre graphiquement l’enchaînement

des méthodes appliquées au fichier de données symboliques.

Initialement, il faut spécifier au logiciel le fichier SODAS sur lequel vont porter les

calculs, ce qui correspond à l’icône BASE du logiciel. Dans notre cas, le nom du fichier

ROIS.SDS apparaît alors dans la fenêtre Chaining.

Figure 16 : Ajout du fichier SODAS à la filière

Une fois le fichier SODAS précisé, on peut choisir les méthodes que l’on souhaite

appliquer aux objets symboliques, soit en utilisant une filière prédéfinie (via l’onglet Model \

Predefined Chaining), soit en définissant notre propre filière (en insérant au fur et à mesure

les méthodes présentes dans la fenêtre Methods).

Lorsque la filière a été définie, on peut voir l’ensemble des méthodes, représentées

dans la fenêtre chaining par les icones à la suite de la BASE, ainsi qu’une description

succincte de ces méthodes à gauche de chaque icône. A ce stade, il faut encore paramétrer


43

les méthodes choisies, puis après avoir sauvegardé la filière ainsi définie (sous un fichier

avec l’extension FIL), on peut alors exécuter cette filière (via le menu Chaining \ Run

Chaining).

L’exécution de la filière aboutit ensuite à l’apparition, à droite des icônes des

méthodes, des résultats, sous forme de listing et éventuellement sous forme de graphique.

Ce processus se trouve illustré par la figure ci dessous :

Figure 17 : Comparaison de la filière avant et après son exécution

Parmi les icônes apparues après l’exécution de la filière, on différencie :

1. Le listing

2. L’éditeur graphique de la méthode SOE

3. La représentation graphique du résultat de la méthode exécutée

4. La représentation graphique de la classification pyramidale

Ceci constitue un premier aperçu des méthodes qui seront employées et détaillées plus

précisément dans la suite de cette étude. Car, comme indiqué précédemment, avant de

pouvoir appliquer des méthodes d’analyse d’objets symboliques, il est nécessaire de

disposer de ces données dans un fichier SODAS ; cette étape est réalisée par l’intermédiaire

du module DB2SO, comme décrit ci-après.

1

2

4

3


44

2.2 DB2SO : des bases de données aux données symboliques

Comme nous l’avons vu lors de la présentation du logiciel SODAS, le module DB2SO

permet de constituer un tableau d’objets symboliques à partir d’une base de données

relationnelle.

Figure 18 : Des bases de données relationnelles aux objets symboliques

Nous détaillons, dans la suite de ce chapitre, les étapes, effectuées lors de

l’utilisation de DB2SO, et qui permettent d’obtenir les objets symboliques, auxquels peuvent

être appliqués par la suite des taxonomies et des relations mère / fille.

Le lancement du module DB2SO se fait par l’intermédiaire de la barre d’outil de la

fenêtre principale, via le menu SODAS file / Import … / Importation (DB2SO), comme indiqué

sur la figure ci-après :

Figure 19 : Fenêtre d’importation DB2SO

DESCRIPTION DES

INDIVIDUS

BASE DE

DONNEES RELATION-

NELLE

C O N C E P T S

I N D I V I D U S

VARIABLES SYMBOLIQUES

C O N C E P T S

requête DB2SO


45

2.2.1 Sélection de la base de données relationnelle

Après avoir ouvert un nouveau fichier d’importation, via le menu File / New, le module

SODAS nous invite à sélectionner la source de données machine (dans notre cas, il s’agit

d’une base de données Access), puis à spécifier l’emplacement de la base de données.

Figure 20 : Fenêtre de sélection de la source de données machine

Figure 21 : Fenêtre de sélection de la base de données


46

2.2.2 Extraction des individus

Dans la fenêtre qui se présente alors, intitulée Extraction of individuals, il faut alors

entrer la requête SQL qui permet de définir les concepts à partir des individus présents dans

la base de données sélectionnée. Cette requête doit être définie de sorte à renvoyer un

ensemble de lignes de la forme suivante : la première colonne contient les individus, la

deuxième les concepts correspondant à ces individus, et les autres colonnes permettent de

décrire les individus.

Figure 22 : Forme générale des enregistrements pour l’extraction des individus

Dans le cadre de notre étude, la requête permettant d’extraire les individus est la

suivante :

DESCRIPTION DES

INDIVIDUS

C O N C E P T S

I N D I V I D U S

select ind.id_txt_ind, ind.dynastie, ind.nom, ind.prenom, ind.qualificatif, ind.sexe, ind.annee_naissance, ind.annee_deces, (ind.annee_deces - ind.annee_naissance) as duree_vie, ( select distinct(mar.date) from Mariages mar where ( mar.id_marie = ind.id_Individu or mar.id_mariee = ind.id_Individu ) and (NOT ISNULL(ind.id_pere)or NOT ISNULL(ind.id_mere)) and NOT ISNULL(mar.date) and NOT EXISTS(select mar1.date from Mariages mar1 where ( ind.id_Individu = mar1.id_marie or ind.id_Individu = mar1.id_mariee ) and mar1.date < mar.date and NOT ISNULL(mar1.date) ) ) as date_premier_mariage,


47

( select distinct(mar.date - ind.annee_naissance) from Mariages mar where ( mar.id_marie = ind.id_Individu or mar.id_mariee = ind.id_Individu) and (NOT ISNULL(ind.id_pere)or NOT ISNULL(ind.id_mere)) and NOT ISNULL(mar.date) and NOT EXISTS(select mar1.date from Mariages mar1 where ( ind.id_Individu = mar1.id_marie or ind.id_Individu = mar1.id_mariee ) and mar1.date < mar.date and NOT ISNULL(mar1.date) ) ) as age_lors_premier_mariage, ind.a_enfant, ( select MIN(ind1.annee_naissance - ind.annee_naissance) from Individus ind1 where (ind1.id_pere = ind.id_Individu or ind1.id_mere = ind.id_Individu ) and NOT ISNULL(ind1.annee_naissance) )as age_lors_premier_enfant, ( select mar.nb_enfants from Mariages mar where ( mar.id_marie = ind.id_Individu or mar.id_mariee = ind.id_Individu) and (NOT ISNULL(ind.id_pere)or NOT ISNULL(ind.id_mere)) and NOT ISNULL(mar.date) and NOT EXISTS(select mar1.date from Mariages mar1 where ( ind.id_Individu = mar1.id_marie or ind.id_Individu = mar1.id_mariee ) and mar1.date < mar.date and NOT ISNULL(mar1.date) ) ) as nb_enfant_premier_mariage, ( select count(mar.id_mariage) from Mariages mar where ( mar.id_marie = ind.id_Individu or mar.id_mariee = ind.id_Individu) and NOT ISNULL(mar.date) ) as nb_mariage, ( select SUM(mar.nb_enfants) from Mariages mar where mar.id_marie = ind.id_Individu or mar.id_mariee = ind.id_Individu ) as nb_total_enfants, ( select count(ind1.id_Individu) from Individus ind1 where (ind1.id_pere = ind.id_Individu or ind1.id_mere = ind.id_Individu ) and ind1.sexe = 1 ) as nb_total_fils, ( select count(ind1.id_Individu) from Individus ind1 where (ind1.id_pere = ind.id_Individu or ind1.id_mere = ind.id_Individu ) and ind1.sexe = 0 ) as nb_total_filles,


48

( select count(ind1.id_Individu) from Individus ind1, Titres ti where (ind1.id_pere = ind.id_Individu or ind1.id_mere = ind.id_Individu ) and ind1.sexe = 1 and ti.id_Titres = ind1.id_titre and ti.Titre = 'Roi' ) as nb_total_fils_roi, ( select count(ind1.id_Individu) from Individus ind1 where (ind1.id_pere = ind.id_Individu or ind1.id_mere = ind.id_Individu ) and NOT ISNULL(ind1.annee_deces) and NOT ISNULL(ind1.annee_naissance) and (ind1.annee_deces - ind1.annee_naissance) < 10 ) as nb_enfants_morts_jeunes, ( select count(ind1.id_Individu) from Individus ind1 where (ind1.id_pere = ind.id_Individu or ind1.id_mere = ind.id_Individu ) and ind1.sexe = 1 and NOT ISNULL(ind1.annee_deces) and NOT ISNULL(ind1.annee_naissance) and (ind1.annee_deces - ind1.annee_naissance) < 10 ) as nb_fils_morts_jeunes, ( select count(ind1.id_Individu) from Individus ind1 where (ind1.id_pere = ind.id_Individu or ind1.id_mere = ind.id_Individu ) and ind1.sexe = 0 and NOT ISNULL(ind1.annee_deces) and NOT ISNULL(ind1.annee_naissance) and (ind1.annee_deces - ind1.annee_naissance) < 10 ) as nb_filles_morts_jeunes, ( select tit.Titre from Titres tit where tit.id_Titres = ind.id_titre )as titre, ( select tit.Domaine from Titres tit where tit.id_Titres = ind.id_titre )as domaine, ( select tit.Obtention from Titres tit where tit.id_Titres = ind.id_titre )as obtention_titre, ( select (tit.annee_debut - ind.annee_naissance) from Titres tit where tit.id_Titres = ind.id_titre and NOT ISNULL(tit.annee_debut) and NOT ISNULL(ind.annee_naissance) )as age_obtention_titre, ( select tit.annee_debut from Titres tit where tit.id_Titres = ind.id_titre )as annee_obtention_titre,


49

Figure 23 : Requête SQL d’extraction des individus, concepts, et variables descriptives

Cette requête doit impérativement renvoyer un individu par ligne.

( select (tit.annee_debut - ind.annee_naissance) from Titres tit where tit.id_Titres = ind.id_titre and NOT ISNULL(tit.annee_debut) and NOT ISNULL(ind.annee_naissance) )as age_obtention_titre, ( select tit.annee_debut from Titres tit where tit.id_Titres = ind.id_titre )as annee_obtention_titre, ( select tit.annee_fin from Titres tit where tit.id_Titres = ind.id_titre )as annee_fin_titre, ( select (tit.annee_fin - tit.annee_debut) from Titres tit where tit.id_Titres = ind.id_titre and NOT ISNULL(tit.annee_fin) and NOT ISNULL(tit.annee_debut) )as duree_titre, ( select tit.cause_fin_regne from Titres tit where tit.id_Titres = ind.id_titre )as cause_fin_titre, ( select p.id_txt_ind from Individus p where p.id_Individu = ind.id_pere )as id_pere, ( select m.id_txt_ind from Individus m where m.id_Individu = ind.id_mere )as id_mere, ( select tit.Titre from Titres tit, Individus ind2 where ind.id_pere = ind2.id_Individu and ind2.id_titre = tit.id_Titres ) as titre_pere, ( select tit.Domaine from Titres tit, Individus ind2 where ind.id_pere = ind2.id_Individu and ind2.id_titre = tit.id_Titres ) as domaine_pere, ( select tit.annee_fin from Titres tit, Individus ind2 where ind.id_pere = ind2.id_Individu and ind2.id_titre = tit.id_Titres ) as fin_titre_pere from Individus ind ;


50

Ainsi, une fois la requête définie, la fenêtre ‘Extraction of individuals’ a la forme

suivante :

Figure 24 : Forme générale des enregistrements pour l’extraction des individus

La fenêtre précédente contient notamment le bouton ‘Modify’, qui permet de changer

de base de données.

La première case à cocher ‘Last column is ponderation’ est utilisable si la dernière

colonne récupérée par la requête constitue un coefficient de pondération associé à chaque

individu.

La deuxième case à cocher intitulée ‘Sampling with X individuals per group’ peut être

utile lorsque la requête risque de renvoyer trop d’enregistrements : cette option permet de

limiter le nombre d’individus par concept, afin de ne pas surcharger la mémoire de

l’ordinateur.

Une fois l’extraction effectuée, DB2SO nous indique les étapes réalisées lors de

l’extraction des individus, comme illustré ci-après :

Figure 25 : Résultat de l’extraction réalisée sous DB2SO

Il est également possible d’accéder à la liste des individus et à celle des concepts,

respectivement via le menu View / Individuals et View / Assertions.


51

2.2.3 Création de fichier SODAS

A ce niveau, il est possible de sauvegarder le fichier DB2SO ainsi généré, via le

menu File / Save ; ceci aboutit à la création d’un fichier avec l’extension .gaj. Cette opération

peut s’avérer utile si l’on souhaite ajouter par la suite d’autres informations concernant les

données, comme l’ajout de variables mère/fille, de taxonomies, ou encore de classes portant

sur les concepts.

Nous disposons alors à ce moment des données nécessaires pour étudier notre base

via le logiciel SODAS ; la dernière étape préliminaire avant l’étude à proprement parler reste

la création du fichier SODAS correspondant (fichier portant l’extension .sds). Pour ce faire, il

suffit de sélectionner le menu File / Export (ou File / Export and View si l’on souhaite

visionner en même temps le fichier .sds généré).

On est alors en mesure, selon la nature des données à étudier, d’ajouter des

caractéristiques supplémentaires telles que des variables mère/fille, des taxonomies, ou

encore des classes relatives aux concepts obtenus, ce qui se trouve détaillé dans les

chapitres suivants.

2.2.4 Ajout de variable classe

Jusqu’à présent, les variables extraites décrivent avant tout les individus. Si l’on

souhaite ajouter une variable descriptive portant sur les concepts uniquement, il faut pour

cela utiliser le menu Modify / Add single-valued variables … du module DB2SO.

Le logiciel nous invite alors à lui préciser la base sur laquelle porte la requête

permettant de lier une variable classe à chaque concept. Cette requête doit suivre la forme

suivante, à savoir : la première colonne correspond aux concepts, et la deuxième à la classe

définie sur ces concepts.

Dans le cadre de notre étude, nous avons ainsi été amenées à formuler deux

variables classes : l’une détermine la durée de règne de la dynastie en question, et peut

prendre quatre valeurs (1siècle, 2siècles, 3siècles, ou 4siècles de règne) , tandis que l’autre

permet de caractériser le concept selon le nombre de rois constituant une dynastie (moins

de 10, de 10 à 20, ou plus de 20). Les figures ci-dessous représentent les requêtes

effectuées afin d’associer ces classes aux concepts :


52

Figure 26 : Ajout de variables classes sous DB2SO

2.2.5 Ajout de taxonomie

L’intérêt d’une taxonomie est de pouvoir traduire des relations de dépendance

existant entre les variables descriptives. Ainsi, dans notre cas, les titres des individus

peuvent être organisés en plusieurs catégories, qui traduisent en fait le niveau d’importance

du titre attribué (par exemple, le titre le plus important, à savoir ‘Empereur’ se voit rattaché

au Niveau1).

Dans le module DB2SO, une taxonomie est définie via le menu Modify / Create a

taxonomy … ; les éléments à préciser sont alors la variable sur laquelle porte la taxonomie,

ainsi que la requête SQL récupérant en première colonne les valeurs de la variable enfant,

c’est-à-dire celle sur laquelle porte la taxonomie, suivie des valeurs de la variable parent

associée.

Figure 27 : Création d’une taxonomie sous DB2SO


53

Il est alors possible de vérifier la création de la taxonomie, via le menu View / Taxonomies... :

Figure 28 : Aperçu de la taxonomie créée

2.2.6 Ajout de variable mère / fille

Comme déjà vu précédemment, l’intérêt des variables mère/fille est de traduire simplement

des liens entre variables tels que des relations de dépendance conditionnelle. Un exemple

trivial de ce genre de relation, présent dans notre base d’étude, est que la variable

‘nb_total_enfant’ d’un individu n’a de sens que si la variable ‘a_enfant’ n’est pas nulle.

Ceci se traduit simplement dans DB2SO, en passant par le menu Modify / Add a rule … :

Figure 29 : Ajout d’une règle traduisant une relation de type mère/fille entre variables


54

Et là encore, l’utilisateur dispose de la possibilité de vérifier la règle ainsi ajoutée grâce au

menu View / Rules …

Figure 30 : Aperçu de la règle générée

2.2.7 Vue générale de l’extraction

Il est possible de visualiser les résultats de l’extraction à tout moment, via le menu

View / Individuals ou View / Assertions, selon que l’on souhaite respectivement voir les

individus extraits ou bien les concepts.

La figure ci-dessous est un aperçu de l’extraction complète que nous avons réalisée :

Figure 31 : Vue générale de l’extraction réalisée sous DB2SO

1

2

3

4


55

Les différentes étapes qui apparaissent sur la figure précédente sont :

1. Extraction initiale des individus et des concepts

2. Ajouts de variables classes

3. Ajout d’une taxonomie

4. Création d’une règle traduisant une relation de type mère/fille.

Ces étapes constituent la base du travail à fournir avant de pouvoir étudier les

données par l’intermédiaire des méthodes proposées dans le logiciel SODAS.

2.3 Présentation des méthodes d’analyse

Pour analyser nos données, nous disposons dans SODAS de techniques de

datamining ayant fait leurs preuves ; nous pouvons classer les principales méthodes

disponibles dans sept catégories, à savoir :

• La visualisation des données sous forme d’étoiles, par l’intermédiaire de la méthode

SOE.

• L’utilisation de techniques de statistiques ‘classiques’, comprenant entre autres des

histogrammes, mais qui sont appliquées ici à des objets symboliques grâce à la

méthode STAT.

• SODAS permet également de rendre compte de la notion de dissimilarité via DI.

• Plusieurs techniques de discrimination se trouvent également disponibles, telles que

DSD et DKS

• Les arbres de décisions (TREE, SDT), permettent quant-à-eux de déduire des règles

logiques afin d’expliquer une variable classe portant sur les concepts.

• Cette démarche est différente de la classification, réalisable grâce aux méthodes DIV

ou PYR ; appliquant diverses stratégies de partitionnement des données.

• Et enfin, SODAS propose également des analyses factorielles de type PCM ou FDA.

Le schéma suivant récapitule les différents types d’analyses réalisables sous

SODAS, et dont certaines seront approfondies dans la suite de ce rapport.


56

Figure 32 : Aperçu général des types de méthodes disponibles sous SODAS

BDR

DB2SO

Symbolic Data File

Histogramme biplot

Dissimilarities

Clustering

Analyses factorielles

Stars graphics

Discrimination Decision

tree


57

SOE : Symbolic Object Editor 3.1 Présentation de la méthode SOE

L’éditeur d’objets symboliques permet aux utilisateurs, aussi bien experts que novices

de visualiser les données symboliques présentes dans un fichier SODAS ; et ce, très

simplement, même pour des objets symboliques parfois très complexes, à travers une

interface graphique agréable.

SOE présente les fonctionnalités suivantes :

• Il permet aux utilisateurs de voir dans une table l’ensemble des données présentes

dans un fichier SODAS ; et il permet également de réaliser quelques modifications

simples sur ces données, comme le choix des concepts, des variables… que l’on

souhaite garder.

Figure 33 : Exemple de table SOE contenant l’ensemble des données d’un fichier SODAS


58

On peut remarquer que les variables quantitatives se trouvent décrites par des

intervalles tandis que les variables nominales sont décrites par des histogrammes.

• De plus, cet éditeur permet de visualiser des représentations graphiques en deux ou

trois dimensions. Pour cela, il faut sélectionner dans la table au moins un concept (en

ligne) et trois variables (en colonne). Puis, selon notre choix, apparaissent alors des

représentations en étoile en deux ou trois dimensions, comme le montrent les figures

suivantes :

Figure 34 : Exemple de représentation graphique 2D dans SOE

Figure 35 : Exemple de représentation graphique 3D dans SOE


59

Les variables nominales se trouvent représentées par des histogrammes, tandis que

les intervalles traduisent les valeurs des variables quantitatives. De plus, il est également

possible d’afficher les résultats d’une hiérarchie telle que le titre selon les différents niveaux

de cette taxonomie.

• Enfin, SOE propose aussi une représentation SOL (i.e. Symbolic Object Language)

de chaque concept présent dans le tableau, comme illustré ci-dessous :

Figure 36 : Exemple de représentation SOL dans SOE

3.2 Application de la méthode SOE

La figure suivante représente un extrait de la table des concepts et des individus

obtenue suite à l’extraction des individus.

Figure 37 : Extrait de la table obtenue par la méthode SOE


60

En sélectionnant différentes variables, on peut réaliser, entre autres, des

interprétations portant sur les thèmes suivants :

3.2.1 Les règnes des rois de France

Nous avons sélectionné pour chacun des concepts, les variables qualitatives relatives

au prénom, au qualificatif, et au numéro du roi, ainsi que la cause de la fin de son titre ; et

concernant les variables quantitatives, elles portent sur le numéro de l’enfant dans la fratrie,

la durée de vie, les nombres totaux d’enfants et de fils rois, ainsi que l’âge d’obtention et la

durée du titre.


61


62


63

Figure 38 : Ensemble des graphiques STAR 2D relatifs au règne des rois de France

Une première comparaison rapide entre ces six graphiques en étoile nous permet de

voir que tous les concepts s’avèrent relativement différents, même s’ils se rejoignent

effectivement sur quelques variables. Mais dans tous les cas, et comme cela sera également

approfondi par la suite, les Robertiens apparaissent déjà comme un concept à part ; cela

s’explique d’un point de vue historique par le fait que les Robertiens, qui se situent à la

même période que les Carolingiens, sont en fait une branche de la famille royale cousine

des Carolingiens, et dont le rôle a surtout été de servir en quelque sorte de ‘relais’ à ceux-ci

lorsque la descendance directe n’était pas assurée.

On peut commencer par remarquer que chaque concept possède son propre

ensemble de prénoms et qualificatifs les plus couramment usités ; de plus, au niveau de la

lecture des graphes SOE, le fait que plusieurs points aient été sélectionnés pour les

variables qualitatives signifie qu’elles apparaissent toutes avec la même fréquence.

Ainsi, on est passé progressivement, avec les Mérovingiens, des prénoms Clotaire et

Thierry, à Louis avec les Carolingiens, puis Raoul, Robert, Eudes pour les Robertiens, avant

de retrouver à nouveau Louis et Philippe chez les Capétiens, suivi de Charles pour les

Valois, et enfin, de nouveau Louis chez les Bourbons. Par conséquent, on voit clairement


64

que le prénom Louis apparaît régulièrement, et pour être plus exact, il se retrouve en tête

des prénoms les plus usités, apparaissant alternativement pour un concept sur deux.

Quant-aux qualificatifs les plus fréquemment utilisés, ils ne correspondent qu’à une

seule dynastie à la fois.

Il est également intéressant de noter que pour la quasi-majorité des concepts, le

numéro de roi principal est le I et/ou le II, excepté pour les Bourbons qui ont eu autant de IV,

VII, X, XIII, XIV, XV, XI, et XVIII.

Concernant le nombre total d’enfants, les intervalles des valeurs min et max s’avèrent

relativement proches l’un de l’autre pour les dynasties des Mérovingiens, Capétiens, Valois

et Bourbons, qui ont eu entre 0 et 12 enfants, à plus ou moins 3 près. En revanche, les

concepts Carolingiens et Robertiens font figure d’exception : le premier atteint au maximum

le nombre de 19 enfants, tandis que l’autre se contente au plus de 3 enfants.

On peut remarquer de plus, qu’à priori, il ne semble pas y avoir de lien direct entre le

nombre d’enfants et celui de fils rois. Car en effet, même si sur l’étendue du nombre

d’enfants les dynasties des Mérovingiens, Capétiens, Valois et Bourbons semblaient assez

proches, on note que les Bourbons se différencient alors concernant le nombre de fils rois,

compris entre 0 et 1, alors que les autres concepts (excepté à nouveau le concept des

Robertiens, qui n’ont aucun fils roi) s’étendent tous de 0 à 3 ou 4 enfants au maximum.

A propos des variables telles que l’âge d’obtention du titre, la durée de celui-ci ou

encore la durée de vie des rois, on peut noter dans tous les cas que l’âge maximal

d’accession au titre de roi est assez tardif ; par exemple chez les Bourbons, alors que la

durée de vie maximale est de 79 ans, l’âge d’accession au trône a lieu au plus tard à 67 ans,

ce type d’écart se retrouve encore chez les Mérovingiens, Carolingiens, Capétiens, et Valois,

avec des valeurs comprises entre 60 et 70 ans en ce qui concerne la durée de vie maximale

observée, et proches de la quarantaine pour l’âge maximal d’obtention du titre. Là encore les

Robertiens se distinguent des autres dynasties, car la différence entre l’âge maximal

d’accession au titre de roi (56 ans) et celui de la durée de vie maximale (57 ans) s’avère

nettement moindre que pour les autres concepts.

Ces différences se retrouvent également au niveau de l’étendue de la durée de titre,

car les Robertiens possèdent une étendue relativement faible, de l’ordre de 13 ans, alors

que pour les autres dynasties, cet intervalle est au minimum de 40 ans.


65

Enfin, pour finir cette comparaison entre les différents concepts, nous avons souhaité

nous intéresser de plus près à la répartition des causes de fin de règne des rois ; ce qui se

trouve détaillé dans les histogrammes suivants :

Mérovingiens Carolingiens Robertiens

Capétiens Valois Bourbons

Figure 39 : Histogrammes des causes de fin de titre des rois de France selon la dynastie

Il ressort très nettement de ces histogrammes que la première cause de fin de titre

des différentes dynasties, jusqu’aux Capétiens, est le décès naturel des rois ; puis, pour les

deux concepts suivants, à savoir les Valois et les Bourbons, ce pourcentage de fin de règne

dû à une mort naturelle s’amenuise, pour laisser en cause principale de fin de titre les

maladies.


66

Par ailleurs, la répartition des différents pourcentages traduit bien le climat ambiant

qui existait aux époques des différentes dynasties. Ainsi, on voit clairement que pour les

Mérovingiens, il apparaît une proportion non négligeable de fin de règne due à des

assassinats, ce qui traduit effectivement les nombreux complots existants alors, en vue

d’accéder au trône.

De plus, les nombreuses guerres ayant eu lieu lors de la dynastie des Robertiens et

des Capétiens constituent effectivement la cause de la fin de plusieurs règnes.

Et enfin, même si le pourcentage de maladies va croissant pour les trois derniers

concepts, cela n’éclipse pas pour autant la période de trouble qui a accompagné les

Bourbons, dont beaucoup ont dû faire face à la révolution française, qui a vu de nombreux

assassinats, exils et décapitations, comme spécifié dans l’histogramme correspondant.

3.2.2 Les enfants des rois de France

Dans ce cas, nous avons sélectionné pour chacun des concepts, des variables

quantitatives portant sur différentes notions telles que le nombre d’enfants, décliné selon

plusieurs critères (morts jeunes, rois, …), la durée de vie, et d’autres variables relatives aux

mariages, ainsi qu’une variable booléenne déterminant si les rois de France ont eu ou non

des enfants.

Les deux graphiques suivants illustrent les résultats obtenus pour les dynasties des

Valois et des Bourbons.


67

Figure 40 : Deux graphiques STAR 3D relatifs aux enfants des rois de France

D’après les graphiques 2D en étoiles précédents, les dynasties des Bourbons et des

Valois semblent fortement différentes, excepté pour la cause de fin de titre, dû aux maladies.

Il peut être pertinent de s’intéresser de plus près à ces deux concepts afin de déterminer de

façon plus fine les points communs et les différences existant entre ces deux dynasties, qui

s’avèrent relativement proches l’une de l’autre dans le temps, mais éloignées sur de

nombreux autres critères.

Ainsi, jusqu’à un certain point, les Valois et Bourbons paraissent relativement

similaires, en particulier en ce qui concerne le nombre de mariages peu élevé (jusqu’à 2 ou

3, respectivement pour les Bourbons et les Valois) ; l’âge lors du premier mariage s’avère

dans les deux cas assez jeune (entre 14 et 22 ans pour les Bourbons, et de 12 à 24 ans

pour les Valois) ; et enfin, le nombre d’enfants issus du premier mariage et le nombre total

d’enfants s’étendent de 0 à 12, à plus ou moins 2 près pour les Bourbons.

En revanche, des disparités apparaissent en ce qui concerne l’âge lors du premier

enfant ; ainsi, alors que les Bourbons se sont mariés au plus tard à 22 ans, l’âge maximal

auquel un individu a eu son premier enfant est de 48 ans, soit au minimum 26 ans après son

mariage ; tandis que pour les Valois, cet écart n’est que de 12 ans.

En outre, on remarque que la quasi totalité des Va lois ont eu des enfants, alors que

chez les Bourbons, cette proportion s’avère moindre. On peut noter par ailleurs que, bien

que les intervalles du nombre total d’enfants soient quasiment identiques, ainsi que ceux sur

le nombre total de filles, il en est autrement du nombre de fils qui s’étend jusqu’à 7 pour les


68

Valois, tandis que les Bourbons ont eu au maximum 3 fils. Qui plus est, les premiers ont eu

jusqu’à 3 fils rois, alors que les Bourbons n’ont eu au maximum qu’un fils roi.

Par ailleurs, des différences apparaissent également au niveau de la mortalité

infantile ; ainsi, même si les intrevalles relatifs aux nombres d’enfants et de filles sont

quasiment identiques pour les deux concepts, en revanche ceux portant sur la mortalité

infantile des filles se révèlent très différents : les Valois ont vu jusqu’à 5 filles mourir jeunes,

tandis que ce nombre ne dépasse pas 3 pour les Bourbons.

Et enfin, une autre différence flagrante entre ces deux dynasties concerne la durée

de vie ; en effet, les Valois sont morts entre 13 et 60 ans, alors que les Bourbons, quant-à

eux, ont atteint au minimum l’âge de 36 ans , et ont pu vivre jusqu’à l’âge de 79 ans.


69

STAT : Méthode de statistiques élémentaires 4.1 Présentation de la méthode STAT

La méthode STAT (Histogram, Elementary Statistics), comme son nom l’indique,

permet d’étendre des méthodes ‘classiques’ des statistiques, à des objets symboliques

représentés par des variables descriptives, et non pas à des individus de premier niveau.

Cette méthode peut prend en entrée trois types de variables différentes : des

variables multi-nominales, des variables multi-nominales probabilistes, ou bien des variables

intervalles.

En fonction du type des variables d’entrées choisies, plusieurs méthodes STAT

peuvent être appliquées ; ceci se trouve résumé dans le tableau suivant :

TYPE DE VARIABLES EN ENTREE

Multi-nominales Multi-nominales probabilistes Intervalles

Fréquences relatives

Capacité

Min/Max/Mean

ME

THO

DE

S

AP

PLI

CA

BLE

S

Biplot

Figure 41 : Tableau récapitulatif des méthodes STAT disponibles en fonction du type des

variables d’entrée


70

4.1.1 Fréquences relatives pour les variables multi-nominales

En prenant en compte les éventuelles règles qui ont été définies sur la base, cette

méthode permet de visualiser la fréquence relative de chaque modalité de la variable

sélectionnée.

On peut de plus spécifier le type de diagramme que l’on souhaite obtenir en sortie, à

savoir soit un diagramme en bâtons, soit un camembert.

Figure 42 : Exemple de camembert traduisant les fréquences relatives de la variable

multi-nominale cause_fin_titre des rois de France

4.1.2 Fréquences relatives pour les variables intervalles

En plus de la variable intervalle spécifiée, cette méthode prend un deuxième

paramètre d’entrée : le nombre de classes utilisé pour découper l’intervalle. Elle calcule ainsi

pour chaque classe sa fréquence relative tout en tenant compte, pour tous les objets

symboliques, du recouvrement de chaque classe par les valeurs intervalles.

Figure 43 : Exemple de graphique sur les fréquences relatives de la variable intervalle

nb_total_enfants des familles des rois de France


71

4.1.3 Capacités et Min/Max/Mean pour les variables multi-nominales probabilistes

En considérant les différentes modalités de la variable sélectionnée, cette méthode

permet de construire un histogramme des capacités de ces modalités.

Le deuxième graphique disponible est un graphique min/max/mean, qui correspond à

un diagramme représentant l’étendue et la moyenne de la probabilité de chaque modalité.

Figure 44 : Exemple de graphique min/max/mean pour la variable multi-nominale

probabiliste prénom des rois de France

4.1.4 Biplot pour les variables intervalles

Contrairement aux individus de premier niveau, habituellement représentés dans le

plan par un point, ici, les objets symboliques sont représentés par un rectangle dans le plan

(plan défini par le choix de deux variables par l’utilisateur). La dimension de chaque côté du

rectangle correspond à l’étendue de la variation de l’objet symbolique relativement à la

variable de l’axe considéré.


72

Figure 45 : Exemple de diagramme biplot sur la famille des rois de France, relatif à l’âge

de fin du titre en fonction de l’année de naissance

4.2 Application de la méthode STAT 4.2.1 Années de naissance et de décès

• Les deux histogrammes suivants reflètent la répartition des naissances et des décès

au cours du temps des différentes branches de la famille des rois de France :


73

Figure 46 : Histogrammes des années de naissance et de décès de la famille des rois de

France

En observant ces deux graphiques, on note plusieurs pics, tant au niveau de la

natalité que des décès ; et qui plus est, chacun de ces pics de naissance précède une

augmentation des décès, avec un décalage dans le temps d’environ 50 ans (par exemple le

1er pic des naissances commence vers 750 et dure jusqu’en 950, alors que les décès

augmentent à leur tour significativement entre 800 et 1000). Ceci signifie tout simplement

que les individus des concepts, nés à un moment donné, meurent de manière générale

environ 50 ans après.

Concernant les deux derniers pics de natalité, l’existence de grosses épidémies de

peste en 1300 et 1500 pourraient expliquer l’accroissement démographique observé juste

après ces périodes. En revanche, concernant le premier pic entre 750 et 950, plusieurs

causes possibles pourraient être mises en avant, telles que les nombreuses croisades,

guerres, et épidémies relatives à cette période. Il est à noter qu’au cours de cet intervalle de

temps, correspondant globalement au règne des Carolingiens, ceux-ci ont en effet eu

nettement plus d’enfants que les autres dynasties.

Enfin, après ces différents pics, s’ensuit à chaque fois un retour à la normale. On peut

cependant affiner cette observation en remarquant qu’entre les deux premiers pics on se

situe aux alentours de 2 %, puis entre les deux pics suivants on passe à 2,5%, pour ensuite

se rapprocher des 3 % après le dernier pic de 1500. Autrement dit, cette évolution traduit bel

et bien une tendance générale d’accroissement démographique de la famille des rois de

France.


74

• Il est également possible d’étudier l’évolution des naissances au cours du temps pour

la lignée royale directe, comme représenté sur l’histogramme suivant :

Figure 47 : Histogramme de l’année de naissance de la lignée royale

On peut ainsi noter que la lignée royale suit la même tendance que la famille entière,

à la différence près que les pics de natalité s’étendent sur des périodes moins importantes ;

ceci s’expliquant par le fait que la lignée royale ne concerne que les descendants directs.

4.2.2 Durée de vie

On se propose d’étudier la durée de vie tant pour la famille entière, que pour les rois

de France eux-mêmes, afin de mettre en évidence leurs caractéristiques distinctives.

Figure 48 : Histogramme de la durée de vie de la famille des rois de France


75

Le diagramme précédent permet d’observer la répartition de le population de la

famille des rois de France de la manière suivante :

Environ 15 % des individus, tous concepts confondus, meurent avant l’âge de 15 ans ; puis

la plus grande probabilité, avec un taux de 72 %, est de vivre entre 15 et 70 ans ; et enfin,

seuls 8 % et 5 % vivent respectivement au delà de 70 et de 80 ans.

Cette réparttion de la durée de vie change en revanche en ce qui concerne les rois

de France, comme indiqué par l’histogramme correspondant à une loi normale, représentée

ci-après :

Figure 49 : Histogramme de la durée de vie des rois de France

Dans ce cas, seuls 5 % des rois meurent avant l’âge de 15 ans, soit 3 fois moins que

par rapport à l’ensemble de la famille entière des rois de France ; cela pouvant s’expliquer

par le fai que les rois, du fait de leur statut potentiel, bénéficient d’attentions et de conditions

de vie nettement plus favorables.

On observe ensuite que 18 % vivent entre 15 et 30 ans, et que la grande majorité

possède une durée de vie comprise entre 30 et 60 ans, avec un taux de 61 %. Ces

proportions, 79 % au total, correspondent globalement aux 72 % des familles dont la durée

de vie s’étend entre 15 et 70 ans. Reste alors environ 16 % de personnes qui vivent au delà

de 60 ans. Ainsi, on peut remarquer que, contrairement à la famille entière, qui voit 3 fois

plus de morts avant l’âge de 15 ans qu’après celui de 60 ans, les rois de France quant-à eux

voient ce ratio inversé, avec une probabilité de vivre au delà de 60 ans , en étant roi, 3 fois

plus élevée que celle de mourir jeune.


76

4.2.3 Biplots obtenus pour les variables intervalles correspondantes

Pour corroborer les résultats mis en évidence précédemment, on peut également

s’intéresser aux biplots suivants :

Figure 50 : Biplot sur la lignée royale de France, relatif à la durée de vie par rapport à

l’année de naissance

On voit là encore que la durée de vie des dynasties augmente sensiblement avec

l’année de naissance : ainsi, tandis que les Mérovingiens ont vécu au maximum 63 ans, les

Bourbons ont quant-à eux pu atteindre l’âge de 77 ans.

En revanche, les Robertiens font de nouveau figure d’exception, en effet, ils

correspondent à la dynastie dont le maximum de durée de vie est le plus faible, et d’un autre

côté, ce sont également eux dont la durée de vie minimale est la plus forte.


77

Figure 51 : Biplot sur la famille des rois de France, relatif au nombre total d’enfants en

fonction de l’année de naissance

De nouveau, d’après ce graphique, les dynasties des Mérovingiens et des Bourbons,

bien qu’éloignées l’une de l’autre de plus de 1000 ans, paraissent cependant similaires sur

plusieurs points, comme ici sur l’étendue du nombre d’enfants.

Si l’on se place par rapport à la tendance globale qui se dégage de ce graphique, les

dynasties des Mérovingiens, Capétiens, Valois et Bourbons s’avèrent plutôt semblables avec

un nombre d’enfants variant de 0 à 13 au maximum.

En revanche les Robertiens et Carolingiens font une fois de plus figure d’exception, et

constituent les deux concepts extrêmes. En effet, les Robertiens ont eu moins d’enfants que

les autres dynasties, avec un maximum de 8 enfants, tandis que les Carolingiens ont quant-à

eux eu jusqu’à 19 enfants.


78

TREE : Arbre de décision 5.1 Présentation de la méthode TREE

Un arbre de décision est un enchaînement hiérarchique de règles construites de

manière automatique à partir d’une base d’exemples. Un exemple, quant-à-lui, est constitué

d’une liste d’attributs, dont la valeur détermine l’appartenance à une classe donnée.

La construction de l’arbre de décision consiste à utiliser les variables explicatives

pour subdiviser progressivement l’ensemble d’exemples en sous-ensembles de plus en plus

fins. Ainsi, l’arbre de classification est obtenu en recherchant à chaque niveau le paramètre

le plus discriminant pour classifier un exemple.

Avant tout, il faut préciser qu’un pré-requis nécessaire au bon fonctionnement de

cette méthode est d’avoir déclaré au préalable dans SODAS une classe associée à chaque

concept ; cette opération s’effectuant par l’intermédiaire du sous-menu ‘Add single’ dans

SODAS.

Afin de paramétrer la méthode, il nous faut déterminer, en plus de la variable class à

expliquer, un ensemble de variables prédictives parmi des variables quantitatives (ou

intervalles), et des variables qualitatives (c’est-à-dire multi valuées ou modales) ; le choix

entre ces deux types de variables étant exclusif.

Une fois, la méthode TREE appliquée, on récupère en sortie un listing contenant les

informations suivantes :

• la liste des variables utilisées

• la liste des objets symboliques appartenant à un « training set »


79

• la liste des objets symboliques appartenant à un « test set»

• la liste des nœuds ; chacun de ces nœuds se trouvant décrit par une règle

• et enfin, la liste des nœuds terminaux, encore appelés feuilles.

Figure 52 : Exemple d’arbre de décision généré par SODAS

Comme l’illustre la figure précédente, on récupère notamment en sortie un ensemble

de règles, aisément compréhensibles. En effet, une règle logique simple comprend une

prémisse et une conclusion ; la prémisse exprime une condition logique bâtie sur des tests

portant sur des variables combinées par des opérateurs logiques (par exemple le ‘et’) ; la

conclusion, quant-à-elle, se trouve complétée par une fréquence d’appartenance (si la

variable à expliquer est qualitative), ou bien par une moyenne (dans le cas d’une variable

continue).

Pour reprendre notre exemple, cet arbre se traduit plus simplement par la phrase

suivante :

Si la variable num_enfant a une valeur inférieure à 2,54

Alors le concept correspond à la classe ‘de 10 à 20’, avec une probabilité de 98,3 %

Sinon le concept peut correspondre à 39,7 % à la classe ‘plus de 20’.

5.2 Application de la méthode TREE

La méthode TREE nous permet de définir les concepts de dynastie selon un

ensemble organisé, grâce à une procédure récursive de partitionnement.

Nos concepts sont décrits notamment par la variable de classe correspondant à la

durée de la dynastie, ajoutée via add single ; la méthode TREE sera par la suite appliquée à

+---- < 2 > de 10 à 20 ( 6.24 6.03 9.83 ) ! !----1[ num_enfant <= 2.540000] ! +---- < 3 > plus de 20 ( 3.76 3.97 0.17 )

1

1

2

3

2

3


80

NUMBER OF A PRIORI CLASSES : 4 ID_CLASS NAME_CLASS 1 2siecles 2 4siecles 3 1siecle 4 3siecles

GROUP OF PREDICATE VARIABLES : ( 5 ) num_enfant ( 6 ) annee_naissance ( 7 ) annee_deces ( 8 ) duree_vie ( 9 ) nb_mariage ( 10 ) date_premier_mariage ( 11 ) age_lors_premier_mariage ( 12 ) nb_enfant_premier_mariage ( 14 ) age_lors_premier_enfant ( 15 ) nb_total_enfants ( 16 ) nb_total_fils ( 17 ) nb_total_filles ( 18 ) nb_total_fils_roi ( 19 ) nb_enfants_morts_jeunes ( 20 ) nb_fils_morts_jeunes ( 21 ) nb_filles_morts_jeunes ( 25 ) age_obtention_titre ( 26 ) age_fin_titre ( 27 ) annee_obtention_titre ( 28 ) annee_fin_titre ( 29 ) duree_titre ( 34 ) fin_titre_pere ( 35 ) age_deces_pere

cette variable de partitionnement, successivement pour chacune des notions suivantes : la

famille des rois de France, la lignée directe, et les rois de France eux-mêmes.

5.2.1 Caractéristiques communes de la méthode TREE

Le concept de dynastie peut être caractérisé par la variable durée de la dynastie, qui

comporte quatre valeurs, comme indiqué ci-après :

Figure 53 : Liste des classes relatives à la durée de règne des dynasties

Les variables explicatives choisies en entrée sont les variables continues suivantes :

Figure 54 : Liste des variables explicatives potentielles pour la méthode TREE


81

+ --- SI ASSERTION EST VRAIE (Branche du Haut) ! --- x [ ASSERTION ] ! + --- SI ASSERTION EST FAUSSE (Branche du Bas)

+---- [ 4 ]3siecles ( 0.00 0.00 0.00 1.00 ) ! !----2[ date_premier_mariage <= 737.000000] ! ! ! ! +---- [ 20 ]2siecles (1.00 0.00 0.00 0.00) ! ! ! ! ! !---10[ nb_enfants_morts_jeunes <= 0.000000] ! ! ! ! ! ! ! +---- [ 21 ]4siecles (0.00 1.00 0.50 0.00) ! ! ! ! !----5[ annee_fin_titre <= 1328.000000] ! ! ! +---- [ 11 ]2siecles (1.00 0.00 0.00 1.00) ! !----1[ nb_mariage <= 3.000000] ! +---- [ 3 ]1siecle ( 0.00 0.00 0.50 0.00 )

De manière générale, l’arbre de décision se lit ainsi :

Figure 55 : Explications relatives à la lecture de l’arbre de décision

5.2.2 Comparaison des arbres obtenus pour la famille entière, la lignée directe et les rois de France

• L’arbre obtenu pour la famille entière est le suivant :

Figure 56 : Arbre obtenu pour la famille des rois de France

Cet arbre nous permet de définir des règles caractérisant les dynasties selon leur

durée de règne :

Ainsi, les dynasties ayant régné pendant 1 siècle sont définies par le fait que le

nombre de mariages est supérieur à 3.

Quant-aux dynasties ayant régné pendant 2 siècles, elles se se sont mariées moins

de 3 fois, la date de leur premier mariage étant postérieure à l’an 737, et l’année de fin de

titre a lieu après 1328, ou bien si elle a lieu avant, il n’y a pas d’enfants morts jeunes.

Les dynasties ayant régné pendant 3 siècles sont caractérisées par le fait qu’elles se


82

+---- [ 4 ]3siecles (0.00 0.00 0.29 1.00) ! !----2[ annee_naissance <= 865.000000] ! ! ! ! +---- [ 20 ]2siecles(1.00 0.00 0.00 0.00) ! ! ! ! ! !---10[ nb_enfants_morts_jeunes <= 0.000000] ! ! ! ! ! ! ! +---- [ 21 ]4siecles(0.00 1.00 0.21 0.00) ! ! ! ! !----5[ annee_fin_titre <= 1328.000000] ! ! ! +---- [ 11 ]2siecles (1.00 0.00 0.00 1.00) ! !----1[ nb_mariage <= 3.000000] ! +---- [ 3 ]1siecle (0.00 0.00 0.50 0.00)

sont mariées moins de trois fois, et que la date du premier mariage se situe avant l’an 737.

Enfin, la dernière classe, à savoir les dynasties dont la durée de règne est de 4

siècles, est définie par moins de 3 mariages, la date du premier mariage se situant après

737, le titre s’étant terminé avant l’an 1328, et aussi par le fait qu’il y a eu des enfants morts

jeunes.

• Nous nous sommes ensuite intéressées à l’arbre obtenu pour la lignée directe :

Figure 57 : Arbre obtenu pour la lignée directe

La première remarque que l’on puisse tirer de cet arbre est sa ressemblance

frappante avec l’arbre relatif à la famille entière des rois de France ; la seule différence

provient de la variable explicative portant sur la date du premier mariage, qui s’avère

remplacée ici par l’année de naissance ; tous les autres critères étant identiques par ailleurs.

Ainsi, les dynasties ayant régné pendant 1 siècle se trouvent là encore avoir un

nombre de mariages supérieur à 3.

Quant-aux dynasties ayant régné pendant 2 siècles, elles se se sont mariées moins

de 3 fois, leur date de naissance étant postérieure à l’an 865, et l’année de fin de titre a lieu

après 1328, ou bien si elle a lieu avant, il n’y a pas d’enfants morts jeunes. Comparé aux

règles énoncées précédemment pour la famille entière, la règle caractérisant les dynasties

ayant régné pendant 2 siècles s’avère quelque peu plus restrictive car le critère selon lequel

les individus de la dynastie se sont mariés après 737 se trouve ici remplacé par le fait que


83

+---- [ 4 ]2siecles (2.00 0.11 0.11 0.17) ! !----2[ nb_total_fils_roi <= 1.000000] ! ! ! +---- [ 5 ]3siecles (0.00 0.22 0.22 0.41) ! !----1[ nb_total_fils_roi <= 1.000000] ! ! +---- [ 6 ]3siecles (0.00 0.00 0.67 0.75) ! ! !----3[ annee_deces <= 987.000000] ! +---- [ 7 ]4siecles (0.00 0.67 0.00 0.67)

ces individus sont nés après 865.

Les dynasties ayant régné pendant 3 siècles sont caractérisées par le fait qu’elles se

sont mariées moins de trois fois, et que la date de naissance se situe avant l’an 865 ;

contrairement à ce qui a été dit pour les dynasties ayant régné pendant 2 siècles, la variable

prédictive ‘date de naissance’ s’avère moins restrictive pour la lignée directe que le critère

‘date du premier mariage’ pour la famille entière.

Et enfin, la dernière classe, à savoir les dynasties dont la durée de règne est de 4

siècles, est définie par moins de 3 mariages, la date de naissance se situant après 865, le

titre s’étant terminé avant l’an 1328, et aussi par le fait qu’il y a eu des enfants morts jeunes.

Là aussi, le critère ‘date de naissance’ s’avère plus restrictif que la variable descriptive ‘date

du premier mariage’.

• Et en dernier lieu, il s’avère intéressant de comparer les arbres obtenus

précédemment avec celui relatif aux rois de France :

Figure 58 : Arbre obtenu pour les rois de France

Bien que l’on ait gardé exactement le même ensemble de variables descriptives lors

du paramétrage de l’arbre, on remarque que l’arbre ainsi généré pour les rois de France ne

possède pas du tout les mêmes variables explicatives que pour les deux arbres obtenus

précédemment. De plus, cet arbre ne nous permet pas, contrairement aux deux autres, de

caractériser les dynasties ayant régné pendant 1 siècle.

Ainsi, les dynasties dont la durée de règne est de 2 siècles possèdent un nombre de

fils rois inférieur ou égal à 1.

Quant-aux dynasties ayant régné pendant 3 siècles, elles ont, à l’inverse, plus d’un

fils roi, et leur année de décès se situe éventuellement avant l’an 987. Cependant, il est à


84

noter que pour cette classe, la matrice de confusion correspondante s’avère telle que l’on a

seulement une probabilité d’un sur deux de classer correctement les individus appartenant à

la dynastie dont la durée de règne est de 3 siècles.

Enfin, les dynasties dont la durée de règne est de 4 siècles correspondent aux

critères suivants : un nombre de fils rois supérieur à 1, et l’année de décès postérieure à l’an

987.

Pour conclure sur ces différents arbres obtenus, on peut se référer aux matrices de

confusions correspondantes : ainsi, l’arbre relatif à la famille entière possède un taux global

d’erreur de 33.33 %, à égalité avec celui portant sur les rois ; mais en revanche, l’arbre

obtenu pour la lignée directe possède un taux global d’erreur deux fois moindre, ce qui fait

de lui l’arbre le plus fiable, avec un taux de fiabilité de 83.33 %.


85

DIV : méthode de classification hiérarchique descendante 6.1 Présentation des méthodes de classification hiérarchiques descendantes 6.1.1 Principe des méthodes

Les méthodes divisives de classification sont des méthodes de classification

hiérarchique. Elles partent d’un ensemble O d’individus et construisent de manière itérative

une famille F de classes de O vérifiant les propriétés suivantes :

(1) F∈Ω

(2) F, ∈ωΩ∈ω∀

(3) deux classes de F sont soit disjointes soit contenues l’une dans l’autre

La famille F de classes est une hiérarchie, les classes en sont les paliers. Voici un arbre

hiérarchique représentant la famille F suivante :

Les méthodes divisives de classification construisent une hiérarchie en effectuant des

divisions successives de O, jusqu’à la partition des singletons. Ces méthodes sont

4,3,2,1

2,1

4,3

1 2 3 4

4,3,2,1,4,3,2,1,4,3,2,1F =


86

descendantes par opposition aux méthodes ascendantes qui partent de la partition des

singletons et qui procèdent par agrégations successives.

6.1.2 Choix et partitionnement de classes

Les méthodes divisives sont itératives et procèdent à chaque itération, au choix de la

classe à diviser et au partitionnement de cette classe. Nous allons voir par la suite les

différentes stratégies de choix ainsi que les stratégies de partitionnement rencontrées dans

les diverses méthodes. Notons que ces méthodes utilisent des critères usuels en analyse de

données comme l’inertie ou le diamètre pour évaluer la qualité de la partition.

A chaque étape d’un algorithme divisif de classification, on connaît une partition

)C,...,C,C(P k21k = en k classes de O.

Ω=

∅=∪

=U

k

1ii

ji

C

CC

On doit alors choisir la classe que l’on veut diviser en m classes pour obtenir une partition en

( )1mk −+ classes. Généralement 2m = , et on obtient une partition en ( )1k + classes.

Présentons maintenant différentes stratégies de choix de classe à diviser.

§ Première stratégie

Elle consiste à ne pas faire de choix. Toutes les classes obtenues à l’étapes précédentes

sont systématiquement divisées.

§ Deuxième stratégie

Cette stratégie consiste à choisir la classe que l’on va diviser en fonction d’une

caractéristique définie arbitrairement.

§ Troisième stratégie

Elle consiste à choisir de diviser la classe qui donne la « meilleure » partition au sens d’un

critère d’évaluation W. On cherche parmi toutes les partitions en ( )1k + classes, résultant de

la division d’une classe, celle qui optimise le critère. On retient la classe qui induit cette

partition.


87

6.1.3 La méthode DIV de SODAS

La méthode DIV ou Divising Clustering Method est une méthode de classification

hiérarchique descendante. Elle procède donc, à chaque étape, par division successive des

classes en deux conformément à une question binaire. Cette question binaire est telle qu’elle

induit le meilleur partitionnement optimisant le critère d’inertie (inertie intra-classe – théorème

de Huygens).

Les données en entrée de la méthode sont soit quantitatives soit qualitatives. Ces

deux types ne peuvent être mélangés. Les variables ainsi choisies vont permettre de

partitionner les concepts selon un critère d’inertie. Le choix du nombre de classes de

partitionnement doit être paramétré. On obtient en sortie un arbre de classification

hiérarchique descendante permettant d’expliquer les concepts.

6.2 Application de la méthode DIV

Nous avons choisi d’étudier les différents concepts, c’est-à-dire les dynasties, par

rapport uniquement aux rois de France.

6.2.1 Le numéro de l’enfant dans la fratrie

Il s’agit d’expliquer les différentes dynasties par rapport à la place de l’enfant dans sa

fratrie, ce que nous appelons son numéro. En effet, nous souhaitions trouver une corrélation

entre la position de l’enfant par rapport à ses frères et sœurs et la dynastie durant laquelle il

avait été roi. Il s’avère que les résultats observés sont très intéressants car le critère d’inertie

est très fort.

Nous avons choisi un partitionnement en 5 classes :

§ classe 1 (n=1) : dynastie des Robertiens § classe 2 (n=1) : dynastie des Carolingiens § classe 3 (n=1) : dynastie des Capétiens § classe 4 (n=2) : dynastie des Mérovingiens et des Valois § classe 5 (n=1) : dynastie des Bourbons

Le partitionnement s’explique à 98,932384.


88

Voici l’arbre représentant la classification hiérarchique :

Figure 59 : Rois de France – position de l’enfant dans la fratrie

Résultats observés :

§ Mérovingiens : 5.5 < numéro § Carolingiens : 4,5 < numéro ≤ 5.5 § Robertiens : numéro ≤ 3 § Capétiens : 3 < numéro ≤ 3.75 § Valois : 5,5 < numéro § Bourbons : 3,75 < numéro ≤ 4.5

On constate que les enfants appelés à régner n’étaient en moyenne pour aucune dynastie le

fils aîné, mis à part les Robertiens dont la dynastie a été très courte et donc difficilement

comparables aux autres.

Ceci peut s’expliquer par une mort infantile élevée. Notamment, le diagramme SOE sur les

enfants de la dynastie des Valois confirme la position tardive de l’enfant dans sa fratrie. En

ce qui concerne les Mérovingiens, on peut ajouter le fait qu’à la mort d’un roi, le royaume

était divisé entre ses fils, ce qui fait 3 ou 4 enfants régnant en même temps.

On peut également s’attarder sur les Carolingiens, qui ont eu plus de filles que les individus

des autres dynasties, ce qui peut faire reculer la position des fils dans la fratrie. Rappelons

que le numéro de l’enfant est indépendant de son sexe.

+---- Classe 1 (Ng=1) Robertiens ! !----2- [num_enfant <= 3.000000] ! ! ! ! +---- Classe 3 (Ng=1) Capétiens ! ! ! ! !----4- [num_enfant <= 3.750000] ! ! ! +---- Classe 5 (Nd=1) Bourbons ! !----1- [num_enfant <= 4.500000] ! ! +---- Classe 2 (Ng=1) Carolingiens ! ! !----3- [num_enfant <= 5.500000] ! +---- Classe 4 (Nd=2) Mérovingiens, Valois


89

6.2.2 Durée de vie et durée de règne Nous avons choisi un autre critère d’explication des dynasties : la durée de règne des rois de

France.

Partitionnement en 5 classes :

§ classe 1 (n=1) : Robertiens § classe 2 (n=1) : Valois § classe 3 (n=1) : Bourbons § classe 4 (n=1) : Carolingiens § classe 5 (n=2) : Mérovingiens, Capétiens

Le partitionnement s’explique à 99.889135.

Figure 60 : Rois de France – durée de règne

Résultats observés :

§ Mérovingiens : 23,75 < durée du règne ≤ 32,25 ans § Carolingiens : 22,25 < durée du règne ≤ 23 ,75 ans § Robertiens : durée du règne ≤ 14,00 ans § Capétiens : 23,75 < durée du règne ≤ 32,25 ans § Valois : 14,00 < durée du règne ≤ 22,25 ans § Bourbons : 32,25 < durée du règne

Nous allons recouper les résultats obtenus avec la durée de vie des rois :

Partitionnement expliqué avec 98.586073 :

§ classe 1 (n=1) : Robertiens § classe 2 (n=1) : Capétiens § classe 3 (n=1) : Bourbons § classe 4 (n=1) : Valois § classe 5 (n=2) : Mérovingiens, Carolingiens

+---- Classe 1 (Ng=1) Robertiens ! !----1- [duree_titre <= 14.000000] ! ! +---- Classe 2 (Ng=1) Valois ! ! ! !----3- [duree_titre <= 22.250000] ! ! ! ! ! ! +---- Classe 4 (Ng=1) Carolingiens ! ! ! ! ! ! !---4- [duree_titre <= 23.750000] ! ! ! ! ! +---- Classe 5 (Nd=2) Mérovingiens, Capétiens ! ! !----2- [duree_titre <= 32.250000] ! +---- Classe 3 (Nd=1) Bourbons


90

Figure 61 : Rois de France – durée de règne et durée de titre

On constate que les Capétiens ont régné approximativement toute la durée de leur

vie ou du moins une grande partie, au contraire des Mérovingiens, des Carolingiens et des

Valois qui ont vécu plus longtemps que n’a duré leur titre. On explique cela par le fait qu’ils

ont accédé au trône de France plus tardivement que les Capétiens.

Quant à la dynastie des Bourbons, elle est caractérisée par des durées de règnes

beaucoup plus longues que les autres dynasties. Si nous nous penchons sur la filiation

existante entre les rois de cette branche, nous constatons qu’elle est de nature indirecte. En

effet, certains rois ont régnés jusqu’à un âge particulièrement avancé et n’ont donc pu

passer le pouvoir qu’à leurs petits fils. Citons notamment Louis XIV qui a vécu jusqu’à 77 ans

et son petit fils Louis XV jusqu’à 64 ans et ont régné respectivement 72 ans et 59 ans. De

même, deux des petits fils de Louis XV ont vécu 69 ans et 79 ans, même si la durée de leur

règne a été nettement plus courte à cause de la révolution française.

+---- Classe 1 (Ng=1) Robertiens ! !----1- [duree_titre <= 14.000000] ! ! +---- Classe 2 (Ng=1) Capétiens ! ! ! !----3- [duree_vie <= 34.000000] ! ! ! ! ! ! +---- Classe 4 (Ng=1) Valois ! ! ! ! ! ! !---4- [duree_titre <= 22.250000] ! ! ! ! ! +---- Classe 5 (Nd=2) Mérovingiens, Carolingiens ! ! !----2- [duree_titre <= 32.250000] ! +---- Classe 3 (Nd=1) Bourbons


91

PYR : méthode de classification pyramidale 7.1 Présentation de la classification pyramidale 7.1.1 Principe

La classification pyramidale est une extension du modèle de classification

hiérarchique, présentée au chapitre précédent. C’est une technique de classification

automatique permettant, à partir d'un ensemble fini d'objets et un indice d'agrégation,

d'organiser ces objets en une structure de synthèse pyramidale.

Cette méthode permet de classer et d’analyser des données plus complexes. La

pyramide est construite suivant un algorithme d’empilement ascendant. Chaque classe ainsi

formée est définie non seulement par l’ensemble des éléments correspondant à son

extension, mais également par un objet symbolique décrivant les caractéristiques de la

classe c’est-à-dire son intention. Ces propriétés sont obtenues par héritage.

7.1.2 Données en entrée Les données initiales nécessaires à la méthode sont :

o soit une table de données symboliques auquel cas la pyramide de données sera

symbolique

o soit une table de distances et la pyramide obtenue sera numérique.

La pyramide est construite en fonction des variables que l’on souhaite expliquer. Elle a pour

objectif de mettre en avant les similitudes entre les concepts. Notons qu’il est possible de

mélanger les types des variables pour une même pyramide.


92

7.2 Analyse de données

Nous nous sommes attachées ici à étudier les dynasties au travers des enfants des

individus et de leur comportement. En particulier, en poussant l’étude sur les fils des

individus car ce sont les fils qui sont appelés à régner. Nous nous sommes appuyées sur la

lignée royale et sur les rois.

7.2.1 Les enfants des individus Variables explicatives :

§ nb_total_enfants § nb_total_fils § nb_total_filles § nb_total_fils_roi § nb_enfants_morts_jeunes § nb_fils_morts_jeunes § nb_filles_morts_jeunes

Figure 62 : Lignée royale – Enfants

D’après la pyramide concernant la lignée royale, il existe des similitudes très fortes

entre la dynastie des Mérovingiens et celle des Robertiens en ce qui concerne la

descendance directe des individus. Cependant la dynastie des Robertiens est particulière

car très courte. Nous ne pouvons donc pas totalement nous appuyer sur ce résultat. En

revanche, les Carolingiens ont aussi une forte similitude avec les deux dynasties

précédentes.

On constate également que la dynastie des Valois a un comportement particulier. Elle

se distingue nettement des autres dynasties au travers de l’héritage des caractères. On


93

observe un résultat similaire pour la pyramide suivante qui concerne les individus ayant

régné uniquement.

Figure 63 : Rois – Enfants


94

PCM : Analyse en composantes principales 8.1 Principe de l’Analyse en Composantes Principales

La méthode PCM correspond à l’analyse en composante principale (autrement

appelée ACP), technique mathématique permettant de réduire un système complexe de

corrélations en un plus petit nombre de dimensions. L'ACP est une méthode factorielle qui

construit de nouveaux caractères synthétiques, obtenus en combinant les caractères initiaux

au moyen des "facteurs". Le but est alors d’étudier l’intensité des liaisons entre les variables

et de repérer les concepts présentant des caractéristiques voisines.

Contrairement à l’analyse en composantes principales portant sur des individus de

premier ordre, qui aboutit à une représentation par points sur un plan factoriel ; la méthode

PCM s’applique quant-à-elle à des objets symboliques, et propose donc une visualisation de

chaque concept par des rectangles.

En entrée, la méthode PCM prend uniquement des variables continues ; et ainsi, les

éléments de la matrice de données correspondent à des intervalles (avec les valeurs

minimales et maximales) décrivant la variation de la variable observée.

L’exécution de la méthode nous donne en sortie deux types de résultats : un listing et

la représentation graphique correspondante.

Le listing contient plusieurs éléments dont :

• La matrice avec les données d’entrée de la méthode, où chaque ligne correspond

à un concept.

• La matrice de variance et covariance.


95

• Les valeurs propres, le pourcentage d’inertie et les descriptions des concepts par

des intervalles, pour chaque axe d’analyse potentiel.

• Les corrélations entre chaque variable descriptive et les composantes principales.

Pour la représentation graphique, l’utilisateur est invité à choisir deux axes d’analyse

parmi ceux proposés ; le but étant que la somme des pondérations de ces axes soit la plus

proche de 100 %, afin de ne pas perdre trop d’information, c’est-à-dire de choisir les axes de

plus forte inertie. Un exemple de représentation graphique obtenue par la méthode PCM est

donné par la figure suivante :

Figure 64 : Exemple de biplot obtenu par la méthode PCM

Il est à noter que ce qui fait la spécificité de l'analyse en composantes principales, par

rapport à d’autres méthodes factorielles, est qu'elle porte uniquement sur des variables

continues, alors que l'analyse des correspondances par exemple porte sur des variables

qualitatives, et qu’en analyse discriminante les variables se trouvent réparties en groupes

bien distincts.


96

Matrix of input data: annee_naissance annee_deces duree_vie "Mérovingiens" [405.00 , 725.00] [448.00 , 812.00] [0.00 , 74.00] "Carolingiens" [715.00 , 970.00] [761.00 , 1026.00] [1.00 , 96.00] "Robertiens" [750.00 , 946.00] [798.00 , 1004.00] [13.00, 72.00] "Capétiens" [937.00 , 1333.00] [996.00 , 1398.00] [0.00 , 82.00] "Valois" [1286.00, 1586.00] [1309.00, 1624.00] [0.00 , 76.00] "Bourbons" [1503.00, 1798.00] [1555.00, 1870.00] [0.00 , 84.00]

Correlations Matrix : annee_naissance 1.0000 0.8514 -0.0059 annee_deces 0.8514 1.0000 -0.0058 duree_vie -0.0059 -0.0058 1.0000

8.2 Application de la méthode PCM 8.2.1 Corrélations entre les années de naissance, de décès et la durée de vie

Il est à noter que la méthode PCM n’accepte que des variables quantitatives en entrée,

nous avons ainsi choisi d’analyser chacune des dynasties à partir des variables prédictives

suivantes :

• L’année de naissance

• L’année de décès

• La durée de vie

Les intervalles des variables descriptives, pour chaque concept, sont donnés par la

matrice ci-après :

Figure 65 : Matrice des intervalles des données en entrée pour la méthode PCM

Les corrélations entre ces trois variables descriptives se trouvent décrites par la

matrice de corrélation suivante :

Figure 66 : Matrice de corrélation entre les variables descriptives


97

Propers Values and inerty percentage: annee_naissance= 1.852 (61.72%) annee_deces= 0.149 (4.95%) duree_vie= 1.000 (33.33%)

On peut noter que, comme l’on s’y attendait, il existe une très forte liaison entre les

années de naissance et de décès (leurs corrélations étant positives et proches de 0.85) ;

ainsi, l’évolution entre ces deux années vont dans le même sens.

En revanche, les corrélations entre la durée de vie et les années de naissance et de

décès s’avèrent négatives. Ceci signifierait que plus l’on avance dans le temps, plus la durée

de vie des individus diminue. Ce résultat, qui peut paraître plutôt surprenant, est à nuancer

par la très faible valeur négative des corrélations (moins de 0.06) ; de plus, cette

interprétation se trouve éclairée par la suite, grâce aux graphiques biplots obtenus.

Figure 67 : Valeurs propres et pourcentage d’inertie des différentes variables prédictives

D’après les valeurs propres des différentes variables descriptives, et le pourcentage

d’inertie correspondant, il apparaît très clairement que les axes factoriels relatifs à l’année de

naissance et à la durée de vie structurent très fortement le problème (en effet, la somme de

leurs pourcentages d’inertie avoisine les 95 %)

Figure 68 : Biplot correspondant aux axes factoriels année de naissance et durée de vie

pour les familles des rois de France


98

Ainsi, ce graphique nous permet d’observer l’évolution des intervalles de durée de vie

des différentes dynasties, en fonction de la date de naissance. Une première observation de

ce graphe aboutit au constat selon lequel la majorité des concepts possèdent des intervalles

de durée de vie quasiment semblables, excepté pour les Robertiens et les Carolingiens. Ces

deux derniers, pourtant situés à la même période font figure d’exception : en effet, les

Robertiens correspondent à la dynastie dont le maximum de durée de vie est le plus bas,

alors que d’un autre côté, ce sont également eux dont la durée de vie minimale est la plus

forte. Quant-aux Carolingiens, ils possèdent la durée de vie la plus longue parmi l’ensemble

des autres concepts.

Ces différentes remarques sont à mettre en parallèle avec le biplot obtenu pour la

lignée directe, lors de l’application de la méthode STAT ; car dans ce cas, pour rappel, la

durée de vie des dynasties augmentait sensiblement avec l’année de naissance, passant

pour les Mérovingiens de 63 ans maximum, à 77 ans pour les Bourbons. En revanche, les

Robertiens faisaient là encore figure d’exception ; en effet, ils correspondaient à la dynastie

dont le maximum de durée de vie était le plus faible, et d’un autre côté, ce sont également

eux dont la durée de vie minimale était la plus forte.

L’analyse précédente peut encore être affinée grâce au biplot suivant, basé sur les

axes factoriels année de naissance et année de décès, qui structurent également plutôt bien

le problème, avec un taux approchant les 67 %.

Figure 69 : Biplot correspondant aux axes factoriels année de naissance et année de

décès


99

Conclusion

La réalisation de ce projet a été pour nous l’occasion de s’intéresser aux différentes

étapes du processus de Datamining, à commencer par rechercher et garder les données

pertinentes afin d’analyser correctement notre domaine d’étude, à savoir la famille des rois

de France. De plus, il nous a fallu également nous documenter sur le thème du Datamining,

afin de pouvoir aborder l’étape d’analyse de données symboliques à proprement parler, en

ayant à l’esprit les différents éléments que l’on pouvait espérer obtenir par l’application des

diverses méthodes mises à notre disposition par le logiciel SODAS.

En effet, ce projet a également été pour nous l’occasion de découvrir et manipuler le

logiciel SODAS, puissant outil d’analyse de données symboliques, qui nous a permis

d’extraire des pépites d’information de notre importante base de données relationnelle

initiale.

Cependant, l’utilisation optimale de ce logiciel requiert une très bonne connaissance

du langage SQL, permettant d’exécuter des requêtes à partir de notre importante base de

données relationnelle. En effet, via le module DB2SO, ces requêtes se sont avérées

primordiales pour extraire les individus, les concepts, et les variables descriptives utilisés par

la suite dans notre étude.

En revanche, la grande facilité de prise en main de ce logiciel, ainsi que son interface

graphique conviviale, disposant de schémas colorés et de textes facilement

compréhensibles par l’utilisateur, constituent des atouts indiscutables de ce logiciel, même si

des graphiques ne sont pas disponibles pour toutes les méthodes.

Enfin, pour conclure, le fait d’avoir réalisé ce projet en binôme constitue sans aucun

doute un point positif pour notre étude, car cela nous a permis de confronter nos différentes


100

interprétations des résultats, et d’aboutir ainsi une analyse fortement détaillée, et

certainement plus pertinente que si ce travail avait été réalisé seul.

Glossaire

DB2SO DataBase To Symbolic Objects

DIV Divisive Classification

DM Data Mining

DSD Discriminant Symbolic Descriptions

DW Data Warehouse

FDA Factorial Discriminant Analysis

KDD Knowledge Discovery in Database

OLAP On Line Analytical Processing

PCM Principal Component Analysis

PYR Pyramides

SODAS Symbolic Official Data Analysis System

SOE Symbolic Object Editor

STAT Histogram, Elementary Statistics

TREE Decision Tree


101

Bibliographie

• Livres :

[1] Larousse Encyclopédique [2] Les Souverains de France

M. Griffe – Editions T.S.H

[3] An introduction to symbolic data analysis ans its application to the Sodas project Edwin Diday

[4] Data Mining : Techniques appliqués au marketing, à la vente et aux services clients. M.J.A.Berry, G. Linoff – Ed. InterEditions

[5] Introduction au Data Mining : Analyse intelligente des données. M. Jambu – Ed. Eyrolles.

[6] Le Data Mining : Gestion de la relation client, Personnalisation de sites Web.

R. Lefebure, G. Venturi – Ed. Eyrolles.

• Sites internet :

[1] Généalogie des rois de France http://jeanjacques.villemag.free.fr/

[2] Des Mérovingiens aux Bourbons http://www.geocities.com/Paris/Metro/7070/merov.html

[3] The Royal Family : A Genealogy http://www.heraldica.org/topics/france/roygenea.htm

[4] Publius Historicus

http://www.publius-historicus.com/ [5] SODAS – manuel utilisateur http://www.ceremade.dauphine.fr/~touati/manutilisateur.htm

[6] Site de BERRY M.J.A & LINOFF G. :

http://www.data-miners.com

[7] Site français d’informations et d’échanges sur le Data Mining : http://www.web-datamining.net/


102

Annexes


103

Vue d’ensemble des filières 1.1 Les familles royales

Figure 70 : Filière globale relative aux familles royales


104

1.2 La lignée directe

Figure 71 : Filière globale relative à la lignée royale directe


105

1.3 Les rois

Figure 73 : Filière globale relative aux rois de France


106

Contenu du CD-ROM

Ci-joint à ce rapport se trouve un CD-ROM comprenant :

• Le présent rapport au format électronique :

Rapport_La famille des rois de France_Drouin & Dyèvre_Dess ID.pdf

• La base de données à partir de laquelle nous avons extrait les

informations utilisées par la suite :

Base_La famille des rois de France.mdb

• Les différentes requêtes d’extraction des individus, concepts et variables

descriptives :

req_famille entière.txt

req_lignée directe.txt

req_rois de France.txt

• Les requêtes nous ayant permis d’ajouter des variables classe portant sur les

concepts, ainsi qu’une taxonomie :

ads_durée dynastie.txt

ads_nb rois.txt

taxo_titre.txt

• Les fichiers du module DB2SO correspondants :

gaj_famille entière.gaj

gaj_lignée directe.gaj

gaj_rois de France.gaj


107

• Les fichiers utilisés par le logiciel SODAS :

sds_famille entière.sds

sds_lignée directe.sds

sds_rois de France.sds

• Les différentes filières utilisées pour enchaîner les méthodes disponibles :

fil_famille entière.fil

fil_lignée directe.fil

fil_rois de France.fil

Datamining La famille des rois de France

Documents

Transcript of Datamining La famille des rois de France