Module 7 Arbres de d ecision - Université TÉLUQ
Transcript of Module 7 Arbres de d ecision - Université TÉLUQ
Module 7
Arbres de decision
Sommaire
7.1 Structure d’un arbre de decision et definitions . . . . . . . . . 2
7.2 Entropie et gain d’informations . . . . . . . . . . . . . . . . . . 5
7.2.1 Entropie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
7.2.2 Gain d’informations . . . . . . . . . . . . . . . . . . . . . . . . 8
7.2.3 Rapport de gain . . . . . . . . . . . . . . . . . . . . . . . . . . 9
7.2.4 Indice de Gini . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
7.3 Algorithmes d’induction d’arbres de decision . . . . . . . . . . 11
7.3.1 Algorithme ID3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
7.3.2 Algorithme C4.5 . . . . . . . . . . . . . . . . . . . . . . . . . . 12
7.3.3 Algorithme CART . . . . . . . . . . . . . . . . . . . . . . . . . 12
7.4 Avantages et limites des arbres de decision . . . . . . . . . . . 15
7.5 Annexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Derniere mise a jour le 3 janvier 2019
7.1 Structure d’un arbre de decision et definitions
Un arbre de decision (decision tree) est une structure tres utilisee en apprentissage
machine. Son fonctionnement repose sur des heuristiques construites selon des techniques
d’apprentissage supervisees.
Les arbres de decision ont une structure hierarchique et sont composes de nœuds et de
feuilles (aussi appelees nœuds terminaux) relies par des branches. Dans leur representation
graphique, la racine est placee en haut et les feuilles en bas. Les nœuds internes sont ap-
peles des nœuds de decision. Ils peuvent contenir une ou plusieurs regles (aussi appelees
tests ou conditions).
Les valeurs que peut prendre une variable dans un arbre de decision sont appelees ins-
tances ou attributs. Les nœuds terminaux contiennent la classe aussi appelee classe a
predire ou variable cible. Apres sa construction, un arbre de decision peut etre traduit
sous la forme d’un ensemble de regles de decision.
Lorsque la classe a predire est une variable qualitative, nous avons un arbre de clas-
sification. Si la classe a predire est une variable quantitative, nous avons un arbre de
regression. Dans ce module, nous nous interessons aux arbres de classification.
MoySal>50000$
Age> 25 Oui
Autres comptes
Oui
Non
Non
Non Oui
Non
Non
Oui
Oui
Feuille
Noeud interne
Branche
Figure 7.1: Structure d’un arbre de
decision.
I Exemple 7.1 Cet exemple simple permet d’expliquer comment un arbre de decision
peut etre traduit sous la forme d’un ensemble de regles de decision.
Soit l’arbre de decision de la figure 7.1 qui permet de decider si une institution bancaire
peut accorder ou non un pret a un demandeur de pret. La decision de la variable cible Pret
se base sur les variables moyenne du salaire (MoySal), age (age) et possession d’autres
comptes (Autres comptes). Les attributs des feuilles de l’arbre, c’est-a-dire Pret, sont
des valeurs booleennes qui correspondent a une classification dans l’ensemble {Oui, Non}.
©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 2/ 17
Cet arbre de decision engendre les regles de decisions suivantes :
1. Si MoySal > 50000 $ alors Pret = Oui.
2. Si MoySal < 50000 $ et Age < 25 alors Pret = Non.
3. Si MoySal < 50000 $ et Age > 25 et AutresComptes = Oui alors Pret = Oui.
4. Si MoySal < 50000 $ et Age > 25 et AutresComptes = Non alors Pret = Non.
En utilisant ces regles, l’institution est en mesure de decider facilement si elle accorde ou
non un pret a un demandeur. En l’occurrence, si un client nomme Philippe, qui est age de
32 ans, dont le salaire moyen est de 55000$ et qui ne possede pas un autre compte desire
obtenir un pret, il sera vraisemblablement classe sous la classe Pret = Non (Chemin en
magenta de la figure 7.2).
MoySal>50000$
Age> 25 Oui
Autres comptes
Oui
Non
Non
Non Oui
Non
Non
Oui
Oui
Figure 7.2: Structure d’un arbre de
decision.I Exemple 7.2 Voici un autre exemple dans lequel on dispose d’un ensemble de donnees
E constitue de 14 individus (14 jours : J1 a J14) decrits dans le tableau 7.1. Chaque
individu est caracterise par 4 variables qui correspondent aux conditions meteorologiques
(temperature, humidite dans l’air, force du vent et etat du ciel). La variable cible Jouer
peut prendre les valeurs Oui ou Non. Ces donnees sont, aussi, rapportees dans le fichier
excel DonneesJouer.xlsx.
A partir du tableau 7.1, on desire elaborer un arbre de decision qui permet de resumer
les differentes situations decrites. Plusieurs questions se posent alors, parmi lesquelles :
• quelle variable discrimine le mieux l’ensemble des donnees et laquelle doit etre
consideree en premier ?
• si plusieurs structures d’arbre repondent aux situations decrites, laquelle doit-on
choisir ?
• quel critere permet de maximiser la robustesse de l’arbre ?
©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 3/ 17
Tableau 7.1: Un ensemble de donnees E constitue de 14 individus (14 jours : J1 a J14)
Jour Ciel Temp. Humidite Vent Jouer
J1 Soleil Chaude Elevee Faible Non
J2 Soleil Chaude Elevee Fort Non
J3 Couvert Chaude Elevee Faible Oui
J4 Pluie Tiede Elevee Faible Oui
J5 Pluie Fraıche Normale Faible Oui
J6 Pluie Fraıche Normale Fort Non
J7 Couvert Fraıche Normale Faible Oui
J8 Soleil Tiede Elevee Faible Non
J9 Soleil Fraıche Normale Faible Oui
J10 Pluie Tiede Normale Fort Oui
J11 Soleil Tiede Normale Fort Oui
J12 Couvert Tiede Elevee Fort Oui
J13 Couvert Chaude Normale Faible Oui
J14 Pluie Tiede Elevee Fort Non
Algorithme generique de construction d’un arbre de decision
L’algorithme generique de construction d’un arbre de decision peut etre decrit selon les
pseudo-codes suivant [4]. Il permet de generer iterativement l’arbre en prenant a chaque
iteration une variable et en lui creant ses nœud et ses feuilles.
Cet algorithme generique procede de maniere descendante et ne prend pas en consideration
l’evaluation de la variable choisie. Plusieurs methodes de construction d’arbres de decision
permettent d’evaluer les differentes varaibles en se basant sur l’entropie ou le gain d’in-
formations. Dans ce qui suit, ces deux notions seront expliquees.
©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 4/ 17
Algorithme generique de construction d’un arbre de decision.
1. Initialiser l’arbre courant a l’arbre vide ; la racine est le nœud courant
2. Repeter
3. Decider si le nœud courant est terminal (une feuille).
4. Si le noeud est terminal Alors
5. Affecter une classe au nœud courant
6. Sinon
7. Selectionner un test et creer autant de nouveaux fils qu’il y a de
possibilites de reponses
8. FinSi
9. Passre au nœud suivant
10. Jusqu’a l’obtention de l’arbre de decision
7.2 Entropie et gain d’informations
7.2.1 Entropie
Soit une distribution de probabilite P = (p1, p2, ..., pn). L’entropie de la distribution P
est la quantite d’information qu’elle peut apporter. Elle est donnee par l’equation 7.1 :
E(P ) = −n∑
i=1
pi log pi (7.1)
log designe la fonction de logarithme en base 2.
Soit un ensemble de donnees T caracterise par n classes (C1, C2, ..., Cn) selon la variable
cible. La quantite d’informations necessaire pour identifier la classe d’un individu de
l’ensemble T correspond a l’entropie E(P ), ou P est la distribution de probabilite de la
©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 5/ 17
partition (C1, C2, ..., Cn) :
P =
(|C1||T |
,|C2||T |
, ...,|Cn||T |
)(7.2)
|Ci| designe le cardinal de la classe i, c’est-a-dire nombre d’elements de la classe i.
L’entropie de T est deduite a partir de l’equation 7.1, qui donne :
E(T ) = −n∑
i=1
|Ci||T |
log|Ci||T |
(7.3)
Supposons que l’ensemble des donnees T est, en plus, partitionne ainsi (T1, T2, ..., Tm). m
correspond au nombre de valeurs que peut prendre l’attribut X considere. Dans ce cas,
l’information necessaire pour identifier la classe d’un individu de Ti devient :
E(X,T ) = −m∑j=1
|Tj||T |
E(Tj) (7.4)
Cas de deux classes
Figure 7.3: Entropy : cas de deux classes
Soit S un ensemble de donnees d’apprentissage caracterise par deux classes. p+ est la
proportion d’echantillons positifs et p− est la proportion d’echantillons negatifs. D’apres
l’equation 7.1, l’entropie de l’ensemble S est egale a :
E(S) = −p+ log p+ − p− log p− (7.5)
La figure 7.3 represente la variation de l’entropie dans le cas de deux classes. Sur l’axe des
abscisses, nous avons la proportion d’echantillons positifs p+ et sur l’axe des ordonnees,
nous avons l’entropie. Cette fonction d’entropie peut etre interpretee selon :
• p+ + p− = 1 (puisque la somme des proportions est egale a l’unite).
• 0 ≤ E(S) ≤ 1.
©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 6/ 17
• Si p+ = 0 ou p− = 0, alors E(X) = 0. En effet, p+ = 0 veut dire que tous les
echantillons sont positifs. Dans ce cas, la quantite d’information est nulle.
• Si p+ = p− = 0.5, alors E(X) = 1 : ainsi, s’il y a autant de positifs que de negatifs,
l’entropie est maximale (Figure 7.3)
Jouer
Non
Oui Non
Oui
(9+,5-)
(9+) (5-)
Figure 7.4: Variable cible Jouer.
I Exemple 7.3 On cherche a calculer l’entropie des variables du tableau 7.1. Nous com-
mencons par l’analyse de la variable cible Jouer qui prend la valeur Oui pour 9 echantillons
et Non pour 5 echantillons. L’arbre de cette variable Jouer est donne par la figure 7.4.
En utilisant la relation de l’equation 7.5, nous obtenons l’expression d’entropie suivante :
E(Jouer) = E(9+, 5−) =9
14log
9
14+
5
14log
5
14= 0, 940
La variable Ciel n’est pas une variable cible. Elle est separee en trois partitions (T1, T2, T3)
dont les elements appartiennent a l’une des classes de la variable cible Jouer. Cette va-
riable peut prendre une des trois valeurs Soleil, Couvert, Pluie. Prenons le cas de
la valeur Soleil ; elle est consideree pour cinq echantillons dont deux aboutissent a la
classe Jouer=Oui et trois a la classe Jouer= Non. La meme analyse peut etre faite pour
Couvert et Pluie ce qui permet d’obtenir la representation de la figure 7.5.
Ciel
(2+,3-) (3+,2-)
Soleil Couvert Pluie
(4+,0-)
Figure 7.5: Variable Ciel.
L’entropie de chacune de ces partitions est donnee par :
E(Soleil) = E(2+, 3−) = −(2
5log
2
5+
3
5log
3
5) = 0, 971
E(Couvert) = E(4+, 0−) = 0
E(Pluie) = E(3+, 2−) = −(3
5log
3
5+
2
5log
2
5) = 0, 971
Une fois l’entropie de chaque partition determinee, nous calculons l’entropie en prenant
en consideration la variable cible selon l’equation (7.4) :
©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 7/ 17
E(Jouer, Ciel) =3∑
j=1
|Tj||T |
E(Tj)
=5
14E(Soleil) +
4
14E(Couvert) +
5
14E(Pluie)
= 0.693.
De meme, la variable Humidite n’est pas une variable cible. Elle est separee en deux
partitions (T1, T2) dont l’entropie de chacune est donnee par (figure 7.6) :
E(Elevee) = E(3+, 4−) = −(3
7log
3
7+
4
7log
4
7) = 0, 985
E(Normale) = E(6+, 1−) = −(6
7log
6
7+
1
7log
1
7) = 0, 592
D’ou
E(Jouer,Humidite) =2∑
j=1
|Tj||T |
E(Tj)
=7
14E(Elevee) +
7
14E(Normale)
= 0.789.
Humidité
(3+,4-) (6+,1-)
Élevée Normale
Figure 7.6: Variable Humidite.
7.2.2 Gain d’informations
Soit un ensemble de donnees T , le gain d’informations de T par rapport a une partition
Tj donnee est la variation d’entropie causee par la partition de T selon Tj.
Gain(X,T ) = E(T )− E(X,T ) = E(T )−m∑j=1
|Tj||T |
E(Tj) (7.6)
©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 8/ 17
I Exemple 7.4 Le gain de l’attribut Ciel qui prend les valeurs {Soleil, Couvert,
Pluie} est alors egal a :
Gain(Jouer, Ciel) = E(Jouer)− E(Jouer, Ciel)
= 0, 940− 0, 693 = 0, 247.
et le gain de l’attribut Humidite est egal a :
Gain(Jouer,Humidite) = E(Jouer,Humidite)
= 0, 940− 0, 788 = 0, 151.
7.2.3 Rapport de gain
Le rapport de gain est defini par :
Rapport de gain(X,T ) =Gain(X,T )
SplitInfo(X,T )(7.7)
avec
SplitInfo(X,T ) = E
(|C1||T |
,|C2||T |
, ...,|Cn||T |
)(7.8)
Ciel
(5) (5)
Soleil Couvert Pluie
(4)
Figure 7.7: Repartition l’attribut Ciel.
I Exemple 7.5 On veut calculer le rapport de gain de l’attribut Ciel, tel qu’il est illustre
par la figure 7.7.
SplitInfo(X,Ciel) = − 5
14log
5
14− 4
14log
4
14− 5
14log
5
14= 1, 577
d’ou le rapport de gain
Rapport de gain(X,Ciel) =0, 246
1, 577= 0, 156
©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 9/ 17
De meme on peut calculer la gain de l’attribut Vent (figure 7.8) :
SplitInfo(X, V ent) = − 6
14log
6
14− 8
14log
8
14= 0, 985
d’ou le rapport de gain
Rapport de gain(X, V ent) =0, 048
0, 985= 0, 049
Vent
Non
Faible Fort
Oui
(8) (6)
Figure 7.8: Repartition l’attribut Vent.7.2.4 Indice de Gini
L’indice de Gini a ete introduit par Breiman en 2001. Cet indice mesure l’impurete, qui
est un concept tres utile dans la construction des arbres de decision : la qualite d’un
nœud et son pouvoir discriminant peuvent etre evalues par son impurete. L’indice Gini
est donne par la relation suivante :
Gini(T ) = 1−m∑j=1
( |Tj||T |
)2(7.9)
Une fois que l’ensemble des donnees T est caracterise par une variable X partitionnee
ainsi : (T1, T2, ..., Tm)
Gain de Gini(X,T ) =m∑j=1
|Tj||T |
Gini(Ti) (7.10)
Si l’ensemble de donnees est partitionne en deux partitions (T1, T2), alors le
Gain de Gini(X,T ) =|T1||T |
Gini(T1) +|T2||T |
Gini(T2) (7.11)
I Exemple 7.6 Nous nous interessons a calculer le rapport de gain et l’indice de Gini de
la variable Humidite. Cette variable est partitionnee en 2 partions (T1, T2).
©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 10/ 17
Gini(Elevee) = 0, 49
Gini(Normal) = 0, 25
d’ou le rapport de gain :
Gain de Gini(Humidite) = 0, 37
7.3 Algorithmes d’induction d’arbres de decision
Tel qu’indique precedemment, plusieurs methodes de construction d’arbres de decision
permettent de choisir entre les differentes variables. Dans cette section, nous presentons
le principe de trois algorithmes de construction d’arbres de decision, a savoir ; l’algorithme
ID3, l’algorithme C4.5 et l’algorithme CART.
Algorithmes de construction d’arbres de decision.
Entrees : E : ensemble d’echantillons
L : ensemble d’attributs.
Sortie : un arbre de decision
1. Si tous les exemples sont de la meme classe
2. Alors creer et retourner une feuille etiquetee par cette classe.
3. Sinon
4. Repeter
5. Trouver le meilleur attribut dans l’ensemble L : A
6. Repartir les exemples de E en n sous-ensembles, selon la valeur de cet attribut.
7. Allouer un noeud etiquete par A
8. Refaire le meme processus pour toutes les valeurs de A et faire de ces noeuds
10. les fils du noeud etiquete par A
9. Jusqu’a indice d’arret.
©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 11/ 17
Il est a noter que si l’attribut est vide (Ligne 5 de l’algorithme), le noeud prend la valeur
la plus presente (repetee) dans l’ensemble des donnees. Le meilleur attribut est celui qui
discrimine le mieux l’ensemble des donnees.
En general, le principe de fonctionnement des algorithmes ID3, C4.5 et CART est le
meme ; la difference se situe au niveau du type des variables. Les lignes de pseudo-code
suivantes decrivent le principe d’induction d’arbres de decision [1] (Plus de details sur
chacun de ces algorithmes peuvent etre trouves dans [3]).
7.3.1 Algorithme ID3
L’algorithme recursif ID3 considere en entree un ensemble d’attributs A, un ensemble
d’attributs cibles c (aussi appeles classes) et un ensemble d’echantillons E. Cet algorithme
fonctionne exclusivement avec des attributs qualitatifs. A chaque etape de la recursion, il
determine l’attribut qui maximise le gain d’informations (voir section 7.2.2). Cet attribut
est alors retenu pour la branche en cours puisqu’il permet de classer plus facilement
l’ensemble des donnees a ce niveau de l’arbre [?, 2].
7.3.2 Algorithme C4.5
L’algorithme ID3 a ete ameliore pour qu’il permette de traiter des attributs quantitatifs
sous l’appellation C4.5. Cet algorithme utilise la fonction du gain d’entropie pour le choix
des attributs a considerer a ce niveau de l’arbre. L’algorithme C4.5 a ete ameliore sous
l’appellation C5, qui permet une rapidite d’execution et une efficacite d’utilisation de la
memoire plus elevee. Les arbres de decision obtenus avec C5 eliminent aussi les repetition.
7.3.3 Algorithme CART
L’algorithme recursif CART (Classification And Regression Trees) permet la construction
d’un arbre de decision par la maximisation de l’indice de Gini. Cet algorithme genere des
©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 12/ 17
arbres de decision binaires.
I Exemple 7.7 On entend executer l’algorithme ID3 sur les donnees du tableau 7.1.
La premiere etape consiste a calculer les gains d’informations des quatre attributs avec
l’equation 7.8. Le tableau 7.2 donne la valeur de ces gains. L’attribut Ciel, ayant le gain
le plus eleve, sera mis au niveau de la racine avec ses trois branches Soleil, Couvert,
Pluie.
Tableau 7.2: Calcul des gains des differents
attributs
Attribut Gain
Ciel 0.247
Temperature 0.029
Humidite 0.151
Vent 0.048
Ciel
Soleil Couvert Pluie
Oui
Figure 7.9: Structure de l’arbre pour la
variable Ciel.
Tableau 7.3: Calcul des gains pour la branche
Soleil
Attribut Gain
Temperature 0,019
Humidite 0,970
Vent 0,57
Pour la branche Couvert, toutes les reponses sont positives, c’est-a-dire Oui, donc on
ajoute une feuille (figure 7.9).
Pour la branche Soleil, le gain est recalcule pour les attributs Temperature, Humidite
et Vent seulement pour les jours ou l’attribut Ciel est egal a Soleil (tableau 7.4) :
Tableau 7.4: Un sous-ensemble E′1 de donnees pour l’attribut Ciel=Soleil
Jour Ciel Temp. Humidite Vent Jouer
J1 Soleil Chaude Elevee Faible Non
J2 Soleil Chaude Elevee Fort Non
J8 Soleil Tiede Elevee Faible Non
J9 Soleil Fraıche Normale Faible Oui
J11 Soleil Tiede Normale Fort Oui
Ciel
Soleil Couvert Pluie
OuiHumidité Vent
Élevée Normale
OuiNon
Fort Faible
OuiNon
Figure 7.10: Structure de l’arbre de decision obtenue a partir de l’ensemble E.
©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 13/ 17
Ces gains sont donnes dans le tableau 7.3. Comme l’attribut Humidite a la valeur de
gain la plus elevee, il est lie a la branche Soleil. Et ainsi de suite jusqu’a l’obtention de
l’arbre de la figure 7.10.
Tableau 7.5: Attribut Ciel
Ciel
Soleil+pluie Couvert
Gini 0,5 0
Gain de Gini 0,36
Tableau 7.6: Attribut Temperature
Temp.
Chaude Tiede
+fraıche
Gini 0,47 0,44
Gain de Gini 0,46
Tableau 7.7: Attribut Humidite
Humidite
Elevee Normale
Gini 0,49 0,25
Gain de Gini 0,37
Tableau 7.8: Attribut Vent
Vent
Elevee Faible
Gini 0,5 0,38
Gain de Gini 0,43
I Exemple 7.8 On propose d’executer l’algorithme CART sur les donnees du tableau
7.1. La premiere etape consiste a calculer les gains d’informations des quatre attributs en
regroupant les valeurs d’attributs par deux (reponses binaires) (tableaux 7.5, 7.6, 7.7 et
7.8). Comme l’attribut Ciel a l’indice de Gini le plus faible, il sera mis au niveau de la
racine avec ses deux branches {Soleil + Pluie, Couvert}. Il est a noter que la variable
cible Jouer prend toujours la valeur Oui pour la variable Ciel=Couvert ; il ne sera donc
pas pertinent de combiner Couvert avec une autre variable. D’ou le choix {Soleil +
Pluie, Couvert}
Ciel
(Soleil, Pluie) Couvert
Humidité
Normale
Oui
Ciel
Oui
Ciel
Soleil Pluie Soleil
NonVent
OuiNon
Temp.
Vent
OuiNon
Pluie
Élevée
Soleil
Oui
TièdeFraîche
Fort Faible
Figure 7.11: Structure de l’arbre de decision obtenue a partir de l’ensemble E.
©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 14/ 17
Pour la branche Couvert, comme toutes les reponses sont positives, c’est-a-dire Oui,
on ajoute une feuille (figure 7.11). Ensuite, on poursuit en enlevant les donnees pour
lesquelles l’attribut Ciel equivaut a Couvert. Les valeurs de gain sont alors recalculees ;
et ainsi de suite jusqu’a l’obtention de l’arbre de la figure 7.11.
7.4 Avantages et limites des arbres de decision
Les arbres de decision sont utilises dans plusieurs domaines allant du domaine financier
au domaine medical, en raison des nombreux avantages qu’ils presentent. En effet, ces
structures sont facilement comprehensibles par les utilisateurs et offrent une classification
rapide et visuelle des donnees a travers le parcours d’un chemin dans l’arbre. De plus, il
s’agit d’un outil disponible dans la plupart des environnements de forage de donnees.
Cependant, ces structures presentent deux limites importantes. En effet, ces approches
sont sensibles au nombre de classes et, de ce fait, si le nombre de classes devient important
les resultats se degradent. De plus, ces structures ne sont pas tres flexibles : si les donnees
changent avec le temps, il devient necessaire de reconstruire l’arbre de decision.
Plus recemment, les modeles de forets d’arbres de decision (ou forets aleatoires de l’anglais
random decision forest) ont ete proposes par Leo Breiman en 2001. Ces modeles viennent
remedier a certaines limites des arbres de decision.
7.5 Annexes
Dans cette section, nous citons des fonctions utiles pour la construction d’arbres de
decision en utilisant le logiciel R. Nous reprenons, en general, textuellement la description
fournie dans le site web de R (https://cran.r-project.org)
• tree (Classification and regression trees) : est le paquet qui permet de generer des
arbres de decision.
©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 15/ 17
• rpart (Recursive partitioning for classification) : permet un partitionnement recursif
pour les arbres de classification et de regression. Le package R rpart propose une
implementation des methodes de construction d’arbres de decision inspirees de l’ap-
proche CART. Ce package est toujours installe par defaut avec R.
(https://cran.r-project.org/web/packages/rpart/rpart.pdf
• party : Une boıte a outils de calcul pour le partitionnement recursif.
• FSelector : est le paquet qui contient les fonctions qui permettent de selectionner
les attributs dans un arbre de decision.
©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 16/ 17
References
[1] Arbres de decision. http://www.fil.univ-lille1.fr/~decomite/ue/MFFDD/
Arbres.pdf. Consulte : 1 decembre 2018.
[2] Datamining : Id3 - dbsacan. http://devezeb.free.fr/downloads/ecrits/
datamining.pdf. Consulte : 1 decembre 2018.
[3] Eıtudes des principaux algorithmes de data mining. http://guillaume.calas.free.
fr/data/Publications/DM-Algos.pdf. Consulte : 1 decembre 2018.
[4] F. Denis et R. Gilleron. Notes du cours : Apprentissage a partir d’exemples, 2014.
Consulte : 1 decembre 2018.
©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 17/ 17