0% ont trouvé ce document utile (0 vote)

75 vues16 pages

Decisiontree CART

Ce document décrit la méthode CART pour construire des arbres de décision. Il présente le processus en deux étapes d'expansion puis d'élagage pour déterminer la taille optimale de l'arbre. L'objectif est de produire un modèle à la fois performant et peu complexe à partir de données démographiques.

Transféré par

Salma Bennour

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

75 vues16 pages

Decisiontree CART

Transféré par

Salma Bennour

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Didacticiel - Études de cas R.R.

1 Objectif
Montrer le processus de post-élagage lors de l’induction d’un arbre de décision à l’aide de la
méthode CART (Breiman et al., 1984 ; méthode C-RT dans TANAGRA).

Déterminer la bonne taille de l’arbre est une opération cruciale dans la construction d’un arbre de
décision à partir de données. Elle détermine en grande partie ses performances lors de son
déploiement dans la population1. Il y a deux extrêmes à éviter : l’arbre sous dimensionné, trop
réduit, captant mal les informations utiles dans le fichier d’apprentissage ; l’arbre sur dimensionné,
de taille exagérée, captant les spécificités du fichier d’apprentissage, spécificités qui ne sont pas
transposables dans la population. Dans les deux cas, nous avons un modèle de prédiction peu
performant.

Cette est souvent représentée par un graphique mettant en relation le nombre de feuille dans
l’arbre et le taux d’erreur : sur l’échantillon d’apprentissage, servant à construire l’arbre, en
décroissance permanente ; sur la population, inconnue, mais on suspecte qu’après un optimal,
l’erreur va se dégrader à mesure que le nombre de feuilles devient exagéré ; sur un échantillon test
enfin, échantillon à part n’ayant pas servi à construire le modèle, il sert à rendre compte (estimer)
du phénomène de sur apprentissage (Figure 1).

Figure 1 - Relation entre complexité du modèle et taux d'erreur (Source :

http://fr.wikipedia.org/wiki/Arbre_de_décision)

Déterminer la bonne taille de l’arbre consiste donc à sélectionner, parmi les innombrables solutions
que peuvent proposer l’induction, l’arbre le plus performant de la plus petite taille possible.

La performance est un critère clé puisqu’il s’agit avant tout d’un problème de prédiction, nous
voulons produire un modèle efficace. La taille de l’arbre est un aspect tout aussi important car
l’interprétation des résultats est bien souvent à l’origine de l’utilisation d’un arbre de décision dans
un processus de fouille de données. Plus il sera réduit, plus facile sera la lecture du modèle et
l’explicitation du phénomène de causalité qu’il traduit. De plus, un arbre de taille limitée utilise peu

1
Rakotomalala R., « Arbres de décision », Revue MODULAD, n°33, pages 163 à 187, 2005 ; accessible en ligne
http://www-rocq.inria.fr/axis/modulad/archives/numero-33/tutorial-rakotomalala-33/rakotomalala-33-tutorial.pdf

28 février 2008 Page 1 sur 16

Didacticiel - Études de cas R.R.

de variables, gage d’un déploiement facile lorsque nous voulons intégrer les règles de prédiction
dans les systèmes d’information.

Dans leur ouvrage, Breiman et al. (1984)2 sont certainement les premiers à avoir formuler
clairement les enjeux de la détermination de la taille « optimale » d’un arbre de décision. Avec la
méthode CART, ils ont popularisé une approche, la construction en deux temps d’un arbre,
expansion – post-élagage, qui a été largement reprise par la suite par de nombreux auteurs,
notamment par Quinlan avec la fameuse méthode C4.5 (1993).

Schématiquement, la technique consiste à construire l’arbre en deux temps. D’abord, un arbre

comportant des feuilles pures au regard de la variable à prédire est construit, c’est la phase
d’expansion (growing phase en anglais). L’arbre est généralement de très grande taille, avec très
peu d’observations dans les feuilles. Puis, dans un deuxième temps, des séquences d’arbres de
taille de plus en plus réduites sont évaluées, c’est la phase d’élagage (pruning phase en anglais).
On sélectionne alors l’arbre réduit qui se comporte le mieux en termes d’erreur de prédiction.

Avec la méthode CART, dans sa version la plus simple, l’échantillon de données est simplement
fractionné en deux portions pour assurer ces deux étapes. Un échantillon d’expansion (growing set)
sert à construire l’arbre le plus grand possible. Cet arbre présente souvent une qualité de
prédiction quasi-parfaite sur ces données. C’est tout à fait normal, les feuilles comportent très peu
de contre-exemples. Puis, par le mécanisme du « coût complexité minimal » , de prime abord assez
mystérieux, CART définit des séquences d’arbres de taille de plus en plus réduite. La principale idée
à retenir dans ce dispositif est qu’il nous permet de lisser l’exploration des hypothèses, ce qui
restreint d’autant les possibilités de trop coller aux données. Enfin, on injecte la seconde fraction
des données (échantillon d’élagage, échantillon de validation, pruning set en anglais) pour
sélectionner l’arbre le plus performant parmi les séquences d’arbres mis en avant à l’étape
précédente.

Ce second échantillon n’ayant pas servi lors de la construction de l’arbre, il devrait mieux rendre
compte des performances dans la population. Néanmoins, pour éviter de transposer le
surajustement sur le fichier d’expansion en un surajustement sur l’échantillon d’élagage, CART
intègre un mécanisme de préférence à la simplicité en choisissant, non pas l’arbre le plus précis sur
l’échantillon d’élagage, mais le plus petit arbre dont l’erreur n’excède pas 1 écart-type de l’erreur
optimale : c’est la fameuse règle de l’écart type (1-SE rule). De nombreuses études ont montré que
cette stratégie permet de simplifier l’arbre tout en conservant ses performances en prédiction dans
la population.

Dans ce didacticiel, nous mettons en œuvre la méthode CART. Nous essayons surtout de détailler
les principaux repères à surveiller pour la guider, par un paramétrage adéquat, vers la solution
souhaitable lors du processus de post-élagage.

2 Données
Nous utilisons le fichier ADULT_CART_DECISION_TREES.XLS3 en provenance du serveur UCI4. Il
comporte 48842 exemples et 14 variables. Nous voulons prédire la variable « CLASS », un individu
a-t-il un revenu annuel supérieur ou inférieur à 50.000 $, à partir de ses caractéristiques
signalétiques (niveau d’éducation, age, etc.). Nous avons subdivisé la base en 2 parties : un

2
Breiman L., Friedman J., Olshen R., Stone C., « Classification and Regression Trees », Chapman & Hall, 1984.

3
Accessible en ligne : http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/adult_cart_decision_trees.zip

4
http://archive.ics.uci.edu/ml/datasets/Adult

28 février 2008 Page 2 sur 16

Didacticiel - Études de cas R.R.

échantillon d’apprentissage de 10000 observations réservé pour la construction du modèle ; un

échantillon test de 38842 individus pour en évaluer les performances. Une variable indicatrice
INDEX permet de spécifier l’appartenance d’un individu à l’un ou l’autre des sous échantillons.

Notre objectif est de produire, en nous appuyant sur la méthodologie CART, un arbre de décision à
la fois performant et peu complexe c.-à-d. comportant le moins de feuilles (règles) possible.

Bien entendu, pour que l’évaluation soit crédible, l’échantillon test ne doit être utilisé qu’en dernier
ressort, pour comparer les performances des modèles alternatifs proposés. En aucune manière, il
ne doit être mis à contribution pour guider l’exploration des solutions.

3 Arbre de décision – La méthode CART

3.1 Créer un diagramme et importer les données dans TANAGRA
Le plus simple pour créer un diagramme et importer les données dans TANAGRA est d’ouvrir le
fichier dans le tableur EXCEL. A l’aide de la macro complémentaire fournie avec le logiciel5, il est
possible d’envoyer les données directement du tableur vers TANAGRA. Pour ce faire, nous
sélectionnons la plage de données et activons le menu TANAGRA/EXECUTE TANAGRA. Une boîte de
dialogue apparaît, indiquant les coordonnées de la plage de cellules. Si la sélection est correcte,
nous pouvons valider en cliquant sur OK.

5
http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_Excel_AddIn.pdf

28 février 2008 Page 3 sur 16

Didacticiel - Études de cas R.R.

TANAGRA est automatiquement démarré, nous disposons bien de 48842 observations avec 15
variables (incluant l’index définissant les échantillons apprentissage et test).

3.2 Subdiviser les données

Nous introduisons le composant DISCRETE SELECT EXAMPLES (onglet INSTANCE SELECTION) dans
le diagramme pour désigner les observations dédiées à l’apprentissage. Nous le
paramétrons (menu contextuel PARAMETERS) : INDEX joue le rôle de variable de contrôle, les
individus actifs correspondent à la valeur LEARNING.

28 février 2008 Page 4 sur 16

Didacticiel - Études de cas R.R.

Après validation (bouton OK), le menu contextuel VIEW permet d’afficher le résultat de la sélection,
10000 individus sont sélectionnés pour l’induction de l’arbre.

3.3 Variable dépendante et variables prédictives

Pour décrire le problème de prédiction à résoudre, nous introduisons le composant DEFINE STATUS
dans le diagramme. Le plus simple est d’actionner le raccourci dans la barre d’outils. Nous plaçons
en TARGET le variable CLASS, en INPUT les autres variables, allant de AGE à NATIVE COUNTRY. Bien
évidemment, il n’y a pas lieu de sélectionner INDEX ici.

28 février 2008 Page 5 sur 16

Didacticiel - Études de cas R.R.

3.4 Apprentissage avec la méthode C-RT

Le composant C-RT correspond à la méthode CART telle qu’elle est décrite dans l’ouvrage de
référence (Breiman et al., 1984). Dans la phase d’expansion, l’indice de Gini est utilisé pour choisir
les variables de segmentation. Dans la phase d’élagage, l’implémentation repose sur l’algorithme
décrit dans le chapitre 10 de l’ouvrage.

Nous introduisons le composant C-RT (onglet SPV LEARNING) dans le diagramme. Nous activons le
menu VIEW pour obtenir les résultats. Selon la puissance de la machine, le résultat sera plus ou
moins long à venir (0.5 secondes sur ma machine).

28 février 2008 Page 6 sur 16

Didacticiel - Études de cas R.R.

Détaillons les différentes sections du rapport fourni par TANAGRA.

3.4.1 Matrice de confusion

La matrice de confusion confronte les vraies valeurs et les valeurs prédites de SALARY sur les
10000 observations ayant participé à l’apprentissage (growing + pruning). Elle est accompagnée
du taux d’erreur qui est de 0.1490 dans notre exemple. Etant calculé sur les données ayant servi à
construire l’arbre, cet indicateur est souvent optimiste. Néanmoins, l’importance de l’écart dépend
en partie de l’aptitude de la technique à coller exagérément aux données.

3.4.2 Partition des données

TANAGRA nous indique que parmi les 10000 observations dédiées à l’apprentissage, il a réservé
6700 observations pour l’expansion de l’arbre (growing set), 3300 pour le post élagage (pruning
set). La partition a été effectuée de manière aléatoire.

3.4.3 Séquence d’arbres

Nous détaillerons ce tableau plus loin. A ce stade, on se contentera de constater que l’arbre le plus
grand lors de la phase d’expansion comporte 205 feuilles, le taux d’erreur sur le growing set est de
0.0904, sur le pruning set 0.1700. L’arbre optimal sur le pruning set comporte 39 feuilles, avec un
taux d’erreur 0.1479 (pruning set).

En appliquant la règle de l’écart type (1-SE RULE), l’arbre retenu par CART comporte 6 feuilles
avec un taux d’erreur de 0.1539 sur le pruning set (à comparer avec les 205 feuilles
obtenues initialement !). Nous détaillerons plus loin la procédure de calcul utilisée par CART.

Enfin l’arbre trivial composé de la seule racine présente un taux d’erreur de 0.2388.

28 février 2008 Page 7 sur 16

Didacticiel - Études de cas R.R.

3.4.4 Description de l’arbre

La dernière section décrit l’arbre de décision produit lors de l’induction. On se bornera à noter que
les attributs RELATIONSHIP, EDUCATION, CAPITAL_GAIN et CAPITAL_LOSS semblent les plus
déterminants.

3.5 Evaluation sur l’échantillon test

Les ensembles growing et pruning participent, chacun à leur manière, à l’élaboration du modèle de
prédiction. A ce titre, ils fournissent une estimation optimiste des performances puisque l’arbre est
optimisé pour ces données. Pour obtenir une évaluation réellement non biaisée, il faut utiliser un
ensemble test qui n’a jamais participé, de près ou de loin, à l’apprentissage. C’est à ce stade que
nous mettons à contribution les individus « Index = test ».

Dans un premier temps, nous introduisons de nouveau le composant DEFINE STATUS dans le
diagramme. Nous devons indiquer à TANAGRA la variable à prédire observée SALARY (TARGET) et
la variable PRED_SPVINSTANCE_1 produite automatiquement par le composant C-RT (INPUT). Cette
nouvelle colonne dans nos données comporte les valeurs prédites par l’arbre de décision, tant sur
les données sélectionnées que sur les données non sélectionnées.

28 février 2008 Page 8 sur 16

Didacticiel - Études de cas R.R.

Dans un deuxième temps, nous introduisons le composant TEST (onglet SPV LEARNING
ASSESSMENT) dans le diagramme. Elle est paramétrée par défaut pour construire la matrice de
confusion, et calculer le taux d‘erreur, sur les données non sélectionnées.

Nous activons le menu VIEW. Nous obtenons un taux d’erreur de 0.1509 calculé sur les 38842
individus que nous avons mis de côté initialement.

Ce n’est qu’une estimation bien sûr. Mais étant calculé sur un effectif aussi élevé, nous pouvons
penser qu’il est relativement fiable : l’intervalle de confiance à 95% est [0.1473 ; 0.1545].

4 Quelques variantes autour du post-élagage

4.1 La 0-SE RULE
Une question revient très souvent chez les utilisateurs : pourquoi ne pas choisir directement l’arbre
qui minimise l’erreur sur le pruning set ? Cette partie des données n’a pas servi à l’expansion de
l’arbre, nous serons ainsi assurés de choisir un arbre « optimal ».

Il y a plusieurs réponses possibles. La première repose sur le bon sens : pourquoi reporter sur
l’échantillon pruning ce que nous voulions justement éviter sur l’échantillon growing ? A savoir
éviter de trop optimiser sur un échantillon au risque d’ingérer indûment les spécificités des
données ?

La seconde réponse repose sur l’étude de la courbe opposant le nombre de feuilles de l’arbre (sa
complexité) et le taux d’erreur sur le pruning set. Voyons comment obtenir cette courbe avec
TANAGRA.

4.1.1 Courbe d’erreur en fonction de la complexité de l’arbre

Pour obtenir le détail de la courbe d’erreur, nous activons le menu contextuel SUPERVISED
PARAMETERS du composant SUPERVISED LEARNING 1 (C-RT) dans le diagramme. Nous
sélectionnons l’option SHOW ALL TREE SEQUENCE.

28 février 2008 Page 9 sur 16

Didacticiel - Études de cas R.R.

Nous actionnons le menu VIEW, le tableau retraçant les erreurs est détaillé maintenant. Nous
remarquons plusieurs choses : le nombre de feuilles des arbres qui ont été testés n’est pas régulier,
le mécanisme de coût complexité permet de réduire considérablement les solutions à évaluer ;
l’erreur sur l’échantillon growing diminue constamment à mesure que le nombre de feuilles
augmente ; l’erreur sur le pruning set diminue rapidement d’abord, semble stagner sur un palier,
puis se dégrade lorsque le nombre de feuilles devient exagéré. Nous reproduisons le tableau
(Tableau 1) et le graphique correspondant (Figure 2).

Nous constatons que les solutions allant d’un arbre avec 7 feuilles à un arbre avec 43 feuilles sont
similaires en termes de taux d’erreur sur l’échantillon pruning. L’arbre « optimal » comporte 39
feuilles, il propose un taux d’erreur de 0.1479. Mais nous comprenons aisément que nous avons
tout intérêt à choisir un arbre proche du « coude » dans la courbe d’erreur (Figure 2). Nous
conservons un bon niveau de performances avec un arbre réduit.

28 février 2008 Page 10 sur 16

Didacticiel - Études de cas R.R.

Err (growing Err (pruning

N° # Leaves
set) set)

32 1 0.2363 0.2388
31 3 0.1748 0.1806
30 4 0.1593 0.1664
29 5 0.1516 0.1567
28 6 0.1466 0.1539
27 7 0.1446 0.1497
26 11 0.1391 0.1488
25 16 0.1340 0.1488
24 21 0.1293 0.1485
23 22 0.1284 0.1488
22 28 0.1248 0.1485
21 33 0.1221 0.1494
20 39 0.1193 0.1479
19 43 0.1176 0.1479
18 46 0.1164 0.1506
17 51 0.1148 0.1521
16 73 0.1082 0.1552
15 80 0.1064 0.1558
14 83 0.1057 0.1555
13 91 0.1039 0.1552
12 94 0.1033 0.1552
11 107 0.1009 0.1567
10 116 0.0994 0.1570
9 139 0.0960 0.1606
8 154 0.0942 0.1642
7 158 0.0937 0.1642
6 168 0.0927 0.1648
5 174 0.0921 0.1670
4 188 0.0910 0.1679
3 194 0.0907 0.1691
2 199 0.0906 0.1700
1 205 0.0904 0.1700

Tableau 1 - Complexité de l'arbre et taux d’erreur growing / pruning

Error rate according to the tree com plexity

0.25

0.23 Err. Grow ing set

0.21
Err. Pruning set

0.19

0.17

0.15

0.13

0.11

0.09

0.07

0.05
0 20 40 60 80 100 120 140 160 180 200 220

# leaves

Figure 2 - Evolution du taux d'erreur en fonction de la complexité de l'arbre

28 février 2008 Page 11 sur 16

Didacticiel - Études de cas R.R.

4.1.2 Fonctionnement de la règle de l’écart type : 1-SE RULE

Comment a procédé CART pour choisir l’arbre à 6 feuilles ?

L’idée des auteurs de la méthode est tout simplement de sélectionner, dans les séquences de
solutions proposées, le plus petit arbre dont les performances ne s’écartent pas significativement
de l’arbre optimal sur le pruning set. Ils calculent pour cela une erreur seuil qui s’apparente à la
borne haute de l’intervalle de confiance de l’erreur.

L’erreur « optimale » de l’arbre comportant 39 feuilles est ε = 0.1479 , son écart-type estimé

ε × (1 − ε ) 0.1479 × (1 − 0.1479)
σ= = = 0.00617977
n 3300

La borne haute définie par la règle de l’écart type (1-SE RULE ; θ = 1) est

ε seuil = ε + θ × σ = ε + 1× σ = 0.1541

Nous cherchons dans notre tableau le plus petit arbre dont l’erreur sur le pruning set est en
dessous de ce seuil. Il s’agit de l’arbre comportant 6 feuilles, avec un taux d’erreur de 0.1539.
C’est le mécanisme que CART met en place pour sélectionner l’arbre final, il illustre à merveille le
principe de parcimonie.

4.1.3 Performances de l’arbre 0-SE RULE (θ = 0)

Néanmoins, nous voulons évaluer les performances de l’arbre optimal comportant 39 feuilles. Nous
paramétrons de nouveau le composant SUPERVISED LEARNING 1 (C-RT) en imposant la valeur 0-SE
RULE.

Nous relançons l’arbre en clinquant sur le menu VIEW, l’arbre choisit cette fois-ci comporte 39
feuilles. Le taux d’erreur sur le growing set est de 0.1193, sur le pruning set de 0.147…

28 février 2008 Page 12 sur 16

Didacticiel - Études de cas R.R.

…et sur l’ensemble de l’échantillon d’apprentissage (growing + pruning) de 0.1287.

Voyons maintenant ce qu’il en est sur l’échantillon test, nous activons pour cela le menu VIEW du
composant TEST 1 au bout du diagramme de traitement.

28 février 2008 Page 13 sur 16

Didacticiel - Études de cas R.R.

Le taux d’erreur en test est 0.1447, avec un intervalle de confiance à 95% égal à [0.1412 ; 0.1482].
Il n’est pas significativement différent de l’erreur de l’arbre à 6 feuilles produit par la 1-SE RULE
(Paragraphe 3.5, page 8).

4.2 Exploiter la courbe d’erreur du post élagage

La règle de l’écart type (1-SE RULE) vise à produire un arbre plus simple tout en conservant un bon
niveau de performances. Intuitivement, nous comprenons qu’elle cherche à se rapprocher du
« coude » dans le graphique de l’erreur (Figure 2), l’endroit où nous avons épuisé l’information utile
et commençons à ingérer les spécificités du fichier de données dans l’arbre. Nous constatons
également qu’elle est assez finalement approximative, dépendante du paramètre de pénalisation θ.
Dans cette section, nous allons essayer d’utiliser les outils à notre disposition (le Tableau 1 et la
Figure 2), pour définir l’arbre correspondant à la solution souhaitée.

4.2.1 Déterminer le paramètre θ

A la lumière de la Figure 2, nous souhaitons produire l’arbre à 7 feuilles. En effet, c’est le modèle le
plus simple situé sur le palier des meilleures solutions (arbre à 7 feuilles jusqu’à l’arbre à 43
feuilles, Tableau 1). Le taux d’erreur sur le pruning set est de 0.1497. Pour déterminer la valeur du
paramètre θ permettant de produire cet arbre, il faut définir l’erreur seuil de manière à ce qu’elle
soit située entre 0.1497 (arbre à 7 feuilles) et 0.1539 (arbre à 6 feuilles). En tâtonnant un peu, nous
obtenons, entre autres, θ = 0.7, avec un erreur seuil ε seuil = 0.1479 + 0.7 × 0.006 = 0.1522 .

Nous modifions le paramètre du composant SUPERVISED LEARNING 1 (C-RT), nous introduisons la

valeur θ = 0.7 (Attention au point décimal selon la version de votre système d’exploitation).

L’arbre retenu comporte bien 7 feuilles.

28 février 2008 Page 14 sur 16

Didacticiel - Études de cas R.R.

Remarque 1 : Dans les logiciels où nous pouvons intervenir manuellement dans la construction de
l’arbre, il n’est pas nécessaire de re-définir le paramétrage de la méthode, il suffit d’élaguer ou
segmenter interactivement les sommets qui nous intéressent. Cette fonctionnalité est assez rare
dans les logiciels libres6, elle est en revanche incontournable dans les outils commerciaux (SPAD,
SAS-EM, SPSS-ANSWERTREE, etc.).

Remarque 2 : Dans certains logiciels, il est possible de jouer sur d’autres paramètres pour étudier
les solutions alternatives (voir le « paramètre de complexité » par exemple). Mais au final, il s’agit
toujours de constituer des séquences d’arbres, puis d’essayer de détecter le modèle pour lequel
une segmentation supplémentaire apporte une amélioration marginale.

4.2.2 Performances de la solution θ = 0.7 (Arbre à 7 feuilles)

Il nous reste maintenant à évaluer les performances de l’arbre à 7 feuilles. Nous activons le menu
VIEW du composant TEST 1, nous obtenons un taux d’erreur de 0.1489, avec un intervalle de
confiance à 95% égal à [0.1454 ; 0.1524]. Le tableau récapitulatif suivant retrace l’ensemble des
opérations.

Theta-SE RULE #Leaves Err.Test 95% Conf.Interval

1 6 0.1509 0.1473 ; 0.1545
0.7 7 0.1489 0.1454 ; 0.1524
0 39 0.1447 0.1412 ; 0.1482

Manifestement, l’arbre à 6 feuilles suffit largement pour assurer un niveau de performances

satisfaisant.

5 Conclusion
Parmi les innombrables variantes des techniques d’apprentissage des arbres de décision, CART est
probablement celle qui détecte le mieux la bonne profondeur de l’arbre. Elle produit de ce fait, bien
souvent, des modèles performants.

6
SIPINA et ORANGE sont parmi les rares logiciels libres à proposer des procédures simples. Voir à ce sujet le
didacticiel http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_Interactive_Tree_Builder.pdf

28 février 2008 Page 15 sur 16

Didacticiel - Études de cas R.R.

En analysant la procédure de post-élagage, nous constatons qu’il est possible de simplifier encore
l’arbre « optimal » détecté sur l’échantillon d’élagage (pruning set). La règle de l’écart type 1-SE
RULE est la procédure standard de CART. Nous pouvons la paramétrer efficacement en exploitant
au mieux les informations fournies par la courbe de l’erreur (Figure 2). L’objectif est de produire un
arbre efficace avec une complexité réduite, mettant en jeu peu de variables, plus facile à manipuler
et à interpréter.

CART est très populaire en France. La grande majorité des ouvrages en langue française la mettent
systématiquement en avant dès qu’il s’agit de décrire une technique d’induction d’arbres de
décision, au détriment des deux autres grandes références que sont CHAID (Kass, 1980) et C4.5
(Quinlan, 1993). Au delà des clivages culturels, il semble que CART s’impose naturellement dans les
études plus ou moins automatisées où l’on cherche avant tout à produire un arbre performant. Il
faut par ailleurs que l’on dispose de suffisamment d’observations, la partition growing/pruning
participant à la fragmentation des données7.

En revanche, lorsque nous travaillons sur de très grands ensembles de données, CART, comme
toute les méthodes s’appuyant sur le post-élagage, s’avère très gourmande en temps de calcul. En
effet, l’arbre maximal élaboré lors de la phase d’expansion peut comporter un nombre
invraisemblable de feuilles. Inutilement d’ailleurs puisque la très grande majorité des branches
seront élaguées par la suite. Ce travers est exacerbé lorsque la base est composée en grande
partie de descripteurs continus. Dans ce cas, surtout lors de la phase exploratoire d’appréhension
des données où nous essayons avant tout de déceler assez rapidement les relations entre les
variables, nous préfèrerons la méthode CHAID basée sur un mécanisme de pré-élagage : la
technique essaie de définir une règle d’arrêt judicieuse durant l’expansion de l’arbre.

7
CART intègre certes une procédure de validation croisée adaptée aux petits effectifs pour la sélection de la
taille adéquate de l’arbre. Mais elle est compliquée, difficile à faire passer auprès des non initiés.

28 février 2008 Page 16 sur 16

Vous aimerez peut-être aussi

Arbre de décision : Algorithme CART
100% (1)
Arbre de décision : Algorithme CART
14 pages
Cours AD
Pas encore d'évaluation
Cours AD
34 pages
Chap3 Arbres Sahbi
Pas encore d'évaluation
Chap3 Arbres Sahbi
46 pages
Arbre de Decision
Pas encore d'évaluation
Arbre de Decision
44 pages
Optimisation des arbres de décision
Pas encore d'évaluation
Optimisation des arbres de décision
19 pages
Comparaison des arbres de décision : TANAGRA, ORANGE, WEKA
Pas encore d'évaluation
Comparaison des arbres de décision : TANAGRA, ORANGE, WEKA
14 pages
Chapitre III ML Les Arbres de Decision
Pas encore d'évaluation
Chapitre III ML Les Arbres de Decision
20 pages
Classification par Arbres de Décision CART
Pas encore d'évaluation
Classification par Arbres de Décision CART
19 pages
Arbres de Décision CART : Concepts et Limites
Pas encore d'évaluation
Arbres de Décision CART : Concepts et Limites
19 pages
Classification Par Arbre de Décision Cart
Pas encore d'évaluation
Classification Par Arbre de Décision Cart
48 pages
Arbres
Pas encore d'évaluation
Arbres
65 pages
Cour 3
Pas encore d'évaluation
Cour 3
9 pages
FR Tanagra Clustering Tree
Pas encore d'évaluation
FR Tanagra Clustering Tree
13 pages
Présentation Adm
Pas encore d'évaluation
Présentation Adm
30 pages
Arbres de Décisions
Pas encore d'évaluation
Arbres de Décisions
11 pages
Comparaison des algorithmes d'apprentissage
Pas encore d'évaluation
Comparaison des algorithmes d'apprentissage
18 pages
3 Arbre de Décision Chap3
100% (1)
3 Arbre de Décision Chap3
14 pages
Classification supervisée avec R
Pas encore d'évaluation
Classification supervisée avec R
11 pages
Chapitre 2 Apprentissage Automatique: Les Arbres de Décision
Pas encore d'évaluation
Chapitre 2 Apprentissage Automatique: Les Arbres de Décision
12 pages
Arbres de Décision
100% (1)
Arbres de Décision
23 pages
Chapitre V - Arbre de Décision - Introduction À L'apprentissage Automatique
Pas encore d'évaluation
Chapitre V - Arbre de Décision - Introduction À L'apprentissage Automatique
17 pages
Datamining Cours 03
Pas encore d'évaluation
Datamining Cours 03
25 pages
Arbre de Décision : Concepts et Applications
Pas encore d'évaluation
Arbre de Décision : Concepts et Applications
21 pages
Leçon6-Arbre de Decision
100% (2)
Leçon6-Arbre de Decision
25 pages
Arbres de Décision en IA
Pas encore d'évaluation
Arbres de Décision en IA
24 pages
A?b?e? ?e D?c?s?o?
Pas encore d'évaluation
A?b?e? ?e D?c?s?o?
25 pages
Ad Handout PDF
Pas encore d'évaluation
Ad Handout PDF
7 pages
Arbres de Décision et Classification
Pas encore d'évaluation
Arbres de Décision et Classification
44 pages
Les Arbres de Decisions LE 2025
Pas encore d'évaluation
Les Arbres de Decisions LE 2025
39 pages
ADD New
Pas encore d'évaluation
ADD New
22 pages
Cours5 ArbresDécision
Pas encore d'évaluation
Cours5 ArbresDécision
35 pages
Arbres de Decision
Pas encore d'évaluation
Arbres de Decision
80 pages
Arbre de Décision - GI2
Pas encore d'évaluation
Arbre de Décision - GI2
29 pages
Arbre de Décision
Pas encore d'évaluation
Arbre de Décision
25 pages
Classification - Decision-Tree - Copie
Pas encore d'évaluation
Classification - Decision-Tree - Copie
5 pages
Arbre de décision en intelligence artificielle
Pas encore d'évaluation
Arbre de décision en intelligence artificielle
9 pages
Arbre de Decision
Pas encore d'évaluation
Arbre de Decision
6 pages
ID3 Et C4.5
Pas encore d'évaluation
ID3 Et C4.5
7 pages
Classification Par Arbre de Décision ID3 C4.5 EXC
Pas encore d'évaluation
Classification Par Arbre de Décision ID3 C4.5 EXC
103 pages
CART
100% (1)
CART
13 pages
ML Arbres Et Boosting 5 French
Pas encore d'évaluation
ML Arbres Et Boosting 5 French
42 pages
Apprentissage Supervisé et Classification
Pas encore d'évaluation
Apprentissage Supervisé et Classification
83 pages
Construction Darbres de Decision Par Optimisation
Pas encore d'évaluation
Construction Darbres de Decision Par Optimisation
20 pages
2 - Decision Tree 24
Pas encore d'évaluation
2 - Decision Tree 24
86 pages
Chapitre 4. Arbre de Décision
Pas encore d'évaluation
Chapitre 4. Arbre de Décision
26 pages
Cours AA 11 Octobre
Pas encore d'évaluation
Cours AA 11 Octobre
39 pages
Arbres de Decision PDF
Pas encore d'évaluation
Arbres de Decision PDF
43 pages
Seance5 Intro Arbres
Pas encore d'évaluation
Seance5 Intro Arbres
55 pages
Blue and White Clean Modern Company Project Proposal
Pas encore d'évaluation
Blue and White Clean Modern Company Project Proposal
30 pages
Cours ML Arbres
Pas encore d'évaluation
Cours ML Arbres
52 pages
Projet Arbre de Decision
Pas encore d'évaluation
Projet Arbre de Decision
18 pages
Examen Machine Leraning Doctorat
Pas encore d'évaluation
Examen Machine Leraning Doctorat
11 pages
Algorithmes de Machine Learning en 2023
100% (1)
Algorithmes de Machine Learning en 2023
52 pages
Chapitre 2 - Machine Learning - Les Arbres de Décision
Pas encore d'évaluation
Chapitre 2 - Machine Learning - Les Arbres de Décision
10 pages
Cours Arbres de Décision
Pas encore d'évaluation
Cours Arbres de Décision
6 pages
CM 03 - Apprentissage DArbres de Décision 2pp
Pas encore d'évaluation
CM 03 - Apprentissage DArbres de Décision 2pp
9 pages
Arbre de décision pour évaluation étudiante
Pas encore d'évaluation
Arbre de décision pour évaluation étudiante
1 page
TD Entrepreneuriat 1
100% (1)
TD Entrepreneuriat 1
21 pages
Transition numérique et mutations sociétales
Pas encore d'évaluation
Transition numérique et mutations sociétales
28 pages
Cours ETL DW - CH1
Pas encore d'évaluation
Cours ETL DW - CH1
36 pages
Marketing Mobile 1
Pas encore d'évaluation
Marketing Mobile 1
18 pages
Guide d'installation de WordPress avec XAMP
Pas encore d'évaluation
Guide d'installation de WordPress avec XAMP
4 pages
Applications et méthodologie du Data Mining
Pas encore d'évaluation
Applications et méthodologie du Data Mining
81 pages
Recherche Marketing et Méthodologie
Pas encore d'évaluation
Recherche Marketing et Méthodologie
138 pages
SAGE100Support P2
Pas encore d'évaluation
SAGE100Support P2
23 pages
Figure de Style
Pas encore d'évaluation
Figure de Style
8 pages
Réalité Augmentée et Marketing Mobile
Pas encore d'évaluation
Réalité Augmentée et Marketing Mobile
45 pages
Etiqéte de Droite
Pas encore d'évaluation
Etiqéte de Droite
28 pages
Étude de Marché en Ligne : Stratégies et Méthodes
Pas encore d'évaluation
Étude de Marché en Ligne : Stratégies et Méthodes
3 pages
CMS Madice S5
Pas encore d'évaluation
CMS Madice S5
54 pages
TD Display
Pas encore d'évaluation
TD Display
25 pages
Cours Edm Comportement Du Consommateur en Ligne
Pas encore d'évaluation
Cours Edm Comportement Du Consommateur en Ligne
58 pages
Droit Digital Des Affaires
Pas encore d'évaluation
Droit Digital Des Affaires
27 pages
Seo Sea TD
100% (1)
Seo Sea TD
27 pages
Examen Regional de Francais Rabat Sale Kenitra Juin 2021 12
Pas encore d'évaluation
Examen Regional de Francais Rabat Sale Kenitra Juin 2021 12
2 pages
Marketing Digital
100% (1)
Marketing Digital
13 pages
Optimisation du Pilotage Fournisseur
Pas encore d'évaluation
Optimisation du Pilotage Fournisseur
1 page
DPPD 2022 2024 PLF MDC - 002
Pas encore d'évaluation
DPPD 2022 2024 PLF MDC - 002
37 pages
Cours Fortran 77
100% (1)
Cours Fortran 77
238 pages
PM Complications JC Deharo
Pas encore d'évaluation
PM Complications JC Deharo
40 pages
Fiches Diagnostic Pannes Hasler Bern RT9.
Pas encore d'évaluation
Fiches Diagnostic Pannes Hasler Bern RT9.
4 pages
Investir en OPCI: Guide pour débutants
Pas encore d'évaluation
Investir en OPCI: Guide pour débutants
3 pages
Notice d'installation Visiophone Urmet
Pas encore d'évaluation
Notice d'installation Visiophone Urmet
20 pages
Ponction Biopsie du Foie: Guide Complet
Pas encore d'évaluation
Ponction Biopsie du Foie: Guide Complet
25 pages
DM Régime Transitoire 2025
Pas encore d'évaluation
DM Régime Transitoire 2025
2 pages
Servlets JSP
Pas encore d'évaluation
Servlets JSP
47 pages
Bidani Grille D'évaluationdesélèves-Stagiares
Pas encore d'évaluation
Bidani Grille D'évaluationdesélèves-Stagiares
1 page
Mise en Oeuvre Du Droit International Humanitaire
Pas encore d'évaluation
Mise en Oeuvre Du Droit International Humanitaire
39 pages
Le Deuil Du Deuil Daney
Pas encore d'évaluation
Le Deuil Du Deuil Daney
5 pages
Introduction aux transmissions BM
100% (1)
Introduction aux transmissions BM
70 pages
Chapitre Les Agents Économiques Les Relations D'échange Le Fpnctionnement Du Marché
Pas encore d'évaluation
Chapitre Les Agents Économiques Les Relations D'échange Le Fpnctionnement Du Marché
4 pages
Fiche Revue de Processus
Pas encore d'évaluation
Fiche Revue de Processus
7 pages
Bilanfinal AF
Pas encore d'évaluation
Bilanfinal AF
10 pages
TD 2 RDM1 2x1
Pas encore d'évaluation
TD 2 RDM1 2x1
3 pages
Nikon
Pas encore d'évaluation
Nikon
27 pages
UFOmania - No 50
Pas encore d'évaluation
UFOmania - No 50
32 pages
Océan - Emma Emonds
100% (1)
Océan - Emma Emonds
664 pages
Sara,+29570 78462 1 CE
Pas encore d'évaluation
Sara,+29570 78462 1 CE
9 pages
Examen D - Optique Géométrique 2018-2019
Pas encore d'évaluation
Examen D - Optique Géométrique 2018-2019
1 page
28 Degre A L Ombre
Pas encore d'évaluation
28 Degre A L Ombre
1 page
Leçon Sur Le Désert PDF
Pas encore d'évaluation
Leçon Sur Le Désert PDF
2 pages
Relais Pickup Le Tabac Le Vinci Du Moulin (60100)
Pas encore d'évaluation
Relais Pickup Le Tabac Le Vinci Du Moulin (60100)
1 page
Maintenance Équipements Industriels
Pas encore d'évaluation
Maintenance Équipements Industriels
32 pages
Devoir 2nde La 24
Pas encore d'évaluation
Devoir 2nde La 24
1 page
Le Registre Courant
Pas encore d'évaluation
Le Registre Courant
1 page
Carrefour Des Sciences
Pas encore d'évaluation
Carrefour Des Sciences
10 pages