100% ont trouvé ce document utile (1 vote)

308 vues13 pages

CART

Cet article décrit la méthode CART pour construire des arbres de décision supervisés. La méthode CART construit progressivement un arbre en posant à chaque étape une question sur une seule variable qui sépare le mieux les classes. L'algorithme choisit la variable qui minimise la somme pondérée des indices de Gini dans les nœuds fils, où l'indice de Gini mesure l'hétérogénéité d'un nœud.

Transféré par

Sharif Aria Karimi

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

100% ont trouvé ce document utile (1 vote)

308 vues13 pages

CART

Transféré par

Sharif Aria Karimi

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Classification Supervisée.

Algorithme CART et forêts aléatoires.

1 Arbres de décisions
Un arbre de décision est un classifieur t : X → Y qui s’exprime sous la forme d’une
succession de questions/réponses posées sur les données.

Exemple : On suppose que les variables observées sont X = (T, P, F ), où :

— T : variable quantitative, taille de l’individu en m
— P : variable quantitative, poids de l’individu en kg
— F : variable qualitative, 1 si l’individu est fumeur, 0 s’il ne l’est pas,
et que la variable Y à prédire vaut 1 si l’individu présente un risque de développer une certaine
pathologie, 0 si l’individu n’a pas de risque. On peut par exemple définir un classifieur t ainsi :

La première "question" posée Q1 est : le rapport P/T 2 (indice de masse corporelle) est-il
inférieur à 25, compris entre 25 et 30, ou supérieur à 30 ?
— s’il est inférieur à 25, on estime qu’il n’y a pas de risque (on pose donc Ŷ = t(X) = 0)
— s’il est compris entre 25 et 30, on pose une deuxième question Q2 : l’individu est-il fumeur
ou pas (F = 1 ou F = 0) ?
— s’il est fumeur on estime qu’il y a un risque : Ŷ = t(X) = 1,
— sinon on pose Ŷ = t(X) = 0
— s’il est supérieur à 30, on estime qu’il y a un risque : Ŷ = t(X) = 1

On peut visualiser cette règle sous la forme d’un arbre :

Un peu de terminologie à connaître : cet arbre contient 5 branches, et 6 noeuds. Parmi ces
noeuds, on distingue le noeud racine en haut, et 4 noeuds terminaux, appelés aussi feuilles.
Lorsque tous les noeuds non terminaux n’ont que deux branches (autrement dit lorsque
chaque question posée n’a que deux réponses possibles), on dit que l’arbre est binaire. Ici ce
n’est pas le cas, puisque le noeud racine a trois branches. Remarquons cependant qu’on peut
toujours définir un arbre binaire équivalent à n’importe quel arbre, en ajoutant des noeuds. Voici
par exemple l’arbre binaire équivalent à l’arbre précédent :

1
2 La méthode CART
Comment construire un arbre de classification performant à partir de données d’apprentissage
(Xi , Yi ) 1 ≤ i ≤ n ? La méthode CART (Classification And Regression Trees) a été introduite
par Breiman, Friedman, Olshen et Stone en 1984 ; elle est sans doute la plus connue. Comme
son nom l’indique, il s’agit d’une méthode permettant de construire des arbres pour faire de la
classification (i.e. l’ensemble Y est fini) aussi bien que pour de la régression (Y = R). Dans le
cadre de ce cours nous ne parlons que de classification.

La construction de l’arbre par la méthode CART se fait progressivement. On se place d’abord

au noeud racine et on considère un ensemble de questions possibles à poser. Pour chacune de ces
questions on calcule les réponses à cette question pour tous les individus de la base, ce qui sépare
la population en plusieurs sous-populations. On évalue alors les proportions de Y = 0 et Y = 1
parmi ces sous-populations, ce qui permet de choisir la meilleure question (cf plus bas). Puis
on recommence le procédé dans chaque sous-branche ainsi crée, avec la sous-population corres-
pondante. On s’arrête lorsque la sous population ne contient plus qu’une seule classe Y = 0 ou
Y = 1 (à moins qu’on décide de s’arrêter avant suivant un autre critère). Un noeud ne contenant
ainsi qu’une seule classe est appelé noeud pur.

Voici les principes permettant de définir la méthode CART :

— chaque question posée ne concerne qu’une seule variable,
— chaque question posée doit être la plus discriminante possible, c’est-à-dire qu’elle doit
permettre de séparer au mieux les deux classes parmi les données d’apprentissage.

Quelques remarques sur ces principes : le premier principe est restrictif : ainsi dans l’exemple
précédent, la première question porte sur les deux variables P et T , et donc cette question ne
pourrait pas être considérée avec la méthode CART. Ensuite le deuxième principe nécessite pour
être appliqué d’avoir une mesure de l’homogénéité des classes dans une population. Ceci se fait
à l’aide de l’indice de Gini :

Définition 2.1. Soit h un noeud, on appelle indice de Gini de h la quantité

I(h) = 1 − P1 (h)2 − P0 (h)2

2
où P0 (h) (respectivement P1 (h)) est la proportion de la classe 0 (resp. 1) parmi la sous-population
associée au nœud h.

Plus l’indice de Gini est petit, meilleur est le nœud : l’une des deux classes prédomine.

Remarque 2.1. Dans le cas binaire on a P1 (h) = 1 − P0 (h), de sorte que I(h) = 2P0 (h)(1 −
P0 (h)) = 2P1 (h)(1 − P1 (h)). Voici ci-dessous le tracé de la valeur de I(h) en fonction de P0 (h).
On voit bien que plus les deux classes sont hétérogènes dans le noeud (P0 (h) grand par rapport à
P1 (h) ou l’inverse), plus l’indice de Gini est petit.

Lorsqu’on considère une question possible à poser, on crée deux noeuds dans l’arbre cor-
respondant aux deux réponses possibles. On voudrait que chacun de ces noeuds ait un indice
de Gini le plus petit possible. De plus il est logique d’accorder plus d’importance à un noeud
contenant beaucoup d’individus. Par conséquent on va chercher à minimiser la somme des indices
de Gini de chaque noeud, pondérée par la taille de la population. On arrive donc à la règle de
segmentation suivante :

Règle de segmentation : On découpe le nœud h selon la variable X p , p ∈ {1, . . . , P }

telle que
p1 I(X p = 1) + p0 I(X p = 0)
où p1 (resp. p0 ) est la proportion d’individus du nœud h ayant la modalité X p = 1 (resp.
X p = 0), p0 = 1 − p1 soit minimal.

Exemple : On va étudier la construction de l’arbre à partir d’un exemple. On dispose des

données suivantes concernant des matchs d’une équipe de football :

3
observation match (X 1 ) balance (X 2 ) mauvaise condition (X 3 ) match précédent (X 4 ) match (Y )
à domicile positive climatique gagné gagné
e1 Vrai Vrai Faux Faux Vrai
e2 Faux Faux Vrai Vrai Vrai
e3 Vrai Vrai Vrai Faux Vrai
e4 Vrai Vrai Faux Vrai Vrai
e5 Faux Vrai Vrai Vrai Faux
e6 Faux Faux Vrai Faux Faux
e7 Vrai Faux Faux Vrai Faux
e8 Vrai Faux Vrai Faux Faux

On prend la convention X p = 1 si X p =Vrai, et X p = 0 si X p =Faux, et Y = 1 si Y =Gagné

et Y = 0 si Y =Perdu. On dispose de 8 individus, les 8 équipes dont 4 ont le label ’Gagné’ et 4
le label ’Perdu’.
— On commence par la racine de l’arbre, contenant tous les individus. On a 4 question
possibles à poser : ”X 1 = 1?”, ”X 2 = 1?”, ”X 3 = 1?”, ”X 4 = 1?”.
— Si on veut découper la racine de l’arbre selon la variable X 1 (question ”X 1 = 1?”), on
crée deux nouveaux noeuds :
— Dans le noeud X 1 = 1, on aura les observations e1 , e3 , e4 , e7 , e8 (donc 5 obser-
vations). Parmi elles, trois ont la modalité Y = 1 (e1 , e3 et e4 ), et deux ont la
modalité Y = 0 (e7 et e8 ). Par conséquent,
3 2 2 2
I(X 1 = 1) = 1 − − = 0.48.
5 5
— Dans le noeud X 1 = 0, on aura les observations e2 , e5 , e6 (donc 3 observations).
Parmi elles, une a la modalité Y = 1 (e2 ), et deux ont la modalité Y = 0 (e5 et
e6 ). Par conséquent,
1 2 2 2
I(X 1 = 0) = 1 − − = 0.44.
3 3
A final la somme pondérée pour ce choix de question vaut :
5 3
I(X 1 = 1) + I(X 1 = 0) = 0.465.
8 8
— On recommence les calculs en envisageant cette fois la question ”X 2 = 1?”). On aura
alors 3 2 1 2
I(X 2 = 1) = 1 − − = 0.375,
4 4
1 2 3 2
I(X 2 = 0) = 1 − − = 0.375,
4 4
et donc la somme pondérée pour ce choix vaut 0.375.
— On procède de même avec la question ”X 3 = 1?”. On aura alors
2 2 3 2
I(X 3 = 1) = 1 − − = 0.48,
5 5
2 2 1 2
I(X 3 = 0) = 1 − − = 0.44,
3 3
et donc la somme pondérée pour ce choix vaut
5 3
I(X 3 = 1) + I(X 3 = 0) = 0.465.
8 8

4
— Enfin pour la question ”X 4 = 1?” :
2 2 2 2
I(X 4 = 1) = 1 − − = 0.5,
4 4
2 2 2 2
I(X 4 = 0) = 1 − − = 0.5,
4 4
et donc la somme pondérée pour ce choix vaut 0.5.
Conclusion : le choix de question donnant la plus petite valeur du critère est la question
portant sur X 2 (valeur 0.375). On a ainsi commencé à construire notre arbre ainsi :

On doit ensuite continuer le découpage dans chaque noeud créé. Notons que la question
portant sur X 2 ayant déjà été posée, il est inutile de la considérer à nouveau (N.B. ce
serait différent si la variable n’était pas binaire, voir plus bas).
— Pour le noeud X 2 = 1, contenant les observations e1 , e3 , e4 , e5 , on envisage les 3 questions
possibles :
— Si on découpe ce noeud suivant la valeur de X 1 , alors :
— dans la branche X 1 = 1 on aura e1 , e3 , e4 (3 individus). Tous sont de type Y = 1.
Donc,
3 2 0 2
I(X 1 = 1) = 1 − − = 0.
3 3
— dans la branche X 1 = 0 on aura e5 , qui est de type Y = 0. Donc,
0 2 1 2
I(X 1 = 0) = 1 − − = 0.
1 1
La somme pondérée pour ce choix vaut donc 0. Comme il s’agit de la valeur minimale,
il est en fait inutile de considérer les deux autres questions. On est certain d’être
optimal en choisissant cette question.
Ainsi notre arbre devient à présent :

Notons que les deux nouveaux noeuds ainsi créés sont purs : il n’y aura plus besoin de les
découper à nouveau.
— Pour le noeud X 2 = 0, contenant les observations e2 , e6 , e7 , e8 , on envisage les 3 questions
possibles :

5
— Si on découpe ce noeud suivant la valeur de X 1 , alors :
— dans la branche X 1 = 1 on aura e7 et e8 (2 individus). Tous sont de type Y = 0.
Donc,
0 2 2 2
I(X 1 = 1) = 1 − − = 0.
2 2
— dans la branche X 1 = 0 on aura e2 (de type Y = 1) et e6 (de type Y = 0). Donc,
1 2 1 2
I(X 1 = 0) = 1 − − = 0.5.
2 2
La somme pondérée pour ce choix vaut donc
2 2
I(X 1 = 1) + I(X 1 = 0) = 0.25.
4 4
— Si on découpe suivant X 3 , alors :
1 2 2 2
I(X 3 = 1) = 1 − − = 0.44,
3 3
0 2 1 2
I(X 3 = 0) = 1 − − = 0.
1 1
La somme pondérée pour ce choix vaut donc
3 1
I(X 1 = 1) + I(X 1 = 0) = 0.33.
4 4
— Enfin si on découpe suivant X 4 , alors :
1 2 1 2
I(X 4 = 1) = 1 − − = 0.5,
2 2
0 2 2 2
I(X 4 = 0) = 1 − − = 0.
2 2
La somme pondérée pour ce choix vaut donc
2 2
I(X 1 = 1) + I(X 1 = 0) = 0.25.
4 4
Finalement ici on a deux possibilités : découper suivant X 1 ou suivant X 4 . Choisissons
X 1 de façon arbitraire. Notre arbre devient à présent :

6
— Il ne reste plus qu’à découper une dernière fois le noeud contenant e2 et e6 . Il suffit pour
cela de sélectionner une variable discriminante pour ces deux individus ; on aura forcément
alors une valeur 0 pour le critère. C’est le cas en fait pour la variable X 4 uniquement et
pas pour X 3 , donc on choisit de découper suivant X 4 .
Au final l’arbre complet obtenu par la méthode CART sur cet exemple est le suivant :

2.1 Cas de variables non binaires

L’exemple qui vient d’être détaillé ne comportait que des variables binaires. Si une variable
X p n’est pas binaire, on distingue deux cas :
— X p est catégorielle et prend pour modalités {1, . . . , q}, q > 2. Dans ce cas le nœud
correspondant à la segmentation selon la variable X p engendre q nouveaux nœuds (l’arbre
n’est plus binaire). On minimise cette fois la quantité
p1 I(X p = 1) + . . . + pq I(X p = q),
où chaque pk , 1 ≤ k ≤ q correspond à la proportion d’individus ayant la modalité X p = k.
— X p est quantitative : on considère alors des questions du type ”X p ≥ s?”, où s est un
seuil donné. Il y aurait donc a priori une infinité de questions possibles suivant les valeurs
de s. Cependant, on peut voir facilement qu’il n’y a que n − 1 seuils à considérer au plus,
où n est la taille de la sous-population contenue dans le noeud. Voici un autre exemple
pour comprendre ce point : on reprend en fait l’exemple initial du chapitre et on suppose
que l’on dispose des données d’entraînement suivantes :
individu taille (T ) poids (P ) fumeur (F ) risque (Y )
e1 1.60 55 Non Non
e2 1.65 85 Non Oui
e3 1.85 100 Oui Oui
e4 1.70 55 Oui Non
e5 1.75 75 Non Non
Ici les deux premières variables sont quantitatives. Pour déterminer les seuils possibles pour
la variable T , classons les individus par valeurs croissantes de T :
individu e1 e2 e4 e5 e3
taille 1.60 1.65 1.70 1.75 1.85

7
Il n’y alors que 4 questions différentes à considérer pour T . En effet,
— pour une valeur du seuil inférieure à 1.60, ou supérieure à 1.85, la question posée ne sépare
pas la population ; elle est donc inutile.
— pour toutes les valeurs du seuil comprises entre 1.60 et 1.65, les noeuds créés contiendront
d’un côté e1 et de l’autre e2 , . . . , e5 . Toutes ces valeurs de seuil sont donc équivalentes vis-
à-vis des données d’entraînement et correspondent donc à une seule question à considérer.
— de même pour toutes les valeurs du seuil entre 1.65 et 1.70, entre 1.70 et 1.75, entre 1.75
et 1.80, ou entre 1.80 et 1.85. On obtient ainsi 3 seuils discriminants supplémentaires.
Pour la variable P , on peut raisonner de même : dans ce cas il n’y aura en fait que 3 questions
possibles, car deux individus ont un poids égal à 55, ce qui les rend indistinguables vis-à-vis de
cette variable. Enfin pour la variable F , il n’y a qu’une seule question puisque cette variable est
binaire. Au final on a donc 8 questions au total à envisager dans cet exemple.
Notons que dans ce cas l’arbre induit par la méthode CART est très simple : en effet on peut
remarquer que la variable P est totalement discriminante, avec un seuil égal à 80 (ou toute autre
valeur entre 75 et 85), et donc on obtient l’arbre de décision suivant :

Cet arbre a peu de chances d’être performant ; le problème ici est simplement qu’il y a trop
peu de données.

2.2 Critères d’arrêt et élagage de l’arbre

La méthode décrite dans la partie précédente aboutit à des arbres complètement développés,
c’est-à-dire qu’à la fin l’arbre ne contient que des noeuds terminaux purs. En pratique pour des
données réelles avec une grande quantité d’observations, les arbres ainsi créés sont très complexes
et donc peuvent être longs à obtenir et à utiliser par la suite. Mais surtout il y a un fort risque
de sur-apprentissage avec de tels arbres : l’erreur d’apprentissage (ou erreur apparente) est égale
à zéro, mais l’erreur de généralisation sera probablement élevé. Pour éviter ceci, on construit en
pratique des arbres simplifiés, ce qui se fait de deux manières :
— lors de la construction de l’arbre, on fixe des critères d’arrêt afin de ne pas développer
l’arbre jusqu’au bout,
— de plus, une fois la construction de l’arbre terminée, on procède à une étape d’élagage
en supprimant progressivement des branches afin de déterminer un sous-arbre optimal.

Lorsque, l’arbre n’est pas développé jusqu’au bout, la classe associée aux noeuds comprenant
plusieurs observations correspond à la classe majoritaire parmi ces observations. S’il y a égalité,
la classe est choisie de manière arbitraire.

2.2.1 Conditions d’arrêt :

Voici les critères d’arrêt du développement de l’arbre de décision les plus couramment em-
ployés :
— Le nombre de feuilles à atteint le maximum fixé (≤ n).

8
— La profondeur de l’arbre à atteint le maximum fixé (≤ P dans le cas de variables expli-
catives binaires).
— L’effectif (taille de la sous-population) de chaque nœud terminal est inférieur à un seuil
fixé.

2.2.2 Élagage de l’arbre

La solution adoptée par l’algorithme CART pour limiter le sur-apprentissage est l’élagage
de l’arbre : on supprime les feuilles "trop précises" (qui ont un faible nombre d’individus,...)
pour obtenir un sous arbre offrant un classifieur qui soit meilleur en prévision. Les étapes de
l’algorithme sont alors les suivantes :

Étape 1 : Création de l’arbre complet T (en prenant en compte éventuellement des critères
d’arrêt).
Étape 2 : Élagages successifs de l’arbre T : construction d’une suite d’arbres emboîtés Tm =
T . . . T0 .
Étape 3 : Choix de l’arbre élagué T ∗ parmi (T0 , . . . , Tm ) par validation croisée.

On ne détaillera pas ici la méthode utilisée pour l’étape 2.

2.3 Avantages et inconvénients de CART

2.3.1 Avantages
— Sélection automatique des variables discriminantes (les autres n’interviennent pas dans la
construction de l’arbre).
— Accepte tous type de variables.
— Peu sensible aux individus extrêmes.

2.3.2 Inconvénients
— Effet papillon : Si on modifie une seule variable l’arbre peut être modifié complètement
si cette variable est choisie parmi les premières étapes.
— CART est un algorithme glouton (greedy algorithm) : A chaque étape, le choix
d’une variable de segmentation conditionne tout le sous-arbre correspondant. Or le choix
de cette variable se fait sur un critère qui se place à l’étape courante sans prendre en
compte tous les sous-arbres possibles, c’est-à-dire toutes les questions qu’on posera en-
suite. Autrement dit, en cherchant à chaque étape à poser la meilleure question, on élimine
des stratégies possibles qui consisteraient à choisir d’abord des variables moins discrimi-
nantes, puis par la suite des variables très discriminantes, pour au final avoir un arbre très
performant. Ceci amène à utiliser des méta-algorithmes tels que le Bagging ou le Boosting
pour améliorer les performances de CART. La méthode des forêts aléatoires décrite à la
section suivante en est un exemple.
— Temps de calculs importants.

3 Forêts aléatoires
La méthode des forêts aléatoires (Random Forests) est relativement récente (L. Breiman,
2001) et très performante. L’idée consiste à générer un grand nombre d’arbres de décision diffé-
rents en faisant varier de façon aléatoire les données d’entrée. Les règles de décision associées à

9
chaque arbre sont ensuite moyennées pour obtenir le classifieur final. Ceci vise à corriger un des
inconvénients principaux de la méthode CART (effet papillon).
A chaque construction d’un arbre, on fait varier à la fois les variables et les observations,
comme expliqué dans les deux sections suivantes :

3.1 Variation aléatoires des observations : Bagging

A chaque construction d’un arbre, les observations d’entrée sont tirées au sort selon la mé-
thode du bootstrap : on effectue un tirage avec remise de taille n à partir des n observations.
Le tirage avec remise a pour effet de répéter certaines observations, ce qui leur confère plus de
poids, et à l’inverse d’en supprimer certaines autres, tout ceci de façon aléatoire.

Si elle est utilisée seule, cette technique de bootstrap pour les arbres décisionnels est déjà
une méthode efficace, dénommée bagging (pour bootstrap aggregating) : on crée un grand
nombre d’arbres différents par bootstrap sur les observations, puis le classifieur est obtenu par
vote à la majorité (cf plus bas)

3.2 Variation des variables d’entrée

En plus du bagging, l’algorithme des forêts aléatoires ajoute une deuxième source d’aléa en
sous-échantillonant de façon aléatoire les variables candidates lors du développement de l’arbre.
Plus précisément, à chaque étape de l’algorithme CART lors du choix de la question à poser, seul
un sous-ensemble des variables est considéré. Ce sous-ensemble est choisi aléatoirement par tirage
au sort parmi les P variables disponibles, (ce tirage au sort étant re-effectué pour chaque noeud).
Le nombre de variables √ tirées à chaque fois est un paramètre de l’algorithme. Il est souvent fixé
à une valeur proche de P (par exemple sa partie entière).

3.3 Critère d’arrêt des arbres

Dans la méthode des forêts aléatoires, on peut définir un critère d’arrêt de développement
en fixant un seuil sur le nombre d’individus contenus dans un noeud (en dessous du seuil on ne
développe plus). Cependant ceci sert essentiellement à accélérer l’algorithme et non à améliorer les
performances de classification. En effet il y a beaucoup moins de risque de sur-apprentissage avec
les forêts aléatoires, même en développant jusqu’au bout les arbres, car les réponses individuelles
des arbres sont aggrégés dans la réponse finale. Dans l’algorithme implémenté en R ce critère
d’arrêt est d’ailleurs fixé par défaut à 1, autrement dit il est désactivé.

3.4 Vote à la majorité

Ceci est l’étape finale de la méthode des forêts aléatoires : une fois tous les arbres construits,
on définit le classifieur final par vote à la majorité : une observation est classée en l’évaluant sur
tous les arbres et en attribuant la classe majoritaire parmi toutes les réponses.

3.5 Exemple
Voici un exemple complet de classification avec la méthode des forêts aléatoires. On reprend
les données "football" précédentes et on va construire trois arbres aléatoires.
N.B. Cet exemple est fait dans un but purement pédagogique : en pratique cette méthode a
un intérêt pour des données de grande taille et le nombre d’arbres créés doit être grand (500 par
défaut dans l’algorithme R).

10
— Premier arbre : On effectue d’abord le bootstrap : tirage au sort de n observations
parmi n avec remise. On obtient les observations suivantes : e3 , e03 , e6 , e1 , e5 , e01 , e001 , e2 , où
les e0i et e00i désignent des copies des observations ei .
Le tableau de données tab avec lequel on travaille pour ce premier arbre est donc le
suivant :
X1 X2 X3 X4 Y
e3 Vrai Vrai Vrai Faux Vrai
e03 Vrai Vrai Vrai Faux Vrai
e6 Faux Faux Vrai Faux Faux
e1 Vrai Vrai Faux Faux Vrai
e5 Faux Vrai Vrai Vrai Faux
e01 Vrai Vrai Faux Faux Vrai
e001 Vrai Vrai Faux Faux Vrai
e2 Faux Faux Vrai Vrai Vrai
√
— On commence par la racine. On tire au sort 2 variables (car 4 = 2) parmi les 4
variables X 1 , . . . , X 4 .
Les variables sélectionnées sont X 3 et X 1 ; le tableau restreint à ces variables est donc :
X3 X1 Y
e3 Vrai Vrai Vrai
e03 Vrai Vrai Vrai
e6 Vrai Faux Faux
e1 Faux Vrai Vrai
e5 Vrai Faux Faux
e01 Faux Vrai Vrai
e001 Faux Vrai Vrai
e2 Vrai Faux Vrai
On a donc deux choix à étudier :
— découpage suivant X 3 : la branche X 3 = 1 contient e3 , e03 , e6 , e5 , e2 , parmi lesquels
3 sont de type Y = 1 et 2 de type Y = 0. L’indice de Gini vaut donc 1 − (2/5)2 −
(3/5)2 = 0.48. La branche X 3 = 0 contient e1 , e01 , e001 , toutes de type Y = 1, donc
l’indice de Gini vaut 0. Le critère pour ce choix vaut donc (5/8)×0.48+(3/8)×0 =
0.3.
— découpage suivant X 1 : la branche X 1 = 1 contient e3 , e03 , e1 , e01 , e001 , toutes de type
Y = 1, donc l’indice de Gini vaut 0. La branche X 3 = 0 contient e6 , e5 , e2 , parmi
lesquels 1 est de type Y = 1 et 2 de type Y = 0. L’indice de Gini vaut donc
1 − (2/3)2 − (1/3)2 = 0.44. Le critère pour ce choix vaut donc (5/8) × 0 + (3/8) ×
0.44 = 0.17.
Au final le choix qui minimise le critère est le découpage suivant X 1 .
— On passe ensuite aux découpages suivants. Pour la branche X 1 = 1, il n’y a plus rien
à faire car toutes les observations sont de type Y = 1. Donc le découpage s’arrête
là. Il reste à découper la branche X 1 = 0, contenant e6 , e5 , e2 . On tire au sort deux
variables parmi X 2 , X 3 , X 4 (car le découpage suivant X 1 a déjà été utilisé). On obtient
par exemple X 2 et X 4 . Le nouveau sous-tableau de données est donc
X2 X4 Y
e6 Faux Faux Faux
e5 Vrai Vrai Faux
e2 Faux Vrai Vrai

11
On peut voir facilement ici sans faire de calculs que le deux découpages suivant X 2
ou X 4 seront équivalents, car ils donneront une branche contenant une observation de
type Y = 0 et une branche contenant deux observations, une de chaque type. Donc
on peut choisir arbitrairement de découper suivant X 2 par exemple, ce qui donne la
branche X 2 = 1 contenant e5 et la branche X 2 = 0 contenant e6 et e2 .
— Il ne reste enfin qu’à découper la branche X 2 = 0, contenant e6 et e2 . Comme il ne
reste que les deux variables X 3 et X 4 , le tirage au sort des variables est inutile. Le
sous-tableau de données est à présent

X3 X4 Y
e6 Vrai Faux Faux
e2 Vrai Vrai Vrai

La seule variable qui sépare les données est alors X 4 , et c’est donc la seule possible
pour le découpage.
On a donc achevé la construction du premier arbre aléatoire. Voici sa représentation, où
l’on a noté dans chaque noeud les observations restantes et les deux variables tirées au
sort pour le prochain découpage :

— On reprend le même principe pour construire deux autres arbres aléatoires. Voici les arbres
obtenus :

Deuxième arbre : cet arbre ne contient que deux branches ; en effet le tirage au sort
initial des observations et des variables fait qu’il est possible de séparer parfaitement les
deux classes Y = 1 et Y = 0 en découpant avec la variable X 2 :

12
Troisième arbre : cet arbre est au contraire plus complexe que le premier :

— Au final la forêt aléatoire est construite. On peut maintenant utiliser le classifieur ainsi :
supposons qu’on cherche à classer une nouvelle observation e9 , de variables X = (0, 0, 0, 1).
Alors en suivant les trois arbres on a :
— e9 est classé en Y = 1 suivant le premier arbre,
— e9 est classé en Y = 0 suivant le deuxième arbre,
— e9 est classé en Y = 1 suivant le troisième arbre,
et par conséquent l’estimation obtenue par vote à la majorité sera Ŷ = 1.

Vous aimerez peut-être aussi

Chapitre 5 - Les Arbres de D-Cision
Pas encore d'évaluation
Chapitre 5 - Les Arbres de D-Cision
33 pages
Introduction à l'apprentissage non supervisé
Pas encore d'évaluation
Introduction à l'apprentissage non supervisé
43 pages
Chapitre 3-Apprentissage Non Supervisé
Pas encore d'évaluation
Chapitre 3-Apprentissage Non Supervisé
85 pages
TD4-Clustering1 (Corrigé)
100% (1)
TD4-Clustering1 (Corrigé)
3 pages
Machine Learning - Partie 2 - Régression Logistique Et KNN
Pas encore d'évaluation
Machine Learning - Partie 2 - Régression Logistique Et KNN
37 pages
Estimation de la probabilité conditionnelle
Pas encore d'évaluation
Estimation de la probabilité conditionnelle
35 pages
Corrigé Exercice Arbre ID3
100% (1)
Corrigé Exercice Arbre ID3
83 pages
TP Sur Regression Logistique
Pas encore d'évaluation
TP Sur Regression Logistique
4 pages
Optimisation des Hyperparamètres en ML
Pas encore d'évaluation
Optimisation des Hyperparamètres en ML
39 pages
Introduction à Crisp-DM et Clustering
Pas encore d'évaluation
Introduction à Crisp-DM et Clustering
23 pages
SVM Slides
Pas encore d'évaluation
SVM Slides
39 pages
Examen ML: Classification et Préparation
Pas encore d'évaluation
Examen ML: Classification et Préparation
6 pages
TD 04
Pas encore d'évaluation
TD 04
9 pages
Réseaux Bayésiens pour Master 2 SIR
Pas encore d'évaluation
Réseaux Bayésiens pour Master 2 SIR
15 pages
Introduction à la régression linéaire
Pas encore d'évaluation
Introduction à la régression linéaire
71 pages
Systèmes de Recommandation Collaboratifs
Pas encore d'évaluation
Systèmes de Recommandation Collaboratifs
79 pages
Exam Fouille Extraction Datamining Donnees 2018 2019cor
100% (1)
Exam Fouille Extraction Datamining Donnees 2018 2019cor
6 pages
Introduction aux SVM et classification
Pas encore d'évaluation
Introduction aux SVM et classification
18 pages
TP SVM
Pas encore d'évaluation
TP SVM
7 pages
Chapitre. Régression Linéaire Simple - 19-20 - Part01
Pas encore d'évaluation
Chapitre. Régression Linéaire Simple - 19-20 - Part01
10 pages
TP Arbre de Décision avec SIPINA
100% (1)
TP Arbre de Décision avec SIPINA
3 pages
DataMining Part2 ECD
100% (1)
DataMining Part2 ECD
38 pages
12F Cas Pratique D'arbre de Décision
Pas encore d'évaluation
12F Cas Pratique D'arbre de Décision
22 pages
Introduction aux KNN en Machine Learning
Pas encore d'évaluation
Introduction aux KNN en Machine Learning
8 pages
Régression linéaire multiple avec Excel
Pas encore d'évaluation
Régression linéaire multiple avec Excel
1 page
Exemple K Means Et HCA PDF
Pas encore d'évaluation
Exemple K Means Et HCA PDF
4 pages
Exercices Analyse de Données
Pas encore d'évaluation
Exercices Analyse de Données
13 pages
TP 2 Clustering
Pas encore d'évaluation
TP 2 Clustering
2 pages
Data Mining tp.5 Régression Linéaire Multiple
Pas encore d'évaluation
Data Mining tp.5 Régression Linéaire Multiple
13 pages
Apprentissage 1516 Lasso
Pas encore d'évaluation
Apprentissage 1516 Lasso
46 pages
Examen OCclass 2008 Corrigé
Pas encore d'évaluation
Examen OCclass 2008 Corrigé
6 pages
Syllabus m1 Gadm Azizi Module Datamining2021 2022
Pas encore d'évaluation
Syllabus m1 Gadm Azizi Module Datamining2021 2022
6 pages
Analyse de Clustering et Classification
Pas encore d'évaluation
Analyse de Clustering et Classification
4 pages
Introduction à la Recherche Opérationnelle
Pas encore d'évaluation
Introduction à la Recherche Opérationnelle
2 pages
TP OADM Décision Multicritères
100% (2)
TP OADM Décision Multicritères
19 pages
TP3 - SVM-23-24
Pas encore d'évaluation
TP3 - SVM-23-24
3 pages
Polycopie SEP 2021-Converti
Pas encore d'évaluation
Polycopie SEP 2021-Converti
46 pages
Corrigé TD : Codage et Classification
Pas encore d'évaluation
Corrigé TD : Codage et Classification
10 pages
Introduction au Text Mining
Pas encore d'évaluation
Introduction au Text Mining
5 pages
FP Growth
Pas encore d'évaluation
FP Growth
16 pages
Apprentissage Supervise
Pas encore d'évaluation
Apprentissage Supervise
16 pages
ML Exam Final
Pas encore d'évaluation
ML Exam Final
4 pages
Examia 083 C
Pas encore d'évaluation
Examia 083 C
9 pages
Introduction à l'Apprentissage Automatique
Pas encore d'évaluation
Introduction à l'Apprentissage Automatique
164 pages
UP3 2 Fouille de Donnees Handout
Pas encore d'évaluation
UP3 2 Fouille de Donnees Handout
65 pages
TD4-Assoc Rules (Corrigé)
Pas encore d'évaluation
TD4-Assoc Rules (Corrigé)
4 pages
Prédictions Tennis et Achat Ordinateur
Pas encore d'évaluation
Prédictions Tennis et Achat Ordinateur
2 pages
Chap07 DecisionTrees
Pas encore d'évaluation
Chap07 DecisionTrees
82 pages
KNN Régression : Analyse Auto-MPG et Évaluation des Modèles
Pas encore d'évaluation
KNN Régression : Analyse Auto-MPG et Évaluation des Modèles
2 pages
Arbres de décision en data mining
Pas encore d'évaluation
Arbres de décision en data mining
49 pages
Exercice corrigé SVM sur vins de Bordeaux
Pas encore d'évaluation
Exercice corrigé SVM sur vins de Bordeaux
2 pages
DataMining Et Analyse de Données - Partie 2
Pas encore d'évaluation
DataMining Et Analyse de Données - Partie 2
108 pages
Exercice Neural Network
Pas encore d'évaluation
Exercice Neural Network
1 page
Analyse de la courbe ROC
Pas encore d'évaluation
Analyse de la courbe ROC
3 pages
Resume Afc
Pas encore d'évaluation
Resume Afc
4 pages
Introduction à l'apprentissage par renforcement
Pas encore d'évaluation
Introduction à l'apprentissage par renforcement
27 pages
Le Raisonnement Incertain
Pas encore d'évaluation
Le Raisonnement Incertain
9 pages
Cours 5-6 Perceptron-SVM
100% (1)
Cours 5-6 Perceptron-SVM
76 pages
Leçon6-Arbre de Decision
100% (2)
Leçon6-Arbre de Decision
25 pages
Arbre de Décision
Pas encore d'évaluation
Arbre de Décision
25 pages
Évaluation des Compétences 5AEP
Pas encore d'évaluation
Évaluation des Compétences 5AEP
3 pages
Trees
Pas encore d'évaluation
Trees
32 pages
Introduction Aux Techniques de Vente
Pas encore d'évaluation
Introduction Aux Techniques de Vente
20 pages
Tragique Quotidien Maeterlinck
Pas encore d'évaluation
Tragique Quotidien Maeterlinck
111 pages
Expose Sur La Prostitution de Macaire Etty
100% (2)
Expose Sur La Prostitution de Macaire Etty
7 pages
Statut des règles morphophonologiques
Pas encore d'évaluation
Statut des règles morphophonologiques
69 pages
Cours 3BC I, 2
Pas encore d'évaluation
Cours 3BC I, 2
6 pages
Fiche Tech New Bt-50 DC 4x4 1.9l DSL Mid Luxe
Pas encore d'évaluation
Fiche Tech New Bt-50 DC 4x4 1.9l DSL Mid Luxe
2 pages
Ouiii
Pas encore d'évaluation
Ouiii
94 pages
Chambre Frigorifique - Client360
Pas encore d'évaluation
Chambre Frigorifique - Client360
2 pages
TD1 Chap 1 Statistique Descriptive
100% (1)
TD1 Chap 1 Statistique Descriptive
3 pages
Exercices sur le mouvement dans les champs
Pas encore d'évaluation
Exercices sur le mouvement dans les champs
4 pages
Chute et Dynamique d'un Solide
Pas encore d'évaluation
Chute et Dynamique d'un Solide
3 pages
Machines À Courant Continu
Pas encore d'évaluation
Machines À Courant Continu
110 pages
Cours sur la Récursivité et Paradigme "Diviser pour Régner"
Pas encore d'évaluation
Cours sur la Récursivité et Paradigme "Diviser pour Régner"
16 pages
QCM CCF
100% (1)
QCM CCF
4 pages
Modélisation et Gestion de Portefeuille
Pas encore d'évaluation
Modélisation et Gestion de Portefeuille
114 pages
Programme C : Nombres Amis et Somme de Chiffres
Pas encore d'évaluation
Programme C : Nombres Amis et Somme de Chiffres
2 pages
Examen ADO.NET Licence 3 Semestre 1
Pas encore d'évaluation
Examen ADO.NET Licence 3 Semestre 1
1 page
Manual For IOS FR
Pas encore d'évaluation
Manual For IOS FR
16 pages
Centrale Solaire pour Hôpital Ajim
Pas encore d'évaluation
Centrale Solaire pour Hôpital Ajim
4 pages
Fiche Technique Bat Sol
Pas encore d'évaluation
Fiche Technique Bat Sol
2 pages
Gamme Produits Kyocera: Imprimantes Et Multifonctions
Pas encore d'évaluation
Gamme Produits Kyocera: Imprimantes Et Multifonctions
25 pages
Présentation de la communauté du renseignement
Pas encore d'évaluation
Présentation de la communauté du renseignement
29 pages
Sika Viscocrete Tempo 10 nt204
Pas encore d'évaluation
Sika Viscocrete Tempo 10 nt204
2 pages
105 L'echelle
Pas encore d'évaluation
105 L'echelle
2 pages
Note de Calcul
Pas encore d'évaluation
Note de Calcul
11 pages
Exercices de Formation en SST avec Corrections
Pas encore d'évaluation
Exercices de Formation en SST avec Corrections
14 pages
Automate TSX 17
Pas encore d'évaluation
Automate TSX 17
12 pages
Hymne Amour Marching Band
Pas encore d'évaluation
Hymne Amour Marching Band
20 pages