Classification par Arbres de Décision CART
Classification par Arbres de Décision CART
[Link]
Email: [Link]@[Link] 2023/2024
Apprentissage Automatique
1
2/25/2024
L'algorithme CART, pour Classification And Regression Tree (Breiman et al., 1984), est
employé pour former un arbre de décision. Il opère via une approche gloutonne,
récursive et divisive pour partitionner l'espace. X2
t2
t1
X1
s1 s2
CART repose sur l'utilisation d'un critère de segmentation, lequel est une mesure calculée à partir d'un
sous-ensemble de l'ensemble de données d'apprentissage. Ce critère guide le processus de prise de
décision en déterminant la caractéristique 𝑋𝑗 et la valeur T sur lesquelles la décision sera basée à chaque
nœud.
1. Calculer la valeur du critère de segmentation, représenté par Ci,j, pour chaque caractéristique en prenant en
compte toutes les observations pour lesquelles la valeur de 𝑋𝑗 est inférieure à 𝑡𝑗 , où 𝑡𝑗 représente la j-ème valeur
possible pour 𝑋𝑗 .
3. Divisez les observations en deux groupes : S1 comprend celles pour lesquelles 𝑋𝑗 < 𝑡𝑗 , et S2 comprend celles pour
lesquelles 𝑋𝑗 ≥ 𝑡𝑗 .
4. Recommencer à l’étape 1 avec le sous-ensemble S1 (respectivement S2) sauf si S1 (respectivement S2) ne contient que
des observations de la même classe.
2
2/25/2024
virginica
Longueur du pétale < 4.95
Largeur du péta
3
2/25/2024
Ensemble de règles :
virginica
versicolor
•Longueur du pétale < 2.45 → classe = setosa
•Longueur du pétale ≥ 2.45 et Largeur du pétale < 1.75 et Longueur du pétale < 4.95 → classe = versicolor
•Longueur du pétale ≥ 2.45 et Largeur du pétale < 1.75 et Longueur du pétale ≥ 4.95 et Largeur du pétale ≥ 1.55 → classe= versicolor
•Longueur du pétale ≥ 2.45 et Largeur du pétale < 1.75 et Longueur du pétale ≥ 4.95 et Largeur du pétale < 1.55 → classe= virginica
•Longueur du pétale ≥ 2.45 et Largeur du pétale ≥ 1.75 → classe = virginica
Apprentissage Automatique Chapitre 3: Classification:
Arbres de décision
La classe d’une observation x dans X est prédite par : Longueur du pétale < 2.45
Example:
virginica
x : Longueur du pétale = 5, Largeur du pétale = 1.5 versicolor
4
2/25/2024
Variable de séparation
À chaque nœud est associée une variable de séparation (splitting variable) 𝑗 ∈ 1, … , 𝑝 qui sera utilisée
pour partitionner les données.
Cette variable de séparation divise les données en deux régions, correspondant aux enfants du nœud en
question.
En supposant n observations 𝑥Ԧ 1 , 𝑥Ԧ 2 , …, 𝑥Ԧ 𝑛 de 𝑥 étiquetées par 𝑦Ԧ 1 , 𝑦Ԧ 2 , …, 𝑦Ԧ 𝑛 , et R régions
𝑅1 , 𝑅2 , … , 𝑅𝑅 , . . . , on peut écrire:
la variable de séparation est la variable de séparation est une la variable de séparation est une
binaire variable discrète variable réelle
𝑅𝐺 𝑗, 𝑠 = { 𝑋 : 𝑋𝑗 = 0 } 𝑅𝐺 𝑗, 𝑠 = { 𝑋 : 𝑋𝑗 ∈ 𝑆𝑒 } 𝑅𝐺 𝑗, s = { 𝑋 : 𝑋𝑗 < s }
𝑅𝐷 𝑗, 𝑠 = { 𝑋 : 𝑋𝑗 = 1 } 𝑅𝐷 𝑗, 𝑠 = { 𝑋 : 𝑋𝑗 ∈ 𝑆𝑒 } 𝑅𝐷 𝑗, 𝑠 = { 𝑋 : 𝑋𝑗 ≥ s}
Email: [Link]@[Link]
Si nous considérons une variable continue 𝑋𝑗 et supposons que les valeurs prises par cette variable dans 𝑥 soient
𝑋𝑗𝑖+𝑋𝑗𝑖+1
[Link]
ordonnées telles que 𝑋𝑗1 ≤ 𝑋𝑗2 ≤ ... ≤ 𝑋𝑗𝑛 , alors les valeurs possibles de 𝒔 sont pour toutes les valeurs de 𝑖 tells
2
que 𝑋𝑗𝑖 ≠ 𝑋𝑗𝑖+1
Apprentissage Automatique Chapitre 3: Classification:
Arbres de décision
•CART utilise une approche gloutonne pour diviser les données à chaque
nœud.
Il évalue toutes les divisions possibles et sélectionne celle qui réduit au mieux
l'impureté des sous-ensembles résultants.
Pour les problèmes de classification, CART utilise l'impureté de Gini comme critère de
division. Plus l'impureté de Gini est faible, plus le sous-ensemble est pur.
Pour les problèmes de régression, CART utilise la réduction des résidus comme critère de
division. Plus la réduction des résidus est faible, meilleure est l'ajustement du modèle aux
Email: [Link]@[Link]
données.
[Link]
5
2/25/2024
Entropie croisée
L'entropie croisée est utilisée pour mesurer l'impureté d'une région R afin
de sélectionner la séparation qui maximise le gain d'information.
𝐶
6
2/25/2024
– Pour illustrer comment l'impureté de Gini est calculée, considérons l'exemple suivant.
– Supposons que nous ayons un problème de classification binaire, où nous voulons prédire si une
personne achètera un produit particulier en fonction de son âge et de son revenu.
Nous voulons construire un arbre de décision pour prédire si une personne achètera le produit en fonction
de son âge et de son revenu.
Chapitre 3: Classification:
Apprentissage Automatique
Arbres de décision
7
2/25/2024
Email: [Link]@[Link]
1 1 140 |2 | 38000
𝐻(𝑅𝑚 ) = |𝑅 ො 2
σ𝑖∈𝑅𝑚(𝑦𝑖 − 𝑦) Où : 𝑦
ො = |𝑅 σ𝑦∈𝑅𝑚 𝑦
𝑚| 𝑚| Exemple d’un datset de régression
[Link]
Apprentissage Automatique Chapitre 3: Classification:
Arbres de décision
Déviance demi-Poisson : est une mesure utilisée dans les modèles de régression
pour évaluer l'ajustement d'un modèle de régression aux données observées.
1 𝑦𝑖 1
𝐻(𝑅𝑚 ) = σ𝑖∈𝑅𝑚 (𝑦𝑙𝑜𝑔 − 𝑦𝑖 + 𝑦)
ො Où : 𝑦ො = σ𝑦∈𝑅𝑚 𝑦
|𝑅𝑚 | 𝑦ො |𝑅𝑚 |
Erreur Absolue Moyenne (Mean Absolute Error ) : value la moyenne des écarts
absolus entre les valeurs observées et les valeurs prédites par le modèle.
1
𝐻(𝑅𝑚 ) = ( 𝑦𝑖 − 𝑚𝑒𝑑𝑖𝑎𝑛(𝑦)
ො ) Où : 𝑚𝑒𝑑𝑖𝑎𝑛(𝑦)
ො = 𝑚𝑒𝑑𝑖𝑎𝑛 𝑦
Email: [Link]@[Link]
|𝑅𝑚 | 𝑦∈𝑅𝑚
𝑖∈𝑅𝑚
[Link]
8
2/25/2024
1 1
𝑆𝑀𝑆𝐸 = ො 2 +
σ𝑖∈𝑅𝑔 (𝑦𝑖 − 𝑦) ො 2
σ𝑖∈𝑅𝑔 (𝑦𝑖 − 𝑦)
Email: [Link]@[Link]
|𝑅𝑔 | |𝑅𝑑 |
[Link]
Apprentissage Automatique Chapitre 3: Classification:
Arbres de décision
X Y X Y
12 10 19 55
13 10 21 80
22 83
14 13
23 80
15 20
24 83
17.5 35 25 85
18 44 28 100
18.5 52 29 100
120
100
80
Email: [Link]@[Link]
60
40
Comment CART procède-t-il au fractionnement de
[Link]
20
0
l'ensemble de données (prédicteur = 1) ?
0 5 10 15 20 25 30 35
9
2/25/2024
X Y X Y
12 10 19 55
13 10 21 80
22 83
R1 R2
14 13
23 80
15 20
24 83
17.5 35 25 85
18 44 28 100
18.5 52 29 100
Email: [Link]@[Link]
deux régions, en commençant par 𝑘 la première Moyenne 56.667
observation X=12. 1
𝐻(𝑅 ) =
𝑚 (𝑦 − 𝑦)ො 2 𝑖
|𝑅𝑚 |
𝑖∈𝑅
[Link]
𝑆𝑀𝑆𝐸 = (10-10)2+ 1/14 *( (10-60)2+ (13-60)2+ (20-60)2+ (35-60)2+ #observations 1 #observations 14
(44-60)2+ (52-60)2+… (100-60)2 )= 925.85 Moyenne 10 Moyenne 60
X Y X Y
12 10 19 55
13 10 21 80
22 83
R1 R2
14 13
23 80
15 20
24 83
17.5 35 25 85
18 44 28 100
18.5 52 29 100
Moyenne 56.667
𝑆𝑀𝑆𝐸 = ½*((10-10)2+ (10-10)2 )+ 1/13 * ((13- 63.84)2+ (20- 63.84)2+ (35-
63.84)2+ (44- 63.84)2+ (52- 63.84)2+… (100- 63.84)2 )= 789.97
[Link]
#observations 2 #observations 13
Moyenne 10 Moyenne 63.84
10
2/25/2024
X Y X Y
12 10 19 55
13 10 21 80
22 83
R1 R2
14 13
23 80
15 20
24 83
17.5 35 25 85
18 44 28 100
18.5 52 29 100
Email: [Link]@[Link]
𝑆𝑀𝑆𝐸 = 1/3 * ((10-11)2+ (10-11)2+ (13- 11)2)+ 1/12 *((20- 68.08)2+ Moyenne 56.667
(35- 68.08)2+ (44- 68.08)2+ (52- 68.08)2+… (100- 68.08)2 )= 624.40
[Link]
#observations 3 #observations 12
Moyenne 11 Moyenne 68.08
X Y X Y
12 10 19 55
13 10 21 80
22 83
R1 R2
14 13
23 80
15 20
24 83
17.5 35 25 85
18 44 28 100
18.5 52 29 100
Moyenne 56.667
𝑆𝑀𝑆𝐸 = 1/4* ((10-13.25)2+ (10-13.25)2+ (13- 13.25)2+ (20- 13.25)2)+
1/11* ((35- 72.45)2+ (44- 72.45)2+ (52- 72.45)2+… (100- 72.45)2 )=
[Link]
466.38
#observations 4 #observations 11
Moyenne 13.25 Moyenne 72.45
11
2/25/2024
X Y X Y
12 10 19 55
13 10 21 80
R1 R2
22 83
14 13
23 80
15 20
24 83
17.5 35 25 85
18 44 28 100
18.5 52 29 100
Email: [Link]@[Link]
Moyenne 56.667
𝑆𝑀𝑆𝐸 = 1/5 * ((10- 17.6)2+ (10- 17.6)2+ (13- 17.6)2+ (20- 17.6)2+ (35-
[Link]
17.6)2)+ 1/10 * ((44- 76.2)2+ (52- 76.2)2+… (100- 76.2)2 )= 429.36
#observations 5 #observations 10
Moyenne 17.6 Moyenne 76.2
X Y X Y
12 10 19 55
13 10 21 80
R1 R2
22 83
14 13
23 80
15 20
24 83
17.5 35 25 85
18 44 28 100
18.5 52 29 100
12
2/25/2024
Méthodes de régularisation
Dans le but de prévenir le surajustement (overfitting) on recourt aux méthodes de régularisation.
Les arbres de décision ont tendance à s'adapter trop étroitement aux données d'entraînement, ce qui peut
entraîner une performance médiocre sur de nouvelles données. La régularisation permet de contrôler la
croissance de l'arbre et de limiter sa complexité, ce qui favorise une meilleure généralisation et une
réduction du surajustement.
Il existe plusieurs méthodes de régularisation simples :
• Nombre minimum de points par feuille :
exiger que chaque feuille couvre un nombre minimum donné de points d'entraînement.
• Profondeur maximale :
Email: [Link]@[Link]
limiter la profondeur maximale de l'arbre.
Le nombre de points par feuille, le nombre de feuilles, etc. peuvent être considérés comme un
[Link]
hyperparamètre de la méthode d'apprentissage de l'arbre de décision.
Les méthodes ensemblistes, comme les forêts aléatoires, reposent sur une idée
centrale commune qui est assez intuitive :
Si un seul médecin vous annonce probablement une Vous sollicitiez l'avis d'autres personnes
maladie grave nécessitant une intervention chirurgicale. ou d'experts avant de former le vôtre.
que ferez-vous ?
Ensuite, ces différents estimateurs sont combinés pour fournir une vue d'ensemble.
13
2/25/2024
14
2/25/2024
N sous-ensembles (avec
remplacement)
Algorithme
d'apprentissage
AD
Données
d’entraînement
Algorithme
d'apprentissage
AD
Algorithme
d'apprentissage
AD
Algorithme
d'apprentissage
AD
Un échantillon de
test
Vote
15
2/25/2024
Algorithme
Couleur
Couleur
Données d'apprentissage
d’entraînement AD
Texture
Vert 83 3.5 Lisse Pomme d'apprentissage
Vert 111 3.5 Rugueux Pomme AD
…
Orange 121 3.9 Rugueux Orange
Algorithme
d'apprentissage
AD
Poids Poids
Un échantillon de Poids
test
Poids
16
2/25/2024
Réajuster en fonction
Tous les échantillons
des erreurs du modèle
ont le même poids.
Réajuster en
fonction des erreurs
du modèle actuel.
Email: [Link]@[Link]
L’approche séquentielle du boosting vise à construire un ensemble de modèles faibles
[Link]
focalisés sur les erreurs du modèle. À chaque itération, des apprenants faibles sont
ajoutés pour renforcer les performances du modèle final.
Apprentissage Automatique Chapitre 3: Classification:
Forêts aléatoires.
17
2/25/2024
Vote
18
2/25/2024
• Les méthodes ensemblistes combinent plusieurs algorithmes d'apprentissage pour obtenir des
améliorations de performances par rapport à leurs composants.
• Les Forêts Aléatoires sont une méthode d'apprentissage ensembliste qui utilise
l'apprentissage par arbre de décision pour construire plusieurs arbres grâce au bagging et à
la méthode du sous-espace aléatoire. Elles corrigent le problème de surajustement des
arbres de décision !
Apprentissage Automatique Chapitre 3: Classification:
Forêts aléatoires.
19