0% ont trouvé ce document utile (0 vote)

41 vues34 pages

Cours AD

L'arbre de décision est une méthode d'apprentissage supervisé utilisée pour la classification et la régression, apprenant des relations entre variables indépendantes et une variable cible. L'algorithme CART, qui construit un arbre de décision binaire, utilise des critères comme l'indice de Gini pour minimiser l'impureté des nœuds. Des techniques d'élagage, telles que le pré-élagage et le post-élagage, sont appliquées pour contrôler la complexité de l'arbre et améliorer sa performance.

Transféré par

ikram.khemiri

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

41 vues34 pages

Cours AD

Transféré par

ikram.khemiri

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Apprentissage supervisé

ARBRE DE DÉCISION
Présentation générale
■ L'arbre de décision est une technique d'apprentissage
supervisé actif.
■ Il fait partie des méthodes d'apprentissage automatique
supervisé qui visent à apprendre des relations entre un
ensemble de caractéristiques (variables indépendantes) et
une variable cible (variable dépendante) à partir de données
d'entraînement.
■ L'arbre de décision est principalement utilisé pour deux types
de tâches la classification et la régression
Arbre de décision

3
Arbre de décision
◼ Exemple : Type de maladie en fonction des symptômes

Classifier l’instance suivante ?

5
<douleur = gorge, Fièvre = non>
Arbre de décision

◼ Un arbre de décision est représenté par une

séquence de conditions.

◼ Rhume = (Douleur = gorge et Fièvre = oui

ou
(Douleur = aucune et
toux = oui et fièvre = oui)

5
Arbre de décision: Apprentissage

◼ Première possibilité: produire un chemin pour

chaque donnée d’entraînement

A1
A1 A2 A3 Sortie
+ + + 1
+ + - 0 A2
+ - - 0

A3 A3

1
0 0

6
Arbre de décision: Apprentissage
❑ Etape1: Sélection de l’attribut de division
▪ Trouver l’attribut qui est le meilleur
discriminant sur l’ensemble d’entraînement

❑ Etape2 : Division des données

▪ Un nœud enfant est créé pour chacune des
valeurs possibles de l’attribut
▪ Les exemples d’entraînement sont ensuite
assignés à leurs nœuds correspondants

❑ Etape 3: Récursivité
• Les étapes 1 et 2 sont répétées pour chaque sous-
ensemble créé à partir de la division précédente.

L'algorithme continue à diviser les données jusqu'à ce

7
qu'un critère d'arrêt soit satifsfait
Comment choisir le
meilleur discriminant?

[39+, 31-‐-] [39+, 31-‐-]

Attr 1 Attr2

[20+, 15-‐-] [19+, 16-‐-] [39+, 0-‐-] [0+, 31-‐-]

Lequel des deux attributs choisir?

8
Élagage

◼ Contrôler la complexité du nombre des branches et des

feuilles pour réaliser un arbre de décision.

◼ Minimiser la taille de l’arbre.

◼ Trouver le nombre optimale de nœuds.
◼ Deux techniques d’élagage
 Pré-élagage.
 Post-élagage

9
Pré-élagage

◼ Arrêter quand il y a une classe majoritaire dans le nœud.

◼ Utiliser un seuil pour détecter une classe dominante.

◼ Inconvénients:
 Arrêter la construction de l’arbre peut donner un arbre sous optimal.

10
Post-élagage

◼ Finir la construction de l’arbre.

◼ Simplifier l’arbre en remontant des feuilles vers la
racine pour trouver ou élaguer.

◼ Utiliser des critères de qualité qui mesure un

compromis l’erreur obtenue et la complexité de
l’arbre.

◼ Utiliser un ensemble de validation pour mesurer

l’erreur à chaque nnœud.

11
L’algorithme CART

• Algorithme de classifcation utilisé à la fois pour la

classification et la régression

• Le principe général est de construire un arbre de décision

binaire en divisant récursivement les données en sous
ensembles de plus en plus petits de manière à minimiser
l’impureté des noeuds
L’algorithme CART – Critère de séparation
Utilise le Critère de séparation : Indice de Gini

Avec n : nombre de classes à prédire

pi : proportion de la classe dans le noeud

Plus l’indice de Gini est bas, plus le noeud est pure 𝒏

𝑰𝑮 = 𝟏 − ෍ 𝒑𝒊𝟐
Exemple : Arbre CART 𝒊=𝟏
- p1 = 1 et p2 = 0 IG = 0 >>> pure
- p1 = 0,5 et p2 = 0,5 IG = 0,5 >>> impureté maximale
- P1 =0,7 et p2 =0,3 IG = 0,42 >>> impureté moyenne

En séparant un noeud en 2 noeuds fils on cherche à minimiser l’impureté

et donc à maximiser la réduction de l’impureté

La variable la plus discriminante doit maximiser la formule du gain:

IG(avant séparation)-[pg*IG(filsg) +pd IG(filsd)]

Les "Pondérations" pg et pd sont les proportions des données qui se

trouvent dans chaque sous-ensemble g et d après la division
L’algorithme CART - Etapes
1- Sélectionner la valeur de division e/ou le seuil qui maximise la réduction
d’impureté

2- Création des noeuds filsg et filsd en fonction de la valeur de division et du

seuil

3- Répétition de manière récursive sur chaque nœud fils jusqu’à critère

d’arrêt

4- Eventuel « élagage de l’arbre »

➢ Critères d’arrêt:

▪ Profondeur maximale de l’arbre

▪ Nombre minimal d’exemples par feuille
▪ Impureté minimale
▪ …
L’algorithme CART- Exemple

Une banque dispose des informations

suivantes sur un ensemble de clients:

M : moyenne des montants sur le

compte client.
A : tranche d'âge du client.
E : valeur oui si le client a un niveau
d'études supérieures.

I : classe oui correspond à un client qui

effectue une consultation de ses
comptes bancaires en utilisant Internet

La racine peut être : M, A, E ????

L’algorithme CART
- Exemple

Indice de Gini avant séparation au NIVEAU DE LA RACINE :

8 clients
I=oui : 3 clients
I=non : 5 clients

IG(avant séparation) = 1 – ( (3/8)² + (5/8)² ) = 0.46875

Proportion des I = oui
Proportion des I = non

Il faut étudier le Gain pour chaque attribut (M, A et E)et choisir celui
qui maximise la réduction de l’impureté
L’algorithme CART

Gain de la variable M (Moyenne des montants sur le compte client ):

3 modalités de M (faible, moyen, elevé):

Il faut chercher le split à faire:

1ère possiblité de division: (non élevé, elevé)

2ème possibilté de division:(non moyen, moyen)
3ème possibilté de division: (non faible, faible)

Remarque:
Non élevé = moyen ou faible
Non moyen = faible ou élevé
Non faible = moyen ou élevé
L’algorithme CART

Gain de la variable
M (Moyenne des montants sur le compte client ):
3 modalités de M ( faible, moyen, elevé):

1ère possiblité de division: (non élevé , élevé)

M= Non elevé (Moyen+faible) : 6 clients →(I=oui : 3 clients, I=non : 3 client )

IG_fg =1 – ( (3/6)² + (3/6)² )=0,5

M= Elevé: 2 clients →(I=oui : 0 clients I=non : 2 clients)

IG_fd =1– ( (0/2)² + (2/2)² )=0

Gain= 0.46875 - ((6/8)* IG_fg + (2/8)* IG_fd)=0,09

L’algorithme CART

Gain de la variable M (Moyenne des montants sur le compte client ):

3 modalités de M ( faible, moyen, elevé):

2ème possibilté de division:

(non moyen, moyen)

M= non moyen : 5 clients →(I=oui : 1 clients, I=non : 4 client )

IG_fg =1 – ( (1/5)² + (4/5)² )=0,32

M= moyen: 3 clients →(I=oui : 2 clients I=non : 1 clients)

IG_fd=1– ( (2/3)² + (1/3)² )=0,444

Gain= 0.46875 - ((5/8)* IG_fg + (3/8)* IG_fd)=0,10

L’algorithme CART
Gain de la variable M (Moyenne des montants sur le compte client ):
3 modalités de M ( faible, moyen, elevé):

3ème possibilté de division:

(non faible , faible)

M= non faible: 5 clients →(I=oui : 2 clients, I=non : 3 clients )

IG_fg =1 – ( (2/5)² + (3/5)² )=0,48

M= faible: 3 clients →(I=oui : 1 clients I=non : 2 clients)

IG_fd=1– ( (1/3)² + (2/3)² )=0.444

Gain= 0.46875 - ((5/8)* IG_fg + (2/8)* IG_fd)=0,00225

L’algorithme CART
La variable A (tranche d’âge):
3 modalités de A : (jeune, moyen, agé):

• 1ère possibilité (non âgé, âgé)

A= non âgé: 5 client (I=oui : 3 client , I=non : 2 clients)

IG_fg=1– ( (3/5)² + (2/5)² )=0,48

A= âgé: 3 clients (I=oui : 0 clients , I=non : 3 clients )

IG_fd =1 – ( (0/3)² + (3/3)² )=0

Gain= 0.46875 - ((5/8)* IG_fg + (3/8)* IG_fd )=0,16875

L’algorithme CART
La variable A (tranche d’âge):
3 modalités de A : (jeune, moyen, âgé):

• 2ème possibilité
(non moyen, moyen)

A= non moyen : 4 clients (I=oui : 1 client , I=non : 3 clients)

IG_fg=1– ( (1/4)² + (3/4)² )=0.375

A= Moyen: 4 clients (I=oui : 2 clients , I=non : 2 clients )

IG_fd =1 – ( (2/4)² + (2/4)² )=0,5

Gain= 0.46875 - ((4/8)* IG_fg + (4/8)* IG_fd )=0,03

L’algorithme CART

La variable A (tranche d’âge):

3 modalités de A : (jeune, moyen, agé):

• 3ème possibilité(non jeune, jeune)

A= non jeune: 7 clients (I=oui : 2 client , I=non : 5 clients)

IG_fg=1– ( (2/5)² + (7/5)² )=0.375

A= jeune: 1 clients (I=oui : 1 clients , I=non : 0clients )

IG_fd =0

Gain= 0.46875 - ((7/8)* IG_fg + (1/8)* IG_fd )=0,11175

L’algorithme CART

La variable E :
2 modalités : binaire:

E= Oui : 5 clients (I=oui : 3 clients, I=non : 2 clients )

IG_fg= 1– ( (3/5)² + (2/5)² ) =0,48

E= Non: 3 clients (I=oui : 0 clients, I=non : 3 clients )

IG_fd=1– ( (0/3)² + (3/3)² )=0

Gain= 0.46875 - ((5/8)* IG_f1 + (3/8)* IG_f2 =0,14375

L’algorithme CART

Synthèse pour le choix de la racine:

• E→ binaire→0,14
• M → (non élevé , élevé) → 0,09
• M → (non moyen , moyen) → 0,10
• M → (non faible , faible) → 0,00225
• A→(non âgé, âgé)→ 0,16875
• A→(non moyen, moyen)→ 0,03
• A→(non faible, faible)→ 0,11175

On choisit alors A (non agé, agé)

L’algorithme CART
La variable A étant notre racine:

A
Non âgé âgé

non
????

M ou E
??

Et nous continuons le travail sur

cette nouvelle portion de data
L’algorithme CART
La variable continue au niveau des features:
L’algorithme CART
La variable continue au niveau des features:

Pour le er cas 167,5

L’algorithme CART
La variable continue au niveau des features:

En cherchant l’indice
de Gini pour chaque
valeur de division,
selon les moyennes
pondérées:
Cas de la régression
Exemple Arbre de régression

moyenne

𝑦=140
ത

𝑦=120
ത 𝑦=190
ത

𝑦=110
ത 𝑦=145
ത 𝑦=180
ത 𝑦=220
ത
Critère de séparation
On considère le coût de chaque nœud après division:

Côut(nœud) = pg* MSE(filsg) +pd MSE (filsd)

pg et pd sont les proportions des données qui se trouvent

dans chaque sous-ensemble g et d après la division

σ𝒏
𝒊=𝟏(𝒚𝒊−𝒚)
𝟐
MSE =
𝒏

Mean Square Error (Erreur quadratique moyenne)

On choisit le nœud qui a un moindre coût et donc qui

minimise l’erreur de prédiction
Exemple Surface
𝑦=160
ത
Surface
72
Prix
180
<= 65 > 65 58 140
𝑦=140
ത 𝑦=170
ത
76 160

Pour le Seuil = 65

Avant division : 𝑦=
ത (180+140+160)/3 = 160
Après division :

<= 65 : 1 exemple et 𝑦ത = 140 (filsg)

> 65 : 2 exemples et 𝑦ത = 170 (filsd)

1 2
Côut (Nœud) = MSE(filsg) + MSE(filsd)
3 3

Gauche: MSE(filsg) = (140 − 140)2 = 0

Gauche: MSE(filsd) = ( (180 − 170)2 + (160 − 170)2 )/2=100

𝟏 𝟐
Côut (Nœud) = 0+ 100= 66,66
L’algorithme CART

Avantages
• Il s'agit d'un algorithme simple et intuitif, facile à
comprendre et à interpréter.

• Il peut traiter des données numériques et catégorielles.

• Il peut traiter les problèmes de classification multi-classes

en utilisant une extension appelée multi-classCART

• Sensible aux données d’apprentissage

Inconvénients
• Il a tendance à surapprendre les données, en particulier si
l'arbre est trop profond.

• Il s'agit d'un algorithme gourmand en mémoire qui peut ne

pas trouver l'arbre optimal.

Vous aimerez peut-être aussi

Arbre de décision : Algorithme CART
100% (1)
Arbre de décision : Algorithme CART
14 pages
Classification Par Arbre de Décision Cart
Pas encore d'évaluation
Classification Par Arbre de Décision Cart
48 pages
Arbres de Décision CART : Concepts et Limites
Pas encore d'évaluation
Arbres de Décision CART : Concepts et Limites
19 pages
Les Arbres de Decisions LE 2025
Pas encore d'évaluation
Les Arbres de Decisions LE 2025
39 pages
Arbres de Décision en Datamining
Pas encore d'évaluation
Arbres de Décision en Datamining
46 pages
Decisiontree CART
Pas encore d'évaluation
Decisiontree CART
16 pages
Arbres de Décisions
Pas encore d'évaluation
Arbres de Décisions
11 pages
Arbre de Décision - GI2
Pas encore d'évaluation
Arbre de Décision - GI2
29 pages
Arbres de Décision et Classification
Pas encore d'évaluation
Arbres de Décision et Classification
44 pages
Classification avec CART et Random Forest
Pas encore d'évaluation
Classification avec CART et Random Forest
5 pages
Arbre de Decision
Pas encore d'évaluation
Arbre de Decision
44 pages
Arbres de Décision en IA
Pas encore d'évaluation
Arbres de Décision en IA
24 pages
Classification par Arbres de Décision CART
Pas encore d'évaluation
Classification par Arbres de Décision CART
19 pages
Datamining Cours 03
Pas encore d'évaluation
Datamining Cours 03
25 pages
ADD New
Pas encore d'évaluation
ADD New
22 pages
Arbres de décision : concepts et implémentation
Pas encore d'évaluation
Arbres de décision : concepts et implémentation
20 pages
Cour 3
Pas encore d'évaluation
Cour 3
9 pages
Chapitre 2 A
Pas encore d'évaluation
Chapitre 2 A
164 pages
ML Arbres Et Boosting 5 French
Pas encore d'évaluation
ML Arbres Et Boosting 5 French
42 pages
Cours5 ArbresDécision
Pas encore d'évaluation
Cours5 ArbresDécision
35 pages
Apprentissage Supervisé et Classification
Pas encore d'évaluation
Apprentissage Supervisé et Classification
83 pages
Présentation Adm
Pas encore d'évaluation
Présentation Adm
30 pages
ML Add2
Pas encore d'évaluation
ML Add2
28 pages
Algorithmes de Machine Learning en 2023
100% (1)
Algorithmes de Machine Learning en 2023
52 pages
Cours de Machine Learning - Séance N°5 Méthodes D'ensemble
Pas encore d'évaluation
Cours de Machine Learning - Séance N°5 Méthodes D'ensemble
20 pages
Leçon6-Arbre de Decision
100% (2)
Leçon6-Arbre de Decision
25 pages
Introduction aux arbres de décision en ML
Pas encore d'évaluation
Introduction aux arbres de décision en ML
17 pages
Arbre de décision pour prêts clients
Pas encore d'évaluation
Arbre de décision pour prêts clients
4 pages
Arbres de décision en apprentissage automatique
Pas encore d'évaluation
Arbres de décision en apprentissage automatique
12 pages
Arbres de Décision
100% (1)
Arbres de Décision
23 pages
Introduction à l'apprentissage automatique
Pas encore d'évaluation
Introduction à l'apprentissage automatique
74 pages
Cours Fouille de Données
100% (1)
Cours Fouille de Données
59 pages
Classification : Arbres de décision et Gini
Pas encore d'évaluation
Classification : Arbres de décision et Gini
4 pages
Améliorations de la rétropropagation
Pas encore d'évaluation
Améliorations de la rétropropagation
6 pages
Classification supervisée avec arbres décisionnels
Pas encore d'évaluation
Classification supervisée avec arbres décisionnels
11 pages
Classification par arbres de décision
Pas encore d'évaluation
Classification par arbres de décision
30 pages
Introduction aux arbres de décision CART
Pas encore d'évaluation
Introduction aux arbres de décision CART
65 pages
Chapitre 2 - Machine Learning - Les Arbres de Décision
Pas encore d'évaluation
Chapitre 2 - Machine Learning - Les Arbres de Décision
10 pages
Chapitre2 DecisionTrees CART
Pas encore d'évaluation
Chapitre2 DecisionTrees CART
53 pages
Examen Ia
Pas encore d'évaluation
Examen Ia
11 pages
Data Mining Algorithms
Pas encore d'évaluation
Data Mining Algorithms
20 pages
Evaluation Et Séléction Du Modèle 2
Pas encore d'évaluation
Evaluation Et Séléction Du Modèle 2
36 pages
Classification Decision Tree
Pas encore d'évaluation
Classification Decision Tree
52 pages
Chapitre - MachineLearning - Arbre de Decison
Pas encore d'évaluation
Chapitre - MachineLearning - Arbre de Decison
31 pages
Arbres de Décision en Apprentissage Automatique
Pas encore d'évaluation
Arbres de Décision en Apprentissage Automatique
6 pages
Arbres de Decision
Pas encore d'évaluation
Arbres de Decision
80 pages
Méthodes de Classification en Apprentissage Supervisé
Pas encore d'évaluation
Méthodes de Classification en Apprentissage Supervisé
63 pages
Arbres CART et Forêts aléatoires : Guide
Pas encore d'évaluation
Arbres CART et Forêts aléatoires : Guide
46 pages
Arbre de Decision
Pas encore d'évaluation
Arbre de Decision
6 pages
Arbres de Décision et FDD par Christelle Scharff
Pas encore d'évaluation
Arbres de Décision et FDD par Christelle Scharff
52 pages
Algorithme Machine Learng
Pas encore d'évaluation
Algorithme Machine Learng
16 pages
Méthodes d'Apprentissage Non-Supervisées
Pas encore d'évaluation
Méthodes d'Apprentissage Non-Supervisées
65 pages
Arbres de décision en data mining
Pas encore d'évaluation
Arbres de décision en data mining
49 pages
Arbres de Decision PDF
Pas encore d'évaluation
Arbres de Decision PDF
43 pages
Arbres de Décision: Concepts et Algorithmes
100% (1)
Arbres de Décision: Concepts et Algorithmes
28 pages
Corrigé D'un Examen de Machine Learning S4 Génie MIS
100% (1)
Corrigé D'un Examen de Machine Learning S4 Génie MIS
25 pages
Ensta App 03 Arbres Ensembles
Pas encore d'évaluation
Ensta App 03 Arbres Ensembles
33 pages
Apprentissage Statistique en Ingénierie Mathématique
Pas encore d'évaluation
Apprentissage Statistique en Ingénierie Mathématique
24 pages
Diagonalisation
Pas encore d'évaluation
Diagonalisation
68 pages
TD 2 RAM
Pas encore d'évaluation
TD 2 RAM
3 pages
Méthode des forces en ingénierie
Pas encore d'évaluation
Méthode des forces en ingénierie
2 pages
Exos Complet 1 e
Pas encore d'évaluation
Exos Complet 1 e
70 pages
Analyse de Données pour Licence MRI
Pas encore d'évaluation
Analyse de Données pour Licence MRI
7 pages
Exercices sur la propagation d'incertitudes
Pas encore d'évaluation
Exercices sur la propagation d'incertitudes
2 pages
Graphe Théorie
Pas encore d'évaluation
Graphe Théorie
70 pages
Calcul Diff
100% (1)
Calcul Diff
8 pages
Aquarium
Pas encore d'évaluation
Aquarium
1 page
Devoir de mathématiques 2BAC SMF
Pas encore d'évaluation
Devoir de mathématiques 2BAC SMF
1 page
Guide d'utilisation de Report Painter
Pas encore d'évaluation
Guide d'utilisation de Report Painter
47 pages
Diapo Logique MAN
Pas encore d'évaluation
Diapo Logique MAN
24 pages
1 - Spécialité - 02 - Second Degré - 03 - Racines D'un Polynôme Du Second Degré
Pas encore d'évaluation
1 - Spécialité - 02 - Second Degré - 03 - Racines D'un Polynôme Du Second Degré
6 pages
Suites Numeriques Niveau Terminale Scientifiq
Pas encore d'évaluation
Suites Numeriques Niveau Terminale Scientifiq
3 pages
CH #3 Centre de Gravité - CDG
100% (1)
CH #3 Centre de Gravité - CDG
9 pages
Contrôle continu d'algèbre linéaire 2017-2018
Pas encore d'évaluation
Contrôle continu d'algèbre linéaire 2017-2018
9 pages
Algebre Lineaire
Pas encore d'évaluation
Algebre Lineaire
51 pages
SCH Emas Aux Diff Erences Finies Pour L' Equation de La Chaleur
Pas encore d'évaluation
SCH Emas Aux Diff Erences Finies Pour L' Equation de La Chaleur
2 pages
Statistiques Appliquées : Estimations et Intervalles
Pas encore d'évaluation
Statistiques Appliquées : Estimations et Intervalles
5 pages
Travaux Pratiques d'Électronique 2007-2008
50% (2)
Travaux Pratiques d'Électronique 2007-2008
42 pages
1bex - 06 - Trigo - Cr1Fr - Ammari 2
Pas encore d'évaluation
1bex - 06 - Trigo - Cr1Fr - Ammari 2
1 page
Electronique Numérique1
Pas encore d'évaluation
Electronique Numérique1
28 pages
Types de mouvements rectilignes
Pas encore d'évaluation
Types de mouvements rectilignes
2 pages
Techniques de filtrage d'images numériques
Pas encore d'évaluation
Techniques de filtrage d'images numériques
16 pages
Lab Leviers
Pas encore d'évaluation
Lab Leviers
7 pages
Introduction à la théorie des graphes
Pas encore d'évaluation
Introduction à la théorie des graphes
49 pages
Série de TD
Pas encore d'évaluation
Série de TD
2 pages
FORTRAN pour Génie Civil 3ème Année
Pas encore d'évaluation
FORTRAN pour Génie Civil 3ème Année
40 pages
Cours ML Msid 2021
Pas encore d'évaluation
Cours ML Msid 2021
175 pages
Évaluation de Mathématiques 3ème 2023-2024
Pas encore d'évaluation
Évaluation de Mathématiques 3ème 2023-2024
2 pages