Classification supervisée avec R : Arbres de décision et Forêts aléatoires

Ce document décrit l'utilisation de méthodes de classification supervisée comme les arbres de décision et les forêts aléatoires pour prédire la maladie cardiaque à partir de données de patients. Il explique les étapes de construction, d'élagage et d'évaluation des modèles, ainsi que l'utilisation de la validation croisée.

Transféré par

Sana Hamdi

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

73 vues5 pages

Classification supervisée avec R : Arbres de décision et Forêts aléatoires

Transféré par

Sana Hamdi

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Institut Supérieur Dr.

Sana HAMDI
d’informatique Filière : MP1_SD
Et de Mathématique

TP 3 : Les méthodes de structuration et de classification en

apprentissage supervisé
I. Objectif :

L'objectif de ce TP est la mise en œuvre de méthodes de classification supervisée, l'accent

étant mis sur l'application des arbres de décision et leurs évolutions en Forêt aléatoire, la
mesure de leurs performances selon la nature des échantillons, l'utilisation des approches de
validation pour l'évaluation des modèles construit avec R, l'interprétation des résultats.

II. L'arbre de décision CART (Classification And Regression Tree)

Nous nous intéressons pour notre étude de cas à la base de données « Heart Disease » qui
contient des données de 462 patients pour lesquels on souhaite prédire l'exposition à un
infarctus. Les détails concernant cette base de données sont dans l'annexe C.

1. Echantillonnage : Apprentissage vs Test

Comme pour tout modèle, nous avons besoin de construire l'arbre de décision sur une base
d'apprentissage et de la tester ensuite sur une base de test. La librairie rpart pour la
construction d'arbre de décision inclus de la validation croisée mais il est toujours préférable
de calculer la performance sur un échantillon qui n'est pas impliqué dans le calcul. De ce fait,
nous commençons par séparer nos données en 2 échantillons :

2. Construction de l'arbre de décision

Le package rpart (https ://[Link]/web/packages/rpart/[Link]) est dédié aux
arbres de décision. Nous allons construire un modèle d'arbre de décision grâce à la commande
suivante :

1/4
Les commandes suivantes permettent d'afficher l'arbre de décision sous forme graphique :

3. Élagage de l'arbre de décision

L'un des inconvénients majeur des arbres de décisions est l'utilisation fréquente des variables
moins pertinentes pour l'étape de construction de l'arbre (sur-apprentissage). Ce problème est
résolu par l'étape d'élagage qui consiste à supprimer les sous-arbres super us ou trop liés aux
données, dans le but d'améliorer d'une part, l'aspect prédictif de l'arbre, et réduire d'autre part
sa complexité. À ce stade, si nous souhaitons élaguer l'arbre de décision, il su-t d'exécuter la
commande plotcp() pour déterminer la taille optimale :

4. Évaluation des performances

La prédiction de la variable classe chd pour la base de test s'opère par la commande predict(),
dont le premier argument est le nom du modèle utilisé, et le second, newdata, est le nom du
data frame contenant les éléments de la base de test :

Il est capital que le data frame contenant la base de test soit calqué sur celle ayant servi à la
construction de l'arbre : mêmes noms de colonnes (classe incluse), mêmes types de variables,
etc.

Le logiciel R permet de réaliser de manière très simple la courbe ROC ( Receiver Operating
Characteristic (transmission de signal) qui représente l'évolution de la sensibilité (taux de
vrais positifs) en fonction de 1 - spécificité (taux de faux positifs).

2/4
III. Forêts aléatoires
Le package randomForest a la fonction randomForest() qui est utilisée pour créer et analyser
des forêts aléatoires.

L'application de la fonction d'échantillonnage aléatoire seed() rend vos résultats

reproductibles la prochaine fois que vous chargez le code, car sinon vous pouvez obtenir
différentes classifications pour chaque exécution. Le numéro à l'intérieur n'est pas important,
il vous suffit de vous assurer d'utiliser le même nombre dans seed() à chaque fois afin que les
mêmes nombres aléatoires soient générés dans la fonction randomforest.

Au lieu de spécifier method = "class" comme avec rpart, nous forçons le modèle à prédire
notre classification en modifiant temporairement notre variable cible en un facteur avec
seulement deux niveaux en utilisant [Link](). L'argument ntree spécifie le nombre d'arbres
que nous voulons développer.

Pour identifier le nombre optimal de caractères mtry (variables à sélectionner à chaque

fractionnement), il est possible d'appliquer la fonction RFtune() qui peut nous aider à décider
le nombre optimal de variables de scission dans chaque arbre.

3/4
Le premier argument dans tuneRF() est la donnée contenant des variables indépendantes, la
seconde est une variable prédominante, le troisième est le nombre d'arbres, le facteur de
démarcation est le pas. Delà nous pourrons relancer l'apprentissage de la forêt aléatoire avec
le paramétrage optimal.

La fonction de prédiction fonctionne de manière similaire aux arbres de décision, et nous

pouvons construire notre chier de soumission exactement de la même manière. De ce fait,
nous utilisons le modèle optimal pour la prédiction sur les données de test et nous essayons de
voir comment sont les prédictions :

La forêt aléatoire pour le traitement des données manquantes

La bibliothèque randomForest fournit deux façons de traiter les valeurs manquantes :
[Link] x() : traite les valeurs manquantes de manière classique. Pour les valeurs
manquantes numériques, il impute avec la médiane de la colonne et pour les valeurs
manquantes des caractères, l'imputation arrive avec le mode (la plus grande valeur).

4/4
5/4

Vous aimerez peut-être aussi

TP Data Mining : KNN et Arbres
Pas encore d'évaluation
TP Data Mining : KNN et Arbres
8 pages
Arbres de Décision en R : Guide Pratique
Pas encore d'évaluation
Arbres de Décision en R : Guide Pratique
16 pages
ML Arbres Et Boosting 5 French
Pas encore d'évaluation
ML Arbres Et Boosting 5 French
42 pages
TP Decision Trees
Pas encore d'évaluation
TP Decision Trees
3 pages
Arbres
Pas encore d'évaluation
Arbres
65 pages
Classification supervisée avec R
Pas encore d'évaluation
Classification supervisée avec R
11 pages
TP: Découverte de CART avec rpart
100% (1)
TP: Découverte de CART avec rpart
12 pages
Projet Arbre de Decision
Pas encore d'évaluation
Projet Arbre de Decision
18 pages
Algorithme Random Forest : Guide SEO
Pas encore d'évaluation
Algorithme Random Forest : Guide SEO
11 pages
Random Forst
Pas encore d'évaluation
Random Forst
12 pages
IUT Info de Nice Côte D'azur Ressource R4.04
Pas encore d'évaluation
IUT Info de Nice Côte D'azur Ressource R4.04
8 pages
Chapitre 2 Apprentissage Automatique: Les Arbres de Décision
Pas encore d'évaluation
Chapitre 2 Apprentissage Automatique: Les Arbres de Décision
12 pages
Random Forest
Pas encore d'évaluation
Random Forest
33 pages
Arbre Decision + Random Forest (Sans Calcul)
Pas encore d'évaluation
Arbre Decision + Random Forest (Sans Calcul)
2 pages
TP7 Fouille de Données 2025
Pas encore d'évaluation
TP7 Fouille de Données 2025
5 pages
TP2 Decision Trees 23 24
Pas encore d'évaluation
TP2 Decision Trees 23 24
4 pages
Chapitre4 DTree&Foret
Pas encore d'évaluation
Chapitre4 DTree&Foret
70 pages
Classification Randomforest
Pas encore d'évaluation
Classification Randomforest
22 pages
Présentation Adm
Pas encore d'évaluation
Présentation Adm
30 pages
TP RF Correction
Pas encore d'évaluation
TP RF Correction
12 pages
Importantaussi-Fr Tanagra Scikit Learn Decision Tree
Pas encore d'évaluation
Importantaussi-Fr Tanagra Scikit Learn Decision Tree
24 pages
Arbre de Decision
Pas encore d'évaluation
Arbre de Decision
44 pages
Blue and White Clean Modern Company Project Proposal
Pas encore d'évaluation
Blue and White Clean Modern Company Project Proposal
30 pages
Chap 8 Notes1
Pas encore d'évaluation
Chap 8 Notes1
6 pages
12 Stats III
Pas encore d'évaluation
12 Stats III
60 pages
Méthodes Ensemble
Pas encore d'évaluation
Méthodes Ensemble
7 pages
Chapitre III ML Les Arbres de Decision
Pas encore d'évaluation
Chapitre III ML Les Arbres de Decision
20 pages
Arbres de Décision CART : Concepts et Limites
Pas encore d'évaluation
Arbres de Décision CART : Concepts et Limites
19 pages
TP N°2 PDF
Pas encore d'évaluation
TP N°2 PDF
50 pages
TP 2 Les Arbres de Décision
Pas encore d'évaluation
TP 2 Les Arbres de Décision
9 pages
Algorithmes d'apprentissage par arbres
Pas encore d'évaluation
Algorithmes d'apprentissage par arbres
17 pages
TP: Arbres de Décision en ML
Pas encore d'évaluation
TP: Arbres de Décision en ML
6 pages
Arbetsege
Pas encore d'évaluation
Arbetsege
14 pages
Cour 3
Pas encore d'évaluation
Cour 3
9 pages
3 Arbre de Décision Chap3
100% (1)
3 Arbre de Décision Chap3
14 pages
Chap3 Arbres Sahbi
Pas encore d'évaluation
Chap3 Arbres Sahbi
46 pages
RF Beamer
Pas encore d'évaluation
RF Beamer
29 pages
TP: Arbres de Décision en ML
Pas encore d'évaluation
TP: Arbres de Décision en ML
6 pages
TPnote 20232024
Pas encore d'évaluation
TPnote 20232024
2 pages
Aah
Pas encore d'évaluation
Aah
2 pages
Gi TP
Pas encore d'évaluation
Gi TP
2 pages
Random Forest Regression 2025
Pas encore d'évaluation
Random Forest Regression 2025
9 pages
?o?e?s A?e?t?i?e?
Pas encore d'évaluation
?o?e?s A?e?t?i?e?
28 pages
Optimisation des arbres de décision
Pas encore d'évaluation
Optimisation des arbres de décision
19 pages
Arbres de Décision
100% (1)
Arbres de Décision
23 pages
TP3 Arbre de Décision
Pas encore d'évaluation
TP3 Arbre de Décision
3 pages
Arbre de décision en Data Mining avec Python
100% (1)
Arbre de décision en Data Mining avec Python
6 pages
Introduction à l'Apprentissage Automatique
Pas encore d'évaluation
Introduction à l'Apprentissage Automatique
164 pages
Chapitre 2 - Machine Learning - Les Arbres de Décision
Pas encore d'évaluation
Chapitre 2 - Machine Learning - Les Arbres de Décision
10 pages
Chapitre 4. Arbre de Décision
Pas encore d'évaluation
Chapitre 4. Arbre de Décision
26 pages
Classification Par Arbre de Décision ID3 C4.5 EXC
Pas encore d'évaluation
Classification Par Arbre de Décision ID3 C4.5 EXC
103 pages
7 - Apprentissage Supervise - Random Forests
Pas encore d'évaluation
7 - Apprentissage Supervise - Random Forests
32 pages
Arbre de Décision
Pas encore d'évaluation
Arbre de Décision
25 pages
Initiation à la Fouille de Données
Pas encore d'évaluation
Initiation à la Fouille de Données
38 pages
Module: Fouille de Données TD 1: Classification Par Arbre de Décision
Pas encore d'évaluation
Module: Fouille de Données TD 1: Classification Par Arbre de Décision
3 pages
Cours AA 11 Octobre
Pas encore d'évaluation
Cours AA 11 Octobre
39 pages
TD 04 - Représentations Des Arbres de Décision.R
Pas encore d'évaluation
TD 04 - Représentations Des Arbres de Décision.R
2 pages
Poele MCZ - Télécommande
Pas encore d'évaluation
Poele MCZ - Télécommande
32 pages
Quiz Primavera p6 Ghita Elhamzaoui
Pas encore d'évaluation
Quiz Primavera p6 Ghita Elhamzaoui
2 pages
Sécurité et Fonctionnement des Applications Web
Pas encore d'évaluation
Sécurité et Fonctionnement des Applications Web
3 pages
Étude sur la perte de charge en robinetterie
Pas encore d'évaluation
Étude sur la perte de charge en robinetterie
4 pages
Tfe Anael Et Judicael - Version - 7 Finale
Pas encore d'évaluation
Tfe Anael Et Judicael - Version - 7 Finale
75 pages
Série Langage C 3 (Tableaux)
100% (1)
Série Langage C 3 (Tableaux)
2 pages
Vérification iCloud et IMEI iPhone Gratuite
Pas encore d'évaluation
Vérification iCloud et IMEI iPhone Gratuite
1 page
Notice du Récepteur Wally V2
Pas encore d'évaluation
Notice du Récepteur Wally V2
2 pages
Introduction à la Programmation Fonctionnelle
Pas encore d'évaluation
Introduction à la Programmation Fonctionnelle
28 pages
Pack CP - Période 1 Cahier D'exercices, Corrections Et de Leçons Vacances de La Toussaint PDF
Pas encore d'évaluation
Pack CP - Période 1 Cahier D'exercices, Corrections Et de Leçons Vacances de La Toussaint PDF
1 page
FR Syllabus+Prompt+Engineer 02062025
Pas encore d'évaluation
FR Syllabus+Prompt+Engineer 02062025
19 pages
Types et fonctionnement des imprimantes
Pas encore d'évaluation
Types et fonctionnement des imprimantes
18 pages
Liste Des Abréviations XXN 2023
Pas encore d'évaluation
Liste Des Abréviations XXN 2023
4 pages
Corrigé E3A 2003 Maths
Pas encore d'évaluation
Corrigé E3A 2003 Maths
6 pages
Carnet de Rapport Semaine 3 Aldo Rojas
Pas encore d'évaluation
Carnet de Rapport Semaine 3 Aldo Rojas
12 pages
Guide de Télédéclaration DGI 2024
Pas encore d'évaluation
Guide de Télédéclaration DGI 2024
46 pages
Fiche MP-TM Com Vf12
Pas encore d'évaluation
Fiche MP-TM Com Vf12
8 pages
Formulaire de Description de Poste
Pas encore d'évaluation
Formulaire de Description de Poste
5 pages
Photos de Chattes Nues
Pas encore d'évaluation
Photos de Chattes Nues
1 page
Algorithme Random Forest
Pas encore d'évaluation
Algorithme Random Forest
32 pages
Maths Bac D 2024
Pas encore d'évaluation
Maths Bac D 2024
3 pages
Note de Pré-Soutenance de La Thèse Professionnelle LG ESCA
Pas encore d'évaluation
Note de Pré-Soutenance de La Thèse Professionnelle LG ESCA
5 pages
Arbre de Défaillance Optimaint Guide
Pas encore d'évaluation
Arbre de Défaillance Optimaint Guide
8 pages
Demande de Stage de Perfectionnement PDF
Pas encore d'évaluation
Demande de Stage de Perfectionnement PDF
1 page
Exposé-Palplanches - 1
100% (3)
Exposé-Palplanches - 1
10 pages
Tle A4 Travaux Diriges 2024
Pas encore d'évaluation
Tle A4 Travaux Diriges 2024
2 pages
F-14301 Collection de Tous Les Grades de La Maçonnerie - 1895
100% (1)
F-14301 Collection de Tous Les Grades de La Maçonnerie - 1895
134 pages
Cours 4 - Notions de Fiabilité
Pas encore d'évaluation
Cours 4 - Notions de Fiabilité
10 pages
PQBE21 S3 P
Pas encore d'évaluation
PQBE21 S3 P
3 pages
1GEL1522 Support de Cours (Provisoire)
Pas encore d'évaluation
1GEL1522 Support de Cours (Provisoire)
110 pages