0% ont trouvé ce document utile (0 vote)

139 vues26 pages

Ensemble Learning - Forêt Aléatoire, Boosting, Stacking

L'apprentissage par ensemble combine plusieurs modèles pour améliorer la précision des prédictions, incluant des méthodes comme le bagging, la forêt aléatoire, le boosting et le stacking. Le bagging réduit la variance en utilisant des échantillons bootstrapés, tandis que le boosting améliore progressivement la précision en corrigeant les erreurs des modèles précédents. Le stacking combine des modèles robustes pour créer un modèle final optimisé en minimisant l'erreur.

Transféré par

Alaza KAGNAYA

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

139 vues26 pages

Ensemble Learning - Forêt Aléatoire, Boosting, Stacking

Transféré par

Alaza KAGNAYA

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Jour26

#100JoursDeStat&ML
Isabelle LACMAGO

ENSEMBLE LEARNING

P O U R Q U O I U N A P P R E N T I S S AG E D ’ E N S E M B L E ?
QUELLE DÉFINITION?
B A G G I N G , R A N D O M F O R E S T, B O O S T I N G , S TA C K I N G ?
ENSEMBLE
LEARNING

OBJECTIF ET DÉFINITION
RAPPELS:
• Sur apprentissage: Cas d’un modèle qui colle trop aux données
d’apprentissage.
• Sous apprentissage: Cas d’un modèle trop simple.

Sur apprentissage Sous apprentissage

Biais est faible Biais élevé,

Variance est élevé Variance faible
OBJECTIF:

Obtenir un modèle ayant la meilleure précision possible:

• Biais faible
• Variance faible
UN ENSEMBLE LEARNING:

• Méthode d’apprentissage supervisée

→En modélisation prédictive

• Utilise plusieurs modèles pour créer un nouveau modèle en

regroupant leurs prévisions.
✓Combiner plusieurs modèles peu robustes:
→bagging, random forest
→boosting
✓Combiner quelques modèles robustes:
→staking
BAGGING

I D É E P R I N C I PA L , O B J E C T I F E T P R I N C I P E
L’idée principal du bagging est basée sur le rappel suivant:

Soit 𝑋1 , … , 𝑋𝑛 n observation d’une variable quantitative X de

1 𝑛
moyenne 𝜇 et de variance 𝜎2. 𝑋𝑛 = σ𝑖=1 𝑋𝑖 :
𝑛
✓E(𝑋𝑛 ) =𝜇
𝜎2
✓Var(𝑋𝑛 ) =
𝑛

→ Plus n est grand, plus la variance de 𝑋𝑛 est faible.

Une manière simple et naturelle de réduire la variance et d’améliorer
la précision de l’échantillon de test est de:

• considérer plusieurs échantillons d’apprentissage;

• construire le modèle sur chaque échantillon et

• agréger les prédictions obtenues.

En pratique nous avons une seule base d’apprentissage

BAGGING:

Boostrap Agging: averaging

Objectif:
• Réduire la variance d’une méthode d’apprentissage statistique
qui sur-apprend.
Fréquemment utilisé dans le contexte des arbres de décisions.
PRINCIPE:

Générer B Agréger les résultats

Construire en
échantillons des B modèles pour
parallèle le modèle
boostrapés de la prendre une
sur les B échantillons
base d’apprentissage. décision:

Vote à la majorité
Moyenne dans le cas
dans le cas de la
de la régression
classification
BAGGING

A U T R E S A V A N TA G E S D U B A G G I N G
OUT OF BAG:

• Lors du Bootstrap, près du tiers des observations ne sont pas

utilisés général:
→Out of bag

• Pas de nécessité de validation croisée ou de base de validation

• Ces out of bag, sont utilisés pour la validation

→L’utilisation du out of bag est équivalent à la validation croisée leave one out.
MESURE D’IMPORTANCE DES VARIABLES:

• Le bagging améliore la précision des prédictions mais réduit

l’interprétabilité du modèle de base.

• Toutefois, l’implémentation du bagging nous permet d’avoir une

mesure d’importance des variables explicatives.

• Cette mesure permet de classer les variables explicatives selon leur

importance pour prédire la variable dépendante.
LES
FORÊTS
A L É AT O I R E S

R A N D O M F O R E S T : L E S F O R Ê T S A L É AT O I R E S
FORÊT ALÉATOIRE:

• Méthode d’apprentissage statistique supervisée.

• Basée sur l’agrégation de plusieurs arbres aléatoires réalisé en

parallèle.

• Idée: si les arbres sont suffisamment indépendants entre eux, cela

permet de réduire la variance et donc le sur apprentissage.
FORÊT ALÉATOIRE:

La forêt aléatoire rend le bagging des arbres de décision plus efficace

en ajoutant une étape supplémentaire lors de la création de chaque
arbre :

À chaque nœud, on choisit de manière aléatoire et indépendante un petit

groupe de variables pour déterminer la meilleure séparation.

L'idée est de réduire la similarité entre les arbres.

BOOSTING

IDÉE ET EXEMPLE
BOOSTING:

• Pas d’échantillon bootstrappés.

• Contrairement au bagging qui est en parallèle, il est séquentiel.

• Améliore la précision du modèle à petit pas.

• Idée: construire un modèle initial, et successivement, chaque

nouveau modèle est estimé pour corriger et améliorer celui qui le
précède.
BOOSTING:
Deux idées d’amélioration principales:

• À l’étape suivante donner plus de poids aux observations

sur lesquelles on s’est trompé:
→ Adaboost: adaptative boostrap.

• Apprentissage des résidus:

→Gradient boosting
→XG boost: extrême gradient boosting
S TA C K I N G

IDÉE ET PRINCIPE
STACTING:

Idée:

• Combine quelques modèles robustes:

→forêt aléatoire, KNN, XG boost, régression …

• Pour améliorer la précision des prédictions.

PRINCIPE:
• Choisir les modèles:
→Exemple: forêt aléatoire, KNN, régression

• Entrainer ces modèles sur la même base de données

• Estimer les pondérations à utiliser pour obtenir le modèle final:

𝑓መ 𝑥 = 𝛼1 ⋅ 𝑓෢ ෢ ෢
fa 𝑥 + 𝛼2 ⋅ 𝑓knn 𝑥 + 𝛼3 ⋅ 𝑓reg 𝑥

→Les valeurs prédites des modèles initiales sont comme les variables explicatives du
modèle final
→Les pondérations sont trouvées en minimisant l’erreur
ENSEMBLE
LEARNING

QUE RETENIR?
Les « ensemble learning » font référence à toute méthode
d’apprentissage statistique supervisés qui combine
plusieurs modèles pour faire des prédictions. On y
trouve le bagging, la forêt aléatoire, le boosting et le
stacking.

Le bagging se résume en trois étapes:

→ Construire plusieurs copies de l’échantillon
d’apprentissage à partir du boostrap;
→ Estimer en parallèle le modèle sur chaque copie;
→ Combiner les estimations pour créer un nouveau
modèle prédictif.
Le random forest est utilisé pour améliorer le bagging des
arbres de décision en réduisant les corrélations entre les
arbres.

Contrairement au bagging, le boosting se fait de manière

séquentielle en améliorant la précision du modèle en
petits pas.

Le stacking lui, il utilisera quelques modèles (différents)

robustes pour faire des prédictions. En considérant une
combinaison linéaire de ces modèles.
As-tu des questions? As-tu des remarques?

Un like, un partage Un commentaire!

ISABELLE LACMAGO, DATA SCIENTIST

Vous aimerez peut-être aussi

Notes de Cours Ensemble Learning
Pas encore d'évaluation
Notes de Cours Ensemble Learning
6 pages
Corrigé Examen Data Mining 2019
Pas encore d'évaluation
Corrigé Examen Data Mining 2019
3 pages
DM TD4
Pas encore d'évaluation
DM TD4
2 pages
Cours DL - Part5 (Prof)
Pas encore d'évaluation
Cours DL - Part5 (Prof)
78 pages
Matrices de confusion et modèles prédictifs
Pas encore d'évaluation
Matrices de confusion et modèles prédictifs
5 pages
Algorithmes d'IA et Machine Learning
Pas encore d'évaluation
Algorithmes d'IA et Machine Learning
10 pages
Introduction à l'apprentissage automatique
Pas encore d'évaluation
Introduction à l'apprentissage automatique
5 pages
Métriques de La Cohésion & Du Couplage: Liste Des Membres Du Groupe
Pas encore d'évaluation
Métriques de La Cohésion & Du Couplage: Liste Des Membres Du Groupe
28 pages
Classification Par Arbre de Décision ID3 C4.5 EXC
Pas encore d'évaluation
Classification Par Arbre de Décision ID3 C4.5 EXC
103 pages
Output 4
Pas encore d'évaluation
Output 4
3 pages
TP Sur Regression Logistique
Pas encore d'évaluation
TP Sur Regression Logistique
4 pages
Quiz 02-K Nearest Neighbors
100% (1)
Quiz 02-K Nearest Neighbors
1 page
Arbres - Decision 18 19
Pas encore d'évaluation
Arbres - Decision 18 19
76 pages
Examen Apprentissage - Profond
Pas encore d'évaluation
Examen Apprentissage - Profond
3 pages
Examen ML 2023 Correction
Pas encore d'évaluation
Examen ML 2023 Correction
5 pages
Corrigétype
Pas encore d'évaluation
Corrigétype
4 pages
Introduction au Text Mining
Pas encore d'évaluation
Introduction au Text Mining
5 pages
Régression linéaire sur la consommation de poulet
Pas encore d'évaluation
Régression linéaire sur la consommation de poulet
9 pages
NLP
100% (1)
NLP
4 pages
Chapitre 5 - Les Arbres de D-Cision
Pas encore d'évaluation
Chapitre 5 - Les Arbres de D-Cision
33 pages
Examen
Pas encore d'évaluation
Examen
4 pages
Apprentissage Supervisé Avec Python: Objectifs
Pas encore d'évaluation
Apprentissage Supervisé Avec Python: Objectifs
4 pages
Introduction aux SVM et classification
Pas encore d'évaluation
Introduction aux SVM et classification
18 pages
Différences entre apprentissage automatique et profond
0% (1)
Différences entre apprentissage automatique et profond
13 pages
Systèmes de Recommandation Collaboratifs
Pas encore d'évaluation
Systèmes de Recommandation Collaboratifs
79 pages
Introduction à l'apprentissage non supervisé
Pas encore d'évaluation
Introduction à l'apprentissage non supervisé
43 pages
Prétraitement des données en data mining
Pas encore d'évaluation
Prétraitement des données en data mining
1 page
Examen Master IDM : Fouille de Données
100% (1)
Examen Master IDM : Fouille de Données
2 pages
Epreuve DM Concours de Doctorat Univ Annaba 2019-2020 (Tchi Drive)
100% (1)
Epreuve DM Concours de Doctorat Univ Annaba 2019-2020 (Tchi Drive)
3 pages
Syllabus m1 Gadm Azizi Module Datamining2021 2022
Pas encore d'évaluation
Syllabus m1 Gadm Azizi Module Datamining2021 2022
6 pages
TD4-Clustering1 (Corrigé)
100% (1)
TD4-Clustering1 (Corrigé)
3 pages
Examen ML: Classification et Préparation
Pas encore d'évaluation
Examen ML: Classification et Préparation
6 pages
K-Means Clustering avec Hadoop MapReduce
Pas encore d'évaluation
K-Means Clustering avec Hadoop MapReduce
11 pages
Examen ML66
Pas encore d'évaluation
Examen ML66
4 pages
Optimisation des Hyperparamètres en ML
Pas encore d'évaluation
Optimisation des Hyperparamètres en ML
39 pages
INF8111 - Exercices + Solutions
Pas encore d'évaluation
INF8111 - Exercices + Solutions
32 pages
Cours IA - Chapitre 2 - R-Seaux de Neurones
Pas encore d'évaluation
Cours IA - Chapitre 2 - R-Seaux de Neurones
24 pages
TP 2 Clustering
Pas encore d'évaluation
TP 2 Clustering
2 pages
Introduction aux Réseaux de Neurones Récurrents
Pas encore d'évaluation
Introduction aux Réseaux de Neurones Récurrents
66 pages
Algorithme de Strassen et Complexité
Pas encore d'évaluation
Algorithme de Strassen et Complexité
18 pages
Examen IA 22-23 - Cycle
Pas encore d'évaluation
Examen IA 22-23 - Cycle
4 pages
Thèse Complète Elong
Pas encore d'évaluation
Thèse Complète Elong
120 pages
Exercices SVM et Arbres de Décision 2019
Pas encore d'évaluation
Exercices SVM et Arbres de Décision 2019
2 pages
Introduction à Python et Scikit-learn
Pas encore d'évaluation
Introduction à Python et Scikit-learn
6 pages
Exercices de recherche d'information LSI
Pas encore d'évaluation
Exercices de recherche d'information LSI
2 pages
Système de recommandation de films
100% (1)
Système de recommandation de films
4 pages
Méthodes Ensemblistes en Machine Learning
Pas encore d'évaluation
Méthodes Ensemblistes en Machine Learning
30 pages
TD1 Apriori
100% (1)
TD1 Apriori
2 pages
Cours Apprentissage Automatique-1 ch1
Pas encore d'évaluation
Cours Apprentissage Automatique-1 ch1
68 pages
Machine Learning Francais
Pas encore d'évaluation
Machine Learning Francais
133 pages
Examen Ia
Pas encore d'évaluation
Examen Ia
11 pages
Apprentissage: Régression Logistique
Pas encore d'évaluation
Apprentissage: Régression Logistique
3 pages
Questions clés sur l'apprentissage automatique
Pas encore d'évaluation
Questions clés sur l'apprentissage automatique
8 pages
Examen Apprentissage Automatique 2021
Pas encore d'évaluation
Examen Apprentissage Automatique 2021
3 pages
K-means : Apprentissage non supervisé
Pas encore d'évaluation
K-means : Apprentissage non supervisé
7 pages
Chapitre 3 - Classification Supervisé
Pas encore d'évaluation
Chapitre 3 - Classification Supervisé
31 pages
Presentation KNN
Pas encore d'évaluation
Presentation KNN
11 pages
Concours Doctorat Informatique 2017-2018
Pas encore d'évaluation
Concours Doctorat Informatique 2017-2018
4 pages
Méthodes d'Ensemble : Bagging et Boosting
Pas encore d'évaluation
Méthodes d'Ensemble : Bagging et Boosting
4 pages
Portfolio 2D DIU
Pas encore d'évaluation
Portfolio 2D DIU
36 pages
Meuleuse 125mm Bosch Pws 750 125 750 W PDF
Pas encore d'évaluation
Meuleuse 125mm Bosch Pws 750 125 750 W PDF
13 pages
Impact de la chaîne logistique en pharmacie
Pas encore d'évaluation
Impact de la chaîne logistique en pharmacie
109 pages
Ostracodes : Crustacés Marins et Écologiques
100% (2)
Ostracodes : Crustacés Marins et Écologiques
9 pages
TD141b - MC2E
Pas encore d'évaluation
TD141b - MC2E
4 pages
Rapport de Stage Isc 1
Pas encore d'évaluation
Rapport de Stage Isc 1
16 pages
Interblocage en programmation système
Pas encore d'évaluation
Interblocage en programmation système
2 pages
Syllabus Projet Tutore 2
Pas encore d'évaluation
Syllabus Projet Tutore 2
41 pages
Cacao Durable À Mbangassina
Pas encore d'évaluation
Cacao Durable À Mbangassina
83 pages
Cours 5ème Année Contrôle Qualité de La Substance Active.
100% (1)
Cours 5ème Année Contrôle Qualité de La Substance Active.
34 pages
Optimisation des requêtes Oracle
Pas encore d'évaluation
Optimisation des requêtes Oracle
22 pages
Exercices de programmation Pascal et logique
Pas encore d'évaluation
Exercices de programmation Pascal et logique
3 pages
Expose Ressources Energetiques Benin
Pas encore d'évaluation
Expose Ressources Energetiques Benin
4 pages
Transfert D'apprentissage en Psychologie
Pas encore d'évaluation
Transfert D'apprentissage en Psychologie
19 pages
Alimentation Nutrition Et Pathologie
Pas encore d'évaluation
Alimentation Nutrition Et Pathologie
33 pages
Contraintes des apprentissages scolaires
Pas encore d'évaluation
Contraintes des apprentissages scolaires
14 pages
Support de Finances Publiques-1
Pas encore d'évaluation
Support de Finances Publiques-1
158 pages
Joker Tapuscrit
Pas encore d'évaluation
Joker Tapuscrit
11 pages
Épreuve de Mathématiques Bac 2016
Pas encore d'évaluation
Épreuve de Mathématiques Bac 2016
2 pages
Délibérations Annuelles 2020/2021
Pas encore d'évaluation
Délibérations Annuelles 2020/2021
8 pages
CV de Zakaria AIT-LAHCEN - Ingénieur Électronique
Pas encore d'évaluation
CV de Zakaria AIT-LAHCEN - Ingénieur Électronique
2 pages
Mesure de la Terre et Réfraction Astronomique
Pas encore d'évaluation
Mesure de la Terre et Réfraction Astronomique
32 pages
Sawadogo Fatimata
Pas encore d'évaluation
Sawadogo Fatimata
70 pages
Géomorphologie et Écologie: Concepts clés
Pas encore d'évaluation
Géomorphologie et Écologie: Concepts clés
4 pages
Microscope Électronique À Balayage
100% (3)
Microscope Électronique À Balayage
11 pages
Les Marqueurs Grammaticaux de Lenonciation
Pas encore d'évaluation
Les Marqueurs Grammaticaux de Lenonciation
7 pages
Gudule
Pas encore d'évaluation
Gudule
4 pages
Untitled
Pas encore d'évaluation
Untitled
158 pages
Introduction à l'astrologie Bazi et Qi Gong
Pas encore d'évaluation
Introduction à l'astrologie Bazi et Qi Gong
2 pages
Guide CRM pour débutants en informatique
Pas encore d'évaluation
Guide CRM pour débutants en informatique
27 pages