0% ont trouvé ce document utile (0 vote)
139 vues26 pages

Ensemble Learning - Forêt Aléatoire, Boosting, Stacking

L'apprentissage par ensemble combine plusieurs modèles pour améliorer la précision des prédictions, incluant des méthodes comme le bagging, la forêt aléatoire, le boosting et le stacking. Le bagging réduit la variance en utilisant des échantillons bootstrapés, tandis que le boosting améliore progressivement la précision en corrigeant les erreurs des modèles précédents. Le stacking combine des modèles robustes pour créer un modèle final optimisé en minimisant l'erreur.

Transféré par

Alaza KAGNAYA
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
139 vues26 pages

Ensemble Learning - Forêt Aléatoire, Boosting, Stacking

L'apprentissage par ensemble combine plusieurs modèles pour améliorer la précision des prédictions, incluant des méthodes comme le bagging, la forêt aléatoire, le boosting et le stacking. Le bagging réduit la variance en utilisant des échantillons bootstrapés, tandis que le boosting améliore progressivement la précision en corrigeant les erreurs des modèles précédents. Le stacking combine des modèles robustes pour créer un modèle final optimisé en minimisant l'erreur.

Transféré par

Alaza KAGNAYA
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Jour26

#100JoursDeStat&ML
Isabelle LACMAGO

ENSEMBLE LEARNING

P O U R Q U O I U N A P P R E N T I S S AG E D ’ E N S E M B L E ?
QUELLE DÉFINITION?
B A G G I N G , R A N D O M F O R E S T, B O O S T I N G , S TA C K I N G ?
ENSEMBLE
LEARNING

OBJECTIF ET DÉFINITION
RAPPELS:
• Sur apprentissage: Cas d’un modèle qui colle trop aux données
d’apprentissage.
• Sous apprentissage: Cas d’un modèle trop simple.

Sur apprentissage Sous apprentissage

Biais est faible Biais élevé,


Variance est élevé Variance faible
OBJECTIF:

Obtenir un modèle ayant la meilleure précision possible:


• Biais faible
• Variance faible
UN ENSEMBLE LEARNING:

• Méthode d’apprentissage supervisée


→En modélisation prédictive

• Utilise plusieurs modèles pour créer un nouveau modèle en


regroupant leurs prévisions.
✓Combiner plusieurs modèles peu robustes:
→bagging, random forest
→boosting
✓Combiner quelques modèles robustes:
→staking
BAGGING

I D É E P R I N C I PA L , O B J E C T I F E T P R I N C I P E
L’idée principal du bagging est basée sur le rappel suivant:

Soit 𝑋1 , … , 𝑋𝑛 n observation d’une variable quantitative X de


1 𝑛
moyenne 𝜇 et de variance 𝜎2. 𝑋𝑛 = σ𝑖=1 𝑋𝑖 :
𝑛
✓E(𝑋𝑛 ) =𝜇
𝜎2
✓Var(𝑋𝑛 ) =
𝑛

→ Plus n est grand, plus la variance de 𝑋𝑛 est faible.


Une manière simple et naturelle de réduire la variance et d’améliorer
la précision de l’échantillon de test est de:

• considérer plusieurs échantillons d’apprentissage;

• construire le modèle sur chaque échantillon et

• agréger les prédictions obtenues.

En pratique nous avons une seule base d’apprentissage


BAGGING:

Boostrap Agging: averaging

Objectif:
• Réduire la variance d’une méthode d’apprentissage statistique
qui sur-apprend.
Fréquemment utilisé dans le contexte des arbres de décisions.
PRINCIPE:

Générer B Agréger les résultats


Construire en
échantillons des B modèles pour
parallèle le modèle
boostrapés de la prendre une
sur les B échantillons
base d’apprentissage. décision:

Vote à la majorité
Moyenne dans le cas
dans le cas de la
de la régression
classification
BAGGING

A U T R E S A V A N TA G E S D U B A G G I N G
OUT OF BAG:

• Lors du Bootstrap, près du tiers des observations ne sont pas


utilisés général:
→Out of bag

• Pas de nécessité de validation croisée ou de base de validation

• Ces out of bag, sont utilisés pour la validation


→L’utilisation du out of bag est équivalent à la validation croisée leave one out.
MESURE D’IMPORTANCE DES VARIABLES:

• Le bagging améliore la précision des prédictions mais réduit


l’interprétabilité du modèle de base.

• Toutefois, l’implémentation du bagging nous permet d’avoir une


mesure d’importance des variables explicatives.

• Cette mesure permet de classer les variables explicatives selon leur


importance pour prédire la variable dépendante.
LES
FORÊTS
A L É AT O I R E S

R A N D O M F O R E S T : L E S F O R Ê T S A L É AT O I R E S
FORÊT ALÉATOIRE:

• Méthode d’apprentissage statistique supervisée.

• Basée sur l’agrégation de plusieurs arbres aléatoires réalisé en


parallèle.

• Idée: si les arbres sont suffisamment indépendants entre eux, cela


permet de réduire la variance et donc le sur apprentissage.
FORÊT ALÉATOIRE:

La forêt aléatoire rend le bagging des arbres de décision plus efficace


en ajoutant une étape supplémentaire lors de la création de chaque
arbre :

À chaque nœud, on choisit de manière aléatoire et indépendante un petit


groupe de variables pour déterminer la meilleure séparation.

L'idée est de réduire la similarité entre les arbres.


BOOSTING

IDÉE ET EXEMPLE
BOOSTING:

• Pas d’échantillon bootstrappés.

• Contrairement au bagging qui est en parallèle, il est séquentiel.

• Améliore la précision du modèle à petit pas.

• Idée: construire un modèle initial, et successivement, chaque


nouveau modèle est estimé pour corriger et améliorer celui qui le
précède.
BOOSTING:
Deux idées d’amélioration principales:

• À l’étape suivante donner plus de poids aux observations


sur lesquelles on s’est trompé:
→ Adaboost: adaptative boostrap.

• Apprentissage des résidus:


→Gradient boosting
→XG boost: extrême gradient boosting
S TA C K I N G

IDÉE ET PRINCIPE
STACTING:

Idée:

• Combine quelques modèles robustes:


→forêt aléatoire, KNN, XG boost, régression …

• Pour améliorer la précision des prédictions.


PRINCIPE:
• Choisir les modèles:
→Exemple: forêt aléatoire, KNN, régression

• Entrainer ces modèles sur la même base de données

• Estimer les pondérations à utiliser pour obtenir le modèle final:


𝑓መ 𝑥 = 𝛼1 ⋅ 𝑓෢ ෢ ෢
fa 𝑥 + 𝛼2 ⋅ 𝑓knn 𝑥 + 𝛼3 ⋅ 𝑓reg 𝑥

→Les valeurs prédites des modèles initiales sont comme les variables explicatives du
modèle final
→Les pondérations sont trouvées en minimisant l’erreur
ENSEMBLE
LEARNING

QUE RETENIR?
Les « ensemble learning » font référence à toute méthode
d’apprentissage statistique supervisés qui combine
plusieurs modèles pour faire des prédictions. On y
trouve le bagging, la forêt aléatoire, le boosting et le
stacking.

Le bagging se résume en trois étapes:


→ Construire plusieurs copies de l’échantillon
d’apprentissage à partir du boostrap;
→ Estimer en parallèle le modèle sur chaque copie;
→ Combiner les estimations pour créer un nouveau
modèle prédictif.
Le random forest est utilisé pour améliorer le bagging des
arbres de décision en réduisant les corrélations entre les
arbres.

Contrairement au bagging, le boosting se fait de manière


séquentielle en améliorant la précision du modèle en
petits pas.

Le stacking lui, il utilisera quelques modèles (différents)


robustes pour faire des prédictions. En considérant une
combinaison linéaire de ces modèles.
As-tu des questions? As-tu des remarques?

Un like, un partage Un commentaire!

ISABELLE LACMAGO, DATA SCIENTIST

Vous aimerez peut-être aussi