Jour26
#100JoursDeStat&ML
Isabelle LACMAGO
ENSEMBLE LEARNING
P O U R Q U O I U N A P P R E N T I S S AG E D ’ E N S E M B L E ?
QUELLE DÉFINITION?
B A G G I N G , R A N D O M F O R E S T, B O O S T I N G , S TA C K I N G ?
ENSEMBLE
LEARNING
OBJECTIF ET DÉFINITION
RAPPELS:
• Sur apprentissage: Cas d’un modèle qui colle trop aux données
d’apprentissage.
• Sous apprentissage: Cas d’un modèle trop simple.
Sur apprentissage Sous apprentissage
Biais est faible Biais élevé,
Variance est élevé Variance faible
OBJECTIF:
Obtenir un modèle ayant la meilleure précision possible:
• Biais faible
• Variance faible
UN ENSEMBLE LEARNING:
• Méthode d’apprentissage supervisée
→En modélisation prédictive
• Utilise plusieurs modèles pour créer un nouveau modèle en
regroupant leurs prévisions.
✓Combiner plusieurs modèles peu robustes:
→bagging, random forest
→boosting
✓Combiner quelques modèles robustes:
→staking
BAGGING
I D É E P R I N C I PA L , O B J E C T I F E T P R I N C I P E
L’idée principal du bagging est basée sur le rappel suivant:
Soit 𝑋1 , … , 𝑋𝑛 n observation d’une variable quantitative X de
1 𝑛
moyenne 𝜇 et de variance 𝜎2. 𝑋𝑛 = σ𝑖=1 𝑋𝑖 :
𝑛
✓E(𝑋𝑛 ) =𝜇
𝜎2
✓Var(𝑋𝑛 ) =
𝑛
→ Plus n est grand, plus la variance de 𝑋𝑛 est faible.
Une manière simple et naturelle de réduire la variance et d’améliorer
la précision de l’échantillon de test est de:
• considérer plusieurs échantillons d’apprentissage;
• construire le modèle sur chaque échantillon et
• agréger les prédictions obtenues.
En pratique nous avons une seule base d’apprentissage
BAGGING:
Boostrap Agging: averaging
Objectif:
• Réduire la variance d’une méthode d’apprentissage statistique
qui sur-apprend.
Fréquemment utilisé dans le contexte des arbres de décisions.
PRINCIPE:
Générer B Agréger les résultats
Construire en
échantillons des B modèles pour
parallèle le modèle
boostrapés de la prendre une
sur les B échantillons
base d’apprentissage. décision:
Vote à la majorité
Moyenne dans le cas
dans le cas de la
de la régression
classification
BAGGING
A U T R E S A V A N TA G E S D U B A G G I N G
OUT OF BAG:
• Lors du Bootstrap, près du tiers des observations ne sont pas
utilisés général:
→Out of bag
• Pas de nécessité de validation croisée ou de base de validation
• Ces out of bag, sont utilisés pour la validation
→L’utilisation du out of bag est équivalent à la validation croisée leave one out.
MESURE D’IMPORTANCE DES VARIABLES:
• Le bagging améliore la précision des prédictions mais réduit
l’interprétabilité du modèle de base.
• Toutefois, l’implémentation du bagging nous permet d’avoir une
mesure d’importance des variables explicatives.
• Cette mesure permet de classer les variables explicatives selon leur
importance pour prédire la variable dépendante.
LES
FORÊTS
A L É AT O I R E S
R A N D O M F O R E S T : L E S F O R Ê T S A L É AT O I R E S
FORÊT ALÉATOIRE:
• Méthode d’apprentissage statistique supervisée.
• Basée sur l’agrégation de plusieurs arbres aléatoires réalisé en
parallèle.
• Idée: si les arbres sont suffisamment indépendants entre eux, cela
permet de réduire la variance et donc le sur apprentissage.
FORÊT ALÉATOIRE:
La forêt aléatoire rend le bagging des arbres de décision plus efficace
en ajoutant une étape supplémentaire lors de la création de chaque
arbre :
À chaque nœud, on choisit de manière aléatoire et indépendante un petit
groupe de variables pour déterminer la meilleure séparation.
L'idée est de réduire la similarité entre les arbres.
BOOSTING
IDÉE ET EXEMPLE
BOOSTING:
• Pas d’échantillon bootstrappés.
• Contrairement au bagging qui est en parallèle, il est séquentiel.
• Améliore la précision du modèle à petit pas.
• Idée: construire un modèle initial, et successivement, chaque
nouveau modèle est estimé pour corriger et améliorer celui qui le
précède.
BOOSTING:
Deux idées d’amélioration principales:
• À l’étape suivante donner plus de poids aux observations
sur lesquelles on s’est trompé:
→ Adaboost: adaptative boostrap.
• Apprentissage des résidus:
→Gradient boosting
→XG boost: extrême gradient boosting
S TA C K I N G
IDÉE ET PRINCIPE
STACTING:
Idée:
• Combine quelques modèles robustes:
→forêt aléatoire, KNN, XG boost, régression …
• Pour améliorer la précision des prédictions.
PRINCIPE:
• Choisir les modèles:
→Exemple: forêt aléatoire, KNN, régression
• Entrainer ces modèles sur la même base de données
• Estimer les pondérations à utiliser pour obtenir le modèle final:
𝑓መ 𝑥 = 𝛼1 ⋅ 𝑓
fa 𝑥 + 𝛼2 ⋅ 𝑓knn 𝑥 + 𝛼3 ⋅ 𝑓reg 𝑥
→Les valeurs prédites des modèles initiales sont comme les variables explicatives du
modèle final
→Les pondérations sont trouvées en minimisant l’erreur
ENSEMBLE
LEARNING
QUE RETENIR?
Les « ensemble learning » font référence à toute méthode
d’apprentissage statistique supervisés qui combine
plusieurs modèles pour faire des prédictions. On y
trouve le bagging, la forêt aléatoire, le boosting et le
stacking.
Le bagging se résume en trois étapes:
→ Construire plusieurs copies de l’échantillon
d’apprentissage à partir du boostrap;
→ Estimer en parallèle le modèle sur chaque copie;
→ Combiner les estimations pour créer un nouveau
modèle prédictif.
Le random forest est utilisé pour améliorer le bagging des
arbres de décision en réduisant les corrélations entre les
arbres.
Contrairement au bagging, le boosting se fait de manière
séquentielle en améliorant la précision du modèle en
petits pas.
Le stacking lui, il utilisera quelques modèles (différents)
robustes pour faire des prédictions. En considérant une
combinaison linéaire de ces modèles.
As-tu des questions? As-tu des remarques?
Un like, un partage Un commentaire!
ISABELLE LACMAGO, DATA SCIENTIST