0% ont trouvé ce document utile (0 vote)
56 vues3 pages

Comparaison des méthodes de régression pénalisée

Cet article examine les techniques de régression linéaire pénalisée, notamment Ridge, Lasso et ElasticNet, pour améliorer les performances des modèles face à la multicollinéarité et aux données de haute dimension. Les résultats montrent que Ridge offre la meilleure performance en termes de MSE et R², tandis que Lasso permet une sélection efficace des variables, et ElasticNet combine les avantages des deux méthodes. Le choix du modèle dépend des objectifs spécifiques, qu'il s'agisse de prédiction, d'interprétabilité ou de gestion de la complexité.

Transféré par

saidista2021
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
56 vues3 pages

Comparaison des méthodes de régression pénalisée

Cet article examine les techniques de régression linéaire pénalisée, notamment Ridge, Lasso et ElasticNet, pour améliorer les performances des modèles face à la multicollinéarité et aux données de haute dimension. Les résultats montrent que Ridge offre la meilleure performance en termes de MSE et R², tandis que Lasso permet une sélection efficace des variables, et ElasticNet combine les avantages des deux méthodes. Le choix du modèle dépend des objectifs spécifiques, qu'il s'agisse de prédiction, d'interprétabilité ou de gestion de la complexité.

Transféré par

saidista2021
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Introduction :

La régression linéaire est l'une des méthodes les plus couramment utilisées en apprentissage supervisé pour prédire une variable cible continue à partir
de variables explicatives. Cependant, lorsque les données sont multilinéaires ou de haute dimension, la régression linéaire classique peut souffrir de
sur-apprentissage et de mauvaises performances en généralisation. Pour résoudre ces problèmes, des techniques de régularisation ont été
développées, notamment la régression Ridge, Lasso et ElasticNet. Cet article explore ces trois méthodes, discute des techniques utilisées, des résultats
obtenus et compare leurs performances.

Méthodologie :

Préparation des données


Les données utilisées dans cette étude proviennent d'un jeu de données sur l'efficacité énergétique. Les étapes de préparation incluent
• Séparation des variables explicatives et de la variable cible.
• Normalisation des données pour garantir que toutes les variables sont sur la même échelle.
• Division des données en ensembles d'entraînement (80 %) et de test (20 %).
Implémentation des Modèles
Les modèles Ridge, Lasso et ElasticNet ont été implémentés à partir de zéro en utilisant Python. Chaque modèle a été entraîné avec
un taux d'apprentissage de 0.01 et 300 itérations pour la descente de gradient.
Évaluation des Performances
Les performances des modèles ont été évaluées à l'aide des métriques suivantes :
• MSE (Mean Squared Error) : Mesure l'erreur quadratique moyenne entre les valeurs prédites et réelles.
• R² (Coefficient de détermination) : Indique la proportion de la variance expliquée par le modèle.
• Visualisation des coefficients : Pour comprendre l'impact de chaque variable sur la prédiction.

Modèles appliqués
Régression Lasso ou pénalisation L1 :
La régression Lasso ajoute une pénalité L1 à la fonction de coût, qui est proportionnelle à la somme des valeurs absolues des coefficients. Contrairement
à Ridge, Lasso peut réduire certains coefficients à zéro, ce qui permet de sélectionner automatiquement les variables les plus importantes.

Fonction de coût :

Impact du coefficient de régularisation :

La régression Ridge ou pénalisation L2 :


La régression Ridge ajoute une pénalité L2 à la fonction de coût de la régression linéaire. Cette pénalité est proportionnelle à la somme des carrés des
coefficients du modèle. Elle réduit l'amplitude des coefficients sans les éliminer complètement, ce qui permet de gérer la multicollinéarité et de stabiliser
les prédictions

Fonction de coût :

Régression Elasticnet ou régularisation L1 et L2 :

ElasticNet combine les pénalités L1 et L2, offrant un compromis entre Ridge et Lasso. Elle est particulièrement utile lorsque le nombre de variables est
supérieur au nombre d'observations ou lorsqu'il existe une forte corrélation entre les variables.

Pour la régression logistique :


Pour la classification :

Régression logistique pénalisée :


Résultats et Comparaison :
Performances des Modèles
Modèle MSE R²

Ridge 52035.25 0.85

Lasso 52043.37 0.84

ElasticNet 52039.31 0.845

• Ridge a obtenu le MSE le plus faible et le R² le plus élevé, indiquant une meilleure performance globale.
• Lasso a légèrement sous-performé par rapport à Ridge, mais a permis une sélection de variables plus efficace.
• ElasticNet a offert un compromis entre Ridge et Lasso, avec des performances intermédiaires.
Analyse des Coefficients
• Ridge : Les coefficients sont réduits en amplitude, mais aucun n'est exactement nul.
• Lasso : Plusieurs coefficients ont été réduits à zéro, ce qui simplifie le modèle et améliore l'interprétabilité.
• ElasticNet : Combine les avantages des deux méthodes, réduisant certains coefficients tout en maintenant une bonne performance.
Visualisation des Courbes d'Apprentissage
• Les courbes d'apprentissage montrent que les trois modèles convergent vers une solution stable après environ 200 itérations. Ridge
converge plus rapidement, tandis que Lasso et ElasticNet nécessitent plus d'itérations pour stabiliser les coefficients.
Avantages et Inconvénients
• Ridge : Idéal pour gérer la multicollinéarité, mais ne sélectionne pas les variables.
• Lasso : Sélectionne les variables importantes, mais peut être instable avec des données fortement corrélées.
• ElasticNet : Combine les avantages de Ridge et Lasso, mais nécessite un réglage minutieux des hyperparamètres.
Choix du Modèle
Le choix entre Ridge, Lasso et ElasticNet dépend du problème à résoudre :
• Si l'objectif est la prédiction pure, Ridge est souvent préférable.
• Si l'interprétabilité et la sélection de variables sont importantes, Lasso est plus adapté.
• ElasticNet est un bon compromis pour les problèmes complexes avec de nombreuses variables corrélées.

Conclusion :
Les techniques de régression linéaire pénalisée (Ridge, Lasso et ElasticNet) offrent des solutions robustes pour améliorer les
performances des modèles de régression en présence de multicollinéarité ou de données de haute dimension. Dans cette étude,
Ridge a montré les meilleures performances en termes de MSE et R², tandis que Lasso a permis une sélection efficace des variables.
ElasticNet, en combinant les deux approches, offre une solution flexible pour les problèmes complexes. Le choix du modèle dépend
des objectifs spécifiques du projet, qu'il s'agisse de prédiction, d'interprétabilité ou de gestion de la complexité.

Références:
Tibshirani, R. (1996). Regression Shrinkage and Selection via the Lasso.
Zou, H., & Hastie, T. (2005). Regularization and Variable Selection via the Elastic Net
Scikit-learn Documentation : Ridge, Lasso, and ElasticNet

Vous aimerez peut-être aussi