Comparaison des méthodes de régression pénalisée

Cet article examine les techniques de régression linéaire pénalisée, notamment Ridge, Lasso et ElasticNet, pour améliorer les performances des modèles face à la multicollinéarité et aux données de haute dimension. Les résultats montrent que Ridge offre la meilleure performance en termes de MSE et R², tandis que Lasso permet une sélection efficace des variables, et ElasticNet combine les avantages des deux méthodes. Le choix du modèle dépend des objectifs spécifiques, qu'il s'agisse de prédiction, d'interprétabilité ou de gestion de la complexité.

Transféré par

saidista2021

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

56 vues3 pages

Comparaison des méthodes de régression pénalisée

Transféré par

saidista2021

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Introduction :

La régression linéaire est l'une des méthodes les plus couramment utilisées en apprentissage supervisé pour prédire une variable cible continue à partir
de variables explicatives. Cependant, lorsque les données sont multilinéaires ou de haute dimension, la régression linéaire classique peut souffrir de
sur-apprentissage et de mauvaises performances en généralisation. Pour résoudre ces problèmes, des techniques de régularisation ont été
développées, notamment la régression Ridge, Lasso et ElasticNet. Cet article explore ces trois méthodes, discute des techniques utilisées, des résultats
obtenus et compare leurs performances.

Méthodologie :

Préparation des données

Les données utilisées dans cette étude proviennent d'un jeu de données sur l'efficacité énergétique. Les étapes de préparation incluent
• Séparation des variables explicatives et de la variable cible.
• Normalisation des données pour garantir que toutes les variables sont sur la même échelle.
• Division des données en ensembles d'entraînement (80 %) et de test (20 %).
Implémentation des Modèles
Les modèles Ridge, Lasso et ElasticNet ont été implémentés à partir de zéro en utilisant Python. Chaque modèle a été entraîné avec
un taux d'apprentissage de 0.01 et 300 itérations pour la descente de gradient.
Évaluation des Performances
Les performances des modèles ont été évaluées à l'aide des métriques suivantes :
• MSE (Mean Squared Error) : Mesure l'erreur quadratique moyenne entre les valeurs prédites et réelles.
• R² (Coefficient de détermination) : Indique la proportion de la variance expliquée par le modèle.
• Visualisation des coefficients : Pour comprendre l'impact de chaque variable sur la prédiction.

Modèles appliqués
Régression Lasso ou pénalisation L1 :
La régression Lasso ajoute une pénalité L1 à la fonction de coût, qui est proportionnelle à la somme des valeurs absolues des coefficients. Contrairement
à Ridge, Lasso peut réduire certains coefficients à zéro, ce qui permet de sélectionner automatiquement les variables les plus importantes.

Fonction de coût :

Impact du coefficient de régularisation :

La régression Ridge ou pénalisation L2 :

La régression Ridge ajoute une pénalité L2 à la fonction de coût de la régression linéaire. Cette pénalité est proportionnelle à la somme des carrés des
coefficients du modèle. Elle réduit l'amplitude des coefficients sans les éliminer complètement, ce qui permet de gérer la multicollinéarité et de stabiliser
les prédictions

Fonction de coût :

Régression Elasticnet ou régularisation L1 et L2 :

ElasticNet combine les pénalités L1 et L2, offrant un compromis entre Ridge et Lasso. Elle est particulièrement utile lorsque le nombre de variables est
supérieur au nombre d'observations ou lorsqu'il existe une forte corrélation entre les variables.

Pour la régression logistique :

Pour la classification :

Régression logistique pénalisée :

Résultats et Comparaison :
Performances des Modèles
Modèle MSE R²

Ridge 52035.25 0.85

Lasso 52043.37 0.84

ElasticNet 52039.31 0.845

• Ridge a obtenu le MSE le plus faible et le R² le plus élevé, indiquant une meilleure performance globale.
• Lasso a légèrement sous-performé par rapport à Ridge, mais a permis une sélection de variables plus efficace.
• ElasticNet a offert un compromis entre Ridge et Lasso, avec des performances intermédiaires.
Analyse des Coefficients
• Ridge : Les coefficients sont réduits en amplitude, mais aucun n'est exactement nul.
• Lasso : Plusieurs coefficients ont été réduits à zéro, ce qui simplifie le modèle et améliore l'interprétabilité.
• ElasticNet : Combine les avantages des deux méthodes, réduisant certains coefficients tout en maintenant une bonne performance.
Visualisation des Courbes d'Apprentissage
• Les courbes d'apprentissage montrent que les trois modèles convergent vers une solution stable après environ 200 itérations. Ridge
converge plus rapidement, tandis que Lasso et ElasticNet nécessitent plus d'itérations pour stabiliser les coefficients.
Avantages et Inconvénients
• Ridge : Idéal pour gérer la multicollinéarité, mais ne sélectionne pas les variables.
• Lasso : Sélectionne les variables importantes, mais peut être instable avec des données fortement corrélées.
• ElasticNet : Combine les avantages de Ridge et Lasso, mais nécessite un réglage minutieux des hyperparamètres.
Choix du Modèle
Le choix entre Ridge, Lasso et ElasticNet dépend du problème à résoudre :
• Si l'objectif est la prédiction pure, Ridge est souvent préférable.
• Si l'interprétabilité et la sélection de variables sont importantes, Lasso est plus adapté.
• ElasticNet est un bon compromis pour les problèmes complexes avec de nombreuses variables corrélées.

Conclusion :
Les techniques de régression linéaire pénalisée (Ridge, Lasso et ElasticNet) offrent des solutions robustes pour améliorer les
performances des modèles de régression en présence de multicollinéarité ou de données de haute dimension. Dans cette étude,
Ridge a montré les meilleures performances en termes de MSE et R², tandis que Lasso a permis une sélection efficace des variables.
ElasticNet, en combinant les deux approches, offre une solution flexible pour les problèmes complexes. Le choix du modèle dépend
des objectifs spécifiques du projet, qu'il s'agisse de prédiction, d'interprétabilité ou de gestion de la complexité.

Références:
Tibshirani, R. (1996). Regression Shrinkage and Selection via the Lasso.
Zou, H., & Hastie, T. (2005). Regularization and Variable Selection via the Elastic Net
Scikit-learn Documentation : Ridge, Lasso, and ElasticNet

Vous aimerez peut-être aussi

Article FGF
Pas encore d'évaluation
Article FGF
3 pages
Comparaison des méthodes de régularisation en ML
Pas encore d'évaluation
Comparaison des méthodes de régularisation en ML
3 pages
Régression sur Composantes Principales
Pas encore d'évaluation
Régression sur Composantes Principales
51 pages
Guide sur la régression linéaire
Pas encore d'évaluation
Guide sur la régression linéaire
18 pages
Lasso Linéaire en Régression Linéaire
Pas encore d'évaluation
Lasso Linéaire en Régression Linéaire
128 pages
Introduction à la Régression Linéaire
Pas encore d'évaluation
Introduction à la Régression Linéaire
6 pages
Analyse de la régression linéaire
Pas encore d'évaluation
Analyse de la régression linéaire
31 pages
REGRESSION
Pas encore d'évaluation
REGRESSION
16 pages
RégressionLineaire VF
100% (1)
RégressionLineaire VF
32 pages
Sélection de Variables en Régression Linéaire
Pas encore d'évaluation
Sélection de Variables en Régression Linéaire
89 pages
La Regression
Pas encore d'évaluation
La Regression
3 pages
Cours Reg
Pas encore d'évaluation
Cours Reg
34 pages
Introduction à la régression linéaire
Pas encore d'évaluation
Introduction à la régression linéaire
9 pages
Seance5 Régression Simple
Pas encore d'évaluation
Seance5 Régression Simple
27 pages
Chapitre 3
Pas encore d'évaluation
Chapitre 3
3 pages
Estimation LASSO en Régression Linéaire
Pas encore d'évaluation
Estimation LASSO en Régression Linéaire
66 pages
Machine Learning
Pas encore d'évaluation
Machine Learning
10 pages
Modèle de Régression Linéaire en ML
Pas encore d'évaluation
Modèle de Régression Linéaire en ML
21 pages
Introduction à la Régression Linéaire
Pas encore d'évaluation
Introduction à la Régression Linéaire
21 pages
Chap2 Regression
Pas encore d'évaluation
Chap2 Regression
78 pages
Prévisions Quantitatives et Régression
100% (6)
Prévisions Quantitatives et Régression
25 pages
Régression Linéaire
Pas encore d'évaluation
Régression Linéaire
18 pages
Chapitre 2 - R├йgression Lin├йaire
100% (1)
Chapitre 2 - R├йgression Lin├йaire
38 pages
Cours Régression v1
Pas encore d'évaluation
Cours Régression v1
32 pages
Chapitre 2 ML
Pas encore d'évaluation
Chapitre 2 ML
50 pages
2 - Apprentissage Supervisé
Pas encore d'évaluation
2 - Apprentissage Supervisé
10 pages
Méthodes Alternatives de Régression Multiple
Pas encore d'évaluation
Méthodes Alternatives de Régression Multiple
102 pages
Régression Linéaire et Logistique expliquées
Pas encore d'évaluation
Régression Linéaire et Logistique expliquées
51 pages
Chap 3 Régression
100% (1)
Chap 3 Régression
17 pages
Chapitre 3
Pas encore d'évaluation
Chapitre 3
39 pages
3 - Apprentissage Supervise - Regression Lineaire
Pas encore d'évaluation
3 - Apprentissage Supervise - Regression Lineaire
20 pages
Optimisation de la Régression Linéaire avec Python
Pas encore d'évaluation
Optimisation de la Régression Linéaire avec Python
36 pages
Lasso
Pas encore d'évaluation
Lasso
27 pages
Probabilité Et Statistiques - Partie 6 - Régression
Pas encore d'évaluation
Probabilité Et Statistiques - Partie 6 - Régression
49 pages
Chapitre 2 Régression Linéaire
Pas encore d'évaluation
Chapitre 2 Régression Linéaire
15 pages
Modèle linéaire en actuariat 2022-2023
Pas encore d'évaluation
Modèle linéaire en actuariat 2022-2023
49 pages
Introduction à la Régression Linéaire
Pas encore d'évaluation
Introduction à la Régression Linéaire
32 pages
Modelisation Statistique ENSGMM
Pas encore d'évaluation
Modelisation Statistique ENSGMM
27 pages
Regression Lineaire Multiple
Pas encore d'évaluation
Regression Lineaire Multiple
11 pages
Métriques de Régression en Data Science
Pas encore d'évaluation
Métriques de Régression en Data Science
27 pages
Introduction à la Régression Linéaire
Pas encore d'évaluation
Introduction à la Régression Linéaire
183 pages
Régression linéaire simple
Pas encore d'évaluation
Régression linéaire simple
10 pages
Chapitre. Régression Linéaire Simple - 19-20 - Part01
Pas encore d'évaluation
Chapitre. Régression Linéaire Simple - 19-20 - Part01
10 pages
Chapitre 1
Pas encore d'évaluation
Chapitre 1
17 pages
Introduction à la régression linéaire
Pas encore d'évaluation
Introduction à la régression linéaire
181 pages
Les Méthodes de Régression en Datamining
Pas encore d'évaluation
Les Méthodes de Régression en Datamining
30 pages
Régression Linéaire et Logistique en Deep Learning
Pas encore d'évaluation
Régression Linéaire et Logistique en Deep Learning
90 pages
Regression
Pas encore d'évaluation
Regression
19 pages
Régression Linéaire
100% (1)
Régression Linéaire
30 pages
Régressions paramétriques et régularisation
Pas encore d'évaluation
Régressions paramétriques et régularisation
24 pages
Modèle de régression linéaire simple
100% (1)
Modèle de régression linéaire simple
69 pages
Introduction à la Régression Linéaire
100% (1)
Introduction à la Régression Linéaire
49 pages
Les Types de Regressions
Pas encore d'évaluation
Les Types de Regressions
31 pages
Econométrie Régression Linéaire Multiple 1
Pas encore d'évaluation
Econométrie Régression Linéaire Multiple 1
19 pages
Regression Multiple
Pas encore d'évaluation
Regression Multiple
19 pages
Regression Multiple
Pas encore d'évaluation
Regression Multiple
19 pages
Activite 3
Pas encore d'évaluation
Activite 3
5 pages
Attestations
Pas encore d'évaluation
Attestations
1 page
Justification
Pas encore d'évaluation
Justification
1 page
Feuille Cal Cul S
Pas encore d'évaluation
Feuille Cal Cul S
5 pages
L'informatique
Pas encore d'évaluation
L'informatique
1 page
Examen Python Avance StyleFaculte
100% (1)
Examen Python Avance StyleFaculte
3 pages
Chargement et classification d'images
Pas encore d'évaluation
Chargement et classification d'images
2 pages
Qu'est-Ce Que Le Droit ?
Pas encore d'évaluation
Qu'est-Ce Que Le Droit ?
7 pages
QCM Droit, Civisme et Citoyenneté
100% (1)
QCM Droit, Civisme et Citoyenneté
4 pages
Nombres amis et gestion de clients en Python
Pas encore d'évaluation
Nombres amis et gestion de clients en Python
2 pages
Introduction au langage Python
100% (1)
Introduction au langage Python
221 pages
Guide d'utilisation de Wireshark
Pas encore d'évaluation
Guide d'utilisation de Wireshark
8 pages
Division euclidienne en Python
Pas encore d'évaluation
Division euclidienne en Python
2 pages
Classification par le Classificateur de Bayes
Pas encore d'évaluation
Classification par le Classificateur de Bayes
41 pages
Rappels Sur Le Calcul Des Probabilités Et La Statistique
Pas encore d'évaluation
Rappels Sur Le Calcul Des Probabilités Et La Statistique
22 pages
Introduction aux arbres de décision
Pas encore d'évaluation
Introduction aux arbres de décision
75 pages
Introduction aux réseaux de neurones
Pas encore d'évaluation
Introduction aux réseaux de neurones
31 pages
Introduction à la régression logistique
Pas encore d'évaluation
Introduction à la régression logistique
27 pages
Installation d'Anaconda et Jupyter Notebook
Pas encore d'évaluation
Installation d'Anaconda et Jupyter Notebook
2 pages
Procedures Triggers SQL
Pas encore d'évaluation
Procedures Triggers SQL
3 pages
Programmer une carte BBC micro:bit
Pas encore d'évaluation
Programmer une carte BBC micro:bit
7 pages
Extrait - Architecture Des Plantes Et Production Vege
Pas encore d'évaluation
Extrait - Architecture Des Plantes Et Production Vege
20 pages
Système d'Information : Concepts et Méthodes
Pas encore d'évaluation
Système d'Information : Concepts et Méthodes
2 pages
Formation Pratique sur Stata
Pas encore d'évaluation
Formation Pratique sur Stata
3 pages
Manuel
Pas encore d'évaluation
Manuel
84 pages
Détails de La Commande - EBay
Pas encore d'évaluation
Détails de La Commande - EBay
1 page
Inscription Université 2024
Pas encore d'évaluation
Inscription Université 2024
9 pages
Introduction à PowerPoint 2003
Pas encore d'évaluation
Introduction à PowerPoint 2003
8 pages
NDIAYE 2017 Archivage Cor
Pas encore d'évaluation
NDIAYE 2017 Archivage Cor
521 pages
Flair 200C Et T200: RTU Control Et Formules
Pas encore d'évaluation
Flair 200C Et T200: RTU Control Et Formules
36 pages
Formation en Informatique : Bachelors et Mastères
Pas encore d'évaluation
Formation en Informatique : Bachelors et Mastères
2 pages
Formation DCS Schneider Electric EVO
Pas encore d'évaluation
Formation DCS Schneider Electric EVO
3 pages
20 Outils IA pour Coachs Sportifs
Pas encore d'évaluation
20 Outils IA pour Coachs Sportifs
32 pages
Internet : moteur de développement global
Pas encore d'évaluation
Internet : moteur de développement global
6 pages
CoursPOO Python2025
Pas encore d'évaluation
CoursPOO Python2025
239 pages
Le Secretariat de Redaction
Pas encore d'évaluation
Le Secretariat de Redaction
4 pages
Algorithmique - Structure de Données
Pas encore d'évaluation
Algorithmique - Structure de Données
236 pages
Scanner HP ScanJet Pro N4600: Rapide et Fiable
Pas encore d'évaluation
Scanner HP ScanJet Pro N4600: Rapide et Fiable
3 pages
Cuad Promenade3
Pas encore d'évaluation
Cuad Promenade3
59 pages
Guide Superdaf - Partie 1
Pas encore d'évaluation
Guide Superdaf - Partie 1
50 pages
Attaques et protections en sécurité informatique
Pas encore d'évaluation
Attaques et protections en sécurité informatique
4 pages
CV Mona Elourf
Pas encore d'évaluation
CV Mona Elourf
1 page
ESCO Fauteil Dentaire ES5C
Pas encore d'évaluation
ESCO Fauteil Dentaire ES5C
2 pages
Balandier 1982 Chapitre Premier Les Caracteristiques de La Societe Ba Kongo
Pas encore d'évaluation
Balandier 1982 Chapitre Premier Les Caracteristiques de La Societe Ba Kongo
71 pages
Influence des Médias sur la GRC
Pas encore d'évaluation
Influence des Médias sur la GRC
28 pages
QCM Poo
100% (2)
QCM Poo
2 pages
Réglages du Dégroupeur DE20
Pas encore d'évaluation
Réglages du Dégroupeur DE20
29 pages
RACCOURCIS ILLUSTRATOR SUR WINDOWS 0e2d063651
Pas encore d'évaluation
RACCOURCIS ILLUSTRATOR SUR WINDOWS 0e2d063651
6 pages
Cours Réseaux et Routage Master 1
Pas encore d'évaluation
Cours Réseaux et Routage Master 1
151 pages