0% ont trouvé ce document utile (0 vote)

32 vues3 pages

TP Lasso Ridge

Le document présente des exercices sur la régression linéaire et la régression régularisée en utilisant des datasets comme auto-mpg et BostonHousing. Il inclut des étapes pour importer, explorer, et modéliser les données, ainsi que des comparaisons de performance entre différents modèles tels que Ridge, Lasso et Elastic Net. L'objectif est d'évaluer l'efficacité de ces modèles en termes de RMSE et de R2.

Transféré par

Christophe Konan Pri

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

32 vues3 pages

TP Lasso Ridge

Transféré par

Christophe Konan Pri

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Estimation matricielle

en haute dimension
M2 DS

Modèles de Régularisation

Objectif
Comparer les modéles de regression linéaire et régression linéaire régularisée.
Exercice 1.
1. Importer le dataset auto-mpg.

2. Séparer la variable endogène et les variables exogènes.

3. Diviser les données en train et test.

4. Transformer les données pour qu’elles soient sur la même échelle.

5. Construire des modèles de régression ridge, lasso et régression linéaire classique.

6. Donner la valeur RMSE des données train et test de chaque modèle.

7. Lequel de ces 3 modéles est plus efficace ? Pourquoi ?

Exercice 2. La base de données BostonHousing contient les variables suivantes :

Variable Description
CRIM Taux de criminalité par habitant dans la ville
ZN Proportion de terrains résidentiels zonés pour des lots de plus de 25 000 pieds carrés
INDUS Proportion de terrains non commerciaux (industrie) par ville
CHAS Variable binaire pour la rivière Charles (1 si le quartier est en bord de rivière, 0 sinon)
NOX Concentration d’oxydes d’azote (en parties par 10 millions)
RM Nombre moyen de pièces par logement
AGE Proportion de logements occupés construits avant 1940
DIS Distances pondérées aux cinq principaux centres d’emploi de Boston
RAD Indice d’accessibilité aux autoroutes radiales
TAX Taux d’imposition foncière pour $10 000 de valeur
PTRATIO Ratio élèves / enseignants par ville
B 1000 · (Bk − 0.63)2 , où Bk est la proportion de résidents noirs (variable problématique)
LSTAT Pourcentage de population à statut socio-économique faible
MEDV Valeur médiane des maisons occupées par leur propriétaire (en $1000s)
1. Importer le dataset BostonHousing.

2. Explorer le dataset et afficher ses informations.

3. Vérifier s’il y a des données manquantes.

4. Transformer les données pour qu’elles soient sur la même échelle.

1
5. Étudier la corrélation entre les variables.

6. Existe-t-il des variables à enlever ? Lesquelles ?

7. Diviser les données en train et test.

8. Faire un modèle de régression linéaire pour prédire le prix des maisons medv.

9. Construire un modèle de régression LASSO.

(a) Représenter les coefficients du modèle selon plusieurs valeurs de α.

(b) Justifier le choix du paramètre α.
(c) Combien de variables sont-elles éliminées ?

10. Construire un modèle de régression RIDGE, en choisissant la bonne valeur de α.

11. Donner le coefficient de détermination R2 de chaque modèle.

12. Lequel de ces 3 modèles est plus efficace ? Pourquoi ?

Exercice 3. On travaille avec un jeu de données nommé [Link], contenant une variable
cible non cognitive et plusieurs variables explicatives. L’objectif est de prédire cette
variable en utilisant des techniques de régression pénalisée.
1. Chargement et division des données

(a) Charger le jeu de données [Link].

(b) Diviser les données en un ensemble d’entraı̂nement (70%) et un ensemble de
test (30%).

2. Régression Ridge (sans mise à l’échelle)

(a) Entraı̂ner un modèle Ridge avec un paramètre de régularisation α = 0.001.

(b) Prédire sur les données d’entraı̂nement.
(c) Calculer les métriques suivantes : R2 et RMSE (Root Mean Squared Error).
(d) Commenter la performance du modèle.

3. Mise à l’échelle des variables

(a) Appliquer une mise à l’échelle (standardisation) sur toutes les variables ex-
plicatives.
(b) Réentraı̂ner le modèle Ridge avec α = 0.001.
(c) Comparer les performances avec celles obtenues à l’étape précédente.

4. Grid Search sur Ridge

(a) Mettre en place une validation croisée à 5 plis.

(b) Tester 10 valeurs de α entre 10−4 et 104 .
(c) Afficher le score R2 moyen pour chaque valeur.

2
(d) Tracer le graphe : α vs R2 .
(e) Quelle valeur de α donne la meilleure performance ?

5. Régression Lasso

(a) Répéter la même démarche que pour Ridge, en utilisant un modèle Lasso.
(b) Tester les mêmes valeurs de α (10 valeurs).
(c) Afficher les résultats sous forme graphique.
(d) Comparer avec Ridge :
Quel modèle est le plus performant ?
Le Lasso met-il certains coefficients à zéro ?

6. Régression Elastic Net

(a) Entraı̂ner un modèle Elastic Net avec double tuning :

α ∈ {10−4 , . . . , 101 }
l1 -ratio ∈ {0, 0.25, 0.5, 0.75, 1}
(b) Réaliser une validation croisée sur la grille complète.
(c) Visualiser les résultats avec une carte de chaleur (heatmap).
(d) Quel couple (α, l1 -ratio) donne le meilleur score ?

7. Comparaison finale

(a) Pour les trois modèles (Ridge, Lasso, Elastic Net), prédire sur les jeux
d’entraı̂nement et de test.
(b) Calculer le R2 et le RMSE pour chaque modèle.
(c) Présenter les résultats dans un tableau comparatif.
(d) Quel modèle généralise le mieux ?
(e) Préférez-vous un modèle très performant ou un modèle interprétable (comme
Lasso) ? Justifiez.

Vous aimerez peut-être aussi

Groupe2/4GM: Encadreurs: Date
Pas encore d'évaluation
Groupe2/4GM: Encadreurs: Date
36 pages
TP Regression
Pas encore d'évaluation
TP Regression
12 pages
Cours 2 Support de Cours Machine Learning Régression
Pas encore d'évaluation
Cours 2 Support de Cours Machine Learning Régression
13 pages
Reglin
Pas encore d'évaluation
Reglin
2 pages
TP 2 Proba Stats: 1 Jeux de Donn Ees
Pas encore d'évaluation
TP 2 Proba Stats: 1 Jeux de Donn Ees
4 pages
Data Mining tp.5 Régression Linéaire Multiple
Pas encore d'évaluation
Data Mining tp.5 Régression Linéaire Multiple
13 pages
TD Machine Regression Python
Pas encore d'évaluation
TD Machine Regression Python
3 pages
Modèles Linéaires et Analyse CPU
Pas encore d'évaluation
Modèles Linéaires et Analyse CPU
7 pages
X, Y X, Y f X ε f x x ε X x, y X Y randn, n rand, n ,: Machine learning ENSA de Khoribga
Pas encore d'évaluation
X, Y X, Y f X ε f x x ε X x, y X Y randn, n rand, n ,: Machine learning ENSA de Khoribga
1 page
CM07 RegressionLineaireMultiple
Pas encore d'évaluation
CM07 RegressionLineaireMultiple
26 pages
ExosRegression Simple Et Multiple
100% (1)
ExosRegression Simple Et Multiple
8 pages
RAPPORT Regression
Pas encore d'évaluation
RAPPORT Regression
14 pages
Modélisation et Régression des Données
Pas encore d'évaluation
Modélisation et Régression des Données
11 pages
TP 2
Pas encore d'évaluation
TP 2
3 pages
Expose de La Regression Lineaire (Koro & Mahamadou) Groupe 1
Pas encore d'évaluation
Expose de La Regression Lineaire (Koro & Mahamadou) Groupe 1
18 pages
Regression Lineaire Multiple
Pas encore d'évaluation
Regression Lineaire Multiple
11 pages
Objectifs:: TP3: Régression Linéaire, Multiple Et Polynomiale
Pas encore d'évaluation
Objectifs:: TP3: Régression Linéaire, Multiple Et Polynomiale
2 pages
TPregression
Pas encore d'évaluation
TPregression
2 pages
Stat
Pas encore d'évaluation
Stat
6 pages
Chapitre 4 Regression Generalities
Pas encore d'évaluation
Chapitre 4 Regression Generalities
9 pages
Corrigé TD Statistique M1-GEO Rennes 2
Pas encore d'évaluation
Corrigé TD Statistique M1-GEO Rennes 2
21 pages
Modelisation Statistique ENSGMM
Pas encore d'évaluation
Modelisation Statistique ENSGMM
27 pages
TP1 Avec Solution 2
Pas encore d'évaluation
TP1 Avec Solution 2
5 pages
Introduction à la régression linéaire
Pas encore d'évaluation
Introduction à la régression linéaire
63 pages
Modèles Linéaires et Moindres Carrés
Pas encore d'évaluation
Modèles Linéaires et Moindres Carrés
20 pages
TP1 Regression Lineaire
Pas encore d'évaluation
TP1 Regression Lineaire
4 pages
Mathematics For DS
Pas encore d'évaluation
Mathematics For DS
5 pages
Chapitre 4 MLDS2022
Pas encore d'évaluation
Chapitre 4 MLDS2022
37 pages
Chapitre 2 ML
Pas encore d'évaluation
Chapitre 2 ML
50 pages
23 WRWRR
Pas encore d'évaluation
23 WRWRR
3 pages
2022 Regression
Pas encore d'évaluation
2022 Regression
4 pages
TP1 Reg MIPS
Pas encore d'évaluation
TP1 Reg MIPS
2 pages
Chap 2
Pas encore d'évaluation
Chap 2
34 pages
Modélisation Statistique
Pas encore d'évaluation
Modélisation Statistique
22 pages
Machine Learning (ML) : Scikit-Learn
Pas encore d'évaluation
Machine Learning (ML) : Scikit-Learn
7 pages
TP N°2: Régression Linéaire: Institut Supérieur: ML D'informatique Ines Bousrih de Mahdia 2024/ 2025
Pas encore d'évaluation
TP N°2: Régression Linéaire: Institut Supérieur: ML D'informatique Ines Bousrih de Mahdia 2024/ 2025
4 pages
Lasso Linéaire en Régression Linéaire
Pas encore d'évaluation
Lasso Linéaire en Régression Linéaire
128 pages
Analyse Prédictive avec Python et Pandas
Pas encore d'évaluation
Analyse Prédictive avec Python et Pandas
5 pages
Cours Reg
Pas encore d'évaluation
Cours Reg
34 pages
Chapitre 3
Pas encore d'évaluation
Chapitre 3
39 pages
Régression Non-Paramétrique avec locfit
Pas encore d'évaluation
Régression Non-Paramétrique avec locfit
5 pages
TP 2
Pas encore d'évaluation
TP 2
3 pages
Régression Linéaire Simple en Python
Pas encore d'évaluation
Régression Linéaire Simple en Python
11 pages
RégressionLineaire VF
100% (1)
RégressionLineaire VF
32 pages
Corrigé 2017
Pas encore d'évaluation
Corrigé 2017
9 pages
Métriques de Régression en Data Science
Pas encore d'évaluation
Métriques de Régression en Data Science
27 pages
TD1 ML FST
Pas encore d'évaluation
TD1 ML FST
3 pages
Mémoire
Pas encore d'évaluation
Mémoire
89 pages
Chap2 Regression
Pas encore d'évaluation
Chap2 Regression
78 pages
Machine Learning Regression Lineraire
Pas encore d'évaluation
Machine Learning Regression Lineraire
29 pages
TD - Régression Linéaire
Pas encore d'évaluation
TD - Régression Linéaire
2 pages
Regression HD
Pas encore d'évaluation
Regression HD
64 pages
ML Motivation Reg Et RegLogit French
Pas encore d'évaluation
ML Motivation Reg Et RegLogit French
38 pages
ML-BDIO&MIT Chap II Regression Linéaire
Pas encore d'évaluation
ML-BDIO&MIT Chap II Regression Linéaire
56 pages
Regression Multiple
Pas encore d'évaluation
Regression Multiple
19 pages
Regression Multiple
Pas encore d'évaluation
Regression Multiple
19 pages
Régression
Pas encore d'évaluation
Régression
36 pages
Ilovepdf Merged
Pas encore d'évaluation
Ilovepdf Merged
2 pages
Lettre de Sollicitation Pour Le Report de La Composition de l'UE NFP107 V0
Pas encore d'évaluation
Lettre de Sollicitation Pour Le Report de La Composition de l'UE NFP107 V0
2 pages
Examen NFP 107 Partie 1
Pas encore d'évaluation
Examen NFP 107 Partie 1
2 pages
Memo Matplotlib
Pas encore d'évaluation
Memo Matplotlib
2 pages
PA00TR3N
Pas encore d'évaluation
PA00TR3N
117 pages
Manuel de Procedures Quantification Digital
Pas encore d'évaluation
Manuel de Procedures Quantification Digital
85 pages
Mastere Avance Mba Data Science Management
Pas encore d'évaluation
Mastere Avance Mba Data Science Management
54 pages
Maxi Fiches de Statistique Pour Les Scientifiques-Par - (-WWW - Heights-Book - Blogspot.com-)
Pas encore d'évaluation
Maxi Fiches de Statistique Pour Les Scientifiques-Par - (-WWW - Heights-Book - Blogspot.com-)
230 pages
L Offre de Formation Du Centre Inp HB Cnam Cote D Ivoire
Pas encore d'évaluation
L Offre de Formation Du Centre Inp HB Cnam Cote D Ivoire
4 pages
Comprendre Les Séries Temporelles!
Pas encore d'évaluation
Comprendre Les Séries Temporelles!
9 pages
Pack 500 Prompts ChatGPT 1 tchcv4 1
Pas encore d'évaluation
Pack 500 Prompts ChatGPT 1 tchcv4 1
41 pages
MCP Cours Fateh
Pas encore d'évaluation
MCP Cours Fateh
78 pages
Statistique Chapitre 6
Pas encore d'évaluation
Statistique Chapitre 6
40 pages
Tables de distribution F pour régression et ANOVA
Pas encore d'évaluation
Tables de distribution F pour régression et ANOVA
4 pages
Introduction à R pour débutants
Pas encore d'évaluation
Introduction à R pour débutants
19 pages
Stat Descriptve Bidimensinelle
Pas encore d'évaluation
Stat Descriptve Bidimensinelle
26 pages
STATAlogistic FR
Pas encore d'évaluation
STATAlogistic FR
15 pages
(EM) TD Estimation
Pas encore d'évaluation
(EM) TD Estimation
2 pages
Régression Linéaire
100% (1)
Régression Linéaire
30 pages
TD 09 - 31.10.2024
Pas encore d'évaluation
TD 09 - 31.10.2024
2 pages
SOULEYMANE Vouna Djarma
Pas encore d'évaluation
SOULEYMANE Vouna Djarma
20 pages
Biostatistique Tous Les Cours s2
Pas encore d'évaluation
Biostatistique Tous Les Cours s2
65 pages
TD Econometrie Ael3 - 2022 - 023116
Pas encore d'évaluation
TD Econometrie Ael3 - 2022 - 023116
10 pages
ECONOMETRIE
Pas encore d'évaluation
ECONOMETRIE
11 pages
Analyse des données de méthane et substrats
Pas encore d'évaluation
Analyse des données de méthane et substrats
69 pages
Cours et Exercices d'Économétrie S6
Pas encore d'évaluation
Cours et Exercices d'Économétrie S6
13 pages
TD2 Reg Multiple 23-24
100% (1)
TD2 Reg Multiple 23-24
3 pages
Travail À Faire
Pas encore d'évaluation
Travail À Faire
3 pages
Modèle à erreurs composées et biais d'omission
Pas encore d'évaluation
Modèle à erreurs composées et biais d'omission
52 pages
Econométrie R
100% (1)
Econométrie R
156 pages
Cahier d'Exercices en Économétrie
100% (2)
Cahier d'Exercices en Économétrie
24 pages
Cours 2 - Signification Statistique Et Intervalle de Confiance
Pas encore d'évaluation
Cours 2 - Signification Statistique Et Intervalle de Confiance
61 pages
ANOVA et Analyse de Données Étudiantes
Pas encore d'évaluation
ANOVA et Analyse de Données Étudiantes
8 pages
Solution-TD2 Biostatistique
Pas encore d'évaluation
Solution-TD2 Biostatistique
4 pages
Méthodes de Prévision Quantitatives
Pas encore d'évaluation
Méthodes de Prévision Quantitatives
64 pages
Introduction à la régression linéaire simple
Pas encore d'évaluation
Introduction à la régression linéaire simple
8 pages
Modèles à Équations Simultanées
Pas encore d'évaluation
Modèles à Équations Simultanées
15 pages
TD 5 Comp Moyennes - Corrig
Pas encore d'évaluation
TD 5 Comp Moyennes - Corrig
8 pages
Estimation pour Ingénieurs
Pas encore d'évaluation
Estimation pour Ingénieurs
7 pages
Ens Scientifique 2021 2022 Correction Exercices CMR - 1
Pas encore d'évaluation
Ens Scientifique 2021 2022 Correction Exercices CMR - 1
1 page
Les Tests de Khi-Deux
100% (1)
Les Tests de Khi-Deux
32 pages
Correction TD3 L3
Pas encore d'évaluation
Correction TD3 L3
41 pages