0% ont trouvé ce document utile (0 vote)

271 vues27 pages

Lasso

Ce document présente la régression Lasso comme une technique de régression linéaire qui ajoute une pénalité à la fonction de coût afin de favoriser la simplicité du modèle en encourageant la diminution du nombre de variables explicatives. Des exemples et limites de la régression Lasso sont également discutés.

Transféré par

Imen Boussandel

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

271 vues27 pages

Lasso

Transféré par

Imen Boussandel

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Lasso

Présenté par :
Omar Ben Hammouda
Ferdawes Abdessalem
Mehdi Abdessalem
Yosr Boukadida
Eya Gharred

Année Universitaire : 2023/2024

Plans

1 Mise en situation

2 Problématique

3 Introduction

4 La limite de Lasso

5 Exemple d’application
Mise en situation

Mise en situation
Supposons qu’on cette base de données :

Figure 1 – base de données

1 / 25
Mise en situation

Mise en situation
La valeur R-squared de ce modèle est d’environ 0,58, ce qui nous indique
que l’âge explique assez bien la variation de la tension artérielle entre les
sept individus.

Figure 2 – ligne de régression de BP et Age

2 / 25
Mise en situation

Mise en situation
Mais pour ce modèle semble qu’un score plus élevé au test de
mathématiques soit lié à une pression artérielle plus basse. Cela semble un
peu étrange car les connaissances en mathématiques ne devraient pas
aﬀecter les tension artérielle, à moins qu’il n’y ait une relation sous-jacente
étrange. Cependant, le R-squared est très faible , ce qui nous indique que
le score en mathématiques n’est pas bon pour expliquer la variation de la
tension artérielle.

Figure 3 – ligne de régression de BP et Math score

3 / 25
Mise en situation

Mise en situation

D’autre part , si nous créons un modèle comprenant à la fois l’âge et le

score en mathématiques
BP = β0 + β1 age
nous obtiendrons un coeﬃcient de détermination R 2 égal à 0,592. Cela est
supérieur à celui obtenu en n’utilisant que l’âge comme variable explicative.

4 / 25
Problématique

Problématique

Cependant, il y a un problème lors de l’étude de la valeur R carré, car un

modèle avec plus de paramètres s’ajustera toujours mieux qu’un modèle
avec moins de paramètres, même si certaines variables explicatives sont
totalement inutiles. Si nous utilisons ce modèle avec principalement des
variables inutiles pour prédire de nouvelles données qui n’ont pas été
incluses pour former ou estimer les paramètres ou le modèle, il sera très
mauvais pour la prédiction, c’est ce que nous appelons le surajustement.
C’est là que la régression Lasso intervient, car elle peut éliminer les
variables qui ne sont pas importantes pour expliquer les variables de
réponse. La régression Lasso est moins sensible aux données par rapport à
la régression linéaire ordinaire

5 / 25
Introduction

Déﬁnitions
La régression Lasso (Least Absolute Shrinkage and Selection Operator) est
une technique de régression linéaire qui ajoute une pénalité à la fonction
de coût, visant ainsi à favoriser la simplicité du modèle en encourageant la
diminution du nombre de variables explicatives.

6 / 25
Introduction

L’expression de la régression au lasso peut être écrite comme suit :

1 ∑
N
J(β) = (yi − xi β)2 + λ∥β∥1
2N
i=1

• J(β) est la fonction de coût

• N est le nombre d’observations
• yi est la valeur observée pour l’observation i
• xi est le vecteur de caractéristiques (variables explicatives) pour
l’observation i
• β est le vecteur des coeﬃcients du modèle
• λ est le paramètre de pénalité (facteur de régularisation)
• ∥β∥1 est la norme L1 du vecteur des coeﬃcients

7 / 25
Introduction

l’estimation de βest β̂ :


 N ⟨z , y⟩ − λ
1
si N1 ⟨z , y⟩ > λ
β̂ = 0 si N1 |⟨z , y⟩| ≤ |λ|

1
N ⟨z , y⟩ + λ sinon

8 / 25
Introduction

l’utilité de lasso
La régression Lasso (Least Absolute Shrinkage and Selection Operator) est
une technique de régression linéaire qui ajoute une pénalité à la fonction
de coût, visant ainsi à favoriser la simplicité du modèle en encourageant la
diminution du nombre de variables explicatives.

9 / 25
Avantages

Les principaux avantages du lasso sont :

• Grande dimension : le lasso fonctionne dans les cas où le nombre
d’individus est inférieur au nombre de variables (n < p), si toutefois
un faible nombre de ces variables a une inﬂuence sur les observations
(hypothèse de parcimonie). Cette propriété n’est pas vraie dans le cas
de la régression linéaire classique avec un risque associé qui augmente
comme la dimension de l’espace des variables même si l’hypothèse de
parcimonie est vériﬁée.
• Sélection parcimonieuse : le lasso permet de sélectionner un
sous-ensemble restreint de variables (dépendant du paramètre λ).
Cette sélection restreinte permet souvent de mieux interpréter un
modèle (rasoir d’Ockham).
• Consistance de la sélection : lorsque le vrai vecteur solution β est
creux (∥β∥0 = K < p), le lasso sera en mesure de sélectionner ces
variables d’intérêt avant toutes autres variables.
10 / 25
limites

Par contre, certaines limites du lasso ont été démontrées :

• Les fortes corrélations : Si des variables sont fortement corrélées
entre elles et qu’elles sont importantes pour la prédiction, le lasso en
privilégiera une au détriment des autres. Un autre cas, où les
corrélations posent problème, est quand les variables d’intérêt sont
corrélées avec d’autres variables. Dans ce cas, la consistance de la
sélection du lasso n’est plus assurée.
• La très grande dimension : Lorsque notamment la dimension est
trop élevée (p très grand comparé à n) ou le vrai vecteur solution β
n’est pas suﬃsamment creux (trop de variables d’intérêt), le lasso ne
pourra pas retrouver l’ensemble de ces variables d’intérêt.

11 / 25
Exemple

Figure 4 – Exemple de data

12 / 25
Exemple

Figure 5 – son régularisation

13 / 25
Exemple

⇒ lorsque l’alpha est d’environ 0,1, Lasso a sélectionné 4 fonctionnalités

supplémentaires pour une légère amélioration du score.

14 / 25
Types des regression

Figure 6 – Types des regression

15 / 25
Régression au Lasso
La régression au lasso appartient à un groupe de méthodes appelées
méthode de régression régularisée, qui peut relever le déﬁ d’ajuster le
modèle même si nous avons moins de points de données que le nombre de
paramètres que nous aimons estimer. Cela signiﬁe que nous pouvons
ajuster un modèle avec plus variables explicatives que le nombre de points
de données dont nous disposons
la régression au lasso peut également être utilisée pour la sélection de
caractéristiques/variables car elle réduit à zéro les paramètres associés à
des variables moins importantes.

16 / 25
l’estimation de lassso régression et ridge régression

Figure 7 – Estimation de lasso et ridge régression

17 / 25
l’estimation de lassso régression et ridge régression

Lasso régression prend la forme d’une ellipse et ridge régression prend la

forme d’un circle
• Lasso régression
1 le facteur de pénalité est similaire à le modèle de régression linéaire.
2 chaque fois que les régions elliptiques croisent ces coins, au moins un
des coeﬃcients de lasso devient nul.
• Ridge régression
1 le facteur de pénalité est similaire à le modèle de régression linéaire.
2 il forme une forme circulaire et par conséquent les valeurs peuvent être
réduites à près de zéro, mais jamais égales à zéro.

18 / 25
La limite de Lasso

La limite de Lasso

• Lasso peut sélectionner au plus n variable avant la saturation dans le

cas p>n
• Lasso ne peut pas eﬀectuer de sélection groupée lorsqu’il existe un
groupe de variables hautement corrélées, le lasso sélectionne une
variable du groupe et ne se soucie pas de celle qui est sélectionnée.
• lorsque n>p et que les prédicateurs sont fortement corrélés, les
performances de prédiction du lasso sont dominées par Ridge
régression

19 / 25
La limite de Lasso

Exemple d’application

la méthode Lasso avec forme fonctionnelle Logit pour prédire la santé de

l’enfant : La détermination des risques de santé à l’enfance implique une
tâche prédictive importante. Identiﬁer ces facteurs de risques permet
d’intervenir rapidement et de réduire les conséquences néfastes d’une
mauvaise santé de l’ enfant sur sa vie future.
L’objectif principal de cette étude est d’identiﬁer les facteurs de risques de
santé à l’enfance en utilisant des variables environnementales.

20 / 25
La limite de Lasso

Exemple d’application

Le lasso utilise le terme de pénalité qui fera pression sur les coeﬃcients
pour les rétrécir (shrink), ou les faire tendres vers zéro. Les coeﬃcients du
modèle de régression sont alors choisis en maximisant la fonction
log-vraisemblance du Logit, sous la contrainte de pénalité du modèle.

21 / 25
La limite de Lasso

Lasso Sans les variables environnementales

Figure 8 – Choix de À optimal pour le lasso en validation croisée sans les variables
environnementales

22 / 25
La limite de Lasso

Lasso avec les variables environnementales

Figure 9 – Choix de À optimal pour le lasso en validation croisée avec les

variables environnementales

23 / 25
La limite de Lasso

Résultats de la méthode Lasso

24 / 25
La limite de Lasso

Résultats de la méthode Lasso

La variable de mauvaise santé de la mère, à la naissance de 1’ enfant, est

la seule variable qui est retenue pour toutes les régressions. Une mauvaise
santé de la mère, dans tous les cas, a tendance à augmenter la probabilité
que l’enfant se classiﬁe en mauvaise santé. La deuxième variable la plus
importante est la variable de revenu parental, qui se qualiﬁe dans sept des
huit régressions. En général, une augmentation de revenu diminue la
probabilité que l’enfant soit en mauvaise santé. Les variables qui se
retrouvent six fois sont 1’ asthme au premier cycle et la mauvaise santé à
la naissance de l’enfant. On observe aussi l’éducation du conjoint et le
score de dépression parentale qui jouent un rôle important à cinq reprises.

25 / 25

Vous aimerez peut-être aussi

Arbres de Décision et Algorithme ID3
Pas encore d'évaluation
Arbres de Décision et Algorithme ID3
17 pages
FR Tanagra Scoring
Pas encore d'évaluation
FR Tanagra Scoring
11 pages
Classification Hiérarchique de Points
Pas encore d'évaluation
Classification Hiérarchique de Points
2 pages
Introduction à l'optimisation convexe
Pas encore d'évaluation
Introduction à l'optimisation convexe
21 pages
Méthodes de Décomposition en Optimisation
Pas encore d'évaluation
Méthodes de Décomposition en Optimisation
48 pages
La Statistique Bayésienne
100% (1)
La Statistique Bayésienne
8 pages
El Ouafdi Ahmed Fouad MSC 2003
Pas encore d'évaluation
El Ouafdi Ahmed Fouad MSC 2003
119 pages
Introduction à l'analyse de survie
Pas encore d'évaluation
Introduction à l'analyse de survie
22 pages
Thèse Complète Elong
Pas encore d'évaluation
Thèse Complète Elong
120 pages
10 Corrige
Pas encore d'évaluation
10 Corrige
3 pages
Exercices de Modélisation et Théorie des Graphes
Pas encore d'évaluation
Exercices de Modélisation et Théorie des Graphes
6 pages
Métriques de La Cohésion & Du Couplage: Liste Des Membres Du Groupe
Pas encore d'évaluation
Métriques de La Cohésion & Du Couplage: Liste Des Membres Du Groupe
28 pages
Cours DL - Part5 (Prof)
Pas encore d'évaluation
Cours DL - Part5 (Prof)
78 pages
Statbayesiennes v4
Pas encore d'évaluation
Statbayesiennes v4
29 pages
07 Graphes A PDF
Pas encore d'évaluation
07 Graphes A PDF
34 pages
(TD11) Optimisation Combinatoire
Pas encore d'évaluation
(TD11) Optimisation Combinatoire
39 pages
Prévision et Analyse Statistique Avancée
Pas encore d'évaluation
Prévision et Analyse Statistique Avancée
4 pages
Modèle de régression linéaire simple
100% (1)
Modèle de régression linéaire simple
69 pages
Cours 4-ACM
Pas encore d'évaluation
Cours 4-ACM
24 pages
Scoring Marketing : Régression Logistique
Pas encore d'évaluation
Scoring Marketing : Régression Logistique
16 pages
Machine Learning - Partie 2 - Régression Logistique Et KNN
Pas encore d'évaluation
Machine Learning - Partie 2 - Régression Logistique Et KNN
37 pages
Régression Linéaire et Statistiques Bivariées
Pas encore d'évaluation
Régression Linéaire et Statistiques Bivariées
15 pages
Optimisation non linéaire : Théorie et méthodes
Pas encore d'évaluation
Optimisation non linéaire : Théorie et méthodes
52 pages
Introduction à l'Algorithme de Simplexe
Pas encore d'évaluation
Introduction à l'Algorithme de Simplexe
38 pages
Estimation et Risque en Statistique
Pas encore d'évaluation
Estimation et Risque en Statistique
104 pages
ACP Sous Python Avec Scientisttools
Pas encore d'évaluation
ACP Sous Python Avec Scientisttools
22 pages
Exercices2024-2
Pas encore d'évaluation
Exercices2024-2
2 pages
DataMining Et Analyse de Données - Partie 2
Pas encore d'évaluation
DataMining Et Analyse de Données - Partie 2
108 pages
Modèle Linéaire Général: Présentation et Estimation
Pas encore d'évaluation
Modèle Linéaire Général: Présentation et Estimation
30 pages
Ajustement Linéaire et Moindres Carrés
Pas encore d'évaluation
Ajustement Linéaire et Moindres Carrés
3 pages
Processus Ornstein-Uhlenbeck : Modélisation et Applications
Pas encore d'évaluation
Processus Ornstein-Uhlenbeck : Modélisation et Applications
13 pages
Cours - YOUSFI Naouel - Méthodes Multicritères Daide À La Décision
Pas encore d'évaluation
Cours - YOUSFI Naouel - Méthodes Multicritères Daide À La Décision
79 pages
Implémentation du XOR avec Réseaux de Neurones
Pas encore d'évaluation
Implémentation du XOR avec Réseaux de Neurones
3 pages
Test - 1 - Méta-Heuristiques Et Data Mining Correction
Pas encore d'évaluation
Test - 1 - Méta-Heuristiques Et Data Mining Correction
2 pages
Simplexe Paramétrique Biobjectif - Actualisé
Pas encore d'évaluation
Simplexe Paramétrique Biobjectif - Actualisé
6 pages
Arbres de Decision 3
Pas encore d'évaluation
Arbres de Decision 3
22 pages
Inference 2
Pas encore d'évaluation
Inference 2
24 pages
Master Cours de CALCUL STOCHASTIQUE
Pas encore d'évaluation
Master Cours de CALCUL STOCHASTIQUE
26 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
49 pages
Théorie Bayesienne pour Étudiants Avancés
Pas encore d'évaluation
Théorie Bayesienne pour Étudiants Avancés
2 pages
TP Tests Statistiques 2 Corrige-1
Pas encore d'évaluation
TP Tests Statistiques 2 Corrige-1
9 pages
Support de Cours M1 OFRC
Pas encore d'évaluation
Support de Cours M1 OFRC
40 pages
SupportCours BiostatistiqueEtInformatiqueAppliquees 2024
Pas encore d'évaluation
SupportCours BiostatistiqueEtInformatiqueAppliquees 2024
124 pages
TP 1 A Rendre
Pas encore d'évaluation
TP 1 A Rendre
6 pages
TD Et TP Acp
Pas encore d'évaluation
TD Et TP Acp
6 pages
Tests de Racine Unitaire Séries Temporelles
Pas encore d'évaluation
Tests de Racine Unitaire Séries Temporelles
57 pages
Analyse en Composantes Principales
Pas encore d'évaluation
Analyse en Composantes Principales
5 pages
Cours sur l'optimisation combinatoire
Pas encore d'évaluation
Cours sur l'optimisation combinatoire
78 pages
Exam 1
Pas encore d'évaluation
Exam 1
4 pages
Série 2 ACP
Pas encore d'évaluation
Série 2 ACP
10 pages
Chapitre 5 - Méthodes de Recherche Locale
Pas encore d'évaluation
Chapitre 5 - Méthodes de Recherche Locale
5 pages
Optimisation pour l'Apprentissage
Pas encore d'évaluation
Optimisation pour l'Apprentissage
64 pages
Algorithmes de Graphes et Modélisation
Pas encore d'évaluation
Algorithmes de Graphes et Modélisation
3 pages
Optimisation Déterministe avec Contraintes
Pas encore d'évaluation
Optimisation Déterministe avec Contraintes
19 pages
Problèmes d'optimisation en agriculture et transport
100% (1)
Problèmes d'optimisation en agriculture et transport
5 pages
Tests Paramétriques en Licence 3
100% (2)
Tests Paramétriques en Licence 3
2 pages
Chap 04 Exercices Opt Graphe
Pas encore d'évaluation
Chap 04 Exercices Opt Graphe
31 pages
Cours Lasso Mod È Le
Pas encore d'évaluation
Cours Lasso Mod È Le
60 pages
Cours Complet ML Mory - (Partie 2)
Pas encore d'évaluation
Cours Complet ML Mory - (Partie 2)
51 pages
Article FGF
Pas encore d'évaluation
Article FGF
3 pages
Série n2
Pas encore d'évaluation
Série n2
2 pages
Optimisation pour Ingénieurs
Pas encore d'évaluation
Optimisation pour Ingénieurs
8 pages
UML 2 Initiation Exemples Et Exercices Corriges 2ieme Edition Resume Fien VAN DER HEYDE Laurent DEBRAUWER PDF
Pas encore d'évaluation
UML 2 Initiation Exemples Et Exercices Corriges 2ieme Edition Resume Fien VAN DER HEYDE Laurent DEBRAUWER PDF
2 pages
TDs Maths
Pas encore d'évaluation
TDs Maths
15 pages
JSD Jfsma08
Pas encore d'évaluation
JSD Jfsma08
10 pages
Vernadsky 1926
100% (2)
Vernadsky 1926
238 pages
Utilisation des tableurs en informatique
Pas encore d'évaluation
Utilisation des tableurs en informatique
53 pages
14-Infections A Staphylocoques Polycopié
Pas encore d'évaluation
14-Infections A Staphylocoques Polycopié
4 pages
Tableau-De-Tresorerie II
Pas encore d'évaluation
Tableau-De-Tresorerie II
1 page
Étapes Et Équipements Du Processus
Pas encore d'évaluation
Étapes Et Équipements Du Processus
29 pages
Fonctionnalités de Google Earth Pro
Pas encore d'évaluation
Fonctionnalités de Google Earth Pro
22 pages
Réactions indésirables à l'ivermectine
Pas encore d'évaluation
Réactions indésirables à l'ivermectine
2 pages
Fournisseurs de broyage et contrôle
Pas encore d'évaluation
Fournisseurs de broyage et contrôle
1 page
Recrutement de stagiaires EDC Cameroun
Pas encore d'évaluation
Recrutement de stagiaires EDC Cameroun
3 pages
29 Comment Dessiner D'imagination
Pas encore d'évaluation
29 Comment Dessiner D'imagination
8 pages
Mnemo Signes Digestifs
Pas encore d'évaluation
Mnemo Signes Digestifs
3 pages
Anorexie et Boulimie : Comprendre les TCA
Pas encore d'évaluation
Anorexie et Boulimie : Comprendre les TCA
9 pages
29e Dimanche TO Fi 20161
Pas encore d'évaluation
29e Dimanche TO Fi 20161
2 pages
TP2 V Etud 2022 2023
Pas encore d'évaluation
TP2 V Etud 2022 2023
6 pages
Elec-Exos3 0910 PDF
Pas encore d'évaluation
Elec-Exos3 0910 PDF
8 pages
Spécifications DCP Image & Son
Pas encore d'évaluation
Spécifications DCP Image & Son
1 page
Stratégie Nationale Multisectorielle de Nutrition Maroc 2024 2030
Pas encore d'évaluation
Stratégie Nationale Multisectorielle de Nutrition Maroc 2024 2030
60 pages
Guide Pédagogique Thèmots Grande Section
100% (1)
Guide Pédagogique Thèmots Grande Section
133 pages
Exercices corrigés sur l'ordre dans IR
Pas encore d'évaluation
Exercices corrigés sur l'ordre dans IR
2 pages
HPLC 1290InfinityLC-System FR
Pas encore d'évaluation
HPLC 1290InfinityLC-System FR
156 pages
Riviere
Pas encore d'évaluation
Riviere
19 pages
Guide des Territoires Mondiaux
Pas encore d'évaluation
Guide des Territoires Mondiaux
7 pages
SULO Citybac Catalog FR
Pas encore d'évaluation
SULO Citybac Catalog FR
108 pages
Diagnostic de L'entreprise KALYPSO
Pas encore d'évaluation
Diagnostic de L'entreprise KALYPSO
72 pages
Royaume Du Maroc
Pas encore d'évaluation
Royaume Du Maroc
27 pages
Conductimetrie - TP
50% (2)
Conductimetrie - TP
18 pages
Bilan DGCCRF 2020-12 Enquête 2018 Distribution-Boissons-Alcoolisees
Pas encore d'évaluation
Bilan DGCCRF 2020-12 Enquête 2018 Distribution-Boissons-Alcoolisees
3 pages
BOIS Partie 2 29
Pas encore d'évaluation
BOIS Partie 2 29
9 pages
Resume A Imprimer
Pas encore d'évaluation
Resume A Imprimer
13 pages
Apc PM5-FR
Pas encore d'évaluation
Apc PM5-FR
2 pages