Lasso
Présenté par :
Omar Ben Hammouda
Ferdawes Abdessalem
Mehdi Abdessalem
Yosr Boukadida
Eya Gharred
Année Universitaire : 2023/2024
Plans
1 Mise en situation
2 Problématique
3 Introduction
4 La limite de Lasso
5 Exemple d’application
Mise en situation
Mise en situation
Supposons qu’on cette base de données :
Figure 1 – base de données
1 / 25
Mise en situation
Mise en situation
La valeur R-squared de ce modèle est d’environ 0,58, ce qui nous indique
que l’âge explique assez bien la variation de la tension artérielle entre les
sept individus.
Figure 2 – ligne de régression de BP et Age
2 / 25
Mise en situation
Mise en situation
Mais pour ce modèle semble qu’un score plus élevé au test de
mathématiques soit lié à une pression artérielle plus basse. Cela semble un
peu étrange car les connaissances en mathématiques ne devraient pas
affecter les tension artérielle, à moins qu’il n’y ait une relation sous-jacente
étrange. Cependant, le R-squared est très faible , ce qui nous indique que
le score en mathématiques n’est pas bon pour expliquer la variation de la
tension artérielle.
Figure 3 – ligne de régression de BP et Math score
3 / 25
Mise en situation
Mise en situation
D’autre part , si nous créons un modèle comprenant à la fois l’âge et le
score en mathématiques
BP = β0 + β1 age
nous obtiendrons un coefficient de détermination R 2 égal à 0,592. Cela est
supérieur à celui obtenu en n’utilisant que l’âge comme variable explicative.
4 / 25
Problématique
Problématique
Cependant, il y a un problème lors de l’étude de la valeur R carré, car un
modèle avec plus de paramètres s’ajustera toujours mieux qu’un modèle
avec moins de paramètres, même si certaines variables explicatives sont
totalement inutiles. Si nous utilisons ce modèle avec principalement des
variables inutiles pour prédire de nouvelles données qui n’ont pas été
incluses pour former ou estimer les paramètres ou le modèle, il sera très
mauvais pour la prédiction, c’est ce que nous appelons le surajustement.
C’est là que la régression Lasso intervient, car elle peut éliminer les
variables qui ne sont pas importantes pour expliquer les variables de
réponse. La régression Lasso est moins sensible aux données par rapport à
la régression linéaire ordinaire
5 / 25
Introduction
Définitions
La régression Lasso (Least Absolute Shrinkage and Selection Operator) est
une technique de régression linéaire qui ajoute une pénalité à la fonction
de coût, visant ainsi à favoriser la simplicité du modèle en encourageant la
diminution du nombre de variables explicatives.
6 / 25
Introduction
L’expression de la régression au lasso peut être écrite comme suit :
1 ∑
N
J(β) = (yi − xi β)2 + λ∥β∥1
2N
i=1
• J(β) est la fonction de coût
• N est le nombre d’observations
• yi est la valeur observée pour l’observation i
• xi est le vecteur de caractéristiques (variables explicatives) pour
l’observation i
• β est le vecteur des coefficients du modèle
• λ est le paramètre de pénalité (facteur de régularisation)
• ∥β∥1 est la norme L1 du vecteur des coefficients
7 / 25
Introduction
l’estimation de βest β̂ :
N ⟨z , y⟩ − λ
1
si N1 ⟨z , y⟩ > λ
β̂ = 0 si N1 |⟨z , y⟩| ≤ |λ|
1
N ⟨z , y⟩ + λ sinon
8 / 25
Introduction
l’utilité de lasso
La régression Lasso (Least Absolute Shrinkage and Selection Operator) est
une technique de régression linéaire qui ajoute une pénalité à la fonction
de coût, visant ainsi à favoriser la simplicité du modèle en encourageant la
diminution du nombre de variables explicatives.
9 / 25
Avantages
Les principaux avantages du lasso sont :
• Grande dimension : le lasso fonctionne dans les cas où le nombre
d’individus est inférieur au nombre de variables (n < p), si toutefois
un faible nombre de ces variables a une influence sur les observations
(hypothèse de parcimonie). Cette propriété n’est pas vraie dans le cas
de la régression linéaire classique avec un risque associé qui augmente
comme la dimension de l’espace des variables même si l’hypothèse de
parcimonie est vérifiée.
• Sélection parcimonieuse : le lasso permet de sélectionner un
sous-ensemble restreint de variables (dépendant du paramètre λ).
Cette sélection restreinte permet souvent de mieux interpréter un
modèle (rasoir d’Ockham).
• Consistance de la sélection : lorsque le vrai vecteur solution β est
creux (∥β∥0 = K < p), le lasso sera en mesure de sélectionner ces
variables d’intérêt avant toutes autres variables.
10 / 25
limites
Par contre, certaines limites du lasso ont été démontrées :
• Les fortes corrélations : Si des variables sont fortement corrélées
entre elles et qu’elles sont importantes pour la prédiction, le lasso en
privilégiera une au détriment des autres. Un autre cas, où les
corrélations posent problème, est quand les variables d’intérêt sont
corrélées avec d’autres variables. Dans ce cas, la consistance de la
sélection du lasso n’est plus assurée.
• La très grande dimension : Lorsque notamment la dimension est
trop élevée (p très grand comparé à n) ou le vrai vecteur solution β
n’est pas suffisamment creux (trop de variables d’intérêt), le lasso ne
pourra pas retrouver l’ensemble de ces variables d’intérêt.
11 / 25
Exemple
Figure 4 – Exemple de data
12 / 25
Exemple
Figure 5 – son régularisation
13 / 25
Exemple
⇒ lorsque l’alpha est d’environ 0,1, Lasso a sélectionné 4 fonctionnalités
supplémentaires pour une légère amélioration du score.
14 / 25
Types des regression
Figure 6 – Types des regression
15 / 25
Régression au Lasso
La régression au lasso appartient à un groupe de méthodes appelées
méthode de régression régularisée, qui peut relever le défi d’ajuster le
modèle même si nous avons moins de points de données que le nombre de
paramètres que nous aimons estimer. Cela signifie que nous pouvons
ajuster un modèle avec plus variables explicatives que le nombre de points
de données dont nous disposons
la régression au lasso peut également être utilisée pour la sélection de
caractéristiques/variables car elle réduit à zéro les paramètres associés à
des variables moins importantes.
16 / 25
l’estimation de lassso régression et ridge régression
Figure 7 – Estimation de lasso et ridge régression
17 / 25
l’estimation de lassso régression et ridge régression
Lasso régression prend la forme d’une ellipse et ridge régression prend la
forme d’un circle
• Lasso régression
1 le facteur de pénalité est similaire à le modèle de régression linéaire.
2 chaque fois que les régions elliptiques croisent ces coins, au moins un
des coefficients de lasso devient nul.
• Ridge régression
1 le facteur de pénalité est similaire à le modèle de régression linéaire.
2 il forme une forme circulaire et par conséquent les valeurs peuvent être
réduites à près de zéro, mais jamais égales à zéro.
18 / 25
La limite de Lasso
La limite de Lasso
• Lasso peut sélectionner au plus n variable avant la saturation dans le
cas p>n
• Lasso ne peut pas effectuer de sélection groupée lorsqu’il existe un
groupe de variables hautement corrélées, le lasso sélectionne une
variable du groupe et ne se soucie pas de celle qui est sélectionnée.
• lorsque n>p et que les prédicateurs sont fortement corrélés, les
performances de prédiction du lasso sont dominées par Ridge
régression
19 / 25
La limite de Lasso
Exemple d’application
la méthode Lasso avec forme fonctionnelle Logit pour prédire la santé de
l’enfant : La détermination des risques de santé à l’enfance implique une
tâche prédictive importante. Identifier ces facteurs de risques permet
d’intervenir rapidement et de réduire les conséquences néfastes d’une
mauvaise santé de l’ enfant sur sa vie future.
L’objectif principal de cette étude est d’identifier les facteurs de risques de
santé à l’enfance en utilisant des variables environnementales.
20 / 25
La limite de Lasso
Exemple d’application
Le lasso utilise le terme de pénalité qui fera pression sur les coefficients
pour les rétrécir (shrink), ou les faire tendres vers zéro. Les coefficients du
modèle de régression sont alors choisis en maximisant la fonction
log-vraisemblance du Logit, sous la contrainte de pénalité du modèle.
21 / 25
La limite de Lasso
Lasso Sans les variables environnementales
Figure 8 – Choix de À optimal pour le lasso en validation croisée sans les variables
environnementales
22 / 25
La limite de Lasso
Lasso avec les variables environnementales
Figure 9 – Choix de À optimal pour le lasso en validation croisée avec les
variables environnementales
23 / 25
La limite de Lasso
Résultats de la méthode Lasso
24 / 25
La limite de Lasso
Résultats de la méthode Lasso
La variable de mauvaise santé de la mère, à la naissance de 1’ enfant, est
la seule variable qui est retenue pour toutes les régressions. Une mauvaise
santé de la mère, dans tous les cas, a tendance à augmenter la probabilité
que l’enfant se classifie en mauvaise santé. La deuxième variable la plus
importante est la variable de revenu parental, qui se qualifie dans sept des
huit régressions. En général, une augmentation de revenu diminue la
probabilité que l’enfant soit en mauvaise santé. Les variables qui se
retrouvent six fois sont 1’ asthme au premier cycle et la mauvaise santé à
la naissance de l’enfant. On observe aussi l’éducation du conjoint et le
score de dépression parentale qui jouent un rôle important à cinq reprises.
25 / 25