0% ont trouvé ce document utile (0 vote)
134 vues31 pages

Régression Logistique : Concepts Clés

Transféré par

Mohamed El Más Fuerte
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
134 vues31 pages

Régression Logistique : Concepts Clés

Transféré par

Mohamed El Más Fuerte
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

La régression logistique

08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 1
PLAN

I. Introduction

II. Les principaux éléments de la régression logistique

1. Modélisation de la probabilité

2. La fonction logistique
3. La fonction de lien logit
4. La structure d'erreur

III. Interprétation de l’OR

IV. Conclusion
08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 2
I. Introduction

08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 3
La régression logistique est une approche statistique qui peut être employée
pour évaluer et caractériser les relations entre une variable réponse de type
binaire ( par exemple : Vivant / Mort, Malade / Non malade, succès /
échec), et une, ou plusieurs, variables explicatives, qui peuvent être de type
catégoriel (le sexe par exemple), ou numérique continu (l’âge par exemple).

08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 4
Tout comme la régression de Poisson, la régression logistique appartient aux
modèles linéaires généralisés.

Pour rappel, il s’agit de modèles de régression qui sont des extensions du


modèle linéaire, et qui reposent sur trois éléments :

1. un prédicteur linéaire

2. une fonction de lien

3. une structure des erreurs

08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 5
Les aspects théoriques et mathématiques de la régression logistique sont
relativement complexes, c’est pourquoi nous ne les aborderons pas ici.
Néanmoins, certains éléments caractérisant la régression logistique peuvent
être retenus.

Remarque : La régression logistique peut également être utilisée comme un


algorithme de classification supervisée, mais nous ne l’aborderons pas ici.

08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 6
II . Les principaux éléments de la régression logistique

08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 7
1. Modélisation de la probabilité

Dans la régression logistique, ce n’est pas la réponse binaire (malade/pas malade)


qui est directement modélisée, mais la probabilité de réalisation d’une des deux
modalités (être malade par exemple)

Cette probabilité de réalisation ne peut pas être modélisée par une droite car celle-
ci conduirait à des valeurs <0 ou >1. Ce qui est impossible puisqu’une probabilité
est forcément bornée par 0 et 1.

08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 8
08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 9
Remarque : Les données représentées ici sont inspirées de celles disponibles sur
cet article.
Cette probabilité est alors modélisée par une courbe sigmoïde, bornée par 0, et 1

08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 10
Cette courbe sigmoïde est définie par la fonction logistique, d’équation :

f(x) = exp(x) / 1+exp(x) = p

2. La fonction logistique

Lorsque la fonction logistique est ajustée à des données observées, la forme de la


courbe sigmoïde s’adapte à ces données, par l’estimation de paramètres. Dans le
cas d’une seule variable explicative (X), l’équation de la courbe logistique est
alors :

P(X) = exp(β0+β1X) / 1+exp(β0+β1X)

08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 11
Voici 3 exemples de courbes logistiques, obtenues avec des paramètres Beta0 et Beta1 différents :

08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 12
Dans une situation de variables explicatives multiples l’équation
se généralise en :
P(X) = exp(β0+β1X1+…+βnXn) / 1+exp(β0+β1X1+…+βnXn) =
exp(∑βX) / 1+exp(∑βX)

08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 13
3. La fonction de lien logit

Le modèle précédent n’est pas linéaire dans l’expression des paramètres beta_X
puisque la probabilité de réalisation ne s’exprime pas comme une addition des
effets des différentes variables explicatives.

Pour obtenir un tel modèle (linéaire dans ses paramètres), il est nécessaire de
passer par une transformation logit :

logit(p) = log(p / 1−p) = ∑j=1n βjXij

08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 14
Cette transformation logit est la fonction de lien qui permet de mettre en
relation la probabilité de réalisation (bornée entre 0 et 1), et la combinaison
linéaire de variable explicatives.

08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 15
4. La structure d'erreur

Les données de base employées dans une régression logistique dont


des données binaires (oui/non). Celles-ci sont distribuées selon une
loi binomiale B(1,p). Il en est alors de même pour les erreurs : elles
sont distribuées selon une loi binomiale B(1,p).

08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 16
Les coefficients estimés sont des log odds ratio

Le terme p/(1-p) est un rapport de cote (RC) ou Odds Ratio (OR), en anglais. Ce
paramètre permet de mesurer la relation entre la variable explicative (X) et la
réponse Y (vivant par exemple).

Les coefficients beta_j issus de la régression logistique sont donc des log odds
ratio.

Un odds ou cote est le rapport de deux probabilités complémentaires : la


probabilité P de survenue d’un événement (risque), divisé par la probabilité (1-P)
que cet événement ne survienne pas (non risque, c’est-à-dire sans l’événement).
08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 17
Par exemple, si on s’intéresse au risque de récidive d’une pathologie chez les
hommes et les femmes, et que le risque de récidive est de 80% chez les hommes et
de 40% chez les femmes, alors :

• la cote de récidives chez les hommes est 0.8/0.2 = 4 (il y a 4 fois plus de
récidives que de non récidives chez les hommes)

• la cote de récidives chez les femmes est 0.4/0.6 = 0.67 (il y a 0.67 fois plus
de récidives que de non récidives chez les femmes)

08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 18
• l’OR correspond aux rapports de ces deux cotes :

$OR = \frac{\frac{0.8}{0.2}}{\frac{0.4}{0.6}}=6$

Ici l’odds des hommes est 6 fois plus élevé que celui des femmes. On dira, par la
suite (voir plus loin) que le risque de récidive est plus important chez les hommes.

Exemple avec une variable explicative catégorielle

Il s’agit des résultats d’une régression logistique visant à étudier le lien entre la
présence d’une maladie cardiaque et le sexe des patients :

08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 19
Estimate Std.Error z value Pr(>|z|)

(Interce -1.05779 0.2321396 -4.556699 5.2e-06


pt)

gender 1.27220 0.2711647 4.691614 2.7e-06


male

08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 20
Le coefficient (Estimate) de la ligne « gendermale » correspond au log OR. Pour
obtenir l’OR, il est donc nécessaire d’employer une transformation exponentielle :

Exemple avec une variable explicative numérique


Lorsque la variable explicative est de type numérique, le coefficient obtenu est
également un log(OR). Sa transformation, par la fonction exponentielle, permettra
d’obtenir un OR qui caractérisera la force de la relation entre la probabilité de
réalisation et la variable explicative.

08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 21
Estimate Std.Error z value Pr(>|z|)

(Intercept) -10.496783 3.4901907 -3.007510 0.002634

age 0.194039 0.0665538 2.915519 0.003551

Ici, il s’agit des résultats d’une régression logistique visant à étudier le lien
entre l’apparition d’une maladie et l’âge des patients :

08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 22
08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 23
III. Interprétation de l'OR

08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 24
Règles générales

• si l’OR est significativement < 1 alors la variable explicative est un


facteur protecteur.

• si l’OR n’est pas significativement différent de 1, alors il n’y a pas de


lien entre la réalisation (par exemple la maladie) et la variable explicative.

• si l’OR est significativement > 1 alors la variable explicative est un


facteur de risque

08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 25
Lorsque la variable explicative est catégorielle

Dans cette situation, il existe deux cas de figure :

• la fréquence de la réalisation (maladie, récidive, etc..) est rare (<10%).


Dans cette situation, on interprète l’OR comme un risque relatif (RR). Par
exemple si on étudie la relation entre la récidive d’une maladie et le sexe
(Féminin en référence), et que l’odds ratio = 4 alors on pourra dire, »être un
homme multiplie le risque de récidive par 4″.

08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 26
Et on interprètera ensuite la significativité de cet odds ratio avec la p-value
correspondante. la fréquence de réalisation n’est pas rare. Dans cette
situation l’OR ne peut pas être interprété comme un risque relatif. De ce fait,
on n’interpretera pas la quantité de l’OR. On se contentera de dire, si la
pvalue du log OR est <0.05, « être un homme est associé à un risque plus élevé
de récidive ».

08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 27
Lorsque la variable explicative est numérique continue

Dans cette situation, on n’interprète pas non plus la valeur de l’OR. Dans
l’exemple précédent l’OR relatif à l’âge = 1.23. On ne peut pas dire « une
augmentation d’un an d’âge augmente le risque de maladie d’un facteur 1.23
». Dans cette situation on se contente de regarder le signe de l’OR, et s’il est
significativement différent de 1 (pvalue du log OR <0.05), on pourra dire « il
existe une association significative entre l’âge et le risque de maladie, au
risque de 5%, le risque de maladie augmente lorsque l’âge augmente ».

08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 28
Conclusion

08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 29
La régression logistique est un outil puissant et essentiel en apprentissage
automatique pour résoudre des problèmes de classification, en particulier les
classifications binaires. Grâce à sa simplicité, sa capacité à produire des
probabilités interprétables et son efficacité sur des ensembles de données bien
structurés, elle reste un choix privilégié dans de nombreux domaines tels que
la finance, le marketing, la santé et l'intelligence artificielle.

08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 30
Cependant, elle présente des limites, notamment face à des relations non
linéaires ou des données déséquilibrées, où des techniques plus avancées
comme les arbres de décision ou les réseaux neuronaux peuvent être
nécessaires. En résumé, la régression logistique est une méthode
fondamentale qui allie simplicité, robustesse et pertinence dans le traitement
des données.

08/01/2025 PREPARÉ ET PRESENTÉ PAR MADI DEMBELE & MARCEL KAMATE (MASTER 1 EN ISRS TECHNOLAB-ISTA) 31

Vous aimerez peut-être aussi