0% ont trouvé ce document utile (0 vote)
79 vues55 pages

Introduction à la Régression Logistique

Mat3775

Transféré par

famlay07
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
79 vues55 pages

Introduction à la Régression Logistique

Mat3775

Transféré par

famlay07
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Régression logistique

Youssouph Cissokho

2024-11-25 23:08:38

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 1 / 34


1 Introduction à la Régression Logistique

2 Régression Logistique

3 Interprétation des coefficients

4 Exemple

5 Estimation des paramètres d’un modèle de régression logistique

6 Régression Logistique Multiple

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 2 / 34


Section 1

Introduction à la Régression Logistique

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 3 / 34


Introduction à la Régression Logistique

Introduction
La régression logistique est utilisée pour modéliser la probabilité d’une
variable dépendante binaire. Contrairement à la régression linéaire qui
prédit une valeur continue, la régression logistique prédit la probabilité
qu’une observation appartienne à une des deux classes. Le résultat est de
nature binaire (c’est-à-dire, il ne prend que deux valeurs possibles, souvent
désignées par 0 et 1). Cette méthode est largement utilisée dans les
domaines tels que

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 4 / 34


Introduction à la Régression Logistique

Introduction
La régression logistique est utilisée pour modéliser la probabilité d’une
variable dépendante binaire. Contrairement à la régression linéaire qui
prédit une valeur continue, la régression logistique prédit la probabilité
qu’une observation appartienne à une des deux classes. Le résultat est de
nature binaire (c’est-à-dire, il ne prend que deux valeurs possibles, souvent
désignées par 0 et 1). Cette méthode est largement utilisée dans les
domaines tels que
1 la médecine,
2 la biologie,
3 le marketing, etc.,
pour la classification binaire.

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 4 / 34


Introduction à la Régression Logistique

Introduction
Parfois, la variable réponse est discrète. Par exemple, nous pouvons
souhaiter modéliser le sexe ou estimer la probabilité qu’une personne porte
un gilet de sauvetage. Considérons le modèle

Yi = β0 + β1 Xi + ϵ =⇒ Y = Xβ + ϵ

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 5 / 34


Introduction à la Régression Logistique

Introduction
Parfois, la variable réponse est discrète. Par exemple, nous pouvons
souhaiter modéliser le sexe ou estimer la probabilité qu’une personne porte
un gilet de sauvetage. Considérons le modèle

Yi = β0 + β1 Xi + ϵ =⇒ Y = Xβ + ϵ


(
1 avec une probabilité P(Yi = 1) = πi
Yi =
0 avec une probabilité P(Yi = 0) = 1 − πi
Donc
E (Yi ) = 1(πi ) + 0(1 − πi ) =⇒ E Yi = x ′i β = πi .
On a un problème avec ce résultat pour la méthode des Moindres Carrés.

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 5 / 34


Section 2

Régression Logistique

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 6 / 34


Régression Logistique
Problèmes de l’Approche des Moindres Carrés
1 Variance non contante : En effet, la variance des Yi , Var (Yi ) = πi (1 − πi ).

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 7 / 34


Régression Logistique
Problèmes de l’Approche des Moindres Carrés
1 Variance non contante : En effet, la variance des Yi , Var (Yi ) = πi (1 − πi ).
2 Hétéroscédasticité : En régression logistique, la variance des erreurs
n’est pas constante, tandis que les moindres carrés supposent une
homoscédasticité.

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 7 / 34


Régression Logistique
Problèmes de l’Approche des Moindres Carrés
1 Variance non contante : En effet, la variance des Yi , Var (Yi ) = πi (1 − πi ).
2 Hétéroscédasticité : En régression logistique, la variance des erreurs
n’est pas constante, tandis que les moindres carrés supposent une
homoscédasticité.
3 Résultats Binaires : La régression logistique est utilisée pour des issues
binaires, mais les moindres carrés sont adaptés aux variables continues.

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 7 / 34


Régression Logistique
Problèmes de l’Approche des Moindres Carrés
1 Variance non contante : En effet, la variance des Yi , Var (Yi ) = πi (1 − πi ).
2 Hétéroscédasticité : En régression logistique, la variance des erreurs
n’est pas constante, tandis que les moindres carrés supposent une
homoscédasticité.
3 Résultats Binaires : La régression logistique est utilisée pour des issues
binaires, mais les moindres carrés sont adaptés aux variables continues.
.
4 Non normalité de ϵi : les termes d’erreur ϵi ne sont pas normalement
distribués car
(
1 − x ′i β avec une probabilité Yi = 1
ϵi =
−x ′i β avec une probabilité Yi = 0.

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 7 / 34


Régression Logistique
Problèmes de l’Approche des Moindres Carrés
1 Variance non contante : En effet, la variance des Yi , Var (Yi ) = πi (1 − πi ).
2 Hétéroscédasticité : En régression logistique, la variance des erreurs
n’est pas constante, tandis que les moindres carrés supposent une
homoscédasticité.
3 Résultats Binaires : La régression logistique est utilisée pour des issues
binaires, mais les moindres carrés sont adaptés aux variables continues.
.
4 Non normalité de ϵi : les termes d’erreur ϵi ne sont pas normalement
distribués car
(
1 − x ′i β avec une probabilité Yi = 1
ϵi =
−x ′i β avec une probabilité Yi = 0.

5 Estimation des Probabilités : La régression logistique estime les


probabilités entre 0 et 1, ce que les moindres carrés ne garantissent
pas.
Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 7 / 34
Distribution logistique

Définition
La distribution logistique a pour densité

ex
f (x ) = , −∞ < x < ∞.
(1 + e x )2
et pour fonction de répartition

et
F (t) = .
(1 + e t )
Nous pouvons démontrer que

π2
EX = 0, σ2 = .
3

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 8 / 34


Distribution logistique
0.25
0.20
0.15 Loi Logistique
Densité

0.10
0.05
0.00

−6 −4 −2 0 2 4 6

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 9 / 34


Le modèle logistique : assomptions

La loi de Y
La variable dépendante Y est modélisée comme une variable aléatoire de
Bernoulli de paramètre π (probabilité que y = 1)
1 Distribution de Y ou (Fonction de masse (p.m.f.)):

(
π si Y = 1
f (Y ; π) = c-à-d f (Y ; π) = π Y (1 − π)1−Y
1−π si Y = 0

2 Espérance et Variance:

E (Y ) = π et var(Y ) = π(1 − π)

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 10 / 34


De la fonction logistique à la fonction logit
.
Dans la régression logistique, la fonction de lien est la fonction logit
1 La fonction logistique est définie comme suit:

e β0 +β1 Xi 1
P(Yi = 1|X ) = πi = =
1 + e β0 +β1 Xi 1 + e −(β0 +β1 Xi )

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 11 / 34


De la fonction logistique à la fonction logit
.
Dans la régression logistique, la fonction de lien est la fonction logit
1 La fonction logistique est définie comme suit:

e β0 +β1 Xi 1
P(Yi = 1|X ) = πi = =
1 + e β0 +β1 Xi 1 + e −(β0 +β1 Xi )

2 La fonction logit est le logarithme du rapport de P(Y = 1) à


1 − P(Y = 1) (les chances):

e β0 +β1 Xi 
β0 +β1 Xi

πi = =⇒ πi e + 1 = e β0 +β1 Xi
1 + e β0 +β1 Xi
  πi
= e β0 +β1 Xi + 1 (π − 1) = −πi =⇒ e β0 +β1 Xi =
1 − πi
πi
=⇒ β0 + β1 Xi = log( ).
1 − πi

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 11 / 34


De la fonction logistique à la fonction logit (suite)

.
πi
 
logit(πi ) = β0 + β1 Xi = log
1 − πi
La logit fonction est le log des odds (chances, cotes) que Yi soit 1 plutôt
que 0.

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 12 / 34


Section 3

Interprétation des coefficients

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 13 / 34


Interprétation des coefficients

Considérons le cas d’une seule variable binaire Y = β0 + β1 X1 + ϵi .


L’Odds (ou « cote »)
1 Soit π = P(Y = 1|X ), une probabilité. Son odds est défini par:
π
Odds = = e β0 +β1 X1
1−π

Interpretations
1 Si β1 > 0 (i.e. e β1 > 1): Augmentation des odds (et de la proba.
que) Y = 1 pour chaque unité de croissance de X1 .

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 14 / 34


Interprétation des coefficients

Considérons le cas d’une seule variable binaire Y = β0 + β1 X1 + ϵi .


L’Odds (ou « cote »)
1 Soit π = P(Y = 1|X ), une probabilité. Son odds est défini par:
π
Odds = = e β0 +β1 X1
1−π

Interpretations
1 Si β1 > 0 (i.e. e β1 > 1): Augmentation des odds (et de la proba.
que) Y = 1 pour chaque unité de croissance de X1 .
2 β1 < 0 (i.e. e β1 < 1): Dimunition des odds (et de la proba. que)
Y = 1 pour chaque unité de croissance de X1 .

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 14 / 34


Interprétation des coefficients

Considérons le cas d’une seule variable binaire Y = β0 + β1 X1 + ϵi .


L’Odds (ou « cote »)
1 Soit π = P(Y = 1|X ), une probabilité. Son odds est défini par:
π
Odds = = e β0 +β1 X1
1−π

Interpretations
1 Si β1 > 0 (i.e. e β1 > 1): Augmentation des odds (et de la proba.
que) Y = 1 pour chaque unité de croissance de X1 .
2 β1 < 0 (i.e. e β1 < 1): Dimunition des odds (et de la proba. que)
Y = 1 pour chaque unité de croissance de X1 .
3 β1 = 0 (i.e. e β1 = 1, e β0 +β1 X1 = e β0 ): les odds (et de la proba. que )
Y = 1 reste la même pour chaque X1 .

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 14 / 34


Interprétation des coefficients (suite)

La probabilité π en fonction de la variable indépendante dichotomique X


est donnée par le modèle logistique :

e β0 +β1 X
π=
e β0 +β1 X + 1

x =1 x =0
β0 +β1 β0
y =1 π1 = e βe0 +β1 +1
π0 = e βe0 +1
y =0 1 − π1 = e β0 +β1 1 +1 1 − π0 = e β01+1
Total 1 1

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 15 / 34


Interprétation du coefficient
Soit πx0 = Pr(Y = 1|X = x0 ) la probabilité de l’événement lorsque la
variable explicative X est égale à x0 .

Si X augmente d’une unité le log des odds augmente de β1 :


πx0 +1
 
log = β0 + β1 (x0 + 1)
1 − πx0 +1
πx0
 
= β0 + β1 x0 + β1 = ln + β1
1 − πx0

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 16 / 34


Interprétation du coefficient
Soit πx0 = Pr(Y = 1|X = x0 ) la probabilité de l’événement lorsque la
variable explicative X est égale à x0 .

Si X augmente d’une unité le log des odds augmente de β1 :


πx0 +1
 
log = β0 + β1 (x0 + 1)
1 − πx0 +1
πx0
 
= β0 + β1 x0 + β1 = ln + β1
1 − πx0

Si X augmente d’une unité les odds sont multipliés par e β1 :


πx0 +1 πx0
= e β0 +β1 (x0 +1) = e β0 +β1 x0 × e β1 = × e β1
1 − πx0 +1 1 − πx0

Exemple : Si β1 = 2, l’augmentation d’une unité de X multiplie les


chances par e 2 ≈ 7.389.
Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 16 / 34
Interprétation des coefficients (suite)

Odds Ratio (ou “rapport des cotes”)


Dans une régression logistique avec une seule variable indépendante
dichotomique (codée 1 et 0), le rapport de cotes, défini comme le rapport
entre les odds de X = 1 et de X = 0 est égal à l’exponentielle de e β1 .

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 17 / 34


Interprétation des coefficients (suite)

Odds Ratio (ou “rapport des cotes”)


Dans une régression logistique avec une seule variable indépendante
dichotomique (codée 1 et 0), le rapport de cotes, défini comme le rapport
entre les odds de X = 1 et de X = 0 est égal à l’exponentielle de e β1 .

.
e β0 +β1 X 1
π1 /(1 − π1 ) e β0 +β1 X +1 e β0 +β1 X +1
OR = = = e β1 =⇒ ln(OR) = β1
π0 /(1 − π0 )
.
e β0 1
e β0 +1 e β0 +1

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 17 / 34


Interprétation des coefficients (suite)

Interpretation
Soit un modèle de régression logistique étudiant l’effet d’un traitement sur
les chances de guérison d’une maladie. Si nous observons un odds ratio
(OR) de 2.5 pour le traitement, nous interprétons cela comme suit :

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 18 / 34


Interprétation des coefficients (suite)

Interpretation
Soit un modèle de régression logistique étudiant l’effet d’un traitement sur
les chances de guérison d’une maladie. Si nous observons un odds ratio
(OR) de 2.5 pour le traitement, nous interprétons cela comme suit :
1 OR = 1, traitement n’a aucun effet sur la guérison

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 18 / 34


Interprétation des coefficients (suite)

Interpretation
Soit un modèle de régression logistique étudiant l’effet d’un traitement sur
les chances de guérison d’une maladie. Si nous observons un odds ratio
(OR) de 2.5 pour le traitement, nous interprétons cela comme suit :
1 OR = 1, traitement n’a aucun effet sur la guérison
2 OR > 1, la guérison est plus fréquente pour les individus qui ont le
traitement (Le traitement est positivement associé à la guérison).
▶ Dans notre cas, avec un OR = 2.5, les patients sous traitement ont des
odds de guérison 2.5 fois plus élevées que ceux sans traitement, ce qui
suggère que le traitement est efficace.

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 18 / 34


Interprétation des coefficients (suite)

Interpretation
Soit un modèle de régression logistique étudiant l’effet d’un traitement sur
les chances de guérison d’une maladie. Si nous observons un odds ratio
(OR) de 2.5 pour le traitement, nous interprétons cela comme suit :
1 OR = 1, traitement n’a aucun effet sur la guérison
2 OR > 1, la guérison est plus fréquente pour les individus qui ont le
traitement (Le traitement est positivement associé à la guérison).
▶ Dans notre cas, avec un OR = 2.5, les patients sous traitement ont des
odds de guérison 2.5 fois plus élevées que ceux sans traitement, ce qui
suggère que le traitement est efficace.
3. OR < 1, la guérison est plus fréquente pour les individus qui n’ont pas
le traitement (Le traitement est négativement associé à la guérison). * Ce
qui indiquerait que le traitement est défavorable. Cependant, cela ne
s’applique pas à notre scénario car l’OR est supérieur à 1.

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 18 / 34


Section 4

Exemple

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 19 / 34


Exemple

Exemple de Calcul des Odds et Odds Ratio


Soit un modèle de régression logistique avec les coefficients suivants :
β0 = −1.5 et β1 = 0.8.

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 20 / 34


Exemple

Exemple de Calcul des Odds et Odds Ratio


Soit un modèle de régression logistique avec les coefficients suivants :
β0 = −1.5 et β1 = 0.8.
Calcul des Odds : Les odds de récupération pour le groupe témoin
(Groupe=0) et le groupe de traitement (Groupe = 1) sont les suivants :
1 Oddstémoin = e β0 = e −1.5
2 Oddstraitement = e β0 +β1 = e −1.5+0.8

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 20 / 34


Exemple

Exemple de Calcul des Odds et Odds Ratio


Soit un modèle de régression logistique avec les coefficients suivants :
β0 = −1.5 et β1 = 0.8.
Calcul des Odds : Les odds de récupération pour le groupe témoin
(Groupe=0) et le groupe de traitement (Groupe = 1) sont les suivants :
1 Oddstémoin = e β0 = e −1.5
2 Oddstraitement = e β0 +β1 = e −1.5+0.8
Odds Ratio : L’odds ratio (OR) pour l’effet du traitement est :
OR = e β1 = e 0.8 . Ce qui signifie que les odds de récupération pour le
groupe de traitement sont e 0.8 fois celles du groupe témoin.

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 20 / 34


Section 5

Estimation des paramètres d’un modèle de


régression logistique

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 21 / 34


Estimation des paramètres d’un modèle de
régression logistique

Estimation
L’estimation des paramètres est basée sur la maximisation de la
vraisemblance. vraisemblance.

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 22 / 34


Estimation des paramètres d’un modèle de
régression logistique

Estimation
L’estimation des paramètres est basée sur la maximisation de la
vraisemblance. vraisemblance.
1 Le modèle de régression linéaire est défini comme :

Yi = β0 + β1 Xi + ϵi

où ϵi sont des erreurs i.i.d. normales avec moyenne 0 et variance σ 2 .

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 22 / 34


Estimation des paramètres d’un modèle de
régression logistique

Estimation
L’estimation des paramètres est basée sur la maximisation de la
vraisemblance. vraisemblance.
1 Le modèle de régression linéaire est défini comme :

Yi = β0 + β1 Xi + ϵi

où ϵi sont des erreurs i.i.d. normales avec moyenne 0 et variance σ 2 .


2 Le modèle logistique est donné par la fonction de lien logit :

e β0 +β1 Xi
πi =
1 + e β0 +β1 Xi
où πi est la probabilité de succès pour l’observation i.

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 22 / 34


Estimation des paramètres (suite)

Estimation
3 La fonction de vraisemblance est :
n
Y
L(β0 , β1 |X ) = πiYi (1 − πi )1−Yi
i=1

où Yi est la variable réponse binaire.

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 23 / 34


Estimation des paramètres (suite)

Estimation
3 La fonction de vraisemblance est :
n
Y
L(β0 , β1 |X ) = πiYi (1 − πi )1−Yi
i=1

où Yi est la variable réponse binaire.


4 La log-vraisemblance est :
n
X
log L(β0 , β1 |X ) = [Yi log(πi ) + (1 − Yi ) log(1 − πi )]
i=1
Xn
Yi (β0 + β1 Xi ) − log(1 + e β0 +β1 Xi )
 
=
i=1

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 23 / 34


Estimation des paramètres (suite)

Estimation
5 Les dérivées partielles de la log-vraisemblance sont :

n
" #
∂ X e β0 +β1 Xi
log L(β0 , β1 |X ) = Yi −
∂β0 i=1
1 + e β0 +β1 Xi
n
" #
∂ X e β0 +β1 Xi
log L(β0 , β1 |X ) = Xi (Yi − )
∂β1 i=1
1 + e β0 +β1 Xi

Il n’existe pas de solution en forme fermée. Au lieu de cela, des méthodes


itératives sont utilisées pour obtenir une solution β0 et β1 et ensuite

e β0 +β1 Xi
π̂i = .
1 + e β0 +β1 Xi

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 24 / 34


Section 6

Régression Logistique Multiple

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 25 / 34


Régression Logistique Multiple

Définition
La régression logistique multiple modélise la probabilité d’une issue pour
une variable de réponse catégorielle Y basée sur plusieurs variables
indépendantes X1 , X2 , . . . , Xk . L’objectif est de modéliser la probabilité πi
de Yi basée sur ces prédicteurs en utilisant la fonction logistique
Le modèle logistique multiple est donné par la fonction de lien logit :

e β0 +β1 Xi1 +β2 Xi2 +···+βk Xik e Xi β
πi = = ′
1 + e β0 +β1 Xi1 +β2 Xi2 +···+βk Xik 1 + e Xi β
où πi est la probabilité de succès pour l’observation i et
Xi′ β = β0 + β1 Xi1 + β2 Xi2 + · · · + βk Xik .

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 26 / 34


Régression Logistique Multiple

Maximisation de la vraisemblance
1 La fonction de vraisemblance pour un échantillon de n observations

est :
n
πiYi (1 − πi )1−Yi
Y
L(β0 , β1 , . . . , βk |X ) =
i=1

2 La log-vraisemblance est :
n
X
log L(β0 ,β1 , . . . , βk |X ) = [Yi log(πi ) + (1 − Yi ) log(1 − πi )]
i=1
n h
′ ′
X i
= Yi e X i β − log(1 + e X i β )
i=1

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 27 / 34


Régression Logistique Multiple (suite)

Maximisation de la vraisemblance
3 Les dérivées partielles de la log-vraisemblance par rapport à chaque β
j
sont :
n
" ′ #
∂ X eXi β
log L(β0 , β1 , . . . , βk |X ) = Xij Yi − ′
∂βj i=1 1 + eXi β

pour j = 0, 1, . . . , k.
4 Pour maximiser la log-vraisemblance, nous devons résoudre le système
d’équations non linéaires obtenu en mettant à zéro toutes les dérivées
partielles. Cela est généralement accompli à l’aide d’algorithmes
d’optimisation numérique tels que l’algorithme de Newton-Raphson
ou des méthodes de gradient.

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 28 / 34


Régression Logistique Multiple (suite)
Définition
La valeur estimée est alors

e Xi β
Ŷi = π̂i = ′
1 + e Xi β

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 29 / 34


Régression Logistique Multiple (suite)
Définition
La valeur estimée est alors

e Xi β
Ŷi = π̂i = ′
1 + e Xi β

Odds
πi ′
Peut être exprimé comme: Odds = 1−πi = e Xi β .

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 29 / 34


Régression Logistique Multiple (suite)
Définition
La valeur estimée est alors

e Xi β
Ŷi = π̂i = ′
1 + e Xi β

Odds
πi ′
Peut être exprimé comme: Odds = 1−πi = e Xi β .

Odds Ratio
L’odds ratio ORi associé à Xi est donné par:
′ ′ ′
Odds(X ′ ) e β0 +β1 X1 +...+βi Xi +...+βk Xk
ORi = = β +β X +...+β X +...+β X = e βi
Odds(X ) e 0 1 1 i i k k

Donc βi est égale à l’odds ratio associé à une augmentation d’une unité de
la variable indépendante Xi .
Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 29 / 34
Inférence sur les paramètres du modèle

Construction de l’IC
On peut montrer que E [β̂] = β. L’estimation de la variance est donnée par

Var (β) = X ′ VX −1

où V = diag(ni π̂i (1 − π̂i )). De plus on a

β̂i − βi
∼ N(0, 1), i = 0, ..., k − 1
sβ̂i

qui est utilisé pour tester et construire l’intervalle de confiance

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 30 / 34


Inférence sur les paramètres du modèle

Tests d’hypothèse
Pour tester si plusieurs coefficients sont égaux à 0, nous utilisons le
test du rapport de vraisemblance. test du rapport de vraisemblance, qui
consiste à comparer le modèle complet (FM) au modèle réduit (RM).
modèle réduit (RM). Soit

∂ 2 L(β)
G= = (gij ),
∂βi ∂βj )

La matrice hessienne et
L(RM)
 
2
G = −2 log .
L(FM)

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 31 / 34


Tests d’hypothès

.
Si le modèle réduit est correct, G 2 suit asymptotiquement une distribution
chi-carré avec des degrés de liberté égaux à la différence du nombre de
paramètres entre le modèle complet et le modèle réduit nombre de
paramètres entre le modèle complet et le modèle réduit,
dfRM − dfFM = (n − q) − (n − p). Nous rejetons pour les grandes valeurs,
c’est-à-dire G 2 > χ2p−q .

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 32 / 34


Inférence sur les paramètres du modèle

Test d’adéquation
Avant d’accepter un modèle de régression logistique, il faut l’examiner.
l’examiner. Ceci est analogue au problème habituel du test d’inadéquation
de la régression habituel. Dans ce contexte, nous avons exigé des
observations répétées comme nous le faisons ici. ici. Nous aimerions tester

e Xi β
H0 :E (Y ) = ′
1 + e Xi β

e Xi β
H1 :E (Y ) ̸= ′
1 + e Xi β

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 33 / 34


Inférence sur les paramètres du modèle

Test d’adéquation
Nous utiliserons ici un test d’adéquation du chi-carré de Pearson. Le
nombre attendu de succès est ni π̂i et le nombre attendu d’échecs est
ni (1 − π̂i ). Le test du chi carré de Pearson rejette l’hypothèse nulle lorsque
n
" #
2
X (Yi − ni π̂i )2 (ni − Yi − ni (1 − π̂i ))2
χ = + > χ2α,n−p
i=1
ni π̂i ni (1 − π̂i )

Youssouph Cissokho Régression logistique 2024-11-25 23:08:38 34 / 34

Vous aimerez peut-être aussi