Modèles Linéaires Généralisés en Statistiques
Modèles Linéaires Généralisés en Statistiques
3 Régression logistique 12
1
— la forme linéaire peut être trop restrictive ;
— le cadre gaussien peut ne pas être adapté. Par exemple, lorsque la variable
réponse Y est une variable catégorielle, une variable discrète.
Le but des modèles linéaires généralisés est de relâcher ces hypothèses. Ils per-
mettent notamment de conserver la simplicité des modèles linéaires gaussiens tout
en autorisant une forme plus générale de la fonction g. Les coefficients du modèle
sont estimés par maximisation d’une vraisemblance qui provient d’une famille de
lois, appelée famille exponentielle. Cependant, la procédure n’est efficace que si
la vraie loi conditionnelle appartient à une famille exponentielle. De plus, certes ils
permettent plus de liberté sur le choix de la fonction g, mais celui-ci est souvent
imposé par le choix de la famille exponentielle.
1 Familles exponentielles
Soit θ Ă R ouvert.
Définition 1.1. Un modèle statistique pΩ, F, pPθ,ϕ qθPΘ,ϕą0 q est appelé famille ex-
ponentielle si les probabilités Pθ,ϕ admettent une densité f par rapport à une mesure
dominante avec ˆ ˙
yθ ´ apθq
fθ,ϕ pyq “ cϕ pyq exp .
ϕ
— θ s’appelle le paramètre canonique et ϕ le paramètre de dispersion, souvent
considéré comme un paramètre de nuisance ( un paramètre de nuisance est
un paramètre qui n’est pas d’un intérêt immédiat mais qui doit être pris en
compte dans l’analyse des paramètres d’intérêt) ;
— apθq ne dépend que de θ ;
— cϕ pyq ne dépend pas de θ.
Remarque 1.2. 1. Comme la définition d’une famille exponentielle fait intervenir
une mesure dominante, les lois discrètes peuvent être des familles exponentielles
2. Le choix des fonctions cϕ , a n’est pas unique. Tous les modèles classiques munis
de leur paramétrisation classique sont identifiables.
Proposition 1.3. Soit Y une variable aléatoire réelle dont la loi appartient à une
famille exponentielle avec a de classe C 2 et convexe, alors
2
Puis, on intègre de chaque côté par rapport à y. On a d’une part,
ż ż
Bf B
dy “ f dy “ 0
y Bθ Bθ y
ż 2
B2
ż
B f
2
dy “ f dy “ 0 .
y Bθ Bθ2 y
D’autre part,
y ´ a1 pθq EY ´ a1 pθq
ż
f pyq dy “
y ϕ ϕ
ż ˜ ¸
y ´ a1 pθq 2
ˆ ˙
a2 pθq VarrY s a2 pθq
f pyq ´ f pyq dy “ ´ .
y ϕ ϕ ϕ2 ϕ
En résumé, on a bien
E rY s “ a1 pθq et VarrY s “ ϕa2 pθq .
3
2 Modèles linéaires généralisés
2.1 Définitions et exemples
Dans toute la suite, on note µpXq “ ErY | Xs
Définition 2.1. Un modèle est un modèle linéaire généralisé s’il vérifie les hypothèses
suivantes
1. Y | X „ PθpXq,ϕ appartient à une famille exponentielle ;
2. gpµpXqq “ gpErY | Xsq “ Xβ pour une certaine fonction g bijective et déri-
vable, appelée fonction de lien.
Donc, lorsque a1 est bijective, en choisissant comme fonction de lien g “ pa1 q´1
(fonction de lien canonique), le point 2. se réécrit encore
θpXq “ Xβ .
Remarque 2.2. 1. Certains auteurs considèrent qu’un modèle est un modèle li-
néaire généralisé quand seulement 2. est vérifée.
2. Attention ! Le paramètre θ dépend de X
Exemple 2.3. Exemples de fonctions de lien canoniques
— pour la loi normale,
gpµq “ µ
Exemple 2.4. Prenons un exemple avec des données discrètes. Soit Yi le nombre de
sinistres en Île de France au cours de l’année i et xi des caractéristiques définissant
l’environnement de l’île de France au cours de l’année i. On considère un GLM
Poisson avec sa fonction de lien canonique (g “ log), ce qui signifie
1. Yi | xi suit une loi de Poisson ;
2. logpµpxi qq “ logpErYi | xi sq “ x1i β.
4
Soit ωi l’exposition en Île de France au cours de l’année i, c’est-à-dire le nombre
d’assurés vivant en Île de France pendant l’année i. Plus ωi est grand, plus Yi a de
chances de l’être aussi. Il est donc plus raisonnable de modéliser le rapport Yi {omegai .
On va donc plutôt s’intéresser à
„ ˇ ȷ
Yi ˇ
µpxi q “ E ˇxi .
ωi
Le terme log ωi est souvent appelé un offset et il peut être vu comme une nouvelle
variable du modèle de régression avec un coefficient β constant égal à 1. Ainsi,
logpErYi | xi sq “ px˚i q1 β ˚
1 1 x1
“ “ iβ .
ErYi | xi s µpxi q ωi
1
“ px˚i q1 β
ErYi | xi s
5
2.2 Estimation
2.2.1 Estimateur du maximum de vraisemblance
Contrairement au cas des modèles linéaires gaussiens, dans le cadre des modèles
linéaires généralisés il n’existe pas de formule explicite de l’estimateur de maximum
de vraisemblance βp de β.
Estimation de ϕ
ϕ est un paramètre de nuisance, donc son estimation est considérée comme se-
condaire. Ici, sa valeur n’influence pas la maximisation de la vraisemblance en β,
donc on ne s’attardera pas sur ce point. Si besoin, ϕ peut être estimé par maximum
de vraisemblance.
Estimation de β
β est estimé par maximum de vraisemblance. On pose
$
1
&ηi “ xi β
’
µi “ ErYi | xi s “ g ´1 px1i βq “ g ´1 pηi q
’
θi “ pa1 q´1 pµi q “ pa1 q´1 pg ´1 px1i βqq “ pa1 q´1 pg ´1 pηi qq .
%
où l’on a supposé que les Yi étaient indépendants. Notez que dans cette écriture, le
paramètre β apparaît dans θ uniquement. On peut donc écrire :
n
ÿ Yi θi ´ apθi q
β̂ “ Argmax ℓpβq “ Argmax .
β β i“1
ϕ
D’une part,
Bℓi Yi ´ a1 pθi q Yi ´ µi
“ “ .
Bθi ϕ ϕ
D’autre part, comme ηi “ x1i β, on peut écrire
6
et
Bηi Bηi Bµi
“ “ g 1 pµi qa2 pθi q .
Bθi Bµi Bθi
Ainsi,
n
Bℓ 1 ÿ xi,j pYi ´ µi q
“ .
Bβj ϕ i“1 g 1 pµi qa2 pθi q
1
Soit D la matrice diagonale dont les coefficients sont égaux à g 1 pµi qa2 pθi q alors
Bℓ
“0 pour tout j “ 1, . . . , p ô X 1 DpY ´ µq “ 0
Bβj
1
.
g 1 pµi q2 a2 pθi q
soit
` ˘
GpY ´ µq « gpYi q ´ x1i β 1ďiďn “ gpY q ´ Xβ .
En remplaçant dans (2.7),
X 1 W gpY q ´ X 1 W Xβ « 0 .
Remarque 2.8. Cette approximation est exacte si g est la fonction de lien égale à
l’identité.
On peut en déduire que βp peut être approché par la solution d’un problème de
moindres carrés pondérés avec comme poids W .
Remarque 2.9. Rappelons que µ “ ErY | Xs peut également se réécrire µ “ g ´1 pXβq.
Ainsi, on peut proposer un estimateur pour µ :
p “ g ´1 pX βq
µ p .
7
2.2.3 Algorithmes de Newton-Raphson et Fisher-scoring
βp est donc calculé numériquement, en général, grâce à l’algorithme de Newton-
Raphson. Cet algorithme est un algorithme itératif basé sur le développement de
Taylor à l’ordre 1 du score. Il fait donc intervenir la matrice hessienne H de la
log-vraisemblance
B 2 ℓpβq
Hjk “
Bβj Bβk
Il faut que H soit inversible et comme elle dépend de β, il convient de mettre à jour
cette matrice à chaque étape de l’algorithme. Cet algorithme est implémenté dans la
plupart des logiciels de statistique.
On note „ ȷ
¨ Bℓpβq
ℓpβq “
Bβj j
le vecteur gradient de la log-vraisemblance ℓ, appelé score.
3. Arrêt quand
|um ´ um´1 | ď ∆
4. On pose βp “ um
8
Remarque 2.11. Notez qu’un tel résultat n’est pas utilisable tel quel puisque la ma-
trice In pβq est inconnue en pratique. Mais en remplaçant β par βp avec βp qui converge
en probabilité vers β, on peut montrer que
´ ¯
p 1{2 βp ´ β ÝÝLÝÑ N p0, Ip q .
In pβq
nÑ8
Ainsi, en particulier,
´ ¯
1{2 L
In pβpj qjj βpj ´ βj ÝÝÝÑ N p0, 1q
nÑ8
Rα “ tT ą qp1´p0 p1 ´ αqu
9
est le modèle comportant n paramètres, c’est-à-dire autant que d’observations. Il
s’obtient en posant µpxi q “ yi . La déviance de M s’écrit alors
´ ¯
DpMq “ ´2 ℓpβq p ´ ℓpβpsat q
En pratique comme précisé plus haut, l’information de Fisher est calculée non
pas en les vrais paramètres qui sont inconnus mais en βp (et ϕ).
p La statistique de test
de Wald est donc ´ ¯2
Wj “ In pβqjj βj ´ βj
p p
10
2.5.3 Choix de modèle
Quand deux modèles sont emboîtés, le test de modèles emboités permet de choisir
entre les deux.
En présence de plusieurs modèles candidats, non emboités, un première critère
de sélection est donné par la déviance. Le modèle qui a la plus mauvaise déviance
(la plus forte) est le modèle nul, qui a un seul paramètre (variable expliquée par
une constante). Ce modèle n’a en général aucune utilité car il n’explique rien. Le
modèle saturé qui a autant de paramètres que de données possède par définition la
meilleure déviance puisqu’elle vaut 0. Ce modèle n’est souvent pas pertinent car il a
trop de paramètres. Les déviances de ces deux modèles fournissent les valeurs du pire
et du meilleur ajustement possible. Un modèle sera qualifié de bon si sa déviance est
proche du modèle saturé (ce qui est équivalent à un pseudo-R2 proche de 1) et s’il
est construit avec un faible de nombre de paramètres.
Des critères pénalisés permettent de prendre en compte ces deux contraintes
antagonistes. Le plus célèbre est le critère AIC. Le criètre BIC pénalise davantage le
sur-ajustement.
11
C’est à dire que
n
ÿ
DpMq “ di .
i“1
Pour rendre ces résidus comparables entre eux, il faut les corriger pour prendre
en compte l’influence de chaque observation, les résidus de la déviance standardisés
sont définis par
d
rdi 2ℓpyi ; θ̂sat , ϕ̂q ´ 2ℓpyi ; θ̂, ϕ̂q
rdsi “ ? “ signpyi ´ µ̂i q .
1 ´ hii 1 ´ hii
Intuitivement, une observation ayant un résidu de déviance élevé est une observation
ayant une grande influence sur l’estimation des paramètres du modèle et doit donc
être examimée avec soin. Dans les deux cas on vérifiera comme pour le modèle li-
néaire, qu’il n’existe pas de structure inattendue dans les résidus, en moyenne ou en
variance. La présence d’une telle structure devrait porter le modélisateur à reprendre
le modèle proposé pour identifier la cause de cette structure, par exemple un effet
quadratique d’une variable. On peut montrer que les résidus sont asymptotiquement
gaussiens si le modèle est adéquat, et cette hypothèse peut être vérifiée à l’aide d’un
q-q plot si le nombre de données n est assez grand.
3 Régression logistique
Exemple 3.1. Nous souhaitons expliquer la variable Y Présence (1)/ Absence (0)
d’une maladie cardio-vasculaire (Chd) par l’âge des patients. D’après la Figure 3.1,
il ne semble pas raisonnable de supposer que Y s’exprime linéairement en fonction
X. Une idée naturelle est de supposer que Y est distribuée selon une loi de Bernoulli
dont le paramètre dépend de X. Nous avons vu précédemment que la fonction de lien
canonique pour la loi de Bernoulli était la fonction logit. On parle donc de régression
logistique.
Pour une régression logistique, le modèle linéaire généralisé s’écrit :
1. Y | X “ x „ BpppXqq avec 0 ă ppXq ă 1 ;
2. logitpErY | Xsq “ logitpppXqq “ Xβ
où la fonction logit est définie par : p P r0, 1s ÞÑ logpp{p1 ´ pqq.
ppXq
1 ´ ppXq
ppXq
“ exppXβq “ exppβ0 ` β1 X 1 ` . . . ` βk X k q
1 ´ ppXq
12
1.0
0.8
0.6
chd
0.4
0.2
0.0
20 30 40 50 60
age
13
Si on considère deux individus i1 et i2 dont la valeur des covariables ne diffère
que pour la j e variable avec Xij1 ´ Xij2 “ 1, on peut calculer l’odds-ratio (ou le
rapport des côtes)
ppXi1 q ppXi2 q
{ “ exppβj q .
1 ´ ppXi1 q 1 ´ ppXi2 q
On dira alors qu’une augmentation de 1 de la variable j entraîne une multiplication
de l’odds-ratio de exppβj q.
Soit un nouvel individu x‹ . On souhaite prédire si y ‹ est égal à 0 ou à 1. Dans
l’exemple sur les maladies cardio-vasculaires, cela signifie que l’on souhaite prédire
la présence ou non d’une maladie en fonction de son âge. On commence par calculer
exppx‹ βq
p
pppx‹ q “
1 ` exppx‹ βq
p
ce qui nous donne une valeur entre 0 et 1. Or, on aimerait prédire 0 ou 1, on compare
alors pppx‹ q au seuil s “ 1{2 :
pppx‹ q ą 1{2 ñ Yp P “ 1
pppx‹ q ď 1{2 ñ Yp P “ 0 .
Le choix du seuil s “ 1{2 est un choix par défaut quand les deux prédictions 0, 1
jouent le même rôle. Dans beaucoup de situations, les rôles ne sont pas symétriques :
par exemple, il peut être grave de prédire la présence (Ŷ P “ 1) d’une maladie
relativement bénigne qui entraînerait par exemple une chirurgie, alors que le patient
n’est pas malade (Y “ 0).
On est donc intéressés à distinguer les différents types d’erreur.
Définition 3.3 (Matrice de confusion). Pour chaque individu i “ 1, . . . , n de notre
échantillon, YpiP désigne la prédiction de Yi et on note
— le nombre de positifs P comme le nombre d’observations telles que Yi “ 1
n
ÿ
P“ 1Yi “1 ;
i“1
et on définit
— le nombre de vrais positifs par
n
ÿ
TP “ 1Yi “1 et Yp P “1 ;
i
i“1
14
— le nombre de vrais négatifs comme
n
ÿ
TN “ 1Yi “0 et Yp P “0 ;
i
i“1
— le nombre de faux négatifs comme
n
ÿ
FN “ 1Yi “1 et Yp P “0 .
i
i“1
La matrice de confusion résume ces quatre indicateurs
Yi “ 0 Yi “ 1
YpiP “ 0 TN FN
YpiP “ 1 FP TP
Total N P
On définit aussi
— la sensibilité comme le taux de vrais positifs, soit
TP
;
P
— la spécificité comme le taux de vrais négatifs, soit
TN
.
N
On fait maintenant varier le seuil de prédiction s P r0, 1s, ie on définit le prédicteur
(ou classifieur) qui dépend de ce seuil Yp P,s par
pppx‹ q ą s ñ Yp P,s “ 1
pppx‹ q ď s ñ Yp P,s “ 0
Définition 3.4 (Courbe ROC et AUC). La courbe ROC (receiver operating cha-
racteristic) représente la sensibilité contre 1 - la spécificité pour toutes les valeurs
du seuil entre 0 et 1.
L’AUC (area under the ROC curve) est l’aire sous la courbe ROC.
Une courbe ROC idéale sera collée au coin supérieur gauche et l’AUC sera égale
à 1. Donc plus l’AUC est grande, meilleur est le classifieur. Une règle de classification
au hasard aura une courbe ROC proche de y “ x et un AUC d’environ 0.5.
Mise en oeuvre
— Il faut des observations pour construire le prédicteur (estimer p̂pxq pour tout
x)
— si on mesurait la qualité du prédicteur sur les données qui ont servi à le
construire, on aurait un résultat biaisé : il faut toujours mesurer la qualité du
prédicteur sur de nouvelles observations
— Quand c’est possible, on découpe le jeu de données en un échantillon d’ap-
prentissage (qui va permettre de construire p̂pxq) et un second échantillon
dit de test sur lequel on va mesurer les performances de la règle.
15
4 Régression de Poisson - régression loglinéaire
Nous nous intéressons maintenant au cas où la variable réponse Y est une variable
de comptage, c’est-à-dire qui compte le nombre de fois qu’un événement se réalise
dans une certaine période de temps (par exemple le nombre d’accidents sur la route
pendant un an, le nombre d’enfants dans une famille).
Si on utilise le modèle de régression usuel Yi “ x1i β ` εi pour expliquer le nombre
d’accidents en fonction de l’âge du conducteur par exemple, on s’aperçoit d’une part
que l’hypothèse de normalité des résidus n’est clairement pas réaliste. D’autre part,
les variables εi étant supposées centrées, on a
Or rien n’indique que x1i β ą 0. Il est donc nécessaire de définir une fonction de
lien reliant λpxi q au prédicteur linéaire ηi “ x1i β. Pour garantir que l’espérance
conditionnelle λpxi q “ ErYi | xi s est bien strictement positive, on définit le modèle
par
λpxi q “ exppx1i βq.
p i q “ exppx1 βq
λpx p P r0, `8q.
i
Les valeurs ajustées Ypi pour les Yi sont alors définies suivant la règle
$´ ¯k ,
& λpx
’ p iq /
.
´λpx
p iq
Yi P arg max
p e ,
kPN ’% k! /
-
i.e. Ypi correspond donc à l’entier le plus probable pour la loi de Poisson de paramètre
λpx
p i q.
Si l’on se donne maintenant un nouvel individu décrit par x‹ alors le modèle ajusté
permet de prédire son nombre moyen de « succès », donné par λpx p ‹ q “ exppx‹ 1 βq,
p
et sa réponse prédite définie par
$´ ¯k ,
& λpx q
’ p ‹ /
.
‹ p ‹q
´λpx
Y P arg max
p e .
kPN ’% k! /
-
16
Sur-dispersion et modèle binomial négatif Dans le cas du modèle de régres-
sion de Poisson, on a
ErYi | xi s “ VarrYi | xi s,
ce qui est une hypothèse très restrictive. Si ErYi | xi s ă VarrYi | xi s (respectivement
ErYi | xi s ą VarrYi | xi s), nous parlons alors de sur-dispersion (respectivement de
sous-dispersion). Ces deux propriétés n’étant pas autorisées par le modèle de Poisson,
nous définissons une classe plus riche de modèles basée sur la loi binomiale négative.
Rappelons que la loi binomiale négative de paramètres n et p permet de modéliser
le nombre d’échecs nécessaires avant l’obtention de n succès lors de la répétition de
« tirages » indépendants de probabilité de succès p. Elle peut être généralisée à n “ r
non-entier. Le modèle de régression binomial négatif suppose que
1. Yi | Xi “ xi suit une loi binomiale négative de paramètres r et ppxi q, soit
ˆ ˙k ˆ ˙r
Γpr ` kq ppxi q ppxi q
PpYi “ k | Xi “ xi q “ 1´
k!Γprq ppxi q ` r ppxi q ` r
Références
L. Bel, J. Daudin, M. Etienne, E. Lebarbier, T. Mary-Huard, S. Robin, and C. Vuillet.
Le modèle linéaire et ses extensions. 2016.
17