0% ont trouvé ce document utile (0 vote)
112 vues17 pages

Modèles Linéaires Généralisés en Statistiques

Ce document décrit les modèles linéaires généralisés, y compris leurs définitions, estimations, tests d'hypothèses et applications comme la régression logistique et la régression de Poisson.

Transféré par

oumy dieye
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
112 vues17 pages

Modèles Linéaires Généralisés en Statistiques

Ce document décrit les modèles linéaires généralisés, y compris leurs définitions, estimations, tests d'hypothèses et applications comme la régression logistique et la régression de Poisson.

Transféré par

oumy dieye
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Modèles linéaires généralisés

Table des matières


1 Familles exponentielles 1

2 Modèles linéaires généralisés 3


2.1 Définitions et exemples . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2.1 Estimateur du maximum de vraisemblance . . . . . . . . . . . 5
2.2.2 Lien avec l’estimateur des moindres carrés pondérés . . . . . 7
2.2.3 Algorithmes de Newton-Raphson et Fisher-scoring . . . . . . 7
2.3 Loi asymptotique de l’EMV . . . . . . . . . . . . . . . . . . . . . . . 8
2.4 Tests d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4.1 Tests de modèles emboîtés . . . . . . . . . . . . . . . . . . . . 9
2.4.2 Test de Wald : βj “ 0 . . . . . . . . . . . . . . . . . . . . . . 9
2.5 Qualité d’ajustement et choix de modèles . . . . . . . . . . . . . . . 10
2.5.1 Le pseudo R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.2 Le χ2 de Pearson généralisé . . . . . . . . . . . . . . . . . . . 10
2.5.3 Choix de modèle . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.4 Diagnostic, résidus . . . . . . . . . . . . . . . . . . . . . . . . 11

3 Régression logistique 12

4 Régression de Poisson - régression loglinéaire 15

Ce chapitre est basé sur les cours de de Maugis-Rabusseau [2019–2020] et de


Rouvière et sur les livres Husson et al. [2018] et Bel et al. [2016].
Le principe d’une régression est de modéliser l’espérance conditionnelle de la
variable réponse Y sachant les variables explicatives X comme une fonction g de X,
soit
ErY | Xs “ gpXq.
Le but est alors de retrouver la fonction g à partir d’un échantillon pX, Y q. Le modèle
de régression le plus simple est le modèle linéaire gaussien qui suppose que g est une
fonction linéaire et que le terme d’erreur Y ´ ErY | Xs suit une loi gaussienne.
Le cadre des modèles linéaires gaussiens peut être reformulé de la façon suivante :
— Y | X est distribuée selon une loi gaussienne ;
— ErY | Xs est une fonction linéaire de X.
Cependant, ce modèle simple n’est pas toujours (souvent) adapté au problème que
l’on souhaite étudier. En particulier,

1
— la forme linéaire peut être trop restrictive ;
— le cadre gaussien peut ne pas être adapté. Par exemple, lorsque la variable
réponse Y est une variable catégorielle, une variable discrète.
Le but des modèles linéaires généralisés est de relâcher ces hypothèses. Ils per-
mettent notamment de conserver la simplicité des modèles linéaires gaussiens tout
en autorisant une forme plus générale de la fonction g. Les coefficients du modèle
sont estimés par maximisation d’une vraisemblance qui provient d’une famille de
lois, appelée famille exponentielle. Cependant, la procédure n’est efficace que si
la vraie loi conditionnelle appartient à une famille exponentielle. De plus, certes ils
permettent plus de liberté sur le choix de la fonction g, mais celui-ci est souvent
imposé par le choix de la famille exponentielle.

1 Familles exponentielles
Soit θ Ă R ouvert.
Définition 1.1. Un modèle statistique pΩ, F, pPθ,ϕ qθPΘ,ϕą0 q est appelé famille ex-
ponentielle si les probabilités Pθ,ϕ admettent une densité f par rapport à une mesure
dominante avec ˆ ˙
yθ ´ apθq
fθ,ϕ pyq “ cϕ pyq exp .
ϕ
— θ s’appelle le paramètre canonique et ϕ le paramètre de dispersion, souvent
considéré comme un paramètre de nuisance ( un paramètre de nuisance est
un paramètre qui n’est pas d’un intérêt immédiat mais qui doit être pris en
compte dans l’analyse des paramètres d’intérêt) ;
— apθq ne dépend que de θ ;
— cϕ pyq ne dépend pas de θ.
Remarque 1.2. 1. Comme la définition d’une famille exponentielle fait intervenir
une mesure dominante, les lois discrètes peuvent être des familles exponentielles
2. Le choix des fonctions cϕ , a n’est pas unique. Tous les modèles classiques munis
de leur paramétrisation classique sont identifiables.
Proposition 1.3. Soit Y une variable aléatoire réelle dont la loi appartient à une
famille exponentielle avec a de classe C 2 et convexe, alors

E rY s “ a1 pθq et VarrY s “ ϕa2 pθq .

Démonstration. Comme f appartient à une famille exponentielle, elle est de la forme


ˆ ˙
yθ ´ apθq
f pyq “ cϕ pyq exp .
ϕ
On commence par dériver f deux fois par rapport à θ
Bf y ´ a1 pθq
“ f pyq
Bθ ϕ
B2f y ´ a1 pθq 2
ˆ ˙
a2 pθq
“ f pyq ´ f pyq .
Bθ2 ϕ ϕ

2
Puis, on intègre de chaque côté par rapport à y. On a d’une part,
ż ż
Bf B
dy “ f dy “ 0
y Bθ Bθ y
ż 2
B2
ż
B f
2
dy “ f dy “ 0 .
y Bθ Bθ2 y
D’autre part,
y ´ a1 pθq EY ´ a1 pθq
ż
f pyq dy “
y ϕ ϕ
ż ˜ ¸
y ´ a1 pθq 2
ˆ ˙
a2 pθq VarrY s a2 pθq
f pyq ´ f pyq dy “ ´ .
y ϕ ϕ ϕ2 ϕ
En résumé, on a bien
E rY s “ a1 pθq et VarrY s “ ϕa2 pθq .

Exemple 1.4. Distributions appartenant à une famille exponentielle


— Loi normale de paramètres m et σ 2 avec σ 2 connu
θ “ m apθq “ θ2 {2 ϕ “ σ 2 ;
— Loi exponentielle ou gamma de paramètres k et λ, avec k connu
θ “ ´1{λ apθq “ ´k logp´θq ϕ “ 1 ;
— Loi de Poisson de paramètre λ
θ “ log λ apθq “ eθ ϕ “ 1;
— Loi de Bernoulli ou binomiale de paramètres n et p, avec n connu
θ “ logpp{p1 ´ pqq apθq “ n logp1 ` eθ q ϕ “ 1 ;
Distributions n’appartenant pas à une famille exponentielle
— Loi de Cauchy ;
— Loi de Pareto ;
— Loi Log-normale.
Détails calcul pour la loi normale On considère une loi normale de moyenne
m et de variance σ 2 (que l’on suppose connue). Alors
py ´ mq2
ˆ ˙
1
f pyq “ ? exp ´
2πσ 2 2σ 2
2 2
my ´ m2 {2
ˆ ˙
e´y {p2σ q
“ ? exp .
2πσ 2 σ2
θ2
Donc θ “ m, ϕ “ σ 2 , apθq “ 2 et
2 2
e´y {p2σ q
cϕ pyq “ ? .
2πσ 2
On peut vérifier que
ErY s “ a1 pθq “ θ “ m et VarrY s “ ϕa2 pθq “ ϕ “ σ 2 .

3
2 Modèles linéaires généralisés
2.1 Définitions et exemples
Dans toute la suite, on note µpXq “ ErY | Xs

Définition 2.1. Un modèle est un modèle linéaire généralisé s’il vérifie les hypothèses
suivantes
1. Y | X „ PθpXq,ϕ appartient à une famille exponentielle ;
2. gpµpXqq “ gpErY | Xsq “ Xβ pour une certaine fonction g bijective et déri-
vable, appelée fonction de lien.

Comme µpXq “ ErY | Xs “ a1 pθpXqq, le point 2. se réécrit

gpµpXqq “ gpa1 pθpXqqq “ Xβ .

Donc, lorsque a1 est bijective, en choisissant comme fonction de lien g “ pa1 q´1
(fonction de lien canonique), le point 2. se réécrit encore

θpXq “ Xβ .

Remarque 2.2. 1. Certains auteurs considèrent qu’un modèle est un modèle li-
néaire généralisé quand seulement 2. est vérifée.
2. Attention ! Le paramètre θ dépend de X
Exemple 2.3. Exemples de fonctions de lien canoniques
— pour la loi normale,
gpµq “ µ

— pour la loi de Poisson,


gpµq “ logpµq

— pour la loi gamma,


1
gpµq “
µ
— pour la loi de Bernoulli,
ˆ ˙
µ
gpµq “ logitpµq “ log .
1´µ

Exemple 2.4. Prenons un exemple avec des données discrètes. Soit Yi le nombre de
sinistres en Île de France au cours de l’année i et xi des caractéristiques définissant
l’environnement de l’île de France au cours de l’année i. On considère un GLM
Poisson avec sa fonction de lien canonique (g “ log), ce qui signifie
1. Yi | xi suit une loi de Poisson ;
2. logpµpxi qq “ logpErYi | xi sq “ x1i β.

4
Soit ωi l’exposition en Île de France au cours de l’année i, c’est-à-dire le nombre
d’assurés vivant en Île de France pendant l’année i. Plus ωi est grand, plus Yi a de
chances de l’être aussi. Il est donc plus raisonnable de modéliser le rapport Yi {omegai .
On va donc plutôt s’intéresser à
„ ˇ ȷ
Yi ˇ
µpxi q “ E ˇxi .
ωi

On change alors un peu le modèle et on considère


ˆ ˙
ErYi | xi s
log “ x1i β
ωi

ce qui, dans ce cas précis, peut se réécrire


1
logpErYi | xi sq “ logpθpxi qq “ lo
log
omoωoni `xi β .
offset

Le terme log ωi est souvent appelé un offset et il peut être vu comme une nouvelle
variable du modèle de régression avec un coefficient β constant égal à 1. Ainsi,

logpErYi | xi sq “ px˚i q1 β ˚

avec x˚i “ plog ωi , x1i q1 et β ˚ “ p1, β 1 q1 .


Exemple 2.5. Prenons maintenant un exemple avec des données continues. Yi dé-
signe le montant total des sinistres en Ile de France au cours de l’année i, xi et ωi
restent inchangés. On considère maintenant un GLM gamma avec sa fonction de lien
canonique (gpµq “ 1{µ), ce qui signifie
1. Yi | xi suit une loi gamma ;
2. 1{µpxi q “ 1{ErYi | xi s “ x1i β.
Comme dans l’exemple précédent, plus ωi est grand, plus Yi a des chances de l’être
aussi. Donc on préfère modéliser le rapport Yi {ωi . On change alors un peu le modèle
et on pose
1 ωi
“ “ x1i β
ErYi {ωi | xi s ErYi | xi s
ce qui, dans ce cas précis, peut se réécrire

1 1 x1
“ “ iβ .
ErYi | xi s µpxi q ωi

Ici normaliser la variable réponse revient à normaliser les variables explicatives.

1
“ px˚i q1 β
ErYi | xi s

avec x˚i “ xi {ωi .

5
2.2 Estimation
2.2.1 Estimateur du maximum de vraisemblance
Contrairement au cas des modèles linéaires gaussiens, dans le cadre des modèles
linéaires généralisés il n’existe pas de formule explicite de l’estimateur de maximum
de vraisemblance βp de β.
Estimation de ϕ
ϕ est un paramètre de nuisance, donc son estimation est considérée comme se-
condaire. Ici, sa valeur n’influence pas la maximisation de la vraisemblance en β,
donc on ne s’attardera pas sur ce point. Si besoin, ϕ peut être estimé par maximum
de vraisemblance.
Estimation de β
β est estimé par maximum de vraisemblance. On pose
$
1
&ηi “ xi β

µi “ ErYi | xi s “ g ´1 px1i βq “ g ´1 pηi q

θi “ pa1 q´1 pµi q “ pa1 q´1 pg ´1 px1i βqq “ pa1 q´1 pg ´1 pηi qq .
%

La log-vraisemblance s’écrit alors


n n " *
ÿ ÿ Yi θi ´ apθi q
ℓpβq “ log f pYi ; β, ϕq “ log cpYi , ϕq ` .
i“1
ϕ
i“1 loooooooooooooooooomoooooooooooooooooon
:“ℓi pθi q

où l’on a supposé que les Yi étaient indépendants. Notez que dans cette écriture, le
paramètre β apparaît dans θ uniquement. On peut donc écrire :
n
ÿ Yi θi ´ apθi q
β̂ “ Argmax ℓpβq “ Argmax .
β β i“1
ϕ

Considérons les dérivées par rapport à chacune des coordonnées βj


n n
Bℓ ÿ Bℓi pθi q ÿ Bℓi Bθi
“ “ .
Bβj i“1
Bβj i“1
Bθi Bβj

D’une part,
Bℓi Yi ´ a1 pθi q Yi ´ µi
“ “ .
Bθi ϕ ϕ
D’autre part, comme ηi “ x1i β, on peut écrire

Bθi Bθi Bηi Bθi


“ “ xi,j
Bβj Bηi Bβj Bηi

où xi,j est la j e coordonnées de x1i .


Enfin,
Bηi ´1
ˆ ˙
Bθi

Bηi Bθi

6
et
Bηi Bηi Bµi
“ “ g 1 pµi qa2 pθi q .
Bθi Bµi Bθi
Ainsi,
n
Bℓ 1 ÿ xi,j pYi ´ µi q
“ .
Bβj ϕ i“1 g 1 pµi qa2 pθi q
1
Soit D la matrice diagonale dont les coefficients sont égaux à g 1 pµi qa2 pθi q alors

Bℓ
“0 pour tout j “ 1, . . . , p ô X 1 DpY ´ µq “ 0
Bβj

et donc l’EMV βp est solution de

X 1 DpY ´ g ´1 pXβqq “ 0 . (2.6)

2.2.2 Lien avec l’estimateur des moindres carrés pondérés


Soit G la matrice diagonale dont les entrées sont les g 1 pµi q et W la matrice
diagonale dont les entrées sont

1
.
g 1 pµi q2 a2 pθi q

Alors (2.6) peut se réécrire


X 1 W GpY ´ µq “ 0 . (2.7)
Attention ! ! La matrice W dépend de θ et donc de β.
D’après la formule de Taylor,

gpYi q « gpµi q ` g 1 pµi qpYi ´ µi q

soit
` ˘
GpY ´ µq « gpYi q ´ x1i β 1ďiďn “ gpY q ´ Xβ .
En remplaçant dans (2.7),

X 1 W gpY q ´ X 1 W Xβ « 0 .

Remarque 2.8. Cette approximation est exacte si g est la fonction de lien égale à
l’identité.
On peut en déduire que βp peut être approché par la solution d’un problème de
moindres carrés pondérés avec comme poids W .
Remarque 2.9. Rappelons que µ “ ErY | Xs peut également se réécrire µ “ g ´1 pXβq.
Ainsi, on peut proposer un estimateur pour µ :

p “ g ´1 pX βq
µ p .

7
2.2.3 Algorithmes de Newton-Raphson et Fisher-scoring
βp est donc calculé numériquement, en général, grâce à l’algorithme de Newton-
Raphson. Cet algorithme est un algorithme itératif basé sur le développement de
Taylor à l’ordre 1 du score. Il fait donc intervenir la matrice hessienne H de la
log-vraisemblance
B 2 ℓpβq
Hjk “
Bβj Bβk
Il faut que H soit inversible et comme elle dépend de β, il convient de mettre à jour
cette matrice à chaque étape de l’algorithme. Cet algorithme est implémenté dans la
plupart des logiciels de statistique.
On note „ ȷ
¨ Bℓpβq
ℓpβq “
Bβj j
le vecteur gradient de la log-vraisemblance ℓ, appelé score.

Algorithm 1 Algorithme de Newton-Raphson


1. Initialisation : u0
2. Pour tout entier m
¨
um “ um´1 ´ rHm´1 s´1 ℓpum´1 q

3. Arrêt quand
|um ´ um´1 | ď ∆

4. On pose βp “ um

Parfois, au lieu d’utiliser la matrice hessienne, on utilise la matrice de l’informa-


tion de Fisher „ 2 ȷ
B ℓpβq
In pβqjk “ ´E
Bβj Bβk
C’est l’algorithme de Fisher-scoring. Ici aussi, il faut que la matrice de l’information
de Fisher soit inversible quitte à imposer des contraintes sur β.

2.3 Loi asymptotique de l’EMV


Théorème 2.10. Sous certaines conditions de régularité de la densité, l’EMV vérifie
les propriétés suivantes
1. βp converge en probabilité vers β
2. βp est un estimateur asymptotiquement normal de β
´ ¯
L
In pβ, ϕq1{2 βp ´ β ÝÝÝÑ N p0, Ip q
nÑ8

3. La statistique de Wald W vérifie


L
W :“ pβp ´ βq1 In pβqpβp ´ βq ÝÝÝÑ χ2 ppq lorsque β P Rp
nÑ8

8
Remarque 2.11. Notez qu’un tel résultat n’est pas utilisable tel quel puisque la ma-
trice In pβq est inconnue en pratique. Mais en remplaçant β par βp avec βp qui converge
en probabilité vers β, on peut montrer que
´ ¯
p 1{2 βp ´ β ÝÝLÝÑ N p0, Ip q .
In pβq
nÑ8

Ainsi, en particulier,
´ ¯
1{2 L
In pβpj qjj βpj ´ βj ÝÝÝÑ N p0, 1q
nÑ8

ce qui permet d’obtenir des intervalles de confiance asymptotiques


” ı
´1{2 p ´1{2
IC1´α pβj q “ βpj ´ q1´α{2 In pβpj q ; βj ` q1´α{2 In pβpj q
jj jj

avec q1´α{2 le quantile d’ordre 1 ´ α{2 de la loi N p0, 1q.

2.4 Tests d’hypothèses


2.4.1 Tests de modèles emboîtés
On considère deux modèles M0 et M1 avec M0 un sous-modèle de M1 . Autre-
ment dit, si on définit X 0 et X 1 deux sous-matrices de X,
— dans le modèle M0 , gpµq “ gpErY | X 0 sq “ X 0 β 0
— dans le modèle M1 , gpµq “ gpErY | X 1 sq “ X 1 β 1
On cherche donc à faire le test

H0 : gpµq “ gpErY | X 0 sq “ X 0 β 0 contre H1 : gpµq “ gpErY | X 1 sq “ X 1 β 1 .

Test de rapport de vraisemblance On considère le test de rapport de vraisem-


blance dont la statistique de test est donnée par
´ ¯
T “ ´2 ℓpβp0 q ´ ℓpβp1 q

où βp0 et βp1 sont les EMV de β estimés dans le modèle M0 et M1 respectivement.


Sous certaines conditions, on peut montrer que
L
T ÝÝÝÑ χ2 pp1 ´ p0 q
nÑ8

où p0 et p1 sont le nombre de paramètres dans le modèle M0 et M1 respectivement.


La zone de rejet est alors définie par

Rα “ tT ą qp1´p0 p1 ´ αqu

où qp1´p0 p1 ´ αq est le quantile d’ordre 1 ´ α de la loi χ2 pp1 ´ p0 q.


Ce test est parfois présenté de façon un peu différente en faisant intervenir la
déviance, qui est l’écart entre la log-vraisemblance du modèle d’intérêt M et celle
du modèle le plus complet possible Msat , appelé modèle saturé. Le modèle saturé

9
est le modèle comportant n paramètres, c’est-à-dire autant que d’observations. Il
s’obtient en posant µpxi q “ yi . La déviance de M s’écrit alors
´ ¯
DpMq “ ´2 ℓpβq p ´ ℓpβpsat q

La statistique de test T peut donc se réécrire avec la déviance


T “ DpM0 q ´ DpM1 q.

2.4.2 Test de Wald : βj “ 0


On souhaite tester l’hypothèse
H0 : βj “ 0 contre H1 : βj ‰ 0 .
D’après la propriété 3. du théorème 2.10,
´ ¯2
L
In pβqjj βpj ´ βj ÝÝÝÑ χ2 p1q.
nÑ8

En pratique comme précisé plus haut, l’information de Fisher est calculée non
pas en les vrais paramètres qui sont inconnus mais en βp (et ϕ).
p La statistique de test
de Wald est donc ´ ¯2
Wj “ In pβqjj βj ´ βj
p p

qui converge vers une loi de χ2 p1q sous H0 .

2.5 Qualité d’ajustement et choix de modèles


2.5.1 Le pseudo R2
Par analogie avec le coefficient R2 du modèle linéaire, on définit le pseudo-R2
comme le rapport entre DpM0 q ´ DpMq et la déviance DpM0 q du modèle nul, i.e.
ne contenant que la constante :
DpM0 q ´ DpMq ℓpβ̂q ´ ℓpβ̂0 q
pseudo ´ R2 “ “ .
DpM0 q ℓpβ̂sat q ´ ℓpβ̂0 q
Ce pseudo-R2 varie entre 0 et 1, plus il est proche de 1, meilleur est l’ajustement du
modèle.

2.5.2 Le χ2 de Pearson généralisé


Le χ2 de Pearson généralisé est la statistique définie par
n
ÿ pyi ´ µ̂i q2
X2 “
i“1
Varpµ̂i q

où µ̂i “ g ´1 px1i β̂q.


Sous l’hypothèse que le modèle étudié est le bon modèle, et si l’approximation
asymptotique est valable (n assez grand) alors la loi de X 2 peut être approchée par
une loi χ2 pn ´ pq. On rejettera le modèle étudié au niveau α si la valeur observée de
X 2 est supérieure au quantile d’ordre 1 ´ α de la loi χ2 pn ´ pq.

10
2.5.3 Choix de modèle
Quand deux modèles sont emboîtés, le test de modèles emboités permet de choisir
entre les deux.
En présence de plusieurs modèles candidats, non emboités, un première critère
de sélection est donné par la déviance. Le modèle qui a la plus mauvaise déviance
(la plus forte) est le modèle nul, qui a un seul paramètre (variable expliquée par
une constante). Ce modèle n’a en général aucune utilité car il n’explique rien. Le
modèle saturé qui a autant de paramètres que de données possède par définition la
meilleure déviance puisqu’elle vaut 0. Ce modèle n’est souvent pas pertinent car il a
trop de paramètres. Les déviances de ces deux modèles fournissent les valeurs du pire
et du meilleur ajustement possible. Un modèle sera qualifié de bon si sa déviance est
proche du modèle saturé (ce qui est équivalent à un pseudo-R2 proche de 1) et s’il
est construit avec un faible de nombre de paramètres.
Des critères pénalisés permettent de prendre en compte ces deux contraintes
antagonistes. Le plus célèbre est le critère AIC. Le criètre BIC pénalise davantage le
sur-ajustement.

2.5.4 Diagnostic, résidus


Les résidus dans le modèle linéaire généralisé Comme dans le modèle linéaire,
plusieurs types de résidus peuvent être définis. La définition la plus naturelle consiste
à quantifier l’écart entre l’observation yi et sa prédiction par le modèle µ̂i . On définit
aisni les résidus bruts ε̂i “ yi ´ µ̂i , l’inconvénient de ce type de résidus est qu’ils n’ont
pas toujours la même variance, il est donc difficile de les comparer à un comportement
type attendu. En normalisant les résidus bruts par une variance estimée, on obtient
les résidus de Pearson :
yi ´ µ
pi
rpi “ a
Varµpi ryi s
où Varµpi ryi s est la variance théorique de yi évaluée en µ
pi . Ces résidus de Pearson ont
le même défaut que les résidus standardisés du modèle linéaire : leur variance dépend
de l’influence de l’observation i. Les résidus de Pearson standardisés sont obtenus en
renormalisant par l’effet levier
yi ´ µ pi
rsi “ a
p1 ´ hii q Varµpi ryi s
où hii désigne le levier, c’est-à-dire le terme diagonal de la matrice H “ XpX 1 Xq´1 X 1
dans le cas où la matrice X est de rang plein.
Un approche un peu différente consiste à définir les résidus de la déviance qui
mesurent à quel point la log-vraisemblance pour l’observation i est loin de la log-
vraisemblance pour cette même observation dans le cas du modèle saturé. Ils sont
définis par a
rdi “ sgnpYi ´ µpi q di
où di représente la contribution de l’observation i à la déviance D définie par
´ ¯
yi θ̂sat,i ´ θ̂i ` apθ̂sat,i q ´ apθ̂i q
di “ 2ℓpyi ; θ̂sat , ϕ̂q ´ 2ℓpyi ; θ̂, ϕ̂q “ 2
ϕ̂

11
C’est à dire que
n
ÿ
DpMq “ di .
i“1

Pour rendre ces résidus comparables entre eux, il faut les corriger pour prendre
en compte l’influence de chaque observation, les résidus de la déviance standardisés
sont définis par
d
rdi 2ℓpyi ; θ̂sat , ϕ̂q ´ 2ℓpyi ; θ̂, ϕ̂q
rdsi “ ? “ signpyi ´ µ̂i q .
1 ´ hii 1 ´ hii

Intuitivement, une observation ayant un résidu de déviance élevé est une observation
ayant une grande influence sur l’estimation des paramètres du modèle et doit donc
être examimée avec soin. Dans les deux cas on vérifiera comme pour le modèle li-
néaire, qu’il n’existe pas de structure inattendue dans les résidus, en moyenne ou en
variance. La présence d’une telle structure devrait porter le modélisateur à reprendre
le modèle proposé pour identifier la cause de cette structure, par exemple un effet
quadratique d’une variable. On peut montrer que les résidus sont asymptotiquement
gaussiens si le modèle est adéquat, et cette hypothèse peut être vérifiée à l’aide d’un
q-q plot si le nombre de données n est assez grand.

3 Régression logistique
Exemple 3.1. Nous souhaitons expliquer la variable Y Présence (1)/ Absence (0)
d’une maladie cardio-vasculaire (Chd) par l’âge des patients. D’après la Figure 3.1,
il ne semble pas raisonnable de supposer que Y s’exprime linéairement en fonction
X. Une idée naturelle est de supposer que Y est distribuée selon une loi de Bernoulli
dont le paramètre dépend de X. Nous avons vu précédemment que la fonction de lien
canonique pour la loi de Bernoulli était la fonction logit. On parle donc de régression
logistique.
Pour une régression logistique, le modèle linéaire généralisé s’écrit :
1. Y | X “ x „ BpppXqq avec 0 ă ppXq ă 1 ;
2. logitpErY | Xsq “ logitpppXqq “ Xβ
où la fonction logit est définie par : p P r0, 1s ÞÑ logpp{p1 ´ pqq.

Définition 3.2 (Odds ou côte). La quantité

ppXq
1 ´ ppXq

est appelée odds ou côte. Dans le modèle logistique,

ppXq
“ exppXβq “ exppβ0 ` β1 X 1 ` . . . ` βk X k q
1 ´ ppXq

si on suppose que l’on a k variables explicatives.

12
1.0
0.8
0.6
chd

0.4
0.2
0.0

20 30 40 50 60

age

Figure 1 – Représentation directe de Chd (variable à expliquer Y ) en fonction de


l’âge (variable explicative X).

13
Si on considère deux individus i1 et i2 dont la valeur des covariables ne diffère
que pour la j e variable avec Xij1 ´ Xij2 “ 1, on peut calculer l’odds-ratio (ou le
rapport des côtes)
ppXi1 q ppXi2 q
{ “ exppβj q .
1 ´ ppXi1 q 1 ´ ppXi2 q
On dira alors qu’une augmentation de 1 de la variable j entraîne une multiplication
de l’odds-ratio de exppβj q.
Soit un nouvel individu x‹ . On souhaite prédire si y ‹ est égal à 0 ou à 1. Dans
l’exemple sur les maladies cardio-vasculaires, cela signifie que l’on souhaite prédire
la présence ou non d’une maladie en fonction de son âge. On commence par calculer

exppx‹ βq
p
pppx‹ q “
1 ` exppx‹ βq
p

ce qui nous donne une valeur entre 0 et 1. Or, on aimerait prédire 0 ou 1, on compare
alors pppx‹ q au seuil s “ 1{2 :

pppx‹ q ą 1{2 ñ Yp P “ 1
pppx‹ q ď 1{2 ñ Yp P “ 0 .

Le choix du seuil s “ 1{2 est un choix par défaut quand les deux prédictions 0, 1
jouent le même rôle. Dans beaucoup de situations, les rôles ne sont pas symétriques :
par exemple, il peut être grave de prédire la présence (Ŷ P “ 1) d’une maladie
relativement bénigne qui entraînerait par exemple une chirurgie, alors que le patient
n’est pas malade (Y “ 0).
On est donc intéressés à distinguer les différents types d’erreur.
Définition 3.3 (Matrice de confusion). Pour chaque individu i “ 1, . . . , n de notre
échantillon, YpiP désigne la prédiction de Yi et on note
— le nombre de positifs P comme le nombre d’observations telles que Yi “ 1
n
ÿ
P“ 1Yi “1 ;
i“1

— le nombre de négatifs N comme le nombre d’observations telles que Yi “ 0


n
ÿ
N“ 1Yi “0
i“1

et on définit
— le nombre de vrais positifs par
n
ÿ
TP “ 1Yi “1 et Yp P “1 ;
i
i“1

— le nombre de faux positifs comme


n
ÿ
FP “ 1Yi “0 et Yp P “1 ;
i
i“1

14
— le nombre de vrais négatifs comme
n
ÿ
TN “ 1Yi “0 et Yp P “0 ;
i
i“1
— le nombre de faux négatifs comme
n
ÿ
FN “ 1Yi “1 et Yp P “0 .
i
i“1
La matrice de confusion résume ces quatre indicateurs

Yi “ 0 Yi “ 1
YpiP “ 0 TN FN
YpiP “ 1 FP TP
Total N P

On définit aussi
— la sensibilité comme le taux de vrais positifs, soit
TP
;
P
— la spécificité comme le taux de vrais négatifs, soit
TN
.
N
On fait maintenant varier le seuil de prédiction s P r0, 1s, ie on définit le prédicteur
(ou classifieur) qui dépend de ce seuil Yp P,s par
pppx‹ q ą s ñ Yp P,s “ 1
pppx‹ q ď s ñ Yp P,s “ 0

Définition 3.4 (Courbe ROC et AUC). La courbe ROC (receiver operating cha-
racteristic) représente la sensibilité contre 1 - la spécificité pour toutes les valeurs
du seuil entre 0 et 1.
L’AUC (area under the ROC curve) est l’aire sous la courbe ROC.
Une courbe ROC idéale sera collée au coin supérieur gauche et l’AUC sera égale
à 1. Donc plus l’AUC est grande, meilleur est le classifieur. Une règle de classification
au hasard aura une courbe ROC proche de y “ x et un AUC d’environ 0.5.

Mise en oeuvre
— Il faut des observations pour construire le prédicteur (estimer p̂pxq pour tout
x)
— si on mesurait la qualité du prédicteur sur les données qui ont servi à le
construire, on aurait un résultat biaisé : il faut toujours mesurer la qualité du
prédicteur sur de nouvelles observations
— Quand c’est possible, on découpe le jeu de données en un échantillon d’ap-
prentissage (qui va permettre de construire p̂pxq) et un second échantillon
dit de test sur lequel on va mesurer les performances de la règle.

15
4 Régression de Poisson - régression loglinéaire
Nous nous intéressons maintenant au cas où la variable réponse Y est une variable
de comptage, c’est-à-dire qui compte le nombre de fois qu’un événement se réalise
dans une certaine période de temps (par exemple le nombre d’accidents sur la route
pendant un an, le nombre d’enfants dans une famille).
Si on utilise le modèle de régression usuel Yi “ x1i β ` εi pour expliquer le nombre
d’accidents en fonction de l’âge du conducteur par exemple, on s’aperçoit d’une part
que l’hypothèse de normalité des résidus n’est clairement pas réaliste. D’autre part,
les variables εi étant supposées centrées, on a

λpxi q “ ErYi | xi s “ x1i β.

Or rien n’indique que x1i β ą 0. Il est donc nécessaire de définir une fonction de
lien reliant λpxi q au prédicteur linéaire ηi “ x1i β. Pour garantir que l’espérance
conditionnelle λpxi q “ ErYi | xi s est bien strictement positive, on définit le modèle
par
λpxi q “ exppx1i βq.

Cela revient à poser logpλpxi qq “ x1i β. On retrouve la fonction de lien logarith-


mique, qui est le lien canonique associé à la loi de Poisson, d’où le terme générique
de régression loglinéaire.
Pour une régression de Poisson, le modèle linéaire généralisé s’écrit
1. Y | Y „ PpλpXqq, avec λpXq ą 0
2. logpErY | Xsq “ logpλpXqq “ Xβ.
Une fois le modèle ajusté, nous obtenons une estimation pour chaque prédicteur
linéaire ηi “ x1i β par ηpi “ x1i βp et pour chaque paramètre

p i q “ exppx1 βq
λpx p P r0, `8q.
i

Les valeurs ajustées Ypi pour les Yi sont alors définies suivant la règle
$´ ¯k ,
& λpx
’ p iq /
.
´λpx
p iq
Yi P arg max
p e ,
kPN ’% k! /
-

i.e. Ypi correspond donc à l’entier le plus probable pour la loi de Poisson de paramètre
λpx
p i q.
Si l’on se donne maintenant un nouvel individu décrit par x‹ alors le modèle ajusté
permet de prédire son nombre moyen de « succès », donné par λpx p ‹ q “ exppx‹ 1 βq,
p
et sa réponse prédite définie par
$´ ¯k ,
& λpx q
’ p ‹ /
.
‹ p ‹q
´λpx
Y P arg max
p e .
kPN ’% k! /
-

16
Sur-dispersion et modèle binomial négatif Dans le cas du modèle de régres-
sion de Poisson, on a
ErYi | xi s “ VarrYi | xi s,
ce qui est une hypothèse très restrictive. Si ErYi | xi s ă VarrYi | xi s (respectivement
ErYi | xi s ą VarrYi | xi s), nous parlons alors de sur-dispersion (respectivement de
sous-dispersion). Ces deux propriétés n’étant pas autorisées par le modèle de Poisson,
nous définissons une classe plus riche de modèles basée sur la loi binomiale négative.
Rappelons que la loi binomiale négative de paramètres n et p permet de modéliser
le nombre d’échecs nécessaires avant l’obtention de n succès lors de la répétition de
« tirages » indépendants de probabilité de succès p. Elle peut être généralisée à n “ r
non-entier. Le modèle de régression binomial négatif suppose que
1. Yi | Xi “ xi suit une loi binomiale négative de paramètres r et ppxi q, soit
ˆ ˙k ˆ ˙r
Γpr ` kq ppxi q ppxi q
PpYi “ k | Xi “ xi q “ 1´
k!Γprq ppxi q ` r ppxi q ` r

2. logpErYi | xi sq “ logpppxi qq “ x1i β.


Nous pouvons alors montrer que

VarrYi s “ ppxi q 1 ` ν 2 ppxi q


` ˘
ErYi s “ ppxi q et

où ν “ 1{r mesure le degré de sur-dispersion. On peut remarquer que le cas limite ν “


0 correspond à la loi de Poisson. Dans R, le modèle binomial négatif est implémenté
dans la fonction glm pour la famille de lois family = quasipoisson(link = "log").

Références
L. Bel, J. Daudin, M. Etienne, E. Lebarbier, T. Mary-Huard, S. Robin, and C. Vuillet.
Le modèle linéaire et ses extensions. 2016.

F. Husson, P.-A. Cornillon, A. Guyader, N. Jégou, J. Josse, N. Klutchnikoff,


E. Le Pennec, E. Matzner-Løber, L. Rouvière, and B. Thieurmel. R pour la sta-
tistique et la science des données. Presses universitaires de Rennes, 2018.

C. Maugis-Rabusseau. Modèle linéaire général et modèle linéaire généralisé. 2019–


2020.

L. Rouvière. Régression logistique avec R. Université Rennes 2.

17

Vous aimerez peut-être aussi