0% ont trouvé ce document utile (0 vote)

112 vues17 pages

Modèles Linéaires Généralisés en Statistiques

Ce document décrit les modèles linéaires généralisés, y compris leurs définitions, estimations, tests d'hypothèses et applications comme la régression logistique et la régression de Poisson.

Transféré par

oumy dieye

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

112 vues17 pages

Modèles Linéaires Généralisés en Statistiques

Ce document décrit les modèles linéaires généralisés, y compris leurs définitions, estimations, tests d'hypothèses et applications comme la régression logistique et la régression de Poisson.

Transféré par

oumy dieye

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Modèles linéaires généralisés

Table des matières

1 Familles exponentielles 1

2 Modèles linéaires généralisés 3

2.1 Définitions et exemples . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2.1 Estimateur du maximum de vraisemblance . . . . . . . . . . . 5
2.2.2 Lien avec l’estimateur des moindres carrés pondérés . . . . . 7
2.2.3 Algorithmes de Newton-Raphson et Fisher-scoring . . . . . . 7
2.3 Loi asymptotique de l’EMV . . . . . . . . . . . . . . . . . . . . . . . 8
2.4 Tests d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4.1 Tests de modèles emboîtés . . . . . . . . . . . . . . . . . . . . 9
2.4.2 Test de Wald : βj “ 0 . . . . . . . . . . . . . . . . . . . . . . 9
2.5 Qualité d’ajustement et choix de modèles . . . . . . . . . . . . . . . 10
2.5.1 Le pseudo R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.2 Le χ2 de Pearson généralisé . . . . . . . . . . . . . . . . . . . 10
2.5.3 Choix de modèle . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.4 Diagnostic, résidus . . . . . . . . . . . . . . . . . . . . . . . . 11

3 Régression logistique 12

4 Régression de Poisson - régression loglinéaire 15

Ce chapitre est basé sur les cours de de Maugis-Rabusseau [2019–2020] et de

Rouvière et sur les livres Husson et al. [2018] et Bel et al. [2016].
Le principe d’une régression est de modéliser l’espérance conditionnelle de la
variable réponse Y sachant les variables explicatives X comme une fonction g de X,
soit
ErY | Xs “ gpXq.
Le but est alors de retrouver la fonction g à partir d’un échantillon pX, Y q. Le modèle
de régression le plus simple est le modèle linéaire gaussien qui suppose que g est une
fonction linéaire et que le terme d’erreur Y ´ ErY | Xs suit une loi gaussienne.
Le cadre des modèles linéaires gaussiens peut être reformulé de la façon suivante :
— Y | X est distribuée selon une loi gaussienne ;
— ErY | Xs est une fonction linéaire de X.
Cependant, ce modèle simple n’est pas toujours (souvent) adapté au problème que
l’on souhaite étudier. En particulier,

1
— la forme linéaire peut être trop restrictive ;
— le cadre gaussien peut ne pas être adapté. Par exemple, lorsque la variable
réponse Y est une variable catégorielle, une variable discrète.
Le but des modèles linéaires généralisés est de relâcher ces hypothèses. Ils per-
mettent notamment de conserver la simplicité des modèles linéaires gaussiens tout
en autorisant une forme plus générale de la fonction g. Les coefficients du modèle
sont estimés par maximisation d’une vraisemblance qui provient d’une famille de
lois, appelée famille exponentielle. Cependant, la procédure n’est efficace que si
la vraie loi conditionnelle appartient à une famille exponentielle. De plus, certes ils
permettent plus de liberté sur le choix de la fonction g, mais celui-ci est souvent
imposé par le choix de la famille exponentielle.

1 Familles exponentielles
Soit θ Ă R ouvert.
Définition 1.1. Un modèle statistique pΩ, F, pPθ,ϕ qθPΘ,ϕą0 q est appelé famille ex-
ponentielle si les probabilités Pθ,ϕ admettent une densité f par rapport à une mesure
dominante avec ˆ ˙
yθ ´ apθq
fθ,ϕ pyq “ cϕ pyq exp .
ϕ
— θ s’appelle le paramètre canonique et ϕ le paramètre de dispersion, souvent
considéré comme un paramètre de nuisance ( un paramètre de nuisance est
un paramètre qui n’est pas d’un intérêt immédiat mais qui doit être pris en
compte dans l’analyse des paramètres d’intérêt) ;
— apθq ne dépend que de θ ;
— cϕ pyq ne dépend pas de θ.
Remarque 1.2. 1. Comme la définition d’une famille exponentielle fait intervenir
une mesure dominante, les lois discrètes peuvent être des familles exponentielles
2. Le choix des fonctions cϕ , a n’est pas unique. Tous les modèles classiques munis
de leur paramétrisation classique sont identifiables.
Proposition 1.3. Soit Y une variable aléatoire réelle dont la loi appartient à une
famille exponentielle avec a de classe C 2 et convexe, alors

E rY s “ a1 pθq et VarrY s “ ϕa2 pθq .

Démonstration. Comme f appartient à une famille exponentielle, elle est de la forme

ˆ ˙
yθ ´ apθq
f pyq “ cϕ pyq exp .
ϕ
On commence par dériver f deux fois par rapport à θ
Bf y ´ a1 pθq
“ f pyq
Bθ ϕ
B2f y ´ a1 pθq 2
ˆ ˙
a2 pθq
“ f pyq ´ f pyq .
Bθ2 ϕ ϕ

2
Puis, on intègre de chaque côté par rapport à y. On a d’une part,
ż ż
Bf B
dy “ f dy “ 0
y Bθ Bθ y
ż 2
B2
ż
B f
2
dy “ f dy “ 0 .
y Bθ Bθ2 y
D’autre part,
y ´ a1 pθq EY ´ a1 pθq
ż
f pyq dy “
y ϕ ϕ
ż ˜ ¸
y ´ a1 pθq 2
ˆ ˙
a2 pθq VarrY s a2 pθq
f pyq ´ f pyq dy “ ´ .
y ϕ ϕ ϕ2 ϕ
En résumé, on a bien
E rY s “ a1 pθq et VarrY s “ ϕa2 pθq .

Exemple 1.4. Distributions appartenant à une famille exponentielle

— Loi normale de paramètres m et σ 2 avec σ 2 connu
θ “ m apθq “ θ2 {2 ϕ “ σ 2 ;
— Loi exponentielle ou gamma de paramètres k et λ, avec k connu
θ “ ´1{λ apθq “ ´k logp´θq ϕ “ 1 ;
— Loi de Poisson de paramètre λ
θ “ log λ apθq “ eθ ϕ “ 1;
— Loi de Bernoulli ou binomiale de paramètres n et p, avec n connu
θ “ logpp{p1 ´ pqq apθq “ n logp1 ` eθ q ϕ “ 1 ;
Distributions n’appartenant pas à une famille exponentielle
— Loi de Cauchy ;
— Loi de Pareto ;
— Loi Log-normale.
Détails calcul pour la loi normale On considère une loi normale de moyenne
m et de variance σ 2 (que l’on suppose connue). Alors
py ´ mq2
ˆ ˙
1
f pyq “ ? exp ´
2πσ 2 2σ 2
2 2
my ´ m2 {2
ˆ ˙
e´y {p2σ q
“ ? exp .
2πσ 2 σ2
θ2
Donc θ “ m, ϕ “ σ 2 , apθq “ 2 et
2 2
e´y {p2σ q
cϕ pyq “ ? .
2πσ 2
On peut vérifier que
ErY s “ a1 pθq “ θ “ m et VarrY s “ ϕa2 pθq “ ϕ “ σ 2 .

3
2 Modèles linéaires généralisés
2.1 Définitions et exemples
Dans toute la suite, on note µpXq “ ErY | Xs

Définition 2.1. Un modèle est un modèle linéaire généralisé s’il vérifie les hypothèses
suivantes
1. Y | X „ PθpXq,ϕ appartient à une famille exponentielle ;
2. gpµpXqq “ gpErY | Xsq “ Xβ pour une certaine fonction g bijective et déri-
vable, appelée fonction de lien.

Comme µpXq “ ErY | Xs “ a1 pθpXqq, le point 2. se réécrit

gpµpXqq “ gpa1 pθpXqqq “ Xβ .

Donc, lorsque a1 est bijective, en choisissant comme fonction de lien g “ pa1 q´1
(fonction de lien canonique), le point 2. se réécrit encore

θpXq “ Xβ .

Remarque 2.2. 1. Certains auteurs considèrent qu’un modèle est un modèle li-
néaire généralisé quand seulement 2. est vérifée.
2. Attention ! Le paramètre θ dépend de X
Exemple 2.3. Exemples de fonctions de lien canoniques
— pour la loi normale,
gpµq “ µ

— pour la loi de Poisson,

gpµq “ logpµq

— pour la loi gamma,

1
gpµq “
µ
— pour la loi de Bernoulli,
ˆ ˙
µ
gpµq “ logitpµq “ log .
1´µ

Exemple 2.4. Prenons un exemple avec des données discrètes. Soit Yi le nombre de
sinistres en Île de France au cours de l’année i et xi des caractéristiques définissant
l’environnement de l’île de France au cours de l’année i. On considère un GLM
Poisson avec sa fonction de lien canonique (g “ log), ce qui signifie
1. Yi | xi suit une loi de Poisson ;
2. logpµpxi qq “ logpErYi | xi sq “ x1i β.

4
Soit ωi l’exposition en Île de France au cours de l’année i, c’est-à-dire le nombre
d’assurés vivant en Île de France pendant l’année i. Plus ωi est grand, plus Yi a de
chances de l’être aussi. Il est donc plus raisonnable de modéliser le rapport Yi {omegai .
On va donc plutôt s’intéresser à
„ ˇ ȷ
Yi ˇ
µpxi q “ E ˇxi .
ωi

On change alors un peu le modèle et on considère

ˆ ˙
ErYi | xi s
log “ x1i β
ωi

ce qui, dans ce cas précis, peut se réécrire

1
logpErYi | xi sq “ logpθpxi qq “ lo
log
omoωoni `xi β .
offset

Le terme log ωi est souvent appelé un offset et il peut être vu comme une nouvelle
variable du modèle de régression avec un coefficient β constant égal à 1. Ainsi,

logpErYi | xi sq “ px˚i q1 β ˚

avec x˚i “ plog ωi , x1i q1 et β ˚ “ p1, β 1 q1 .

Exemple 2.5. Prenons maintenant un exemple avec des données continues. Yi dé-
signe le montant total des sinistres en Ile de France au cours de l’année i, xi et ωi
restent inchangés. On considère maintenant un GLM gamma avec sa fonction de lien
canonique (gpµq “ 1{µ), ce qui signifie
1. Yi | xi suit une loi gamma ;
2. 1{µpxi q “ 1{ErYi | xi s “ x1i β.
Comme dans l’exemple précédent, plus ωi est grand, plus Yi a des chances de l’être
aussi. Donc on préfère modéliser le rapport Yi {ωi . On change alors un peu le modèle
et on pose
1 ωi
“ “ x1i β
ErYi {ωi | xi s ErYi | xi s
ce qui, dans ce cas précis, peut se réécrire

1 1 x1
“ “ iβ .
ErYi | xi s µpxi q ωi

Ici normaliser la variable réponse revient à normaliser les variables explicatives.

1
“ px˚i q1 β
ErYi | xi s

avec x˚i “ xi {ωi .

5
2.2 Estimation
2.2.1 Estimateur du maximum de vraisemblance
Contrairement au cas des modèles linéaires gaussiens, dans le cadre des modèles
linéaires généralisés il n’existe pas de formule explicite de l’estimateur de maximum
de vraisemblance βp de β.
Estimation de ϕ
ϕ est un paramètre de nuisance, donc son estimation est considérée comme se-
condaire. Ici, sa valeur n’influence pas la maximisation de la vraisemblance en β,
donc on ne s’attardera pas sur ce point. Si besoin, ϕ peut être estimé par maximum
de vraisemblance.
Estimation de β
β est estimé par maximum de vraisemblance. On pose
$
1
&ηi “ xi β
’
µi “ ErYi | xi s “ g ´1 px1i βq “ g ´1 pηi q
’
θi “ pa1 q´1 pµi q “ pa1 q´1 pg ´1 px1i βqq “ pa1 q´1 pg ´1 pηi qq .
%

La log-vraisemblance s’écrit alors

n n " *
ÿ ÿ Yi θi ´ apθi q
ℓpβq “ log f pYi ; β, ϕq “ log cpYi , ϕq ` .
i“1
ϕ
i“1 loooooooooooooooooomoooooooooooooooooon
:“ℓi pθi q

où l’on a supposé que les Yi étaient indépendants. Notez que dans cette écriture, le
paramètre β apparaît dans θ uniquement. On peut donc écrire :
n
ÿ Yi θi ´ apθi q
β̂ “ Argmax ℓpβq “ Argmax .
β β i“1
ϕ

Considérons les dérivées par rapport à chacune des coordonnées βj

n n
Bℓ ÿ Bℓi pθi q ÿ Bℓi Bθi
“ “ .
Bβj i“1
Bβj i“1
Bθi Bβj

D’une part,
Bℓi Yi ´ a1 pθi q Yi ´ µi
“ “ .
Bθi ϕ ϕ
D’autre part, comme ηi “ x1i β, on peut écrire

Bθi Bθi Bηi Bθi

“ “ xi,j
Bβj Bηi Bβj Bηi

où xi,j est la j e coordonnées de x1i .

Enfin,
Bηi ´1
ˆ ˙
Bθi
“
Bηi Bθi

6
et
Bηi Bηi Bµi
“ “ g 1 pµi qa2 pθi q .
Bθi Bµi Bθi
Ainsi,
n
Bℓ 1 ÿ xi,j pYi ´ µi q
“ .
Bβj ϕ i“1 g 1 pµi qa2 pθi q
1
Soit D la matrice diagonale dont les coefficients sont égaux à g 1 pµi qa2 pθi q alors

Bℓ
“0 pour tout j “ 1, . . . , p ô X 1 DpY ´ µq “ 0
Bβj

et donc l’EMV βp est solution de

X 1 DpY ´ g ´1 pXβqq “ 0 . (2.6)

2.2.2 Lien avec l’estimateur des moindres carrés pondérés

Soit G la matrice diagonale dont les entrées sont les g 1 pµi q et W la matrice
diagonale dont les entrées sont

1
.
g 1 pµi q2 a2 pθi q

Alors (2.6) peut se réécrire

X 1 W GpY ´ µq “ 0 . (2.7)
Attention ! ! La matrice W dépend de θ et donc de β.
D’après la formule de Taylor,

gpYi q « gpµi q ` g 1 pµi qpYi ´ µi q

soit
` ˘
GpY ´ µq « gpYi q ´ x1i β 1ďiďn “ gpY q ´ Xβ .
En remplaçant dans (2.7),

X 1 W gpY q ´ X 1 W Xβ « 0 .

Remarque 2.8. Cette approximation est exacte si g est la fonction de lien égale à
l’identité.
On peut en déduire que βp peut être approché par la solution d’un problème de
moindres carrés pondérés avec comme poids W .
Remarque 2.9. Rappelons que µ “ ErY | Xs peut également se réécrire µ “ g ´1 pXβq.
Ainsi, on peut proposer un estimateur pour µ :

p “ g ´1 pX βq
µ p .

7
2.2.3 Algorithmes de Newton-Raphson et Fisher-scoring
βp est donc calculé numériquement, en général, grâce à l’algorithme de Newton-
Raphson. Cet algorithme est un algorithme itératif basé sur le développement de
Taylor à l’ordre 1 du score. Il fait donc intervenir la matrice hessienne H de la
log-vraisemblance
B 2 ℓpβq
Hjk “
Bβj Bβk
Il faut que H soit inversible et comme elle dépend de β, il convient de mettre à jour
cette matrice à chaque étape de l’algorithme. Cet algorithme est implémenté dans la
plupart des logiciels de statistique.
On note „ ȷ
¨ Bℓpβq
ℓpβq “
Bβj j
le vecteur gradient de la log-vraisemblance ℓ, appelé score.

Algorithm 1 Algorithme de Newton-Raphson

1. Initialisation : u0
2. Pour tout entier m
¨
um “ um´1 ´ rHm´1 s´1 ℓpum´1 q

3. Arrêt quand
|um ´ um´1 | ď ∆

4. On pose βp “ um

Parfois, au lieu d’utiliser la matrice hessienne, on utilise la matrice de l’informa-

tion de Fisher „ 2 ȷ
B ℓpβq
In pβqjk “ ´E
Bβj Bβk
C’est l’algorithme de Fisher-scoring. Ici aussi, il faut que la matrice de l’information
de Fisher soit inversible quitte à imposer des contraintes sur β.

2.3 Loi asymptotique de l’EMV

Théorème 2.10. Sous certaines conditions de régularité de la densité, l’EMV vérifie
les propriétés suivantes
1. βp converge en probabilité vers β
2. βp est un estimateur asymptotiquement normal de β
´ ¯
L
In pβ, ϕq1{2 βp ´ β ÝÝÝÑ N p0, Ip q
nÑ8

3. La statistique de Wald W vérifie

L
W :“ pβp ´ βq1 In pβqpβp ´ βq ÝÝÝÑ χ2 ppq lorsque β P Rp
nÑ8

8
Remarque 2.11. Notez qu’un tel résultat n’est pas utilisable tel quel puisque la ma-
trice In pβq est inconnue en pratique. Mais en remplaçant β par βp avec βp qui converge
en probabilité vers β, on peut montrer que
´ ¯
p 1{2 βp ´ β ÝÝLÝÑ N p0, Ip q .
In pβq
nÑ8

Ainsi, en particulier,
´ ¯
1{2 L
In pβpj qjj βpj ´ βj ÝÝÝÑ N p0, 1q
nÑ8

ce qui permet d’obtenir des intervalles de confiance asymptotiques

” ı
´1{2 p ´1{2
IC1´α pβj q “ βpj ´ q1´α{2 In pβpj q ; βj ` q1´α{2 In pβpj q
jj jj

avec q1´α{2 le quantile d’ordre 1 ´ α{2 de la loi N p0, 1q.

2.4 Tests d’hypothèses

2.4.1 Tests de modèles emboîtés
On considère deux modèles M0 et M1 avec M0 un sous-modèle de M1 . Autre-
ment dit, si on définit X 0 et X 1 deux sous-matrices de X,
— dans le modèle M0 , gpµq “ gpErY | X 0 sq “ X 0 β 0
— dans le modèle M1 , gpµq “ gpErY | X 1 sq “ X 1 β 1
On cherche donc à faire le test

H0 : gpµq “ gpErY | X 0 sq “ X 0 β 0 contre H1 : gpµq “ gpErY | X 1 sq “ X 1 β 1 .

Test de rapport de vraisemblance On considère le test de rapport de vraisem-

blance dont la statistique de test est donnée par
´ ¯
T “ ´2 ℓpβp0 q ´ ℓpβp1 q

où βp0 et βp1 sont les EMV de β estimés dans le modèle M0 et M1 respectivement.

Sous certaines conditions, on peut montrer que
L
T ÝÝÝÑ χ2 pp1 ´ p0 q
nÑ8

où p0 et p1 sont le nombre de paramètres dans le modèle M0 et M1 respectivement.

La zone de rejet est alors définie par

Rα “ tT ą qp1´p0 p1 ´ αqu

où qp1´p0 p1 ´ αq est le quantile d’ordre 1 ´ α de la loi χ2 pp1 ´ p0 q.

Ce test est parfois présenté de façon un peu différente en faisant intervenir la
déviance, qui est l’écart entre la log-vraisemblance du modèle d’intérêt M et celle
du modèle le plus complet possible Msat , appelé modèle saturé. Le modèle saturé

9
est le modèle comportant n paramètres, c’est-à-dire autant que d’observations. Il
s’obtient en posant µpxi q “ yi . La déviance de M s’écrit alors
´ ¯
DpMq “ ´2 ℓpβq p ´ ℓpβpsat q

La statistique de test T peut donc se réécrire avec la déviance

T “ DpM0 q ´ DpM1 q.

2.4.2 Test de Wald : βj “ 0

On souhaite tester l’hypothèse
H0 : βj “ 0 contre H1 : βj ‰ 0 .
D’après la propriété 3. du théorème 2.10,
´ ¯2
L
In pβqjj βpj ´ βj ÝÝÝÑ χ2 p1q.
nÑ8

En pratique comme précisé plus haut, l’information de Fisher est calculée non
pas en les vrais paramètres qui sont inconnus mais en βp (et ϕ).
p La statistique de test
de Wald est donc ´ ¯2
Wj “ In pβqjj βj ´ βj
p p

qui converge vers une loi de χ2 p1q sous H0 .

2.5 Qualité d’ajustement et choix de modèles

2.5.1 Le pseudo R2
Par analogie avec le coefficient R2 du modèle linéaire, on définit le pseudo-R2
comme le rapport entre DpM0 q ´ DpMq et la déviance DpM0 q du modèle nul, i.e.
ne contenant que la constante :
DpM0 q ´ DpMq ℓpβ̂q ´ ℓpβ̂0 q
pseudo ´ R2 “ “ .
DpM0 q ℓpβ̂sat q ´ ℓpβ̂0 q
Ce pseudo-R2 varie entre 0 et 1, plus il est proche de 1, meilleur est l’ajustement du
modèle.

2.5.2 Le χ2 de Pearson généralisé

Le χ2 de Pearson généralisé est la statistique définie par
n
ÿ pyi ´ µ̂i q2
X2 “
i“1
Varpµ̂i q

où µ̂i “ g ´1 px1i β̂q.

Sous l’hypothèse que le modèle étudié est le bon modèle, et si l’approximation
asymptotique est valable (n assez grand) alors la loi de X 2 peut être approchée par
une loi χ2 pn ´ pq. On rejettera le modèle étudié au niveau α si la valeur observée de
X 2 est supérieure au quantile d’ordre 1 ´ α de la loi χ2 pn ´ pq.

10
2.5.3 Choix de modèle
Quand deux modèles sont emboîtés, le test de modèles emboités permet de choisir
entre les deux.
En présence de plusieurs modèles candidats, non emboités, un première critère
de sélection est donné par la déviance. Le modèle qui a la plus mauvaise déviance
(la plus forte) est le modèle nul, qui a un seul paramètre (variable expliquée par
une constante). Ce modèle n’a en général aucune utilité car il n’explique rien. Le
modèle saturé qui a autant de paramètres que de données possède par définition la
meilleure déviance puisqu’elle vaut 0. Ce modèle n’est souvent pas pertinent car il a
trop de paramètres. Les déviances de ces deux modèles fournissent les valeurs du pire
et du meilleur ajustement possible. Un modèle sera qualifié de bon si sa déviance est
proche du modèle saturé (ce qui est équivalent à un pseudo-R2 proche de 1) et s’il
est construit avec un faible de nombre de paramètres.
Des critères pénalisés permettent de prendre en compte ces deux contraintes
antagonistes. Le plus célèbre est le critère AIC. Le criètre BIC pénalise davantage le
sur-ajustement.

2.5.4 Diagnostic, résidus

Les résidus dans le modèle linéaire généralisé Comme dans le modèle linéaire,
plusieurs types de résidus peuvent être définis. La définition la plus naturelle consiste
à quantifier l’écart entre l’observation yi et sa prédiction par le modèle µ̂i . On définit
aisni les résidus bruts ε̂i “ yi ´ µ̂i , l’inconvénient de ce type de résidus est qu’ils n’ont
pas toujours la même variance, il est donc difficile de les comparer à un comportement
type attendu. En normalisant les résidus bruts par une variance estimée, on obtient
les résidus de Pearson :
yi ´ µ
pi
rpi “ a
Varµpi ryi s
où Varµpi ryi s est la variance théorique de yi évaluée en µ
pi . Ces résidus de Pearson ont
le même défaut que les résidus standardisés du modèle linéaire : leur variance dépend
de l’influence de l’observation i. Les résidus de Pearson standardisés sont obtenus en
renormalisant par l’effet levier
yi ´ µ pi
rsi “ a
p1 ´ hii q Varµpi ryi s
où hii désigne le levier, c’est-à-dire le terme diagonal de la matrice H “ XpX 1 Xq´1 X 1
dans le cas où la matrice X est de rang plein.
Un approche un peu différente consiste à définir les résidus de la déviance qui
mesurent à quel point la log-vraisemblance pour l’observation i est loin de la log-
vraisemblance pour cette même observation dans le cas du modèle saturé. Ils sont
définis par a
rdi “ sgnpYi ´ µpi q di
où di représente la contribution de l’observation i à la déviance D définie par
´ ¯
yi θ̂sat,i ´ θ̂i ` apθ̂sat,i q ´ apθ̂i q
di “ 2ℓpyi ; θ̂sat , ϕ̂q ´ 2ℓpyi ; θ̂, ϕ̂q “ 2
ϕ̂

11
C’est à dire que
n
ÿ
DpMq “ di .
i“1

Pour rendre ces résidus comparables entre eux, il faut les corriger pour prendre
en compte l’influence de chaque observation, les résidus de la déviance standardisés
sont définis par
d
rdi 2ℓpyi ; θ̂sat , ϕ̂q ´ 2ℓpyi ; θ̂, ϕ̂q
rdsi “ ? “ signpyi ´ µ̂i q .
1 ´ hii 1 ´ hii

Intuitivement, une observation ayant un résidu de déviance élevé est une observation
ayant une grande influence sur l’estimation des paramètres du modèle et doit donc
être examimée avec soin. Dans les deux cas on vérifiera comme pour le modèle li-
néaire, qu’il n’existe pas de structure inattendue dans les résidus, en moyenne ou en
variance. La présence d’une telle structure devrait porter le modélisateur à reprendre
le modèle proposé pour identifier la cause de cette structure, par exemple un effet
quadratique d’une variable. On peut montrer que les résidus sont asymptotiquement
gaussiens si le modèle est adéquat, et cette hypothèse peut être vérifiée à l’aide d’un
q-q plot si le nombre de données n est assez grand.

3 Régression logistique
Exemple 3.1. Nous souhaitons expliquer la variable Y Présence (1)/ Absence (0)
d’une maladie cardio-vasculaire (Chd) par l’âge des patients. D’après la Figure 3.1,
il ne semble pas raisonnable de supposer que Y s’exprime linéairement en fonction
X. Une idée naturelle est de supposer que Y est distribuée selon une loi de Bernoulli
dont le paramètre dépend de X. Nous avons vu précédemment que la fonction de lien
canonique pour la loi de Bernoulli était la fonction logit. On parle donc de régression
logistique.
Pour une régression logistique, le modèle linéaire généralisé s’écrit :
1. Y | X “ x „ BpppXqq avec 0 ă ppXq ă 1 ;
2. logitpErY | Xsq “ logitpppXqq “ Xβ
où la fonction logit est définie par : p P r0, 1s ÞÑ logpp{p1 ´ pqq.

Définition 3.2 (Odds ou côte). La quantité

ppXq
1 ´ ppXq

est appelée odds ou côte. Dans le modèle logistique,

ppXq
“ exppXβq “ exppβ0 ` β1 X 1 ` . . . ` βk X k q
1 ´ ppXq

si on suppose que l’on a k variables explicatives.

12
1.0
0.8
0.6
chd

0.4
0.2
0.0

20 30 40 50 60

age

Figure 1 – Représentation directe de Chd (variable à expliquer Y ) en fonction de

l’âge (variable explicative X).

13
Si on considère deux individus i1 et i2 dont la valeur des covariables ne diffère
que pour la j e variable avec Xij1 ´ Xij2 “ 1, on peut calculer l’odds-ratio (ou le
rapport des côtes)
ppXi1 q ppXi2 q
{ “ exppβj q .
1 ´ ppXi1 q 1 ´ ppXi2 q
On dira alors qu’une augmentation de 1 de la variable j entraîne une multiplication
de l’odds-ratio de exppβj q.
Soit un nouvel individu x‹ . On souhaite prédire si y ‹ est égal à 0 ou à 1. Dans
l’exemple sur les maladies cardio-vasculaires, cela signifie que l’on souhaite prédire
la présence ou non d’une maladie en fonction de son âge. On commence par calculer

exppx‹ βq
p
pppx‹ q “
1 ` exppx‹ βq
p

ce qui nous donne une valeur entre 0 et 1. Or, on aimerait prédire 0 ou 1, on compare
alors pppx‹ q au seuil s “ 1{2 :

pppx‹ q ą 1{2 ñ Yp P “ 1
pppx‹ q ď 1{2 ñ Yp P “ 0 .

Le choix du seuil s “ 1{2 est un choix par défaut quand les deux prédictions 0, 1
jouent le même rôle. Dans beaucoup de situations, les rôles ne sont pas symétriques :
par exemple, il peut être grave de prédire la présence (Ŷ P “ 1) d’une maladie
relativement bénigne qui entraînerait par exemple une chirurgie, alors que le patient
n’est pas malade (Y “ 0).
On est donc intéressés à distinguer les différents types d’erreur.
Définition 3.3 (Matrice de confusion). Pour chaque individu i “ 1, . . . , n de notre
échantillon, YpiP désigne la prédiction de Yi et on note
— le nombre de positifs P comme le nombre d’observations telles que Yi “ 1
n
ÿ
P“ 1Yi “1 ;
i“1

— le nombre de négatifs N comme le nombre d’observations telles que Yi “ 0

n
ÿ
N“ 1Yi “0
i“1

et on définit
— le nombre de vrais positifs par
n
ÿ
TP “ 1Yi “1 et Yp P “1 ;
i
i“1

— le nombre de faux positifs comme

n
ÿ
FP “ 1Yi “0 et Yp P “1 ;
i
i“1

14
— le nombre de vrais négatifs comme
n
ÿ
TN “ 1Yi “0 et Yp P “0 ;
i
i“1
— le nombre de faux négatifs comme
n
ÿ
FN “ 1Yi “1 et Yp P “0 .
i
i“1
La matrice de confusion résume ces quatre indicateurs

Yi “ 0 Yi “ 1
YpiP “ 0 TN FN
YpiP “ 1 FP TP
Total N P

On définit aussi
— la sensibilité comme le taux de vrais positifs, soit
TP
;
P
— la spécificité comme le taux de vrais négatifs, soit
TN
.
N
On fait maintenant varier le seuil de prédiction s P r0, 1s, ie on définit le prédicteur
(ou classifieur) qui dépend de ce seuil Yp P,s par
pppx‹ q ą s ñ Yp P,s “ 1
pppx‹ q ď s ñ Yp P,s “ 0

Définition 3.4 (Courbe ROC et AUC). La courbe ROC (receiver operating cha-
racteristic) représente la sensibilité contre 1 - la spécificité pour toutes les valeurs
du seuil entre 0 et 1.
L’AUC (area under the ROC curve) est l’aire sous la courbe ROC.
Une courbe ROC idéale sera collée au coin supérieur gauche et l’AUC sera égale
à 1. Donc plus l’AUC est grande, meilleur est le classifieur. Une règle de classification
au hasard aura une courbe ROC proche de y “ x et un AUC d’environ 0.5.

Mise en oeuvre
— Il faut des observations pour construire le prédicteur (estimer p̂pxq pour tout
x)
— si on mesurait la qualité du prédicteur sur les données qui ont servi à le
construire, on aurait un résultat biaisé : il faut toujours mesurer la qualité du
prédicteur sur de nouvelles observations
— Quand c’est possible, on découpe le jeu de données en un échantillon d’ap-
prentissage (qui va permettre de construire p̂pxq) et un second échantillon
dit de test sur lequel on va mesurer les performances de la règle.

15
4 Régression de Poisson - régression loglinéaire
Nous nous intéressons maintenant au cas où la variable réponse Y est une variable
de comptage, c’est-à-dire qui compte le nombre de fois qu’un événement se réalise
dans une certaine période de temps (par exemple le nombre d’accidents sur la route
pendant un an, le nombre d’enfants dans une famille).
Si on utilise le modèle de régression usuel Yi “ x1i β ` εi pour expliquer le nombre
d’accidents en fonction de l’âge du conducteur par exemple, on s’aperçoit d’une part
que l’hypothèse de normalité des résidus n’est clairement pas réaliste. D’autre part,
les variables εi étant supposées centrées, on a

λpxi q “ ErYi | xi s “ x1i β.

Or rien n’indique que x1i β ą 0. Il est donc nécessaire de définir une fonction de
lien reliant λpxi q au prédicteur linéaire ηi “ x1i β. Pour garantir que l’espérance
conditionnelle λpxi q “ ErYi | xi s est bien strictement positive, on définit le modèle
par
λpxi q “ exppx1i βq.

Cela revient à poser logpλpxi qq “ x1i β. On retrouve la fonction de lien logarith-

mique, qui est le lien canonique associé à la loi de Poisson, d’où le terme générique
de régression loglinéaire.
Pour une régression de Poisson, le modèle linéaire généralisé s’écrit
1. Y | Y „ PpλpXqq, avec λpXq ą 0
2. logpErY | Xsq “ logpλpXqq “ Xβ.
Une fois le modèle ajusté, nous obtenons une estimation pour chaque prédicteur
linéaire ηi “ x1i β par ηpi “ x1i βp et pour chaque paramètre

p i q “ exppx1 βq
λpx p P r0, `8q.
i

Les valeurs ajustées Ypi pour les Yi sont alors définies suivant la règle
$´ ¯k ,
& λpx
’ p iq /
.
´λpx
p iq
Yi P arg max
p e ,
kPN ’% k! /
-

i.e. Ypi correspond donc à l’entier le plus probable pour la loi de Poisson de paramètre
λpx
p i q.
Si l’on se donne maintenant un nouvel individu décrit par x‹ alors le modèle ajusté
permet de prédire son nombre moyen de « succès », donné par λpx p ‹ q “ exppx‹ 1 βq,
p
et sa réponse prédite définie par
$´ ¯k ,
& λpx q
’ p ‹ /
.
‹ p ‹q
´λpx
Y P arg max
p e .
kPN ’% k! /
-

16
Sur-dispersion et modèle binomial négatif Dans le cas du modèle de régres-
sion de Poisson, on a
ErYi | xi s “ VarrYi | xi s,
ce qui est une hypothèse très restrictive. Si ErYi | xi s ă VarrYi | xi s (respectivement
ErYi | xi s ą VarrYi | xi s), nous parlons alors de sur-dispersion (respectivement de
sous-dispersion). Ces deux propriétés n’étant pas autorisées par le modèle de Poisson,
nous définissons une classe plus riche de modèles basée sur la loi binomiale négative.
Rappelons que la loi binomiale négative de paramètres n et p permet de modéliser
le nombre d’échecs nécessaires avant l’obtention de n succès lors de la répétition de
« tirages » indépendants de probabilité de succès p. Elle peut être généralisée à n “ r
non-entier. Le modèle de régression binomial négatif suppose que
1. Yi | Xi “ xi suit une loi binomiale négative de paramètres r et ppxi q, soit
ˆ ˙k ˆ ˙r
Γpr ` kq ppxi q ppxi q
PpYi “ k | Xi “ xi q “ 1´
k!Γprq ppxi q ` r ppxi q ` r

2. logpErYi | xi sq “ logpppxi qq “ x1i β.

Nous pouvons alors montrer que

VarrYi s “ ppxi q 1 ` ν 2 ppxi q

` ˘
ErYi s “ ppxi q et

où ν “ 1{r mesure le degré de sur-dispersion. On peut remarquer que le cas limite ν “

0 correspond à la loi de Poisson. Dans R, le modèle binomial négatif est implémenté
dans la fonction glm pour la famille de lois family = quasipoisson(link = "log").

Références
L. Bel, J. Daudin, M. Etienne, E. Lebarbier, T. Mary-Huard, S. Robin, and C. Vuillet.
Le modèle linéaire et ses extensions. 2016.

F. Husson, P.-A. Cornillon, A. Guyader, N. Jégou, J. Josse, N. Klutchnikoff,

E. Le Pennec, E. Matzner-Løber, L. Rouvière, and B. Thieurmel. R pour la sta-
tistique et la science des données. Presses universitaires de Rennes, 2018.

C. Maugis-Rabusseau. Modèle linéaire général et modèle linéaire généralisé. 2019–

2020.

L. Rouvière. Régression logistique avec R. Université Rennes 2.

Vous aimerez peut-être aussi

Modèles Linéaires Généralisés : Concepts et Estimation
Pas encore d'évaluation
Modèles Linéaires Généralisés : Concepts et Estimation
44 pages
5 GLM Slides
Pas encore d'évaluation
5 GLM Slides
43 pages
Modèles Linéaires Généralisés: Estimation et Applications
Pas encore d'évaluation
Modèles Linéaires Généralisés: Estimation et Applications
9 pages
Méthodes de régression et applications
Pas encore d'évaluation
Méthodes de régression et applications
175 pages
Statistique
Pas encore d'évaluation
Statistique
175 pages
Cours GLM Student Version 2022 2023
Pas encore d'évaluation
Cours GLM Student Version 2022 2023
90 pages
GLM Transp
Pas encore d'évaluation
GLM Transp
306 pages
Estimation Statistique et Lois de Probabilité
Pas encore d'évaluation
Estimation Statistique et Lois de Probabilité
51 pages
Modèle linéaire généralisé avec R
Pas encore d'évaluation
Modèle linéaire généralisé avec R
26 pages
Modèles Linéaires et Régression
Pas encore d'évaluation
Modèles Linéaires et Régression
79 pages
Modèles Linéaires Généralisés en Actuariat
Pas encore d'évaluation
Modèles Linéaires Généralisés en Actuariat
36 pages
Notes de cours sur la statistique bayésienne
100% (2)
Notes de cours sur la statistique bayésienne
54 pages
Statistique : Modélisation et Estimation
Pas encore d'évaluation
Statistique : Modélisation et Estimation
119 pages
Statistique Mathématique et Modélisation
Pas encore d'évaluation
Statistique Mathématique et Modélisation
56 pages
05-Modeles Generalises Mixtes
Pas encore d'évaluation
05-Modeles Generalises Mixtes
25 pages
Exercices de Statistique Bayésienne et Simulation
Pas encore d'évaluation
Exercices de Statistique Bayésienne et Simulation
14 pages
Modèles linéaires généralisés avec R
Pas encore d'évaluation
Modèles linéaires généralisés avec R
38 pages
Statistique : Modélisation et Estimation
Pas encore d'évaluation
Statistique : Modélisation et Estimation
125 pages
2017 10 05cours Non Vie Laura Cohen
Pas encore d'évaluation
2017 10 05cours Non Vie Laura Cohen
57 pages
Comprendre la Déviance Statistique
Pas encore d'évaluation
Comprendre la Déviance Statistique
9 pages
Cours de Statistique Et Econometrie
Pas encore d'évaluation
Cours de Statistique Et Econometrie
118 pages
Modèle Linéaire en Économétrie
Pas encore d'évaluation
Modèle Linéaire en Économétrie
118 pages
Fomulaire Examen
Pas encore d'évaluation
Fomulaire Examen
11 pages
Estimation Ponctuelle et Simulations
Pas encore d'évaluation
Estimation Ponctuelle et Simulations
26 pages
Statistique Inférentielle et Estimation
Pas encore d'évaluation
Statistique Inférentielle et Estimation
153 pages
Estimation du risque quadratique
Pas encore d'évaluation
Estimation du risque quadratique
6 pages
Modèles Paramétriques en Statistiques 2023-2024
Pas encore d'évaluation
Modèles Paramétriques en Statistiques 2023-2024
6 pages
TD Stat M1
Pas encore d'évaluation
TD Stat M1
10 pages
Exercices de Statistique Avancée
Pas encore d'évaluation
Exercices de Statistique Avancée
11 pages
Méthodes Statistiques et Estimation
Pas encore d'évaluation
Méthodes Statistiques et Estimation
225 pages
Rammah2 PDF
Pas encore d'évaluation
Rammah2 PDF
225 pages
Modèles Linéaires Généralisés: Concepts et Estimations
Pas encore d'évaluation
Modèles Linéaires Généralisés: Concepts et Estimations
56 pages
Assurance Dommage: Modèles et Estimations
Pas encore d'évaluation
Assurance Dommage: Modèles et Estimations
43 pages
ENSAEEconometrie Cursusintegre 2006
Pas encore d'évaluation
ENSAEEconometrie Cursusintegre 2006
101 pages
Modélisation et estimation en statistique
Pas encore d'évaluation
Modélisation et estimation en statistique
64 pages
Modèle linéaire en actuariat 2022-2023
Pas encore d'évaluation
Modèle linéaire en actuariat 2022-2023
49 pages
TDs Estimation ENSAE
Pas encore d'évaluation
TDs Estimation ENSAE
42 pages
Définition de l'inférence statistique
Pas encore d'évaluation
Définition de l'inférence statistique
40 pages
Econométrie Rafiki
Pas encore d'évaluation
Econométrie Rafiki
91 pages
Cours Stat Inf
Pas encore d'évaluation
Cours Stat Inf
74 pages
Introduction aux Méthodes Statistiques
Pas encore d'évaluation
Introduction aux Méthodes Statistiques
191 pages
Estimation par maximum de vraisemblance
Pas encore d'évaluation
Estimation par maximum de vraisemblance
5 pages
Fondements économétriques en finance
Pas encore d'évaluation
Fondements économétriques en finance
7 pages
Introduction aux Modèles Linéaires Généralisés
Pas encore d'évaluation
Introduction aux Modèles Linéaires Généralisés
159 pages
Introduction aux statistiques et estimation
Pas encore d'évaluation
Introduction aux statistiques et estimation
13 pages
Notions de base en statistiques et modélisation
Pas encore d'évaluation
Notions de base en statistiques et modélisation
29 pages
TD 7: Méthodes de Classification
100% (1)
TD 7: Méthodes de Classification
5 pages
Stat Math Poly 2013
Pas encore d'évaluation
Stat Math Poly 2013
108 pages
Ajustement d'échantillon à loi inconnue
Pas encore d'évaluation
Ajustement d'échantillon à loi inconnue
95 pages
TD TP Stat2
Pas encore d'évaluation
TD TP Stat2
7 pages
Cours Pierre Ribereau
100% (1)
Cours Pierre Ribereau
100 pages
θ > X f x θ θ x x x ,: Université de Pau et des Pays de l'Adour Semestre printemps 2023-2024
Pas encore d'évaluation
θ > X f x θ θ x x x ,: Université de Pau et des Pays de l'Adour Semestre printemps 2023-2024
5 pages
Examen M1 Big Data : Modèles Linéaires
Pas encore d'évaluation
Examen M1 Big Data : Modèles Linéaires
4 pages
Statistique Bayésienne pour Masters
Pas encore d'évaluation
Statistique Bayésienne pour Masters
45 pages
Analyse des lois gaussiennes et régressions
Pas encore d'évaluation
Analyse des lois gaussiennes et régressions
2 pages
Introduction à la Statistique Mathématique
Pas encore d'évaluation
Introduction à la Statistique Mathématique
107 pages
Outilsdiag
Pas encore d'évaluation
Outilsdiag
29 pages
Théorie et Méthodes d'Estimation Statistique
Pas encore d'évaluation
Théorie et Méthodes d'Estimation Statistique
2 pages
Probastat 2
Pas encore d'évaluation
Probastat 2
6 pages
Statistiques et Probabilités : Exercices TD
100% (1)
Statistiques et Probabilités : Exercices TD
3 pages
Série II de Stat Bivarieé
Pas encore d'évaluation
Série II de Stat Bivarieé
2 pages
Tests d'indépendance et régression linéaire
Pas encore d'évaluation
Tests d'indépendance et régression linéaire
2 pages
TD Maths
Pas encore d'évaluation
TD Maths
2 pages
Analyse des Ventes et Prévisions 2023
Pas encore d'évaluation
Analyse des Ventes et Prévisions 2023
3 pages
Regression Logistique
Pas encore d'évaluation
Regression Logistique
7 pages
Régression Logistique Bayésienne
Pas encore d'évaluation
Régression Logistique Bayésienne
101 pages
04 Structure Des Taux Dintc3a9rc3aat
Pas encore d'évaluation
04 Structure Des Taux Dintc3a9rc3aat
50 pages
Exercices de Statistiques Inférentielles
Pas encore d'évaluation
Exercices de Statistiques Inférentielles
10 pages
Exercices Corrigés D'économétrie À Envoyer Aux Étudiants
78% (9)
Exercices Corrigés D'économétrie À Envoyer Aux Étudiants
39 pages
TP2 Régression Enoncé
Pas encore d'évaluation
TP2 Régression Enoncé
1 page
BA Assignment
Pas encore d'évaluation
BA Assignment
10 pages
Échantillonnage Correction
100% (2)
Échantillonnage Correction
2 pages
Introduction à l'économétrie linéaire
Pas encore d'évaluation
Introduction à l'économétrie linéaire
283 pages
Corrélation Linéaire Et Régression Linéaire Simple PDF
Pas encore d'évaluation
Corrélation Linéaire Et Régression Linéaire Simple PDF
19 pages
Sujet Continu 2025 Rattrapage
Pas encore d'évaluation
Sujet Continu 2025 Rattrapage
2 pages
Introduction au modèle de régression simple
Pas encore d'évaluation
Introduction au modèle de régression simple
96 pages
Revision Tests de Dickey-Fuller
Pas encore d'évaluation
Revision Tests de Dickey-Fuller
22 pages
Techniques d'Échantillonnage et Redressement
Pas encore d'évaluation
Techniques d'Échantillonnage et Redressement
5 pages
Perceptron et régression logistique en santé
Pas encore d'évaluation
Perceptron et régression logistique en santé
27 pages
Calcul de l'intervalle de confiance
Pas encore d'évaluation
Calcul de l'intervalle de confiance
2 pages
Estimation et intervalles de confiance en statistique
Pas encore d'évaluation
Estimation et intervalles de confiance en statistique
7 pages
Actuariat L2 Examen Final Stat Inf 23 24
Pas encore d'évaluation
Actuariat L2 Examen Final Stat Inf 23 24
1 page
Statistiques Bivariées et Régression Linéaire
Pas encore d'évaluation
Statistiques Bivariées et Régression Linéaire
2 pages
Chapitre 2 - Modèles À Effets Individuels
Pas encore d'évaluation
Chapitre 2 - Modèles À Effets Individuels
41 pages
Régressions Coniques, Quadriques, Circulaire, Sphérique
100% (10)
Régressions Coniques, Quadriques, Circulaire, Sphérique
22 pages
AP A1 Bloc Industrie Statistiques A 2 Variables Exercices
Pas encore d'évaluation
AP A1 Bloc Industrie Statistiques A 2 Variables Exercices
2 pages