La régression linéaire
Outils diagnostiques
Alice Guéguen
Inserm U687/IFR69
Introduction
Le modèle peut être correct pour la presque totalité
de l’échantillon : linéarité, variance constante et
normalité et indépendance des erreurs.
Mais, la présence de quelques observations
atypiques peut remettre en cause les estimations
obtenues.
2
Une variable explicative
X
avec observation atypique
3
Une variable explicative
avec observation atypique
sans observation atypique
4
Y
avec observation atypique
5
Y
avec observation atypique
sans observation atypique
6
Y
avec observation atypique
7
Y
avec observation atypique
sans observation atypique
8
Exemple illustratif
Simulation d’un échantillon de 100 observations
pour lequel le modèle est correct
Y
X2
X1
Exemple illustratif
Simulation d’un échantillon de 100 observations
pour lequel le modèle est correct
Addition de 3 observations atypiques
104
Y
101
107
X2
10
X1
Les éléments diagonaux de la
matrice chapeau H
Y = Xβ + e e ∝ N(0, σ 2In )
Ŷ = Xβ̂ = X( X' X)-1 X' Y = HY
ŷ i = h1i y1 + h2i y 2 + + hii y i + + hni y n
ŷ i est une combinaison linéaire des valeurs observées
hii représente le poids de la ième observation y j sur la ième
valeur prédite ŷ i
11
Les éléments diagonaux de la
matrice chapeau H
1 ( x i x )2
Une variable explicative hii
n i ( x i x )2
X2
Deux variables
explicatives
12
X1
Les éléments diagonaux de la
matrice chapeau H
La valeur moyenne des hii est h =p n
( p est le nombre de coefficients du modèle)
2p
Observations à examiner hii >
n
13
48
107
2
1
x2
0-1
101
-2
-2 -1 0 1
+------------------------------------------------+2
x1
| id y x1 x2 leverage |
|------------------------------------------------|
| 48 3.00 1.85 2.39 .081 |
| 101 0 2 -2 .138 |
14
| 107 -4 -2.04 2.06 .140 |
+------------------------------------------------+
Résidus
Résidu ri = y i - ŷ i
Bien que les ei soient indépendants et de même variance,
il n’en est pas de même pour les résidus.
var(ri ) = σ 2 (1 - hii )
Les observations avec des hii élevées ont des résidus plus
petits ; elles attirent le plan de régression.
15
Résidus
Résidu standardisé
ri
rs tan d i = où s2 = ∑ ri2 (n - p) = σ̂ 2
s 1 - hii
Le numérateur ri et le dénominateur s ne sont pas
indépendants.
Résidu studentisé
ri où s²(-i) est l’estimation de σ² obtenue
rstud i = à partir de toutes les observations
s(-i) 1 - hii
exceptée i
rstudi ∝ t n-p-1
Observations à examiner |rstud| >2
16
+---------------------------------------+
| id y x1 x2 studres |
|---------------------------------------|
| 31 3.78 0.57 0.80 2.17 |
| 66 -0.13 1.08 1.38 -2.21 |
| 77 -3.39 -0.33 -0.28 -2.57 |
| 91 -1.79 -0.06 0.86 -2.24 |
| 104 3.5 0.0 0.0 3.10 |
| 107 -4.0 -2.04 2.06 -3.66 |
+---------------------------------------+
17
Mesures d’influence
Une observation a d’autant plus d’influence sur
l’estimation des coefficients qu’ elle est à la fois « hors
norme » pour les covariables et « hors norme » pour la
réponse Y conditionnellement aux covariables.
Distance de Cook
(β̂ - β̂( -i ) )' ( X' X )(β̂ - β̂( -i ) )
Distance entre β̂ et β̂( -i ) =
ps 2
rs2tan d i hii
dcook i =
p 1 - hii
4
Observations à examiner dcook i >
n-p
18
4
104
31
2
Studentized residuals
20
100
0
37
1881 101
4
48
-2
91 66
77
107
-4
0 .05 .1 .15
Leverage
La taille de chaque observation est proportionnelle à la
distance de Cook 19
Influence sur les coefficients
DFBETAS
Mesure l’influence de l’observation i sur le jème coefficient
β̂ j - β̂(-i)j
DFBETAS ij =
s(-i) ( X' X) jj1
Une valeur DFBETA positive indique que la présence de
l’observation i augmente la valeur du coefficient.
2
Observations à examiner DFBETA i >
n
20
+-------------------------------------+
| id y x1 x2 dfx1 |
|-------------------------------------|
| 8 -3.47 -1.55 -0.47 .21 |
| 20 4.90 1.62 1.70 .20 |
| 25 -0.35 1.13 0.65 -.21 |
| 94 -0.38 1.14 0.41 -.21 |
| 107 -4.0 -2.04 2.06 1.18 |
+-------------------------------------+
21
Graphe de régression partielle
(partial regression plot ou added variable plot)
Ce graphe permet de visualiser les observations influentes sur
le coefficient de régression associé à X1
• régression de X1 sur X2 résidu resX1_X2
• régression de Y sur X2 résidu resY_X2
• régression de resY_X2 sur resX1_X2
le coefficient obtenu est le même que celui qui résulte du
modèle de régression multiple.
les résidus sont les mêmes que ceux du modèle de
régression multiple. 22
Graphe de régression partielle
(partial regression plot ou added variable plot)
4
2
0
-2
-4
-6
-4 -2 0 2 4
Residuals
23
Graphe de régression partielle
(partial regression plot ou added variable plot)
4
2 0 20
Residuals
94
25
-2
8
-4
-6
107
-4 -2 0 2 4
Residuals
La taille de chaque observation est proportionnelle au
DFBETA associé à X1 24
Influence sur les variance des
paramètres
COVRATIO
Mesure de l’influence de l’observation i sur les variances
des paramètres
det (var(β̂( -i) )) s(2-i) p
1
cov ratioi =
det (var(β̂))
= (s )
2
1 - hii
Une valeur de covratio supérieure à 1 indique que la
présence de l’observation diminue la variance des
paramètres.
3p
Observations à examiner cov ratioi - 1 >
n
25
+-------------------------------------+
| id y x1 x2 covratio |
|-------------------------------------|
| 101 0.0 2.0 -2.0 1.19 |
| 104 3.5 0.0 0.0 .79 |
| 107 -4.0 -2.04 2.06 .82 |
+-------------------------------------+
La présence de l’observation 104 au centre du nuage
des covariables X1,X2 et située sur en dehors du
plan de régression fait augmenter la variance des
estimations.
La présence de l’observation 101 « hors norme » dans
le plan des covariables X1,X2 et située sur le plan de
régression fait diminuer la variance des estimations.
26
Influence conjointe de
plusieurs observations
Difficile de généraliser les mesures d’influence à des
couples ou des triplets d’observations
Solution graphique : graphe de régression partielle
27
Que faire des observations
influentes?
• Vérification des données
• Transformation des variables
une ou plusieurs covariables de manière à ramener
les observations « hors norme » vers le centre du
nuage des covariables.
la variable Y pour se rapprocher d’une distribution
normale
28
Que faire des observations
influentes?
Observations ayant un résidu élevé et non « hors
norme » pour les covariables
• peuvent suggérer qu’il manque une covariable dans le
modèle
Observations « hors norme » pour les covariables
• influence sur les estimations des coefficients et/ou sur
leur variance
• ont des caractéristiques très différentes du reste de
l’échantillon
Définition de la population de l’étude
29