0% ont trouvé ce document utile (0 vote)
46 vues29 pages

Outilsdiag

Le document traite des outils diagnostiques en régression linéaire, en mettant l'accent sur l'impact des observations atypiques sur les estimations. Il présente des mesures d'influence telles que la distance de Cook et DFBETAS, ainsi que des méthodes pour évaluer et gérer ces observations. Enfin, il suggère des approches pour traiter les données influentes afin d'améliorer la validité du modèle.

Transféré par

Ines
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPT, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
46 vues29 pages

Outilsdiag

Le document traite des outils diagnostiques en régression linéaire, en mettant l'accent sur l'impact des observations atypiques sur les estimations. Il présente des mesures d'influence telles que la distance de Cook et DFBETAS, ainsi que des méthodes pour évaluer et gérer ces observations. Enfin, il suggère des approches pour traiter les données influentes afin d'améliorer la validité du modèle.

Transféré par

Ines
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPT, PDF, TXT ou lisez en ligne sur Scribd

La régression linéaire

Outils diagnostiques

Alice Guéguen
Inserm U687/IFR69
Introduction

Le modèle peut être correct pour la presque totalité


de l’échantillon : linéarité, variance constante et
normalité et indépendance des erreurs.
Mais, la présence de quelques observations
atypiques peut remettre en cause les estimations
obtenues.

2
Une variable explicative

X
avec observation atypique

3
Une variable explicative

avec observation atypique


sans observation atypique

4
Y

avec observation atypique

5
Y

avec observation atypique


sans observation atypique

6
Y

avec observation atypique

7
Y

avec observation atypique


sans observation atypique

8
Exemple illustratif
Simulation d’un échantillon de 100 observations
pour lequel le modèle est correct
Y

X2

X1
Exemple illustratif
Simulation d’un échantillon de 100 observations
pour lequel le modèle est correct
Addition de 3 observations atypiques

104
Y

101

107

X2

10
X1
Les éléments diagonaux de la
matrice chapeau H

Y = Xβ + e e ∝ N(0, σ 2In )

Ŷ = Xβ̂ = X( X' X)-1 X' Y = HY

ŷ i = h1i y1 + h2i y 2 +  + hii y i +  + hni y n

ŷ i est une combinaison linéaire des valeurs observées


hii représente le poids de la ième observation y j sur la ième
valeur prédite ŷ i

11
Les éléments diagonaux de la
matrice chapeau H
1 ( x i  x )2
Une variable explicative hii  
n  i ( x i  x )2

X2

Deux variables
explicatives

12

X1
Les éléments diagonaux de la
matrice chapeau H

La valeur moyenne des hii est h =p n


( p est le nombre de coefficients du modèle)
2p
Observations à examiner hii >
n

13
48
107
2
1
x2
0-1

101
-2

-2 -1 0 1
+------------------------------------------------+2
x1
| id y x1 x2 leverage |
|------------------------------------------------|
| 48 3.00 1.85 2.39 .081 |
| 101 0 2 -2 .138 |
14
| 107 -4 -2.04 2.06 .140 |
+------------------------------------------------+
Résidus

Résidu ri = y i - ŷ i

Bien que les ei soient indépendants et de même variance,


il n’en est pas de même pour les résidus.
var(ri ) = σ 2 (1 - hii )

Les observations avec des hii élevées ont des résidus plus
petits ; elles attirent le plan de régression.

15
Résidus
Résidu standardisé
ri
rs tan d i = où s2 = ∑ ri2 (n - p) = σ̂ 2
s 1 - hii
Le numérateur ri et le dénominateur s ne sont pas
indépendants.
Résidu studentisé
ri où s²(-i) est l’estimation de σ² obtenue
rstud i = à partir de toutes les observations
s(-i) 1 - hii
exceptée i
rstudi ∝ t n-p-1

Observations à examiner |rstud| >2


16
+---------------------------------------+
| id y x1 x2 studres |
|---------------------------------------|
| 31 3.78 0.57 0.80 2.17 |
| 66 -0.13 1.08 1.38 -2.21 |
| 77 -3.39 -0.33 -0.28 -2.57 |
| 91 -1.79 -0.06 0.86 -2.24 |
| 104 3.5 0.0 0.0 3.10 |
| 107 -4.0 -2.04 2.06 -3.66 |
+---------------------------------------+

17
Mesures d’influence
Une observation a d’autant plus d’influence sur
l’estimation des coefficients qu’ elle est à la fois « hors
norme » pour les covariables et « hors norme » pour la
réponse Y conditionnellement aux covariables.

Distance de Cook
(β̂ - β̂( -i ) )' ( X' X )(β̂ - β̂( -i ) )
Distance entre β̂ et β̂( -i ) =
ps 2
rs2tan d i hii
dcook i =
p 1 - hii

4
Observations à examiner dcook i >
n-p
18
4
104

31
2
Studentized residuals

20

100
0

37
1881 101
4
48
-2

91 66
77

107
-4

0 .05 .1 .15
Leverage

La taille de chaque observation est proportionnelle à la


distance de Cook 19
Influence sur les coefficients
DFBETAS
Mesure l’influence de l’observation i sur le jème coefficient
β̂ j - β̂(-i)j
DFBETAS ij =
s(-i) ( X' X) jj1

Une valeur DFBETA positive indique que la présence de


l’observation i augmente la valeur du coefficient.

2
Observations à examiner DFBETA i >
n

20
+-------------------------------------+
| id y x1 x2 dfx1 |
|-------------------------------------|
| 8 -3.47 -1.55 -0.47 .21 |
| 20 4.90 1.62 1.70 .20 |
| 25 -0.35 1.13 0.65 -.21 |
| 94 -0.38 1.14 0.41 -.21 |
| 107 -4.0 -2.04 2.06 1.18 |
+-------------------------------------+

21
Graphe de régression partielle
(partial regression plot ou added variable plot)

Ce graphe permet de visualiser les observations influentes sur


le coefficient de régression associé à X1
• régression de X1 sur X2 résidu resX1_X2
• régression de Y sur X2 résidu resY_X2

• régression de resY_X2 sur resX1_X2


le coefficient obtenu est le même que celui qui résulte du
modèle de régression multiple.
les résidus sont les mêmes que ceux du modèle de
régression multiple. 22
Graphe de régression partielle
(partial regression plot ou added variable plot)

4
2
0
-2
-4
-6

-4 -2 0 2 4
Residuals

23
Graphe de régression partielle
(partial regression plot ou added variable plot)

4
2 0 20
Residuals

94
25
-2

8
-4
-6

107

-4 -2 0 2 4
Residuals

La taille de chaque observation est proportionnelle au


DFBETA associé à X1 24
Influence sur les variance des
paramètres
COVRATIO
Mesure de l’influence de l’observation i sur les variances
des paramètres
det (var(β̂( -i) )) s(2-i) p
1
cov ratioi =
det (var(β̂))
= (s )
2
1 - hii

Une valeur de covratio supérieure à 1 indique que la


présence de l’observation diminue la variance des
paramètres.
3p
Observations à examiner cov ratioi - 1 >
n
25
+-------------------------------------+
| id y x1 x2 covratio |
|-------------------------------------|
| 101 0.0 2.0 -2.0 1.19 |
| 104 3.5 0.0 0.0 .79 |
| 107 -4.0 -2.04 2.06 .82 |
+-------------------------------------+

La présence de l’observation 104 au centre du nuage


des covariables X1,X2 et située sur en dehors du
plan de régression fait augmenter la variance des
estimations.
La présence de l’observation 101 « hors norme » dans
le plan des covariables X1,X2 et située sur le plan de
régression fait diminuer la variance des estimations.
26
Influence conjointe de
plusieurs observations

Difficile de généraliser les mesures d’influence à des


couples ou des triplets d’observations

Solution graphique : graphe de régression partielle

27
Que faire des observations
influentes?
• Vérification des données
• Transformation des variables
une ou plusieurs covariables de manière à ramener
les observations « hors norme » vers le centre du
nuage des covariables.
la variable Y pour se rapprocher d’une distribution
normale

28
Que faire des observations
influentes?
Observations ayant un résidu élevé et non « hors
norme » pour les covariables
• peuvent suggérer qu’il manque une covariable dans le
modèle
Observations « hors norme » pour les covariables
• influence sur les estimations des coefficients et/ou sur
leur variance
• ont des caractéristiques très différentes du reste de
l’échantillon
Définition de la population de l’étude
29

Vous aimerez peut-être aussi