MEA-Ch2 - S1-18-23
MEA-Ch2 - S1-18-23
Régression Multiple
Introduction :
y i 0 1x i 1 2 x i 2 p x ip w i 1 i n
Le modèle : Ecriture matricielle
y 1 1 x 11 x 12 x 1p 0 w 1
x 2 p 1 w 2
y
2 1 x 21 x 22
y i 1 x i1 xi2 x ip i w i
n
y 1 x n1 x n2 x np p w n
Y n ,1 X n , p 1 p 1,1 W n ,1
Y X W
Exemple 2
Le modèle : Les Hypothèses
On supposera vrai les hypothèses suivantes :
f
grad f u 2
f
u
p 1
Rappels sur le gradient des fonctions linéaires et
formes quadratiques
f
1
• Cas linéaire : x1
f x
x p 1 p 1 grad f 2
2
f x ' x 11 x 2 2 x
x
f p 1
p 1
• Cas quadratique :
p 1 p 1
f ' A aii i2 (aij a ji ) i j grad f 2A
i 1 1i j n
2aij
n
min e i
2
i 1
ˆ Y X ˆ
où e Y Y
Le modèle: Méthode des Moindres Carrés
• Soit à minimiser : 2
y x x p xip
0 1 i1 2 i 2
n
i 1
i
Xi
n
ei2 ee F
i 1
̂
• Vérifier que est un minimum en calculant la matrice Hessienne : celle des
dérivées secondes de F (=2X'X)
Le modèle : Méthode des Moindres Carrés
n
• Où: x i1 x i2 x ip
x i1 x 2
i1 x x i1 i2 x x
i1 ip
XX
x ip
x ip x i 1 ip
x 2
p 1, p 1
yi
XY x i 1y i
x ip y i
Le modèle : Méthode des Moindres Carrés
• Exemple : (Modèle avec constante): MRLS méthod Matricielle
1 1 1.5
X Y 2 observations : 1,1.5 et 2, 2 n=2
1 2 2
3.5 2 3 5 3
XX
1
XY XX
5.5 3 5 3 2
1 1.5
ˆ XX XY
1
ˆ
Y X αˆ X
0.5 2
yˆ i 1 0.5 x i
5
5.5 1.1
ˆ XX XY
1
ˆ
1.1 Y X αˆ
5 yˆ i 1.1x i 2.2
1.5 1.1 0.4
e
2 2.2 0.2
n
• Théorème (GAUSS-MARKOV) :
ˆ est BLUE de
• Remarque :
ˆ 0 ;ˆ1 ;ˆ 2 ; ; ˆ p sont des fonctions linéaires des Yi
La matrice Var-Cov (variance-covariance) de ˆ ,
XX
1
notée ˆ , s'écrit : ˆ =s 2
PROPRIETES ET DISTRIBUTION DE L’ESTIMATEUR
E W 12 0 0
0 E W 22
s 2I n
0
E W n
2
• Quelques éléments de démonstration (suite):
ˆ kV Y k k W k k s I n k s 2 kk
I
2
s XX X X XX
2 1 1
XX XX XX XX
1 1 1
s 2
s 2
X W X X X X W
1
I X X X X W où Γ est symétrique et idempotente
1
ei2 e ' e W ' W E e ' e s 2Tr (à développer )
s 2 n p 1 s2
E e ' e sˆ 2
i e 2
n p 1 n p 1
SCR
est donc un estimateur sans Biais de s 2
n p 1
PROPRIETES ET DISTRIBUTION DE
L’ESTIMATEUR
• On a déjà vu que :
XX
1
ˆ =s 2
𝑦𝑖 ↝ 𝒩 𝑋𝑖′ 𝛼, 𝜎 2
𝑛 𝑦 −𝑋 ′ 𝛼 2
2 1 1 𝑖 𝑖
𝑛 ′
−1 𝑦 𝑖 −𝑋 𝑖 𝛼 −
2
1 2 𝜎
1 2 𝜎
𝕃 𝑦1 , 𝑦2 , … , 𝑦𝑛 , 𝛼, 𝜎 = 𝑒 = 𝑛 𝑒
𝑖=1
𝜎 2𝜋 𝜎 2𝜋
1 1
− 2 𝑦−𝑋𝛼 ′ 𝑦−𝑋𝛼
= 𝑛 𝑒 2𝜎
𝜎 2𝜋
Estimation des coefficients par MVS
1- Estimation du coefficient :
𝐿𝑜𝑔 𝕃 𝑦1 , 𝑦2 , … , 𝑦𝑛 , 𝛼, 𝜎 2
1
= −𝑛𝐿𝑜𝑔 2𝜋 − 𝑛𝐿𝑜𝑔 𝜎 − 2 𝑦 − 𝑋𝛼 ′ 𝑦 − 𝑋𝛼
2𝜎
2
𝑛−𝑝−1 2 𝑛−𝑝−1 𝑝+1
𝐸 𝜎 =𝐸 𝜎 = 𝐸 𝜎2 = 1− 𝜎2
𝑛 𝑛 𝑛
≠ 𝜎2
LOIS Des VECTEURS et Des ESTIMATEURS
W
W N (0, s I n )
2
N (0, I n )*
( n ,1) s
yi N ( X ,s )
i
' 2
(1,1)
Y N ( X ,s In ) 2
( n ,1)
ˆ N ( , s ( X ' X ) )
2 1
( p 1,1)
W ' XW
* 2
n p 1
1
où X I X ( X ' X ) X '
s 2
SCR
n2 p 1
s2
Exemple
• Des mesures ont été faites sur 3 variables : la circonférence
(en pouces), la Hauteur (en pieds) et le Volume (en pieds
cubes) de 31 cerisiers noirs abattus. Les données sont dans le
package « datasets » de R et sont prêts à être visualisées :
• > head(trees)
• Girth Height Volume
• 1 8.3 70 10.3
• 2 8.6 65 10.3
• 3 8.8 63 10.2
• 4 10.5 72 16.4
• 5 10.7 81 18.8
• 6 10.8 83 19.7
• > library(lattice)
• > splom(trees) 80
70 50 60 70 80
60
50
Volume 40
30
20
10 20 30 40
10
85 75 80 85
80
75 Height 75
70
65 70 75 65
20 14 16 18 20
18
16
14 Girth 14
12
10
8 10 12 14
8
Matrice de nuages de points
> require(scatterplot3d)
> s3d<-with(trees,scatterplot3d(Girth, Height, Volume, pch=16,
highlight.3d=TRUE,angle=60))
> fit<-lm(Volume~Girth+Height,data=trees)
> s3d$plane3d(fit)
80
70
60
Height
Volume
50
90
85
40
80
30
75
70
20
65
10
60
8 10 12 14 16 18 20 22
Girth
> X<-[Link](fit) ; X
(Intercept) Girth Height
1 1 8.3 70
2 1 8.6 65
3 1 8.8 63
4 1 10.5 72
5 1 10.7 81
6 1 10.8 83
7 1 11.0 66
8 1 11.0 75
9 1 11.1 80
10 1 11.2 75 ………………
> t(X)%*%X
(Intercept) Girth Height
(Intercept) 31.0 410.70 2356.0
Girth 410.7 5736.55 31524.7
Height 2356.0 31524.70 180274.0
> solve(t(X)%*%X)%*%t(X)%*%trees$Volume
[,1]
(Intercept) -57.9876589
Girth 4.7081605
Height 0.3392512
> fitted(fit)[1:5]
1 2 3 4 5
4.837660 4.553852 4.816981 15.874115 19.869008
> new <- [Link](Girth=c(09.1,11.6,12.5),Height=c(69,74,87))
> predict(fit,newdata=new)
1 2 3
8.264937 21.731594 30.379205
Tableau d’Analyse de la Variance
(ANOVA) d’un MRLM
Y Y
2
Y
i
ˆ Yi
2
Y ˆ
Y i i
2
• Response: Volume
• Df Sum Sq Mean Sq F value Pr(>F)
• Girth 1 7581.8 7581.8 503.1503 < 2e-16 **
• Height 1 102.4 102.4 6.7943 0.01449 *
• Residuals 28 421.9 15.1
• ---
• Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’
0.05 ‘.’ 0.1 ‘ ’ 1
• Mesure de la Qualité de l’ajustement
• L’évaluation globale de la régression est
donnée parR2 le coefficient de détermination,
qui exprime la part de variabilité totale
expliquée par le modèle:
SCE SCR
R
2
1
SCT SCT
• Remarque:
• R2 doit être utilisé avec précaution.
• On ne peut utiliser R2 dans un modèle sans constante.
• Si p augmente, R2 augmente aussi, même s’il y a des
variables qui n’ont rien à voir avec le phénomène; pour
ce on corrige R2 : SCR
n 1 n p 1
R 1
2
n p 1
1 2
R 1
SCT
R 2
n 1
2- Test de Significativité individuel des
coefficients
Est-ce que la Variable Xi joue significativement
dans l’explication de Y ? On effectue alors un
T-test
F.H. H 0 : i 0
#
H : 0
1 i
• S.U.
ˆi
• Tˆ t(n-p-1)
i
sˆˆ
i
• Calcul de sˆˆ : i
On a vu que
sˆ2ˆ
0
sˆ 2
=sˆ XX
ˆ1 1
ˆ
ˆ 2
sˆ2ˆ
p
2
ei
XX
1
n p 1
XX
1
si on pose d ii les éléments diagonaux de
alors : sˆ2ˆi
j
e 2
d i 1i 1
n p 1
R.D.
Si tˆ tn p 1; /2 on rejette H0
i
Si tˆ t n ip 1; /2 on ne rejette pas H0
1 1
a ' s ( X ' X ) a p 1
ˆ 2
ˆ 2
ˆ a '( X ' X ) ˆ a
2
p 1
2
s
• D’autre part, on vient de voir que :
SCR
n p 1 sˆ 2
n2 p 1
s2 s2
F
ˆ a '( X ' X ) ˆ a
F p 1,n p 1
p 1 sˆ 2
Tests et Intervalles de Confiance des
Coefficients du Modèle
0
En effet H 0 : A 0 1 1 1 1 2 a 1
2
Tests et Intervalles de Confiance des
Coefficients du Modèle
• Test Modèle réduit VS Modèle Complet
2
ˆ sc
ˆ
ˆ c ˆ sc X ' X A '
1
(*)
2
ˆ ˆ 1
Aˆ sc Aˆ c A X ' X A ' A X ' X A ' Aˆ sc a
1 1
a
2 2
(**)
ˆ sc Z Aˆ sc a
E (ˆ c ) E (ˆ sc ) Z ( AE (ˆ sc ) a ) Z A Za
a
Or
n p 1 sˆ 2 n2 p 1
s2
1
1 Aˆ sc a ' A( X ' X ) A ' Aˆ sc a
1
F F r ,n p 1
r sˆ 2
Tests et Intervalles de Confiance des
Coefficients du Modèle
• Test Modèle réduit VS Modèle Complet
• Remarque :
• On montre que F peut aussi s’écrire:
SCRc SCRsc
F r F r ,n p 1
SCRsc
n p 1
Tests et Intervalles de Confiance des
Coefficients du Modèle
• Test Modèle réduit VS Modèle Complet
• Hypothesis:
• Girth + Height = 1
# F1=[(SCEsc-SCEc)/(p-p')] / [SCR/(n-p-1)]
0 1 0 0 0 0
0 0 1 1 0
H0 : A
p , p 1 p 1,1 0
0 0 0 1 p 0
a
p ,1
• 1- Test de Significativité Globale de la
Régression
• Le F-Test précédent est équivalent au F-Test
sur le vecteur coefficient , sous H0
SCE R2
p p
F
SCR
1 R 2 F p ; n p 1
n p 1 n p 1
attach(don)
summary(modele2)
# summary(modele3)
SORTIE R
• Call:
• lm(formula = penf ~ AGE + pmer + [Link](fum))
• Residuals:
• Min 1Q Median 3Q Max
• -2069.89 -433.18 13.67 516.45 1813.75
• Coefficients:
• Estimate Std. Error t value Pr(>|t|)
• (Intercept) 2362.720 300.687 7.858 3.11e-13 ***
• AGE 7.093 9.925 0.715 0.4757
• pmer 8.860 3.791 2.337 0.0205 *
• [Link](fum)1 -267.213 105.802 -2.526 0.0124 *
• ---
• Residual standard error: 708.8 on 185 degrees of freedom
• Multiple R-squared: 0.06988, Adjusted R-squared: 0.05479
• F-statistic: 4.633 on 3 and 185 DF, p-value: 0.003781
Interprétation
le poids de la mère est significativement associe au poids
de l'enfant, étant donné I’ âge et le statut tabagique de
la mère (p-value= 0,0205). A âge et statut tabagique de
la mère identiques, une augmentation du poids de la
mère d'un kilogramme correspond a une augmentation
de 8,860 g du poids moyen de naissance de l'enfant ;
I' âge de la mère n'est pas significativement associe au
poids de naissance de l'enfant étant donné le poids et le
statut tabagique de la mère (p-value = 0,476) ;
le poids moyen de naissance est significativement plus
faible de 267,213 g pour les enfants nés de mères
fumeuses par rapport aux enfants nés de mères non
fumeuses de même âge et de même poids (p-value
=0,012).
SORTIE R
• anova(modele2)
• Response: penf
• Df Sum Sq Mean Sq F value Pr(>F)
• AGE 1 806927 806927 1.61 0.207
• pmer 1 2970564 2970564 5.91 0.016 *
• [Link](fum) 1 3204339 3204339 6.38 0.012 *
• Residuals 185 92935223 502353
Etude De Cas
Tapez sous R : H 0 : 2 3 0
• modele1 <- lm(penf~AGE)
• *******
• On a deux méthodes de réponse :
Etude De Cas
anova(modele1,modele2)
• require(car)
• a <- c(0,0)
• A<-matrix(c(0,0,1,0,0,0,0,1),ncol=4,byrow=TRUE)
• r <- dim(A)[1]
• linearHypothesis(modele2,A,a)
H 0 : 2 3 0
SORTIE R
anova(modele1,modele2)
linearHypothesis(modele2,A,a)
• Linear hypothesis test
• Hypothesis:
• pmer = 0
• [Link](fum)1 = 0
• Tapez sous R :
• Interprétation :
• L'estimation de 1 ( ̂1 = -452.8 g) représente la différence des poids
moyens de naissance entre les mères noires (RACE=2) et les mères
blanches (groupe de référence), et ce résultat est significativement différent
de zéro (p-value=0,0045) dans un modèle ajuste sur le poids de la mère. De
même, la différence des poids de naissance moyens entre le groupe RACE
= 3 et le groupe référence est égale ̂ 2 = -243.7 g et est significativement
différente de zéro (p-value=0.03) ajuste sur le poids de la mère.
• Remarque :
• Pour le changement de la modalité de référence :
penf=0+1*AGE+2*fum+3*AGExfum+W
Si fum=0, penf=0+1*AGE+W
Si fum=1, penf=(0+2 13*AGE+W
3 0 ?
Etude De Cas
Interaction entre les variables
• modele5 <- lm(penf~AGE+fum)
• modele6 <- lm(penf~AGE+fum+AGE:fum)
• summary(modele6)
• Estimate Std. Error t value Pr(>|t|)
• (Intercept) 2408.38 292.24 8.241 3.05e-14
• AGE 27.60 12.15 2.271 0.0243
• fum 795.38 484.42 1.642 0.1023
• AGE:fum -46.36 20.45 -2.267 0.0245
• Le coefficient 3 est significatif (p-value=0,024). Donc l'effet de l‘ âge de la
mère sur le poids de naissance de l'enfant n'est pas le même selon le statut
tabagique de la mère. Le poids moyen de naissance de l'enfant augmente
avec I 'âge de la mère, de 27.60 g . Chez les mères fumeuses, le poids
moyen de naissance de l'enfant diminue avec I 'âge de la mère, de 18.76 g.
• Ic(1 3 0 ?
Etude De Cas
• Cas Problème de la colinéarité
• Si plusieurs var exp et si redondance de l’information donc :
• - Coef devenant non significatifs.
• - Valeurs des coefficients contradictoires (signes opposés)
• - qualité des estimations perturbée (var très grande)
– Tapez sous R :
Sélection de variables
• La methode pas à pas descendante (backward selection)
Ou : régression par éliminations successives
– Tapez sous R :
• names(don)
• don1 <- don[c(4,3,9,6,8,10,7,11)]
• FVTl <- FVT ; FVTl <- [Link](FVT>=l)
• PTL1 <- PTL ; PTL1 <- [Link](PTL>=1)
• modele2 <-step(lm(penf~pmer+AGE+UI+
+ [Link](fum)+HT+FVT1+PTL1),direction=
+ "backward")
• modele2$anova
Etude De Cas
Diagnostiques
• Analyse des résidus : linéarité, normalité, hétéroscédasticité
– Tapez sous R :
modele10<-lm(penf~fum+AGE+pmer+
+ factor(RACE)+UI+HT+fum:AGE)
op <- par(mfrow=c(2,2))
plot(modele10)
par(op)
Residuals vs Fitted Normal Q-Q
3
130 130
1000
2
Standardized residuals
1
Residuals
0
-2000 -1000
-1
-2
136
136
132
-3
132
3
132
136 130
1.5
Standardized residuals
130
2
Standardized residuals
106
1
1.0
0
-3 -2 -1
0.5
Cook's
132distance
0.0
Diagnostiques
• Analyse des résidus : linéarité, normalité, hétéroscédasticité
– Tapez sous R :
1.0
0.0
0.2
1.5
0.4
2.0
f um
RACE
0.6
2.5
0.8
3.0
1.0
res res
0.0
15
0.2
20 25
0.4
UI
30
AGE
0.6
35
0.8
40
45
1.0
res res
0.2
60
0.4
HT
pmer
80
0.6
0.8
100
1.0
Etude De Cas
Diagnostiques
• Analyse des résidus : linéarité, normalité, hétéroscédasticité
• Points atypiques et / ou influents.
– graphique des résidus versus les valeurs prédites
– Tapez sous R :
[Link] <- rstudent(modele10) # Calcul des residus studentises.
[Link] <- qt(0.975,189-8-2) # Calcul du seuil par laloi de
Student.
cond <- [Link]<(-[Link]) | [Link] > [Link]
# Liste des individus susceptibles d'etre consideres comrne
aberrants.
[Link] <- ID[cond]
[Link] <- fitted(modele10)
plot([Link]~[Link],xlab="Valeurs ajustees",ylab="Residus
studentises")
abline(h=c(-[Link],[Link]))
text([Link][cond],[Link][cond],[Link],col="red",pos=1)
outliers
226
188
2
225
1
Residus studentises
0
-1
-2
4 18 27 36
16
-3
10
2000 2500 3000 3500
Valeurs ajustees
plot (modele10,4)
Cook's distance
0.12
130
0.10
0.08
Cook's distance
0.06
132
106
0.04
0.02
0.00
0 50 100 150
Obs. number
lm(penf ~ fum + AGE + pmer + factor(RACE) + UI + HT + fum:AGE)
Etude De Cas
Diagnostiques
• Analyse des résidus : linéarité, normalité, hétéroscédasticité
• Cas de la régression polynomiale (non linéaire)
• Tapez sous R :
………etc.