0% ont trouvé ce document utile (0 vote)
35 vues83 pages

MEA-Ch2 - S1-18-23

Le chapitre 2 traite de la régression linéaire multiple, qui modélise une variable quantitative Y en fonction de plusieurs variables explicatives X1, X2, ..., Xp. Il présente le modèle, ses objectifs, les hypothèses nécessaires à sa validité, ainsi que la méthode des moindres carrés pour estimer les coefficients. Des exemples illustrent l'application de ces concepts, en soulignant les propriétés et la distribution des estimateurs.

Transféré par

abdelilah
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
35 vues83 pages

MEA-Ch2 - S1-18-23

Le chapitre 2 traite de la régression linéaire multiple, qui modélise une variable quantitative Y en fonction de plusieurs variables explicatives X1, X2, ..., Xp. Il présente le modèle, ses objectifs, les hypothèses nécessaires à sa validité, ainsi que la méthode des moindres carrés pour estimer les coefficients. Des exemples illustrent l'application de ces concepts, en soulignant les propriétés et la distribution des estimateurs.

Transféré par

abdelilah
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 2

Régression Multiple
Introduction :

• Le but premier de ce deuxième chapitre est la


modélisation (l’explication) dans un but
prédictif, d’une variable quantitative Y par
plusieurs variables quantitatives X1, X2, …, Xp .
Ces dernières sont liées linéairement avec Y.
Il s’agit là de ce qu’on appelle :
la régression linéaire multiple.
Le modèle :

• Le modèle de régression linéaire multiple


est une généralisation de la régression
simple.

• C’est un outil statistique mis en œuvre


pour l’étude de données
multidimensionnelles.
Le modèle : Objectifs

• Estimer les paramètres du modèle  0 ;1; 2 ; ; p


Avec des estimateurs de meilleur qualité.
• Mesurer le pouvoir explicatif global du modèle.
• Faire de la prévision en construisant des intervalles de
prévision.
• Ce dernier point nous permettra de repérer les points
aberrants et de les supprimer.
Le modèle : (aspect empirique)
• Une variable quantitative Y (V. à expliquer ou
endogène) est mise en relation avec p variables
quantitatives X1, X2, …, Xp (V. explicatives , exogènes
ou régresseurs).
• On mesure sur n individus ces p+1 variables
représentées par des vecteurs de Rn: y, x1, x2, …, xp
(où n > p+1).

• L’écriture du modèle linéaire est alors comme suit :

y i  0  1x i 1   2 x i 2    p x ip w i 1 i  n
Le modèle : Ecriture matricielle
 y 1  1 x 11 x 12 x 1p   0   w 1 
      
x 2 p   1  w 2
y
  2  1 x 21 x 22  
      
     
 y i  1 x i1 xi2 x ip    i   w i 
      
      
 n 
y 1 x n1 x n2 x np    p  w n 
Y  n ,1 X  n , p 1   p 1,1 W  n ,1

Y  X  W
Exemple 2
Le modèle : Les Hypothèses
On supposera vrai les hypothèses suivantes :

H1- Linéarité : y i   0  1x i 1   2 x i 2    p x ip  w i 1  i  n


La relation entre y et x1, . . . ,xp est linéaire.

H2: Plein rang : La matrice X’X est inversible; autrement


det(X’X) 0. On peut l’exprimer par le fait que les Xi
sont indépendantes linéairement (pas statistiquement).
Cette hyp. est nécessaire pour l’estimation des paramètres.

H3: Exogénéité des variables indépendantes : Les W i


sont des termes d’erreur d’espérance conditionnelle
aux réalisations des xi est nulle : E(W i | x1, . . . ,xp) =0.
Les xi n’interviennent pas dans la prédiction de W i
Le modèle : Les Hypothèses (suite)

H4: Homoscédasticité et absence d’autocorrélation:


V(W i) = s2; où s2 est cste et wi n’est pas corrélé avec
wj pour i  j : cov(wi ,wj)=0

H5: Génération des données: Les Xi qu’elle soient


aléatoires ou déterministes (facteurs contrôlés) ne
changent en rien les résultats.

H6: Distribution Normale : Les W sont distribués selon la


loi Normale.
Rappels sur le gradient des fonctions
linéaires et formes quadratiques
• Considérons la fonction f telle que :
f : R p 1  R
u f u   f (u1 ,u1 , ,u p 1 ) ; où p  1
• On appelle gradient de f, la dérivée de f par rapport à u.
p 1 p 1
C'est une fonction de R  R :  f 
 u 
 1 

 f 
 
grad f   u 2 
 
 
 f 
 u 
 p 1 
Rappels sur le gradient des fonctions linéaires et
formes quadratiques
 f 
 1 
• Cas linéaire :    x1 
 f   x 
 x p 1 p 1  grad f    2   
2 
f    x '  x 11  x 2 2  x
   
   
x
 f   p 1 
 

 p 1 
• Cas quadratique :
p 1 p 1
f     ' A    aii  i2   (aij  a ji )  i  j  grad f  2A 
i 1 1i  j  n
2aij

 a11 a12 a1n 


 
 a21 a22 a2 n 
où A  étant supposée symetrique
 
 
 an 1 an 2 ann 
Estimation des coefficients par la
Méthode des Moindres Carrés
• Comme on a vu dans le chapitre 1, il s’agit , afin
d’estimer , de minimiser la somme des carrées des
résidus (ei) (voir graphique du chapitre 1) :

n
min  e i
2

i 1

ˆ Y  X ˆ
où e Y  Y
Le modèle: Méthode des Moindres Carrés
• Soit à minimiser : 2
 
 y    x  x    p xip  
 0 1 i1 2 i 2
n

 
i 1 
i

 Xi  
n
  ei2  ee  F  
i 1

 Y  X   Y  X    YY  α' XY  Y ' Xα  α' XX 


scalaire α' XY
-2α' XY

grad F  0  2XY  2XX   0


 ˆ   XX  XY
1

̂
• Vérifier que est un minimum en calculant la matrice Hessienne : celle des
dérivées secondes de F (=2X'X)
Le modèle : Méthode des Moindres Carrés
 n
• Où:  x i1 x i2 x ip 

  x i1 x 2
i1 x x i1 i2 x x
i1 ip 
XX   
 
  x ip

 x ip x i 1  ip
x 2


 
 p 1, p 1

 yi 
 
XY    x i 1y i 
 
 
  x ip y i 
Le modèle : Méthode des Moindres Carrés
• Exemple : (Modèle avec constante): MRLS méthod Matricielle

1 1  1.5 
X    Y     2 observations : 1,1.5  et  2, 2  n=2
1 2   2
 3.5   2 3  5 3 
   XX   
1
XY    XX   
 
5.5  3 5    3 2 
 1  1.5 
ˆ   XX  XY   
1
ˆ
Y  X αˆ    X
 0.5   2
yˆ i 1 0.5 x i

1.5  1.5   0  cste


e       
 2   2   0
• e=0R2 : signifie que la droite estimée passe par les
deux points (1 , 1.5) et (2 , 2).
Le modèle : Méthode des Moindres Carrés
• Exemple : (Modèle sans constante)
1 1.5 
X    Y     2 observations : 1,1.5  et  2, 2 
 2  2
1
XY  5.5 XX  5   XX  
1

5
5.5  1.1 
ˆ   XX  XY 
1
ˆ
 1.1 Y  X αˆ   
5 yˆ i 1.1x i  2.2 
1.5   1.1   0.4 
e       
    
2 2.2  0.2 
n

• On remarque que  e i  0 car le modèle est sans cste.


i 1
PROPRIETES ET DISTRIBUTION DE
L’ESTIMATEUR: MMC (voir pages 483-4;Annex-B
et EX1-ser3)

• Théorème (GAUSS-MARKOV) :
ˆ est BLUE de 

• Remarque :
ˆ 0 ;ˆ1 ;ˆ 2 ; ; ˆ p sont des fonctions linéaires des Yi
La matrice Var-Cov (variance-covariance) de ˆ ,
 XX 
1
notée ˆ , s'écrit : ˆ =s 2
PROPRIETES ET DISTRIBUTION DE L’ESTIMATEUR

• Quelques éléments de démonstration :


• D'abord la Matrice de Var-Cov de W (Annexe B)
 E W 12  E W 1W 2  E W 1W n  
 
 E W 2W 1  E W 22  
W    E WW     
   
 
 E W nW 1 
 E W n  
2

 E W 12  0 0 
 
 0 E W 22  
   s 2I n
 
 
 0
 E W n  
2
• Quelques éléments de démonstration (suite):

 Puisque, ˆ   XX  XY et en posant k   XX  X ;


1 1

on obtient l’écriture : ˆ  k Y combinaison des Yi


E ˆ   kE Y   k  X     XX 
1
 XX   

ˆ  kV Y  k   k W k   k s I n  k   s 2 kk 
I
2

 s  XX  X  X  XX  
2 1 1
 
 XX   XX   XX   XX 
1 1 1
s 2
s 2

 Rem : on peut utiliser la définition :



ˆ  E   ˆ   ˆ  

 
PROPRIETES ET DISTRIBUTION DE L’ESTIMATEUR

• Estimation de la Matrice de Var-Cov de W(de s 2):


e  Y  Yˆ   X   W    X ˆ 


 X   W  X    X X  X W
1

 
  I  X  X X  X   W  où Γ est symétrique et idempotente 
1

 
  
  ei2  e ' e  W ' W  E  e ' e   s 2Tr    (à développer )

 s 2  n   p  1  s2 
E  e ' e   sˆ 2 
i e 2

n  p 1 n  p 1
SCR
 est donc un estimateur sans Biais de s 2
n  p 1
PROPRIETES ET DISTRIBUTION DE
L’ESTIMATEUR

• Estimation de la Matrice de Var-Cov de ̂ :

• On a déjà vu que :

 XX 
1
ˆ =s 2

• Ceci implique que :

ˆ =sˆ  XX 


1
ˆ 2
Estimation des coefficients par MVS
1-  Estimateur par MVS du coefficient  :
yi   0  1 xi1   2 xi 2    p xip  wi
 yi  X i
'
  wi
(1,1) (1, p 1) ( p 1,1) (1,1)

𝑦𝑖 ↝ 𝒩 𝑋𝑖′ 𝛼, 𝜎 2
𝑛 𝑦 −𝑋 ′ 𝛼 2
2 1 1 𝑖 𝑖
𝑛 ′
−1 𝑦 𝑖 −𝑋 𝑖 𝛼 −
2
1 2 𝜎
1 2 𝜎
𝕃 𝑦1 , 𝑦2 , … , 𝑦𝑛 , 𝛼, 𝜎 = 𝑒 = 𝑛 𝑒
𝑖=1
𝜎 2𝜋 𝜎 2𝜋
1 1
− 2 𝑦−𝑋𝛼 ′ 𝑦−𝑋𝛼
= 𝑛 𝑒 2𝜎
𝜎 2𝜋
Estimation des coefficients par MVS

1- Estimation du coefficient  :

𝐿𝑜𝑔 𝕃 𝑦1 , 𝑦2 , … , 𝑦𝑛 , 𝛼, 𝜎 2
1
= −𝑛𝐿𝑜𝑔 2𝜋 − 𝑛𝐿𝑜𝑔 𝜎 − 2 𝑦 − 𝑋𝛼 ′ 𝑦 − 𝑋𝛼
2𝜎

𝑀𝑎𝑥𝑖𝑚𝑖𝑠𝑒𝑟 𝕃 𝑟𝑒𝑣𝑖𝑒𝑛𝑡 à 𝑚𝑎𝑥𝑖𝑚𝑖𝑠𝑒𝑟 𝐿𝑜𝑔 𝕃


𝑐𝑒 𝑞𝑢𝑖 𝑟𝑒𝑣𝑖𝑒𝑛𝑡 à 𝑚𝑖𝑛𝑖𝑚𝑖𝑠𝑒𝑟 𝑦 − 𝑋𝛼 ′ 𝑦 − 𝑋𝛼 :
𝑀𝑖𝑛 𝑦 − 𝑋𝛼 ′ 𝑦 − 𝑋𝛼
𝛼
𝑐𝑒𝑐𝑖 𝑑𝑜𝑛𝑛𝑒 𝑙𝑒 𝑚ê𝑚𝑒 𝑟é𝑠𝑢𝑙𝑡𝑒 𝑞𝑢𝑒 𝑀𝑀𝐶:
𝛼=𝛼
Estimation des coefficients par MVS
1- Estimation de la variance de l’erreur s 2
:
𝜕 𝑛 1
𝐿𝑜𝑔 𝕃 𝑦1 , 𝑦2 , … , 𝑦𝑛 , 𝛼, 𝜎 2 = − + 3 𝑌 − 𝑋𝛼 ′
𝑌 − 𝑋𝛼 = 0
𝜕𝜎 𝜎 𝜎
𝑛 1
⇒ − + 3 𝑌 − 𝑋𝛼 ′ 𝑌 − 𝑋𝛼 =0
𝜎 𝜎
𝑛 1
⇒ − + 3 𝑌 − 𝑋𝛼 ′ 𝑌 − 𝑋𝛼 =0
𝜎 𝜎
2
𝑌 − 𝑋𝛼 ′ 𝑌 − 𝑋𝛼 𝑆𝐶𝑅 𝑆𝐶𝑅
⇒ 𝜎 = = ≠ 𝜎2 =
𝑛 𝑛 𝑛−𝑝−1
𝑂𝑟

2
𝑛−𝑝−1 2 𝑛−𝑝−1 𝑝+1
𝐸 𝜎 =𝐸 𝜎 = 𝐸 𝜎2 = 1− 𝜎2
𝑛 𝑛 𝑛
≠ 𝜎2
LOIS Des VECTEURS et Des ESTIMATEURS

W
W  N (0, s I n ) 
2
 N (0, I n )*
( n ,1) s
yi  N ( X  ,s )
i
' 2

(1,1)

Y  N ( X  ,s In ) 2
( n ,1)

ˆ  N ( , s ( X ' X ) )
2 1
( p 1,1)

W '  XW
*  2
n  p 1
1
où  X  I  X ( X ' X ) X '
s 2

SCR
   n2 p 1
s2
Exemple
• Des mesures ont été faites sur 3 variables : la circonférence
(en pouces), la Hauteur (en pieds) et le Volume (en pieds
cubes) de 31 cerisiers noirs abattus. Les données sont dans le
package « datasets » de R et sont prêts à être visualisées :
• > head(trees)
• Girth Height Volume
• 1 8.3 70 10.3
• 2 8.6 65 10.3
• 3 8.8 63 10.2
• 4 10.5 72 16.4
• 5 10.7 81 18.8
• 6 10.8 83 19.7
• > library(lattice)
• > splom(trees) 80
70 50 60 70 80

60
50
Volume 40
30
20
10 20 30 40
10

85 75 80 85

80

75 Height 75

70

65 70 75 65

20 14 16 18 20
18
16
14 Girth 14
12
10
8 10 12 14
8
Matrice de nuages de points
> require(scatterplot3d)
> s3d<-with(trees,scatterplot3d(Girth, Height, Volume, pch=16,
highlight.3d=TRUE,angle=60))
> fit<-lm(Volume~Girth+Height,data=trees)
> s3d$plane3d(fit)

80
70
60

Height
Volume

50

90
85
40

80
30

75
70
20

65
10

60
8 10 12 14 16 18 20 22

Girth
> X<-[Link](fit) ; X
(Intercept) Girth Height
1 1 8.3 70
2 1 8.6 65
3 1 8.8 63
4 1 10.5 72
5 1 10.7 81
6 1 10.8 83
7 1 11.0 66
8 1 11.0 75
9 1 11.1 80
10 1 11.2 75 ………………
> t(X)%*%X
(Intercept) Girth Height
(Intercept) 31.0 410.70 2356.0
Girth 410.7 5736.55 31524.7
Height 2356.0 31524.70 180274.0
> solve(t(X)%*%X)%*%t(X)%*%trees$Volume
[,1]
(Intercept) -57.9876589
Girth 4.7081605
Height 0.3392512

> fitted(fit)[1:5]
1 2 3 4 5
4.837660 4.553852 4.816981 15.874115 19.869008
> new <- [Link](Girth=c(09.1,11.6,12.5),Height=c(69,74,87))
> predict(fit,newdata=new)
1 2 3
8.264937 21.731594 30.379205
Tableau d’Analyse de la Variance
(ANOVA) d’un MRLM

• Équation fondamentale de l’ ANOVA:

– La formule de décomposition de la variance


permet de connaître la part de variation de Y
expliquée par celle des Xi :

 Y  Y  
2
 Y
  
i
ˆ  Yi   
2
Y  ˆ
Y  i i
2

SCT SCE SCR  ei2


Tableau de l’ ANOVA
Source Somme Carrés
d.d.l Fisher
de varq des carrés moyens
x 
SCE= Yˆi  Y 
2
p SCE/p F=
(SCE/ p)/
Résidu SCR= e 2
i n-p-1 SCR/(n-p-1) (SCR/(n-p-1))

Totale SCT= Yi  Y 


2
n-1
Mise en œuvre sous R
> fit<-lm(Volume~Girth+Height,data=trees)
anova(fit)
• Analysis of Variance Table

• Response: Volume
• Df Sum Sq Mean Sq F value Pr(>F)
• Girth 1 7581.8 7581.8 503.1503 < 2e-16 **
• Height 1 102.4 102.4 6.7943 0.01449 *
• Residuals 28 421.9 15.1
• ---
• Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’
0.05 ‘.’ 0.1 ‘ ’ 1
• Mesure de la Qualité de l’ajustement
• L’évaluation globale de la régression est
donnée parR2 le coefficient de détermination,
qui exprime la part de variabilité totale
expliquée par le modèle:
SCE SCR
R 
2
 1
SCT SCT
• Remarque:
• R2 doit être utilisé avec précaution.
• On ne peut utiliser R2 dans un modèle sans constante.
• Si p augmente, R2 augmente aussi, même s’il y a des
variables qui n’ont rien à voir avec le phénomène; pour
ce on corrige R2 : SCR
 n  1 n  p 1
R  1
2

 n  p  1
1 2
R   1 
SCT
 R 2

n 1
2- Test de Significativité individuel des
coefficients
Est-ce que la Variable Xi joue significativement
dans l’explication de Y ? On effectue alors un
T-test
F.H.  H 0 :  i  0

#
H :   0
 1 i

• S.U.
ˆi
• Tˆ  t(n-p-1)
i
sˆˆ
i
• Calcul de sˆˆ : i

On a vu que
 sˆ2ˆ 
 0

 sˆ 2

 =sˆ  XX 
ˆ1 1
ˆ
ˆ   2

 
 sˆ2ˆ 
 p 


 2
ei
 XX 
1

n  p 1
 XX 
1
si on pose d ii les éléments diagonaux de

alors : sˆ2ˆi 
 j
e 2

 d i 1i 1
n  p 1
R.D.
Si tˆ  tn  p 1; /2 on rejette H0
 i


Si tˆ  t n ip 1;  /2 on ne rejette pas H0

D’où un intervalle de confiance de i

I C i   ˆi  t n  p 1; /2sˆˆi ;ˆi  t n  p 1; /2 sˆˆi 


Tests et Intervalles de Confiance des
Coefficients du Modèle
• Test sur le coefficient  de la Régression
 '  (0 , 1 ,...,  p )
• C’est un F-Test qui n’a pas un grand intérêt :
H :   a
 0 ( p 1,1) ( p 1,1)

#

 H1 :   a

Tests et Intervalles de Confiance des
Coefficients du Modèle
• Test sur le coefficient  de la Régression
• Sous H0 :
ˆ  a  N (0, s 2 ( X ' X ) 1 )
( p 1,1)

1 1
   a  ' s ( X ' X )    a    p 1
ˆ  2
 ˆ 2


 ˆ  a  '( X ' X ) ˆ  a 
  2
p 1
2
s
• D’autre part, on vient de voir que :
SCR

 n  p  1 sˆ 2

  n2 p 1
s2 s2
F
 ˆ  a  '( X ' X ) ˆ  a 
 F p 1,n  p 1
 p  1  sˆ 2
Tests et Intervalles de Confiance des
Coefficients du Modèle

• Test Modèle réduit VS Modèle Complet


H : A   a
 0 ( r , p 1) ( p 1,1) ( r ,1)

# avec Rang ( A)  r et r  p  1

 H1 : A  a

• Où A est une matrice certaine et a est un
vecteur certain
Tests et Intervalles de Confiance des
Coefficients du Modèle
• Test Modèle réduit VS Modèle Complet

• Exemple : on peut penser à la fonction de


Cobb-douglas à rendement d’échelle constant :
qt  0  1kt   2lt  wt
• rendement d’échelle constant
 1   2  1  A   0 1 1 et a  1
1,3 1,1

0 
 
En effet H 0 : A   0 1 1  1   1   2  a  1
 
 2
Tests et Intervalles de Confiance des
Coefficients du Modèle
• Test Modèle réduit VS Modèle Complet

• Pour continuer on a besoin d’un résultat intermédiaire:


Y  X  W
n ,1 n , p 1 p 1,1 n ,1
 Ce modèle doit être estimé sous la contrainte
A   a
( r , p 1) ( p 1,1) ( r ,1)

• On démontre que la solution est :


 
ˆ c  ˆ sc  ( X ' X ) A '  A( X ' X ) A '  A ˆ sc  a 
1 1

p 1,1 p 1,1  p 1,1 


où ˆ sc est la solution du système sans contrainte :
ˆ sc  ( X ' X )1 X ' Y
Tests et Intervalles de Confiance des Coefficients
du Modèle
• Test Modèle réduit VS Modèle Complet
• Démonstration:
- Méthode des multiplicateurs de LAGRANGE
• Revenons au problème de minimisation de
Y  X   Y  X   sous contra int e ( r ,Ap1) ( p1,1)  ( ra,1)
• Le lagrangien s’écrit :
L( ,  )  Y  X   Y  X     A   a  ' 
 Y ' Y  2 ' X ' Y   ' X ' X    ' A '   a ' 
 L( ,  )
  2 X ' Y  2 X ' X   A '   0
  
 A  a
• Soient ˆ c et ˆ les solutions du système ci-dessus :
Tests et Intervalles de Confiance des Coefficients
du Modèle
• Test Modèle réduit VS Modèle Complet
• Démonstration (suite) :
- Méthode des multiplicateurs de LAGRANGE
• On a : A ˆc  a
• D’autre part :
ˆ
2 X ' Y  2 X ' X ˆ c  A ' ˆ  0    X ' X  X ' Y  ˆ c    X ' X  A '
1 1

2
ˆ sc

ˆ
 ˆ c  ˆ sc   X ' X  A '
1
(*)
2
ˆ ˆ 1
 Aˆ sc  Aˆ c  A  X ' X  A '   A  X ' X  A '  Aˆ sc  a 
1 1

a
2 2  
(**)

• En remplaçant (**) dans (*), on obtient le résultat.


Tests et Intervalles de Confiance des Coefficients
du Modèle
• Test Modèle réduit VS Modèle Complet
- Rem: l’estimateur ˆ c est sans Biais et plus précis que ˆ sc
- On a :

ˆ c  ˆ sc  ( X ' X ) 1 A '  A( X ' X ) 1 A '  Aˆ sc  a 


Z

 ˆ sc  Z  Aˆ sc  a  
E (ˆ c )  E (ˆ sc )  Z ( AE (ˆ sc )  a )    Z A  Za  
a

• Je vous laisse démontrer que V (ˆ sc )  V (ˆc ) est une


matrice définie positive
Tests et Intervalles de Confiance des
Coefficients du Modèle
• Test Modèle réduit VS Modèle Complet
• On arrive maintenant au test sur le modèle contraint :
• Sous H0 :
Aˆ sc  N ( A , s 2 A( X ' X ) 1 A ') 
a

Aˆ sc  a  N (0 , s 2 A( X ' X ) 1 A ') 


1
 Aˆ sc  a  ' s A( X ' X ) A '
2 1
 sc 
Aˆ  a   2
r

Or
 n  p  1 sˆ 2   n2 p 1
s2
1
1  Aˆ sc  a  '  A( X ' X ) A '  Aˆ sc  a 
1

F  F r ,n  p 1
r sˆ 2
Tests et Intervalles de Confiance des
Coefficients du Modèle
• Test Modèle réduit VS Modèle Complet

• Remarque :
• On montre que F peut aussi s’écrire:

SCRc  SCRsc
F r  F r ,n p 1
SCRsc
n  p 1
Tests et Intervalles de Confiance des
Coefficients du Modèle
• Test Modèle réduit VS Modèle Complet

• Démarche pour effectuer le test :

• Déterminer r le nombre de contraintes linéaires.


Autrement bien écrire la matrice A.
• Estimer les éléments du Modèle avec contraintes et
sans contraintes.
• Calculer la réalisation f de la statistique F
• Calculer la p-value du test et la comparer à 5%.
Mise en œuvre sous R
• > fit <- lm(Volume~Girth+Height,data=trees)
• > require(car)
• > a <- 1
• > A <- matrix(c(0,1,1),ncol=3)
• > r <- dim(A)[1]
• > linearHypothesis(fit,A,a)
• # A comparer avec ce qui suit :
• > X <- [Link](fit) ; X
• > xx1 <- solve(crossprod(X,X))
• > alph <- coef(fit)
• > varm <- summary(fit)$sigma^2
• > F <-(t(A%*%alph-a)%*% solve(A%*%xx1%*%t(A))
%*%(A%*%alph-a))/(r*varm)
• > 1-pf(F,1,28) # p-value
Sortie R
• Linear hypothesis test

• Hypothesis:
• Girth + Height = 1

• Model 1: restricted model


• Model 2: Volume ~ Girth + Height

• [Link] RSS Df Sum of Sq F Pr(>F)


• 1 29 5256.9
• 2 28 421.9 1 4835 320.86 < 2.2e-16 ***
Mise en œuvre sous R (suite)
# L’ajout d’1 variable améliore –t- il le modèle ?
• > a <- 0
• > A <- matrix(c(0,0,1),ncol=3)
• > linearHypothesis(fit,A,a)

• # A comparer avec ce qui suit :

# F1=[(SCEsc-SCEc)/(p-p')] / [SCR/(n-p-1)]

> anov <- anova(fit)

> (F1 <- (anov[2,3]/(2-1))/(anov[3,2]/anov[3,1]))


• Cas particulier : F-Test de Significativité
Globale de la Régression

• Le F-Test sur le vecteur coefficient  :


• F.H.
 H 0 : 1   2   p  0

#  0
 H :  j tq   0
 1 j

0 1 0 0   0   0 
     
 0 0 1  1    0
 H0 : A  
p , p 1 p 1,1  0   
     
0 0 0 1   p   0 
a
p ,1
• 1- Test de Significativité Globale de la
Régression
• Le F-Test précédent est équivalent au F-Test
sur le vecteur coefficient , sous H0

SCE R2
p p
F
SCR

1 R 2 F  p ; n  p  1
n  p 1 n  p 1

• R.D. si F>F(p;n-p-1), On Rejette H0


Test de CHOW (changement structurel)

• Application du Test de Fisher

• Le test de Chow permet de tester si les coefficients de


régression sont différents pour deux sous-échantillons de
l’échantillon d’observations. Fondamentalement, il teste si un
modèle de régression ou deux modèles de régression séparées
correspondent mieux à un échantillon d’observations divisé.
Test de CHOW (changement structurel)

• Démarche pour effectuer le test :


L’hypothèse nulle du test: est qu’il n’ya pas de point de
rupture (break point); Autrement l'ensemble d’observations
peut être représenté avec un seul modèle de régression ?
Exécutez une régression pour l'ensemble des données (la
"régression groupée"). Calculer la SCR .
Exécutez des régressions séparées sur chaque sous-
échantillon de données
Calculer les SCR pour les deux régressions (SCR1 et SCR2).
Calculez la statistique de Chow F en utilisant la SCR de chaque
sous-échantillon. La formule est:
SCR  ( SCR1  SCR2 )
p 1
F  F p 1,n1  n2  2( p 1) 
( SCR1  SCR2 )
n1  n2  2( p  1)
Test de CHOW
(changement structurel)
voir Exo supplémentaire

• cho <- read.csv2([Link]()) #le


fichier: 3 var mesurées sur 14 individus
• cho1 <- cho[1:7, ] # n1=7, p=3
• cho2 <- cho[8:14 , ] # n2=7, p=3
• Z1 <- cbind(cho1$x1,cho1$x2,cho1$x3)
• Z2 <- cbind(cho2$x1,cho2$x2,cho2$x3)
• require(gap)
• [Link].r <- [Link](cho1$y,Z1
+ ,cho2$y,Z2)
• F value d.f.1 d.f.2 P value
• 0.606 4.000 6.000 0.673
PREVISION ET INTERVALLE DE
PREVISION
• Si on ajoute une observation k =n+1 pour
chacune des variables explicatives, on obtient
une prévision ponctuelle :
yˆ k  ˆ 0  ˆ1 xk1  ˆ 2 xk 2   ˆ p xkp
 X k ˆ ; où X k  1 xk1 xkp 
• Et on montre que :
sˆ  sˆ 1  X k  XX  X k 

2 2 1
ek  
ek yˆ k  yk
•   t(n-p-1)
sˆ ek sˆ ek
• INTERVALLE DE PREVISION de yk

I p  y k    yˆ k  t n  p 1; /2sˆek ; yˆ k  t n  p 1; /2sˆek 


Etude De Cas

• Dans cette étude de cas, on va travailler


sur une base de données nommée
«[Link] »
• Au fil de ce travail, on développera des
choses nouvelles telles que la présence
des variables qualitatives parmi les
variables explicatives, la colinéarité de
ces dernières jusqu’à l’analyse des
résidus comme moyen de diagnostique.
Base de données : le fichier intitulé «[Link] »
Tapez sous R :

pnn<-read.csv2([Link]())#lire fich [Link]


don <- transform(pnn,pmer=pmer*0.4535923)# car
1livre=0.453 592 37 kg

attach(don)

newdata <- cbind(penf,pmer,AGE,fum)


library("PerformanceAnalytics")
[Link](newdata)

modele2 <- lm(penf~AGE+pmer+[Link](fum))

summary(modele2)
# summary(modele3)
SORTIE R
• Call:
• lm(formula = penf ~ AGE + pmer + [Link](fum))

• Residuals:
• Min 1Q Median 3Q Max
• -2069.89 -433.18 13.67 516.45 1813.75

• Coefficients:
• Estimate Std. Error t value Pr(>|t|)
• (Intercept) 2362.720 300.687 7.858 3.11e-13 ***
• AGE 7.093 9.925 0.715 0.4757
• pmer 8.860 3.791 2.337 0.0205 *
• [Link](fum)1 -267.213 105.802 -2.526 0.0124 *
• ---
• Residual standard error: 708.8 on 185 degrees of freedom
• Multiple R-squared: 0.06988, Adjusted R-squared: 0.05479
• F-statistic: 4.633 on 3 and 185 DF, p-value: 0.003781
Interprétation
le poids de la mère est significativement associe au poids
de l'enfant, étant donné I’ âge et le statut tabagique de
la mère (p-value= 0,0205). A âge et statut tabagique de
la mère identiques, une augmentation du poids de la
mère d'un kilogramme correspond a une augmentation
de 8,860 g du poids moyen de naissance de l'enfant ;
I' âge de la mère n'est pas significativement associe au
poids de naissance de l'enfant étant donné le poids et le
statut tabagique de la mère (p-value = 0,476) ;
le poids moyen de naissance est significativement plus
faible de 267,213 g pour les enfants nés de mères
fumeuses par rapport aux enfants nés de mères non
fumeuses de même âge et de même poids (p-value
=0,012).
SORTIE R
• anova(modele2)

• Analysis of Variance Table

• Response: penf
• Df Sum Sq Mean Sq F value Pr(>F)
• AGE 1 806927 806927 1.61 0.207
• pmer 1 2970564 2970564 5.91 0.016 *
• [Link](fum) 1 3204339 3204339 6.38 0.012 *
• Residuals 185 92935223 502353
Etude De Cas

• Base de données : le fichier intitulé «[Link] »

• Test d'une sous-hypothèse linéaire test de Fisher : test de


Fisher partiel

Tapez sous R : H 0 :  2  3  0
• modele1 <- lm(penf~AGE)

• modele2 <- lm(penf~AGE+pmer+[Link](fum))

• *******
• On a deux méthodes de réponse :
Etude De Cas

• Test d'une sous-hypothèse linéaire test de Fisher : test de


Fisher partiel (suite)
Soit avec : « ANOVA » ou « linearHypothesis»:

anova(modele1,modele2)

• require(car)
• a <- c(0,0)
• A<-matrix(c(0,0,1,0,0,0,0,1),ncol=4,byrow=TRUE)
• r <- dim(A)[1]
• linearHypothesis(modele2,A,a)

H 0 :  2  3  0
SORTIE R
anova(modele1,modele2)

• Analysis of Variance Table

• Model 1: penf ~ AGE


• Model 2: penf ~ AGE + pmer + [Link](fum)
• [Link] RSS Df Sum of Sq F Pr(>F)
• 1 187 99110126
• 2 185 92935223 2 6174903 6.146 0.002605 **

linearHypothesis(modele2,A,a)
• Linear hypothesis test
• Hypothesis:
• pmer = 0
• [Link](fum)1 = 0

• Model 1: restricted model


• Model 2: penf ~ AGE + pmer + [Link](fum)

• [Link] RSS Df Sum of Sq F Pr(>F)


• 1 187 99110126
• 2 185 92935223 2 6174903 6.146 0.002605 **
Interprétation
du Test de Fisher partiel

• D’après la p-value du test (Pr(>F)=0.0026) on


peut affirmer qu'au moins une des deux
variables pmer ou fum apporte de l'information
supplémentaire pour la prédiction du poids de
naissance de l'enfant lorsque l'on a déjà pris en
compte l’Age de la mère.
Etude De Cas
• Cas des variables qualitatives à plus de deux
modalités (dummy variables)
• Race : blanche : 1, noire : 2, Autre : 3

• Tapez sous R :

• modele4 <- lm(penf~pmer+factor(RACE))


• summary(modele4)

• Estimate Std. Error t value Pr(>|t|)


• (Intercept) 2488.763 241.864 10.290 < 2e-16 ***
• pmer 10.267 3.856 2.662 0.00844 **
• factor(RACE)2 -452.765 157.482 -2.875 0.00451 **
• factor(RACE)3 -243.667 113.826 -2.141 0.03361 *
Etude De Cas
• Cas des variables qualitatives à plus de deux modalités (dummy
variables)
• Race : blanche : 1, noire : 2, Autre : 3

• Interprétation :
• L'estimation de 1 ( ̂1 = -452.8 g) représente la différence des poids
moyens de naissance entre les mères noires (RACE=2) et les mères
blanches (groupe de référence), et ce résultat est significativement différent
de zéro (p-value=0,0045) dans un modèle ajuste sur le poids de la mère. De
même, la différence des poids de naissance moyens entre le groupe RACE
= 3 et le groupe référence est égale ̂ 2 = -243.7 g et est significativement
différente de zéro (p-value=0.03) ajuste sur le poids de la mère.
• Remarque :
• Pour le changement de la modalité de référence :

• don$Race <- relevel(don$Race, ref = "2")


# le « noire » pris comme référence.
Etude De Cas
• Cas des variables qualitatives à plus de deux
modalités (dummy variables)
• Race : blanche : 1, noire : 2, Autre : 3

Test de l'apport global de la variable RACE au modèle :


On doit utiliser un test de Fisher :
• modele1 <- lm(penf~pmer)
• anova(modele1,modele4)
• Analysis of Variance Table

• Model 1: penf ~ pmer


• Model 2: penf ~ pmer + factor(RACE)
• [Link] RSS Df Sum of Sq F Pr(>F)
• 1 187 96468171
• 2 185 91346474 2 5121697 5.1864 0.006434 **
Etude De Cas
Interaction entre les variables
• modele5 <- lm(penf~AGE+fum)
• modele6 <- lm(penf~AGE+fum+AGE:fum)

penf=0+1*AGE+2*fum+3*AGExfum+W

Si fum=0, penf=0+1*AGE+W
Si fum=1, penf=(0+2 13*AGE+W

mesure l’effet de fum

3  0 ?
Etude De Cas
Interaction entre les variables
• modele5 <- lm(penf~AGE+fum)
• modele6 <- lm(penf~AGE+fum+AGE:fum)
• summary(modele6)
• Estimate Std. Error t value Pr(>|t|)
• (Intercept) 2408.38 292.24 8.241 3.05e-14
• AGE 27.60 12.15 2.271 0.0243
• fum 795.38 484.42 1.642 0.1023
• AGE:fum -46.36 20.45 -2.267 0.0245
• Le coefficient 3 est significatif (p-value=0,024). Donc l'effet de l‘ âge de la
mère sur le poids de naissance de l'enfant n'est pas le même selon le statut
tabagique de la mère. Le poids moyen de naissance de l'enfant augmente
avec I 'âge de la mère, de 27.60 g . Chez les mères fumeuses, le poids
moyen de naissance de l'enfant diminue avec I 'âge de la mère, de 18.76 g.
• Ic(1 3 0 ?
Etude De Cas
• Cas Problème de la colinéarité
• Si plusieurs var exp et si redondance de l’information donc :
• - Coef devenant non significatifs.
• - Valeurs des coefficients contradictoires (signes opposés)
• - qualité des estimations perturbée (var très grande)

– Tapez sous R :

• modele7 <- lm(penf~pmer+AGE)


• require(car)
• vif(modele7)

• REM On dit qu'il y a une forte colinéarité lorsque : VIFj > 10


Etude De Cas

Sélection de variables
• La methode pas à pas descendante (backward selection)
Ou : régression par éliminations successives

– Tapez sous R :
• names(don)
• don1 <- don[c(4,3,9,6,8,10,7,11)]
• FVTl <- FVT ; FVTl <- [Link](FVT>=l)
• PTL1 <- PTL ; PTL1 <- [Link](PTL>=1)
• modele2 <-step(lm(penf~pmer+AGE+UI+
+ [Link](fum)+HT+FVT1+PTL1),direction=
+ "backward")
• modele2$anova
Etude De Cas

Diagnostiques
• Analyse des résidus : linéarité, normalité, hétéroscédasticité

– Vérification de l’ hypothèse d’hétéroscédasticité et de


normalité.

– Tapez sous R :

modele10<-lm(penf~fum+AGE+pmer+
+ factor(RACE)+UI+HT+fum:AGE)
op <- par(mfrow=c(2,2))
plot(modele10)
par(op)
Residuals vs Fitted Normal Q-Q

3
130 130
1000

2
Standardized residuals

1
Residuals

0
-2000 -1000

-1
-2
136
136
132

-3
132

2000 2500 3000 3500 -3 -2 -1 0 1 2 3

Fitted values Theoretical Quantiles

Scale-Location Residuals vs Leverage

3
132
136 130
1.5
Standardized residuals

130

2
Standardized residuals
106

1
1.0

0
-3 -2 -1
0.5

Cook's
132distance
0.0

2000 2500 3000 3500 0.00 0.05 0.10 0.15

Fitted values Leverage


Etude De Cas

Diagnostiques
• Analyse des résidus : linéarité, normalité, hétéroscédasticité

• Vérification de l’ hypothèse d’indépendance entre les


erreurs et les variables explicatives.

– Tapez sous R :

res <- residuals(modele10)


par(mfrow=c(2,3))
plot(res~fum);plot(res~AGE) ;
plot(res~pmer) ; plot(res~RACE)
plot(res~UI) ; plot(res~HT)
res res

-1500 -500 0 500 1000 -1500 -500 0 500 1000

1.0
0.0
0.2

1.5
0.4

2.0
f um

RACE
0.6

2.5
0.8

3.0
1.0
res res

-1500 -500 0 500 1000 -1500 -500 0 500 1000

0.0
15

0.2
20 25

0.4

UI
30

AGE

0.6
35

0.8
40
45

1.0
res res

-1500 -500 0 500 1000 -1500 -500 0 500 1000


0.0
40

0.2
60

0.4

HT
pmer
80

0.6
0.8
100

1.0
Etude De Cas

Diagnostiques
• Analyse des résidus : linéarité, normalité, hétéroscédasticité
• Points atypiques et / ou influents.
– graphique des résidus versus les valeurs prédites
– Tapez sous R :
[Link] <- rstudent(modele10) # Calcul des residus studentises.
[Link] <- qt(0.975,189-8-2) # Calcul du seuil par laloi de
Student.
cond <- [Link]<(-[Link]) | [Link] > [Link]
# Liste des individus susceptibles d'etre consideres comrne
aberrants.
[Link] <- ID[cond]
[Link] <- fitted(modele10)
plot([Link]~[Link],xlab="Valeurs ajustees",ylab="Residus
studentises")
abline(h=c(-[Link],[Link]))
text([Link][cond],[Link][cond],[Link],col="red",pos=1)
outliers
226
188
2

225
1
Residus studentises

0
-1
-2

4 18 27 36

16
-3

10
2000 2500 3000 3500

Valeurs ajustees
plot (modele10,4)
Cook's distance
0.12

130
0.10
0.08
Cook's distance

0.06

132

106
0.04
0.02
0.00

0 50 100 150

Obs. number
lm(penf ~ fum + AGE + pmer + factor(RACE) + UI + HT + fum:AGE)
Etude De Cas

Diagnostiques
• Analyse des résidus : linéarité, normalité, hétéroscédasticité
• Cas de la régression polynomiale (non linéaire)

• Tapez sous R :
………etc.

Vous aimerez peut-être aussi