Cou Ecn
Cou Ecn
∗
Ces notes sont en cours de développement. J’ai besoin de vos commentaires et de vos suggestions pour
les améliorer. Vous pouvez me faire part de vos commentaires en personne ou en envoyant un message à
[email protected].
1
Table des matières
1 Introduction 4
2 Objectifs du cours 4
8 Tests d’hypothèse 47
8.1 Approche génerale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
8.2 Hypothèse alternative bilatérale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
8.2.1 Test de significativité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
8.3 Hypothèse alternative unilatérale . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2
10 Un exemple d’estimation du modèle de régression simple avec R 52
12 Concepts à retenir 62
13 Références 63
3
1 Introduction
2 Objectifs du cours
Yi = β0 + β1 Xi + ui .
L’idée de base est qu’une variable économique Yi peut être prédite ou expliquée par une autre
variable économique Xi . La relation entre les deux variables est linéaire. Sans le terme ui ,
l’équation est l’équation d’une droite. Si on mesure Yi sur l’axe vertical, β0 est l’ordonnée à
4
l’origine et β1 est la pente de la droite. On peut penser au paramètre β0 comme étant associé à une
deuxième variable explicative qui est une constante que l’on normalise pour être égale à un.
Autrement dit, on aurait pu écrire le modèle comme
Yi = β0 × 1 + β1 × Xi + ui .
Le modèle de régression simple contient une constante par défaut. Il est possible aussi d’étudier le
modèle suivant :
Yi = βXi + ui .
Ce modèle, sans constante, a des propriétés statistiques assez différentes. Pour ceux qui
s’intéressent à poursuivre ce sujet, voir Windmeijer (1994), ou Eisenhauer (2003).
On appelle communément Yi la variable dépendante du modèle de régression, et on appelle
Xi la variable explicative du modèle de régression.
n
X n
X
2
min (ui ) = (Yi − β0 − β1 Xi )2 .
β0 ,β1
i=1 i=1
5
• Notez que le critère de minimiser la somme des erreurs au carré n’est pas le seul critère
possible. Par exemple, on pourrait décider de minimiser la somme des erreurs en valeur
absolue. 1
• Il y a deux raisons fondamentales pour la popularité et l’importance de l’estimateur MCO
dans l’histoire de la statistique et de l’économétrie.
1. D’abord, l’algèbre est relativement simple. Le critère (la fonction objectif) est une
expression quadratique (du deuxième degré), et donc les conditions du premier ordre
donnent un système d’équations linéaires. Il est très facile de résoudre un système de
deux équations linéaires.
2. Deuxièmement, sous certaines conditions (à voir plus tard), l’estimateur MCO des
coefficients β0 et β1 est l’estimateur avec la plus petite variance parmi tous les
estimateurs linéaires et non biaisés – autrement dit, il est l’estimateur le plus efficient
parmi les estimateur linéaires non biaisés. Nous avons déjà vu un exemple du
théorème Gauss-Markov dans le chapitre sur la statistique et les tests d’hypothèse,
dans le cadre de la moyenne échantillonnale comme estimateur de l’espérance. Il y a
une version de ce théorème qui s’applique au modèle de régression simple.
• Les conditions du premier ordre (CPOs) pour ce problème sont comme suit. D’abord par
rapport au choix de β0 :
n
X
−2 Yi − β̂0 − β̂1 Xi = 0.
i=1
n
X
−2 Yi − β̂0 − β̂1 Xi Xi = 0,
i=1
où j’ai écrit un chapeau sur β0 et β1 pour souligner le fait que, une fois la solution au
problème trouvée, il s’agit de nos estimateurs MCO, c’est à dire les solutions au problème
1. C’est un estimateur qui existe — l’estimateur à distance absolue minimale (en anglais minimum absolute
distance ou MAD).
6
de minimisation. 2
• Il s’agit de deux équations où les deux inconnus sont β̂0 et β̂1 .
• Il est facile d’isoler β̂0 en fonction de β̂1 et par la suite de trouver la solution pour β̂1 .
• Nous avons à partir de la première CPO :
n
X
Yi − β̂0 − β̂1 Xi = 0
i=1
n
X n
X
⇒ β̂0 = n β̂0 = Yi − β̂1 Xi
i=1 i=1
n n
1X 1X
⇒ β̂0 = Yi − β̂1 Xi
n i=1 n i=1
Nous venons de trouver la solution pour β̂0 en fonction des moyennes échantillonnales X̄
et Ȳ et de la solution pour β̂1 .
• Maintenant, substituant cette solution dans la deuxième CPO, nous avons :
n
X
Yi − Ȳ + β̂1 X̄ − β̂1 Xi Xi = 0.
i=1
1
• Multipliant des deux côtés de l’équation par n
et réarrangeant, nous obtenons
n n n n
1X 1X 1X 1X
Yi Xi − Ȳ Xi − β̂1 (Xi )2 + β̂1 X̄Xi = 0
n i=1 n i=1 n i=1 n i=1
n n
1X 1X
⇒ Yi Xi − Ȳ Xi
n i=1 n i=1
n n
!
1X 1X
−β̂1 (Xi )2 − X̄ Xi =0
n i=1 n i=1
2. En principe, il faudrait vérifier les conditions du deuxième ordre pour savoir que nous avons trouvé un minimum
et non un maximum ou un point de selle. Nous n’allons pas faire cet exercice ici.
7
n
1X
⇒ Yi Xi − Ȳ X̄
n i=1
n
!
1X
−β̂1 (Xi )2 − X̄ X̄ =0
n i=1
1
Pn
Yi Xi − X̄ Ȳ
⇒ β̂1 = n
Pi=1
n
(Xi )2 − X̄ 2
1
n i=1
1
Pn
i=1 Y i − Ȳ X i − X̄
⇒ β̂1 = n Pn 2 .
1
n i=1 X i − X̄
Cette solution dépend des identités
n n
1X 1X
Yi Xi − X̄ Ȳ = Yi − Ȳ Xi − X̄
n i=1 n i=1
et
n n
1X 1X 2
(Xi )2 − X̄ 2 = Xi − X̄ .
n i=1 n i=1
n
1X
Yi − Ȳ Xi − X̄
n i=1
n
1X
Yi Xi − Yi X̄ − Xi Ȳ + X̄ Ȳ
n i=1
n n n n
1X 1X 1X 1X
= Yi Xi − Yi X̄ − Xi Ȳ + X̄ Ȳ
n i=1 n i=1 n i=1 n i=1
n n n
1X 1X 1X n
= Yi Xi − X̄ Yi − Ȳ Xi + X̄ Ȳ
n i=1 n i=1 n i=1 n
n
1X
= Yi Xi − X̄ Ȳ − Ȳ X̄ + X̄ Ȳ
n i=1
n
1X
= Yi Xi − X̄ Ȳ .
n i=1
8
La preuve pour le dénominateur est semblable.
C’est une première façon d’exprimer la solution. Multipliant numérateur et dénominateur
par n nous avons aussi
Pn
i=1 Yi − Ȳ Xi − X̄
β̂1 = Pn 2 .
i=1 Xi − X̄
C’est une deuxième façon d’exprimer la solution. Maintenant, divisant numérateur et
dénominateur par (n − 1) nous avons aussi
1
Pn
(n−1) i=1 Yi − Ȳ Xi − X̄
β̂1 = Pn 2 .
1
(n−1) i=1 Xi − X̄
• Donc, nous avons trois expressions équivalentes pour la solution pour β̂1 .
• Comme aide-mémoire, la dernière expression est peut-être la plus utile. Elle dit que
l’estimateur MCO de β1 est le ratio entre la covariance échantillonnale entre X et Y et la
variance échantillonnale de X (voir le chapitre sur la théorie des probabilités pour les
définitions de covariance échantillonnale et variance échantillonnale).
• Pour répéter ceci en notation algébrique :
Cov (X , Y )
β̂1 = .
Var (X)
• Je crois qu’il n’est pas trop difficile de se souvenir de cette façon d’écrire la solution pour
β̂1 , et de se souvenir de la solution pour β̂0 en termes des moyennes échantillonnales X̄ et
Ȳ et β̂1 .
• L’estimateur MCO possède quelques propriétés de base que nous allons démontrer dans
cette section.
• Nous allons par la suite nous servir de ces propriétés à maintes reprises par la suite pour
trouver d’autres propriétés de l’estimateur MCO.
9
• J’appelle ces propriétés les propriétés algébriques puisqu’elles ne dépendent pas
d’hypothèses concernant les propriétés statistiques des variables aléatoires Y , X ou u.
• Autrement dit, pour n’importe quels échantillons d’observations sur deux variables X et
Y , ces propriétés doivent tenir. On n’a même pas besoin de supposer que X et Y sont des
variables aléatoires en bonne et due forme.
• Plusieurs de ces propriétés dépendent du fait que le modèle de régression inclut une
constante.
• Pour le cas de modèles qui n’incluent pas une constante, voir l’article de Windmeijer
(1994), ou encore celui d’Eisenhauer (2003).
• Définissons
ûi ≡ Yi − β̂0 − β̂1 Xi ,
• Voici la preuve.
n n
1X 1 X
ûi = Yi − Ȳ + β̂1 X̄ − β̂1 Xi
n i=1 n i=1
n n
1X 1X
= Yi − Ȳ − β̂1 Xi − X̄ = 0.
n i=1 n i=1
• Définissons
Ŷi ≡ β̂0 + β̂1 Xi ,
la valeur prédite de Yi .
10
• Nous voulons montrer que :
n
1X
Ŷi = Ȳ .
n i=1
• Voici la preuve :
Ŷi ≡ Yi − ûi
n n n n
1X 1X 1X 1X
⇒ Ŷi = Yi − ûi = Yi ≡ Ȳ .
n i=1 n i=1 n i=1 n i=1
• Ceci est la définition algébrique de l’orthogonalité entre deux variables (ou plutôt entre
deux vecteurs). Il y a aussi une interprétation géométrique que nous allons voir plus loin.
• Puisque nous allons utiliser l’algèbre linéaire dans le chapitre sur le modèle de régression
multiple, c’est peut-être opportun d’introduire ici le concept d’orthogonalité entre deux
vecteurs. Nous pouvons réécrire cette équation en notation vectorielle comme
û1
n
û2
X
Xi ûi = ≡ X 0 Û = 0.
X1 X2 . . . Xn ..
i=1
.
ûn
• Donc c’est la définition habituelle d’orthogonalité entre deux vecteurs en algèbre linéaire.
• Nous verrons plus loin qu’il y a aussi une interprétation géométrique.
• Voici la preuve :
n
X n
X n
X
Xi ûi = Xi ûi − X̄ ûi
i=1 i=1 i=1
n
X
= Xi − X̄ ûi
i=1
11
n
X
= Xi − X̄ Yi − Ȳ + β̂1 X̄ − β̂1 Xi
i=1
n
X
= Xi − X̄ Yi − Ȳ − β̂1 Xi − X̄
i=1
n n
X X 2
= Xi − X̄ Yi − Ȳ − β̂1 Xi − X̄
i=1 i=1
n
X
= Xi − X̄ Yi − Ȳ
i=1
Pn n
i=1 Xi − X̄ Yi − Ȳ X 2
− Pn 2 Xi − X̄
i=1 Xi − X̄ i=1
n
X n
X
= Xi − X̄ Yi − Ȳ − Xi − X̄ Yi − Ȳ
i=1 i=1
= 0.
12
Figure 1
• Définissons :
n
X 2
TSS ≡ Yi − Ȳ ,
i=1
n
X 2
SSR ≡ Yi − Ŷi ,
i=1
n
X 2
ESS ≡ Ŷi − Ȳ ,
i=1
13
• Nous pouvons montrer que :
TSS = ESS + SSR,
ce qui veut dire que la variabilité totale de Y peut être décomposée en la somme de la
variabilité expliquée par le modèle et la variabilité qui n’est pas expliquée par le modèle.
• Voici la preuve :
n
X 2
TSS = Yi − Ȳ
i=1
n
X 2
= Yi − Ŷi + Ŷi − Ȳ
i=1
n
X 2 n
X 2
= Yi − Ŷi + Ŷi − Ȳ
i=1 i=1
n
X
+2 Yi − Ŷi Ŷi − Ȳ
i=1
n
X
= SSR + ESS + 2 ûi Ŷi − Ȳ
i=1
n
X n
X
= SSR + ESS + 2 ûi Ŷi − 2Ȳ ûi
i=1 i=1
n
X
= SSR + ESS + 2 ûi Ŷi
i=1
n
X
= SSR + ESS + 2 ûi β̂0 + β̂1 Xi
i=1
n
X n
X
= SSR + ESS + 2β̂0 ûi + 2β̂1 ûi Xi
i=1 i=1
= SSR + ESS.
Notez que nous avons invoqué à quelques reprises les propriétés algébriques de
l’estimateur MCO que nous avons déjà démontrées.
14
• Maintenant, définissons
ESS
R2 ≡ .
TSS
• Puisque TSS, ESS et SSR sont la somme de termes au carré (et pour cette raison sont des
termes positifs sinon strictement positifs), il faut que :
0 ≤ R2 ≤ 1.
2
R2 = Corr (X, Y ) .
15
corrélation. L’analyse des propriétés de la corrélation échantillonnale comme estimateur
permet aussi de tester des hypothèses concernant cette corrélation. Donc, en principe, on
peut tester des hypothèses concernant le R2 dans le modèle de régression simple, même si
on ne le fait pas souvent.
• La lecture de l’encadré est facultative, mais je vous encourage à retenir le résultat (égalité
entre la mesure R2 et le coefficient de corrélation entre X et Y au carré).
Je démontre ici que l’ajustement statistique (dans le modèle de régression simple) doit être
égal au carré du coefficient de corrélation entre X et Y . Nous avons
Pn 2
i=1 Ŷi − Ȳ
R2 ≡ Pn 2
i=1 Yi − Ȳ
2
Corr (X , Y ) ≡
2
Pn
i=1 Xi − X̄ Yi − Ȳ
q
Pn 2 qPn 2
i=1 Xi − X̄ i=1 Yi − Ȳ
Pn 2
i=1 Xi − X̄ Yi − Ȳ
= Pn 2 Pn 2
i=1 Xi − X̄ i=1 Yi − Ȳ
Pn 2
Ŷi − Ȳ Pn 2
i=1 i=1 Xi − X̄ Yi − Ȳ
Pn 2 = Pn 2 Pn 2
i=1 Yi − Ȳ i=1 Xi − X̄ i=1 Y i − Ȳ
n n n
!2
X 2 X 2 X
⇔ Ŷi − Ȳ Xi − X̄ = Xi − X̄ Yi − Ȳ .
i=1 i=1 i=1
16
Travaillant avec le bras gauche de cette équation, nous avons
n n
2 X
X 2
Ŷi − Ȳ Xi − X̄
i=1 i=1
n n
2 X
X 2
= β̂0 + β̂1 Xi − Ȳ Xi − X̄
i=1 i=1
n n
2 X
X 2
= Ȳ − β̂1 X̄ + β̂1 Xi − Ȳ Xi − X̄
i=1 i=1
n n
2 X
X 2
= β̂1 Xi − β̂1 X̄ Xi − X̄
i=1 i=1
n n
X 2 X 2
= β̂12 Xi − X̄ Xi − X̄
i=1 i=1
Pn !2 n
!2
i=1 Xi − X̄ Yi − Ȳ X 2
= Pn 2 Xi − X̄
i=1 Xi − X̄ i=1
n
!2
X
= Xi − X̄ Yi − Ȳ ,
i=1
• Tel qu’indiqué plus tôt, l’ajustement statistique R2 est défini indépendamment des
hypothèses statistiques derrière le modèle.
• Nous venons de voir (dans l’encadré précédant) qu’il y a un lien stricte dans le modèle de
régression simple entre le R2 et le coefficient de corrélation entre la variable dépendante Y
17
et la variable explicative X.
• Le R2 a aussi une autre interprétation statistique. On peut l’utiliser pour tester l’hypothèse
nulle de l’absence de relation entre la variable explicative (les variables explicatives à part
la constante dans le modèle de régression multiple). Voir Giles (2013b, 2013c). Selon
Giles, le R2 suit, sous l’hypothèse nulle (et sous l’hypothèse de l’homoscédasticité), une
distribution Beta.
• Nous allons voir dans le chapitre sur la régression multiple qu’on peut construire une autre
statistique pour tester la même hypothèse. Cette statistique suit une distribution F de
Fisher.
• Définissons :
n
1 X SSR
s2û = (ûi )2 = .
(n − 2) i=1 (n − 2)
• Dans le cas où nous supposons une variance constante du terme d’erreur du modèle (voir
la section suivante concernant les hypothèses statistiques du modèle), c’est un estimateur
non biaisé de la variance du terme d’erreur.
• Il s’agit du cas où les erreurs sont homoscédastiques, où donc Var (ui ) = σu2 , une variance
constante.
• Notez que cette hypothèse (variance constante des erreurs) ne fera pas partie des
hypothèses statistiques de base que nous adopterons.
• Nous divison par (n − 2) afint d’obtenir un estimateur non biaisé.
• Il y a une autre raison pour la division par (n − 2). On perd deux degrés de liberté car il
faut estimer deux paramètres inconnus (β0 et β1 ) afin de calculer les résidus de la
régression.
• Maintenant, définissons :
q
sû ≡ s2û .
18
• sû est l’écart type de la régression.
• L’écart type de la régression est un des résultats d’estimation que fournissent
automatiquement la plupart des logiciels économétriques.
• Intuitivement, l’hypothèse nous dit que le fait de connaı̂tre la valeur réalisée de la variable
explicative ne donne pas d’information concernant la valeur de l’erreur.
• Nous avons déjà vu le concept d’observations i.i.d. dans le chapitre sur la statistique. On
suppose que nos observations sont indépendantes et qu’elles sont identiquement
distribuées.
• Notez que nous ne faisons pas une hypothèse concernant le type de distribution qui génère
19
les observations (normale, exponentielle, parétienne stable, etc.). Tout ce qu’on suppose
c’est que les observations sont toujours générées par la même distribution.
0 < E Y 4 < ∞;
• Cette hypothèse sert à nous rappeler que l’estimateur MCO peut être sensible aux
observations aberrantes.
• Il est toujours bon d’examiner les résidus afin de détecter la présence de ces observations,
qui pourraient indiquer des problèmes comme des erreurs de transcription des valeurs dans
les données, etc.
• Il est important de noter qu’en présence d’observations aberrantes importantes, la valeur
de β̂1 peut être très sensible à cette ou à ces valeurs, même si elles sont peu nombreuses.
Intuitement, même un nombre très faible de ces observations aberrantes peut avoir une
influence prépondérante sur les valeurs estimées des paramètres. Dans un tel cas, les
estimateurs MCO ne seront pas convergents puisqu’ils dépendent d’un petit nombre
d’observations.
Par rapport à l’approche dans certains manuels de base en économétrie, nous adoptons une
approche plus générale.
1. Souvent, la première fois qu’on présente le modèle de régression simple, on suppose que
les observations sur la variable explicative X sont constantes à travers des échantillons
différents. Pour dériver les propriétés statistiques de notre estimateur MCO, on peut traiter
20
les observations comme des constantes au lieu de les traiter comme des réalisations d’une
variable aléatoire. L’algèbre est plus facile, mais c’est beaucoup moins réaliste.
3. Souvent, lorsqu’on présente le modèle de base, on suppose que le terme d’erreur est
distribué selon une loi normale. Ceci permet de faire de l’inférence exacte (voir le chapitre
sur les tests d’hypothèse pour une définition). Cette hypothèse n’est pas retenue ici.
4. Au lieu de supposer la normalité, nous allons faire l’hypothèse que les échantillons de
données que nous avons à notre disposition sont assez grandes pour que les statistiques
utilisées pour faire des tests d’hypothèse soient approximatiement distribuées selon une loi
normale.
21
6 Propriétés statistiques de l’estimateur
6.1.1 β̂1
• Nous avons :
Pn
i=1 Xi − X̄ Yi − Ȳ
β̂1 = Pn 2
i=1 Xi − X̄
Pn
i=1 Xi − X̄ β0 + β1 Xi + ui − β0 − β1 X̄ − ū
= Pn 2
i=1 Xi − X̄
Pn 2 P
Xi − X̄ + ni=1 Xi − X̄ (ui − ū)
β1 i=1
= Pn 2
i=1 Xi − X̄
Pn
X i − X̄ (ui − ū)
= β1 + i=1Pn 2
i=1 Xi − X̄
Pn
i=1 Xi − X̄ ui
= β1 + Pn 2 .
i=1 X i − X̄
• Ceci montre que l’estimateur est égal à sa vraie valeur plus un terme qui dépend du
produit des erreurs avec les écarts des Xi par rapport à leurs moyennes échantillonnales.
• Notez ce que l’on fait pour passer de la première ligne à la deuxième. On substitut Yi
utilisant sa valeur si le modèle de régression est litéralement vrai. Cela fait apparaı̂tre les
vraies valeurs de β0 et de β1 , et fait apparaı̂tre aussi l’erreur (la vraie et non le résidu). On
fera souvent une substitution semblable lorsqu’on veut analyser les propriétés statistiques
d’un estimateur.
• Maintenant, il s’agit de calculer la valeur espérée de cette expression :
Pn !
i=1 Xi − X̄ ui
E β̂1 = β1 + E Pn 2
i=1 Xi − X̄
Pn ! !
i=1 Xi − X̄ ui
= β1 + E E Pn 2 |X1 , X2 , . . . Xn
i=1 Xi − X̄
22
Pn !
i=1 Xi − X̄ E (ui |X1 , X2 , . . . Xn )
= β1 + E Pn 2
i=1 Xi − X̄
Pn !
i=1 Xi − X̄ E (ui |Xi )
= β1 + E Pn 2
i=1 Xi − X̄
= β1 .
• Pour passer de la première ligne à la deuxième dans cette suite d’égalités, nous avons
utilisé la loi des espérances itérées, qui dit que pour n’importe quelle variable aléatoire Y ,
Pn
i=1 Xi − X̄ ui
Pn 2 .
i=1 Xi − X̄
• Pour passer de la deuxième à la troisième ligne, il faut noter que les espérances des X
conditionnelles aux valeurs des X ne sont plus stochastiques. Nous pouvons les traiter
comme des constantes et les écrire du côté gauche de l’opérateur d’espérance
conditionnelle. Ce faisant, l’opérateur d’espérance conditionnelle s’applique uniquement
au terme d’erreur ui .
• La dernière égalité suit directement de nos hypothèses de base concernant le modèle, dont
une stipule que E (ui |Xi ) = 0.
6.1.2 β̂0
• Nous avons :
E β̂0 = E Ȳ − β̂1 X̄
n
!
1X
= E β0 + β1 X̄ + ui − β̂1 X̄
n i=1
23
n
1X
= β0 + E β1 − β̂1 X̄ + E (ui )
n i=1
n
1X
= β0 + E (E (ui |Xi ))
n i=1
= β0 ,
où encore une fois nous avons utilisé la loi des espérances itérées :
• Ici, j’ai suivi la réponse à la question 4.7 du manuel. Il n’est pas forcément évident que
E β1 − β̂1 X̄ = 0,
puisque X̄ doit être considéré comme une variable aléatoire. Il faut remonter à l’absence
de biais de β̂1 , où on a montré que
Pn
Xi − X̄ ui
β1 − β̂1 = − Pi=1
n 2 .
i=1 Xi − X̄
Donc, on a !
Pn
Xi − X̄ ui
i=1
E β1 − β̂1 X̄ = −E Pn 2 X̄
Xi − X̄
i=1
Pn !!
i=1 Xi − X̄ E (ui |Xi )
= −E X̄ Pn 2
i=1 Xi − X̄
= 0.
Encore une fois, nous avons utilisé la loi des espérances itérées.
24
6.2 Convergence de l’estimateur
• Nous allons remettre ce sujet à un peu plus tard. En calculant les propriétes
échantillonnales de l’estimateur, nous allons montrer que sa variance décroı̂t avec la taille
de l’échantillon n.
• Si c’est le cas, nous avons à toutes fins pratiques montré sa convergence. Nous avons
montré l’absence de biais, et la variance converge à zéro lorsque n tend vers l’infini.
• Pour montrer l’efficience de l’estimateur MCO, nous aurons besoin d’une hypothèse
additionnelle, que le terme d’erreur du modèle de régression est homoscédastique, ce qui
veut dire a une variance constante.
• Si ce n’est pas le cas, et si nous connaissons de quoi dépend la variance du terme d’erreur,
il peut être possible de trouver un estimateur plus efficient que l’estimateur MCO. Il s’agit
de l’estimateur moindres carrés généralisés (generalised least squares ou GLS en
anglais), que nous n’aurons pas l’occasion d’étudier en détail dans ce cours. Voir le
chapitre 15 du manuel.
• Une preuve détaillée du théorème Gauss-Markov se trouve dans l’ecadré qui suit. Nous
n’aurons probablement pas le temps de voir cette preuve en détail dans le cours. Je vous
invite fortement à la lire et à la comprendre.
• Il s’agit d’une preuve que l’estimateur β̂1 est l’estimateur le plus efficient parmi les
estimateurs qui sont linéaires en Yi .
• Rappelons d’abord les hypothèses qui doivent tenir pour démontrer le théorème
Gauss-Markov.
25
1. E (ui |X1 , . . . , Xn ) = 0 .
3. E (ui uj |X1 , . . . , Xn ) = 0, i 6= j.
• La dernière hypothèse dit que les erreurs ne sont pas corrélées entre elles.
• D’abord, montrons que β̂1 est un estimateur linéaire en Yi . Nous avons
Pn
i=1 Yi − Ȳ Xi − X̄
β̂1 = Pn 2
i=1 Xi − X̄
Pn Pn
i=1 Y i X i − X̄ − Ȳ i=1 X i − X̄
= Pn 2
i=1 Xi − X̄
Pn
i=1 Yi Xi − X̄
= Pn 2
i=1 Xi − X̄
n
X Xi − X̄
= Pn 2 Yi
i=1 i=1 X i − X̄
n
X
≡ âi Yi ,
i=1
où donc
Xi − X̄
âi ≡ Pn 2
i=1 Xi − X̄
• Les poids âi ne dépendent pas des Yi , et donc l’estimateur est linéaire en Yi .
• Nous avons vu que sous l’hypothèse de l’homoscédasticité, la variance conditionnelle
de β̂1 est donnée par
σu2
Var β̂1 |X1 , . . . , Xn = Pn 2 .
i=1 Xi − X̄
• Nous avons aussi montré que l’estimateur β̂1 est conditionnellement non biaisé.
26
• Maintenant, considérons n’importe quel estimateur linéaire
n
X
β̃1 = ai Y i
i=1
E β̃1 |X1 , . . . , Xn = β1 .
• Nous avons
n
X
β̃1 = ai Y i
i=1
n
X
= ai (β0 + β1 Xi + ui )
i=1
n
X n
X n
X
= β0 ai + β1 ai X i + ai u i .
i=1 i=1 i=1
n
! n
X X
E ai ui |X1 , . . . , Xn = ai E (ui |X1 , . . . , Xn ) = 0.
i=1 i=1
n
! n
!
X X
E β̃1 |X1 , . . . , Xn = β0 ai + β1 ai X i .
i=1 i=1
• Par hypothèse, notre estimateur est conditionnellement non biaisé et donc il faut que
n
! n
!
X X
β0 ai + β1 ai X i = β1 .
i=1 i=1
27
• Pour que cette égalité tienne pour des valeurs quelconques de β0 et de β1 il faut que
n
X
ai = 0
i=1
et
n
X
ai Xi = 1.
i=1
n
X n
X n
X n
X
β̃1 = β0 ai + β 1 ai X i + ai ui = β1 + ai ui .
i=1 i=1 i=1 i=1
n
!
X
Var β̃1 |X1 , . . . , Xn = Var ai ui |X1 , . . . , Xn
i=1
n
X X
= Var (ai ui |X1 , . . . , Xn ) + 2 Cov (ai ui , aj uj |X1 , . . . , Xn )
i=1 i<j
n
X
= Var (ai ui |X1 , . . . , Xn )
i=1
n
X
= σu2 ai 2 .
i=1
28
• Nous avons
n
X n
X n
X n
X n
X
ai 2 = (âi + di )2 = â2i + 2 âi di + di 2 .
i=1 i=1 i=1 i=1 i=1
• Maintenant, il faut utiliser la définition des âi qui est donnée ci-dessus. Nous avons
n Pn
X Xi − X̄ di
âi di = Pi=1
n 2
i=1 i=1 Xi − X̄
Pn
Xi di − X̄ ni=1 di
P
i=1
= Pn 2
i=1 Xi − X̄
Pn Pn
X i (a i − â i ) − X̄ (ai − âi )
= i=1 Pn i=1
2
i=1 Xi − X̄
= 0.
• La dernière égalité tient puisque les deux estimateurs β̃1 et β̂1 sont conditionnellement
non biaisés et pour cette raison il faut que
n n
!
X X
X i ai − Xi âi = 1 − 1 = 0.
i=1 i=1
Var β̃1 |X1 , . . . , Xn
n
X
= σu2 ai 2
i=1
n n
!
X X
= σu2 â2i + di 2
i=1 i=1
29
n
X
= Var β̂1 |X1 , . . . , Xn + σu2 di 2
i=1
⇒ Var β̃1 |X1 , . . . , Xn − Var β̂1 |X1 , . . . , Xn
n
X
= σu2 di 2 > 0
i=1
• Cette section est une peu plus ardue que les autres. Sa lecture est facultative.
• Nous avons vu que l’efficience d’un estimateur est un concept relatif. Un estimateur est
plus efficient qu’un autre si les deux estimateurs sont non biaisés et que le premier a une
variance moins élevée que le deuxième.
• Une autre façon de comparer deux estimateurs est de comparer leurs erreurs
quadratiques moyennes. Nous avons déjà vu ce concept dans le chapitre sur la
statistique.
30
• Voici la définition de l’erreur quadratique moyenne d’un estimateur quelconque β̃ :
2
EQM β̃ ≡ E β̃ − β .
2
EQM β̃ = Var β̃ + E β̃ − β .
• Voici la preuve. Nous savons que pour une variable aléatoire quelconque X,
Cette formule s’applique aussi à la variable aléatoire β̃ − β . Donc nous avons
2 2
Var β̃ − β = E β̃ − β − E β̃ − β
2 2
⇒E β̃ − β = Var β̃ − β + E β̃ − β
2 2
⇒E β̃ − β = Var β̃ + E β̃ − β ,
Var β̃ − β = Var β̃
31
sont pas forcément non biaisés.
• Il permet aussi de montrer qu’il peut y avoir dans certaines circonstances un arbitrage
entre le biais d’un estimateur (un plus grand biais est mauvais) et la variance de
l’estimateur (une plus grande variance est mauvaise). Il y a des estimateurs qui sont
biaisés mais qui ont néanmoins une erreur quadratique moyenne inférieure à n’importe
quel estimateur non biaisé justement parce qu’ils ont une variance très faible.
• Nous n’allons pas mettre beaucoup d’accent sur la EQM dans le cours. Dans le contexte
du modèle de régression linéaire et l’estimateur MCO, le concept d’efficience est plus au
centre de l’analyse puisque, sous des hypothèses relativement faibles, l’estimateur MCO
est non biaisé.
• Les articles de Giles (2013d, 2013e) portent sur l’erreur quadratique moyenne dans le
contexte du modèle de régression simple.
• Il étudie le modèle de régression simple sans constante :
Yi = βXi + ui ,
où les Xi sont non aléatoires et où on a ui ∼ i.i.d. (0, σ 2 ) (les erreurs sont
indépendamment et identiquement distribuées avec moyenne nulle et variance égale à
σ 2 ). (Le fait de travailler avec des Xi non stochastiques et d’imposer une hypothèse
concernant l’espérance non conditionnelle des erreurs simplifie l’analyse.)
• Il montre que si on minimise l’erreur quadratique moyenne, l’estimateur qu’on
obtient dépend de β lui-même, qui est non observable. Donc, c’est un estimateur qui
est non opérationnel , c’est à dire que nous pouvons même pas calculer.
• Dans son deuxième article (2013e), Giles montre qu’il est possible de trouver un
estimateur opérationnel ( opérationnel veut dire que nous pouvons effectivement le
calculer avec les données que nous avons) si on minimise une combinaison linéaire de
32
la variance et du biais de l’estimateur. Le problème peut s’écrire
2
Var β e E β̃ − β
min Q = α
+ (1 − α) .
σ 2 β
β
e
• La fonction objectif est une somme pondérée de la variance relative (par rapport à la
variance de l’erreur) et du biais au carré relatif (par rapport à la vraie valeur de β) de
l’estimateur β.
e
• La solution à ce problème (que nous allons calculer un peu plus loin) est
(1 − α) ni=1 Xi 2
P
β=β
e b
α + (1 − α) ni=1 Xi 2
P
où βb est l’estimateur MCO. On peut facilement calculer cet estimateur pour une valeur
donnée de α.
• Pour α = 0 nous avons βe = β.
b Autrement dit, si on met tout le poids sur la
minimisation du biais au carré, on obtient l’estimateur MCO, qui n’est pas biaisé.
• Pour α > 0, |β|
e < |β|.
b L’estimateur βe est plus près de zéro. (C’est un exemple de ce
n
X
βe ≡ ai Y i
i=1
n
!
X
E βe = E ai (βXi + ui )
i=1
33
n n
!
X X
=β ai X i + E ai u i
i=1 i=1
n
X
=β ai X i
i=1
n
!
X
⇒ E βe − β = β ai X i − 1
i=1
puisque nous avons fait l’hypothèse que les Xi sont non stochastiques et que
E (ui ) = 0.
• La variance de l’estimateur est donnée par
Xn n
X
2 2
Var β =
e ai Var (Yi ) = σ ai 2
i=1 i=1
pusque nous faisons l’hypothèse que la variance des erreurs est constante.
• Notre problème de minimisation peut donc s’écrire
Pn Pn 2
σ2 ai 2
i=1 β i=1 (ai Xi − 1)
min Q = α + (1 − α)
ai σ2 β
ou bien ! !2
n
X n
X
min Q = α ai 2 + (1 − α) (ai Xi − 1) .
ai
i=1 i=1
n
!
∂Q X
= 0 = 2αai + 2 (1 − α) Xi aj X j − 1
∂ai j=1
34
n
!
X
⇒ αai + (1 − α) Xi aj X j − 1 = 0.
j=1
n n n
!
X X X
⇒α ai Yi + (1 − α) Xi Yi aj X j − 1 =0
i=1 i=1 j=1
n n
!
X X
⇒ αβe + (1 − α) Xi Yi aj X j − 1 =0 (1)
i=1 j=1
• Nous pouvons aussi multiplier chaque CPO par Xi et calculer la somme à travers les n
termes, ce qui donne
n
!
X
αai Xi + (1 − α) Xi 2 aj X j − 1 =0
j=1
n n n
!
X X X
2
⇒α ai Xi + (1 − α) Xi aj X j − 1 =0
i=1 i=1 j=1
n n n
!
X X X
⇒α aj Xj + (1 − α) Xi 2 aj X j − 1 =0
j=1 i=1 j=1
n
X n
X n
X n
X
2
⇒α aj Xj + (1 − α) Xi aj Xj − (1 − α) Xi 2 = 0
j=1 i=1 j=1 i=1
n n
! n
!
X X X
2 2
⇒ aj X j α + (1 − α) Xi = (1 − α) Xi
j=1 i=1 i=1
35
n
(1 − α) ni=1 Xi 2
P
X
⇒ aj X j = Pn 2
j=1
α + (1 − α) i=1 X i .
Pn
• Maintenant, substituons cette solution pour j=1 aj Xj dans l´equation (1) et
simplifions :
n P2 !
2
X (1 − α)i=1 X i
⇒ αβe + (1 − α) Xi Yi P2 −1 =0
i=1
α + (1 − α) i=1 Xi 2 .
n Pn Pn !
2 2
X α + (1 − α) i=1 X i − (1 − α) X i
⇒ αβe = (1 − α) X i Yi P2 2
i=1
i=1
α + (1 − α) i=1 X i
n
!
X α
⇒ αβe = (1 − α) Xi Yi
α + (1 − α) 2i=1 Xi 2
P
i=1
n
!
X (1 − α)
⇒ βe = X i Yi
α + (1 − α) 2i=1 Xi 2
P
i=1
Pn
(1 − α) ni=1 Xi 2
P
i=1 Xi Yi
⇒ β = Pn
e
2 P2 2
i=1 Xi α + (1 − α) i=1 Xi
Pn 2
(1 − α) i=1 Xi
=βb
α + (1 − α) 2i=1 Xi 2 .
P
• Ceci est le cas puisque pour ce modèle l’estimateur MCO βb est donné par (exercice)
Pn
Xi Yi
βb = Pi=1
n 2 .
i=1 Xi
• Dans cette section, le but principal de l’exercice est de dériver la variance (et par extension
l’écart type) de nos estimateurs MCO β̂0 et β̂1 .
• Les écarts types de β̂0 et de β̂1 font partie de l’output standard de n’importe quel logiciel
36
de régression.
• Cet exercice est crucial afin de pouvoir effectuer des tests d’hypothèse concernant les
coefficients et aussi afin de pouvoir calculer des intervalles de confiance pour les estimés.
• Nous avons :
Pn
i=1 Xi − X̄ ui
β̂1 = β1 + Pn 2
i=1 Xi − X̄
1
Pn
n i=1 Xi − X̄ ui
= β1 + Pn 2 .
1
n i=1 Xi − X̄
• D’abord, travaillons avec le numérateur.
• Nous avons déjà vu que
p
X̄ →
− µX ,
n n n
1X 1X 1X
Xi − X̄ ui ≈ (Xi − µX ) ui ≡ v̄ ≡ vi .
n i=1 n i=1 n i=1
• La variable aléatoire vi que nous venons de définir satisfait les propriétés suivantes :
1. E (vi ) = 0 ;
2. vi est i.i.d. ;
3. σv2 < ∞ .
37
d’une variable aléatoire. Donc nous avons :
n n
1 X 2 1X 2 p 2
Xi − X̄ ≈ Xi − X̄ → − σX .
n − 1 i=1 n i=1
σv2
Var β̂1 − β1 = 2 2
n (σX )
et, !
d σv2
β̂1 − β1 →
− N 0, 2 2
n (σX )
• Notez très bien ce que nous venons de faire. Nous avons montré la convergence en
distribution du numérateur, et la convergence en probabilité du dénominateur, et par la
suite nous avons sauté tout de suite à la convergence en distribution du ratio des deux.
• Ceci est un tour de passe-passe que nous pouvons employer lorsque nous parlons de
propriétés asymptotiques (propriétés en grand échantillon) de nos statistiques. Notez que
nous ne pouvons pas le faire lorsqu’il s’agit d’espérances. Par exemple,
X E(X)
E 6=
Y E(Y )
p p X̄ p µX
X̄ →
− µX , Ȳ →
− µY ⇒ →
− ,
Ȳ µY
et !
2
d 2
p X̄ d µX 1 2
X̄ →
− N µX , σX̄ , Ȳ →
− µY ⇒ →
− N , σX̄ .
Ȳ µY µY
• Nous avons utilisé le Théorème de Slutsky, un des théorèmes les plus utiles en théorie
des probabilités. Il permet de scinder des expressions compliquées de variables aléatoires
38
(produits ou ratios) en morceaux. Si nous pouvons montrer la convergence des morceaux,
la convergence de l’expression suit immédiatement.
• Nous aurons fréquemment l’occasion d’utiliser une version de ce théorème. Pour plus de
détails, voir le chapitre des notes sur le modèle de régresson multiple.
• Notez que la variance de β̂1 décroı̂t avec n et tend vers zéro lorsque n tend vers l’infini.
Lorsqu’on parle de convergence en distribution, on utilise normalement une variable
aléatoire normalisée de telle façon à ce sa variance ne diminue pas avec la taille de
l’échantillon. Pour cette raison, il serait conventionnel de dire que :
!
√
d σv2
n β̂1 − β1 →− N 0, 2 2
(σX )
• Maintenant, définissons
σv2
σβ̂21 ≡ 2 2.
n (σX )
• Maintenant, si nous divisons β̂1 − β1 par la racine carrée de σβ̂2 , nous obtenons une
1
statistique qui converge en distribution vers une loi normale centrée réduite :
β̂1 − β1 β̂1 − β1 d
q ≡ →
− N (0 , 1) .
σβ̂2 σβ̂1
1
• Notez que nous venons de montrer à toutes fins pratiques la convergence de l’estimateur
MCO de β̂1 . Nous avions déjà montré que l’estimateur MCO est non biaisé. Maintenant,
nous venons de montrer que la variance de notre estimateur tend vers zéro lorsque la taille
de l’échantillon tend vers l’infini. Autrement dit,
lim σβ̂21 = 0.
n→∞
• Nous avons tous les prérequis pour conclure que l’estimateur MCO de β1 converge en
probabilité à sa vraie valeur.
39
7.1 Estimateur convergent de σβ̂2
1
q
SE β̂1 ≡ σ̂β̂2 .
1
• La plupart des logiciels de régression calculent cet écart type. Il faut, par contre, vérifier si
l’option par défaut est de calculer cet écart type robuste (robuste à la présence de
l’hétéroscédasticité) ou plutôt de calculer l’écart type qui suppose l’homoscédasticité.
Pn
1 n−1
1
i=1(ûi )2
σ̃β̂21 ≡ 2 . (3)
n1 n
P
n i=1 Xi − X̄
• J’ai utilisé la notation légèrement différente σ̃β̂2 pour distinguer entre le cas général
1
40
la variance et le cas particulier où on suppose l’homoscédasticité.
• Le manuel est parmi les seuls à utiliser l’estimateur robuste comme l’estimateur par
défaut. Beaucoup de manuels présentent le cas homoscédastique comme le cas de base et
montre par la suite qu’est-ce qui arrive si l’hypothèse d’homoscédasticité ne tient pas. Je
partage l’opinion des auteurs que l’homoscédasticité est une hypothèse forte qui risque de
ne pas tenir dans le cas de beaucoup d’applications empiriques, et que, pour cette raison, il
est bien d’enseigner le cas général et l’estimateur robuste comme l’option par défaut d’un
économètre appliqué.
• Lorsqu’on utilise un logiciel de régression comme R, STATA ou GRETL, il faut lire
attentivement la documentation pour savoir quelle est l’option par défaut utilisée pour
estimer la matrice variance-covariance des coefficients estimés. Dans la plupart des cas
l’option par défaut suppose l’homoscédasticité et il faut spécifier l’option robuste ou
l’équivalent si vous n’êtes pas prêts à supposer l’homoscédasticité, ce qui sera
généralement le cas.
Les écarts types robustes peuvent être plus grands ou plus petits que les écarts types non
robustes. Pour une explication plus détaillée et une illustration dans un cas très simple, voir
Auld (2012). Auld démontre les points suivants.
2. Si la variance des erreurs augmente pour des valeurs des Xi qui sont loin de leur
moyenne échantillonnale X̄, l’écart type calculé avec la méthode non robuste
(supposant l’homoscédasticité) sera biaisé vers zéro (trop petit). L’écart type calculé
avec la méthode robuste sera en général plus grand que l’écart type non robuste.
3. Si la variance des erreurs est plus grande pour des valeurs des Xi qui sont près de leur
41
moyenne échantillonnale X̄, l’écart type calculé avec la méthode non robuste
(supposant l’homoscédasticité) sera biaisé et sera en moyenne trop grand. L’écart type
calculé avec la méthode robuste sera en général plus petit que l’écart type non robuste.
4. Avec les données réelles on rencontre plus souvent le cas où l’écart type non robuste
est baisié vers zéro (est trop petit). Donc, typiquement les écarts types robustes sont
plus élevés que les écarts types non robustes.
L’intuition de ceci n’est pas forcément facile. Auld utilise un exemple très simple, d’un
modèle où on soustrait la moyenne des observations dans le cadre du modèle de regression
simple. Le modèle peut s’écrire
Yi = β0 + β1 Xi + ui .
Ȳ = β0 + β1 X̄ + ū.
Pn
i=1 (xi − x̄) (yi − ȳ)
β̂ = .
(xi − x̄)2
42
Notez que c’est le même estimateur que l’estimateur de β1 dans notre modèle de base. Si on
divise numérateur et dénominateur par (n − 1), on a la covariance échantillonnale entre x et y
divisée par la variance de x.
s2
σ̃β̂2 = Pn 2,
i=1 (xi − x̄)
où s2 ≡ (n − 2)−1
P2
i=1 û2i . J’utilise ici la même notation que Auld (2012). Notez que cette
expression est presqu’identique à (3) ci-dessus, à part le fait de diviser par (n − 2). En fait, si
n est grand les deux expressions sont à toutes fins pratiques identiques.
Encore une fois je suis la formulation de Auld (2012). Notez que cette expression est presque
la même chose que (2), encore une fois à part le fait de diviser par (n − 2).
Quand est-ce qu’il va y avoir une différence entre les deux (en grand échantillon) ? Dans le
cas où il n’y a pas de corrélation (covariance) entre Var(ui ) et (xi − x̄)2 , il n’y a pas de
différence asymptotiquement (lorsque n → ∞) entre les deux. Nous avons en fait
σ̃β̂2 → σ̂β̂2 .
Si Var(ui ) et (xi − x̄)2 sont corrélés positivement, alors σ̃β̂2 sera trop petit et on aura
lorsque n → ∞. Si Var(ui ) et (xi − x̄)2 sont corrélés négativement, alors σ̃β̂2 sera trop grand
43
et on aura
σ̂β̂2 < σ̃β̂2
lorsque n → ∞.
Regardez la Figure 2 ci-dessous. Les points ont été générés sur ordinateur (c’est donc un
exemple de simulation Monte Carlo) pour une valeur β = 0. Dans le cas du panneau gauche,
il y a par construction une corrélation positive entre Var(ui ) et (xi − x̄)2 . Dans le cas du
panneau droit, la corrélation est négative. Par construction, la variance non conditionnelle de
ui est identique entre les deux panneaux.
Le premier cas est illustré par le panneau gauche. Lorsque les xi sont loin de leur moyenne x̄,
la variance des erreurs a tendance à être plus élevée (notez la plus grande dispersion des
erreurs aux extrémités du graphique). Il est clair que dans ce cas, on peut estimer β avec
beaucoup moins de précision. Imaginez des valeurs différentes de β̂. La somme des erreurs au
carré ne sera pas très sensible aux valeurs différentes de β̂. Par exemple, si on augmente la
valeur de β̂, les erreurs positives à l’extrémité droite du graphique vont diminuer tandis que
les erreurs négatives vont augmenter. À l’extrémité gauche du graphique, ce sera l’inverse.
L’impact net sur la somme des erreurs au carré ne sera pas très grand.
Pour cette raison, l’estimé de β̂ sera moins précis, et on devrait tenir compte de cette
incertitude accrue avec un écart type plus élevé.
Le deuxième cas est illustré par le panneau droit de la Figure 2 ci-dessous. Lorsque les xi sont
loin de leur moyenne x̄, la variance des erreurs a tendance à être plus petite (notez la moins
grande dispersion des erreurs aux extrémités du graphique). Dans ce cas, par opposition au
premier cas, lorsqu’on fait varier la valeur de β̂, la taille des erreurs va augmenter aux deux
extrémités du graphique. Une petite variation de β̂ va donner une variation beaucoup plus
importante de la somme des erreurs au carré, et l’estimé de β̂ va être plus précis. Pour tenir
compte de l’incertitude qui est maintenant moins grande, on devrait en tenir compte ave un
44
écart type moins élevé.
Figure 2
La morale de l’histoire est la suivante. L’hétéroscédasticité en tant que telle n’est pas
importante. Ce qui est important, c’est la corrélation entre la variance des erreurs et l’écart de
la variable explicative par rapport à sa moyenne (dans le modèle de régression multiple, ce
sera les corrélations entre la variance des erreurs et les écarts des variables explicatives par
rapport à leurs moyennes). Auld (2012) résume la morale de l’histoire de la façon suivante :
The upshot is this : if you have heteroskedasticity but the variance of your errors
is independent of the covariates, you can safely ignore it, but if you calculate
robust standard errors anyways they will be very similar to OLS standard errors.
However, if the variance of your error terms tends to be higher when x is far from
its mean, OLS standard errors will tend to be biased down, and robust standard
errors will tend to be larger than OLS standard errors. In the opposite case in
which the variance of the error terms tends to be lower when x is far from its
mean, OLS standard errors will tend to be too large, and robust standard errors
will tend to be smaller than OLS standard errors. With real data it’s commonly
45
but not always going to be the case that the variance of the error will be higher
when x is far from its mean, explaining the result that robust standard errors are
typically larger than OLS standard errors in economic applications.
û2i = γ0 + γ1 Xi + i
ou encore
û2i = γ0 + γ1 Xi 2 + i .
• L’idée est d’estimer les valeurs de γ0 et de γ1 par MCO. Soit γ̂1 la valeur estimée du
3. Nous verrons certains de ces tests formels dans le chapitre sur le modèle de régression multiple.
46
coefficient γ1 . Une valeur significative de γ̂1 (voir la section suivante sur les tests
d’hypothèse) serait un indice clair de la présence d’hétéroscédasticité. 4 Nous allons
revenir sur cette question et sur quelques tests formels pour détecter l’homoscédasticité
dans le chapitre sur la régression multiple, et aussi dans le chapitre sur les tests
diagnostics.
8 Tests d’hypothèse
• Le principe de base pour tester des hypothèses simples est presqu’identique à ce que nous
avons vu dans le chapitre sur l’inférence statistique.
• L’hypothèse nulle spécifie généralement que le coefficient d’intérêt (qui peut être β̂0 ou β̂1
prend une certaine valeur. L’hypothèse alternative peut être bilatérale ou unilatérale,
dépendant du contexte.
• D’abord, il faut créer une statistique normalisée qui a une moyenne nulle et une variance
unitaire sous l’hypothèse nulle. Il s’agit d’une statistique t même si en général elle
n’obéit pas à une loi t de Student. Par exemple :
β̂1 − β1,0
t≡
SE β̂1
où SE β̂1 est un estimateur convergent de l’écart type du coefficient β1 et β1,0 est la
valeur que prend le coefficient β1 sous l’hypothèse nulle.
• Si nous sommes prêts à faire l’hypothèse que le terme d’erreur du modèle ui obéit à une
loi normale avec variance constante, nous pouvons montrer que la statistique t suit une loi
t de Student. Dans ce cas, bien sûr, il est préférable d’utiliser la forme homoscédastique
4. Notez qu’il ne s’agit pas d’un test formel avec des propriétés statistiques connues. Il faut interpréter le résultat
du test à titre indicatif seulement. Par contre, le test formel appelé test Breusch-Pagan est essentiellement basé sur une
régression de ce type.
47
pour le calcul de l’écart type de l’estimateur β̂1 .
• Si non, sous les hypothèses du modèle de régression, la statistique t obéit en grand
échantillon à une loi normale centrée réduite. Voir la section précédente sur les propriétés
échantillonnales de l’estimateur.
• Comme il est habituellement le cas, nous remplaçons l’écart type dans le dénominateur
par un estimateur convergent.
• Maintenant, nous procédons exactement comme dans le chapitre sur la statistique.
H1 : β1 6= β1,0 ,
nous rejetons l’hypothèse nulle si la statistique calculée est suffisamment loin de zéro. La
p-value du test est donnée par :
où tact est la valeur calculée de la statistique et, comme auparavant, Φ(z) est la valeur de la
distribution normale centrée réduite cumulée à z.
48
• Les tests de significativité sont tellement répandus que, si l’output fourni par un logiciel
d’économétrie donne les statistiques t associées aux coefficients estimés, il s’agit de
statistiques appropriées pour tester l’hypothèse nulle que le coefficient est égal à zéro.
• Ensuite, si l’hypothèse alternative est unilatérale, il faut distinguer entre les deux cas
possibles.
1. D’abord,
H1 : β1 > β1,0 .
• Le principe est identique que pour l’estimateur de la moyenne de la population que nous
avons vu dans le chapitre sur l’inférence statistique.
• Pour calculer les deux bornes de l’intervalle de confiance de X%, d’abord on cherche la
49
valeur de z > 0 tel que
1 − X/100
Φ(−z) = .
2
(100−X)
Donc, on cherche la valeur de z > 0 pour laquelle 2
% de la distribution normale
(100−X)
centrée réduite se trouve à gauche de −z. Cela veut dire bien sûr que 2
% de la
distribution normale centrée réduite se trouve à droite de z.
• Nous avons (pour β̂1 : le principe pour β̂0 est identique) :
!
X β̂1 − β1
= Pr −z ≤ ≤z
100 σ̂β̂1
= Pr −zσ̂β̂1 ≤ β̂1 − β1 ≤ zσ̂β̂1
= Pr −zσ̂β̂1 ≤ β1 − β̂1 ≤ zσ̂β̂1
= Pr β̂1 − zσ̂β̂1 ≤ β1 ≤ β̂1 + zσ̂β̂1 ,
où σ̂β̂1 ≡ SE β̂1 , notre estimateur convergent de l’écart type de β1 .
• Cela implique que l’intervalle de confiance de X% autour de β̂1 peut être écrit de la façon
suivante :
β̂1 ± zσ̂β̂1 ,
où
1 − X/100
Φ(−z) = .
2
50
variable explicative. On a tout de suite
où ∆Ŷi est le changement prédit de la variable dépendante. Développer un intervalle de confiance
dans ce cas est facile. Le changement posé ∆X est connue. On peut le traiter comme une
constante, et donc nous avons
Var ∆Ŷi = Var β̂1 ∆Xi
= (∆Xi )2 Var β̂1
Donc, procédant de la même manière que pour l’intervalle de confiance pour β̂1 lui-même on a
X ∆Xi β̂1 − β1
= Pr −z ≤ ≤ z
100 (∆Xi ) σβ̂1
= Pr −z (∆Xi ) σβ̂1 ≤ ∆Xi β̂1 − β1 ≤ z (∆Xi ) σβ̂1
= Pr −z (∆Xi ) σβ̂1 ≤ ∆Xi β1 − β̂1 ≤ z (∆Xi ) σβ̂1
= Pr −z (∆Xi ) σβ̂1 + ∆Xi β̂1 ≤ ∆Xi β1 ≤ z (∆Xi ) σβ̂1 + ∆Xi β̂1 .
Si nous remplaçons l’écart type de β̂1 par un estimateur convergent (notre truc habituel),
l’intervalle de confiance peut s’écrire
51
10 Un exemple d’estimation du modèle de régression simple
avec R
ln (subsi ) = β0 + β1 ln (citepricei ) + ui ,
où la variable dépendante subsi est le nombre d’abonnements à la revue i (mesuré en logs), et la
variable explicative citepricei est le prix annuel d’un abonnement divisé par le nombre de
citations annuel d’articles publiés dans la revue (mesuré aussi en logs). Notez que le choix de
mesurer les deux variables en logs est celui des auteurs. Nous allons revenir sur cette question
dans le chapitre sur les modèles de régression non linéaires. 5
Les données sont dans une banque de données qui s’appelle Journals . Il s’agit de données
(avec n = 180) sur les abonnements par des bibliothèques universitaires à des revues
scientifiques. La taille de l’échantillon est le nombre de revues dans l’échantillon.
Afin d’effectuer l’estimation d’un modèle de régression simple de base et afin d’effectuer tous
les calculs et tous les tests, il faut non seulement la version de base de R mais aussi les
packages AER (qui contient les données utilisées pour estimer le modèle), lmtest,
sandwich et zoo (ces trois packages permettent de calculer les écarts types robustes du
modèle estimé et d’effectuer des tests d’hypothèse utilisant les écarts types robustes). Si les
5. Entretemps, à moins d’avis contraire, je vous demande d’utiliser des variables non transformées dans les exer-
cices empiriques.
52
packages ne sont pas déjà installés, il faut les installer avec la commande
install.packages(·) :
install.packages("AER")
install.packages("lmtest")
install.packages("zoo")
install.packages("sandwich")
Notez que sous Linux il est préférable d’installer le package comme administrateur du
système ou super-utilisateur. Pour le faire, invoquer le logiciel R avec la commande sudo R.
Une fois les packages installés, on peut procéder à charger les données et estimer le modèle
par MCO. Dans le code R qui suit, j’ajoute des commentaires pour expliquer ce que font les
commandes. Les lignes précédées par # sont des commentaires.
53
R> journals$citeprice <- Journals$price / Journals$citations
R> # Permettre d’appeler les variables dans journals
directement.
R> attach(journals)
R> # Produire un nuage de points avec les abonnements et le
prix par citation.
R> plot(log(subs) ∼ log(citeprice), data = journals)
R> # Estimer le modèle par MCO utilisant la commande lm(·).
R> # Les résultats sont stockés dans l’objet jour lm.
R> jour lm <- lm(log(subs) ∼ log(citeprice))
R> # Ajouter la ligne de régression estimée au nuage de
points.
R> abline(jour lm)
R> # Calculer des statistiques de base avec l’output de
l’estimation.
R> summary(jour lm)
R> # Ouvrir un fichier pour contenir ces statistiques.
R> # Le nom du fichier est regumm.out .
R> outfile <- file("regsumm.out", "w")
R> capture.output(summary(jour lm), file=outfile)
R> # Fermer le fichier qui contient l’output.
R> close(outfile)
54
• La commande journals$citeprice<- ajoute une nouvelle variable à la banque
journals qui est le prix par citation.
• La commande plot(·) crée un graphique avec les observations, avec subs (en
logarithmes) sur l’axe vertical et citeprice (en logarithmes) sur l’axe horizontal)
• La commande lm(·) estime le modèle de régression simple par MCO, et la commande
jour lm<- place les résultats dans la variable jour lm.
• La commande abline(·) utilise les résultats pour placer la ligne de régression sur le
graphique qui a déjà été créé.
• La commande summary(·) imprime les résultats de la régression à l’écran.
• La commande outfile<- crée un fichier texte où on peut envoyer les résultats.
• La commande capture.output(·) envoie les résultats dans le fichier qui a été créé.
• La commande close(·) ferme le fichier.
55
Vous êtes déjà en mesure de comprendre tous les éléments de l’output, sauf à la toute fin
lorsqu’on mentionne Adjusted R-squared et F-statistic. La mesure de
l’ajustement statistique R2 que nous avons étudiée est ce qu’on appelle Multiple
R-squared dans l’output. Nous reviendrons sur ces statistiques dans le chapitre sur le
modèle de régression multiple.
En ce qui concerne les résidus, le logiciel nous donne la valeur minimale parmi les résidus, la
valeur associée au premier quartile (la valeur pour laquelle 25% des résidus on une valeur
inférieure), la valeur médiane (qui n’est pas forcément égale à la moyenne), la valeur associée
au troisième quartile, et la valeur maximale. Ces valeurs (surtout les valeurs minimale et
maximale) peuvent être utiles pour repérer des observations aberrantes.
Une mise en garde : le code ci-dessus estime le modèle par MCO utilisant les options par
défaut. La fonction lm utilise par défaut une hypothèse d’homoscédasticité. Donc, les écarts
types des deux coefficients (β̂0 et β̂1 dans notre notation) ne sont pas des écarts types
robustes. Afin d’obtenir des écarts types robustes à la présence de l’hétéroscédasticité, il faut
utiliser la commande suivante :
R> coeftest(jour lm, vcov=vcovHC)
Notez que pour utiliser cette commande, il faut que les packages sandwich, zoo et
lmtest soit intallés, tel qu’indiqué ci-dessus. Il faut aussi charger en mémoire les packages
lmtest (qui va automatiquement charger zoo aussi) et sandwich avant d’utiliser la
commande coeftest(·), avec les commandes suivantes :
R> library("lmtest")
R> library("sandwich")
Coefficients:
56
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.7662 0.0555 85.8 <2e-16
log(citeprice) -0.5331 0.0345 -15.5 <2e-16
Ce modèle est un exemple d’un modèle où il n’y a pas une différence énorme entre les écarts
types robustes et non robustes. Puisque l’ordinateur est capable de calculer les écarts types en
une fraction de seconde, il coûte presque rien de les calculer des deux façons afin de vérifier si
les résultats sont semblables ou non.
Un graphique avec les données (variable dépendante sur l’axe vertical et variable explicative
sur l’axe horizontal) et la ligne de régression est la Figure 3 ci-dessous.
●
7
●
●
●●
●
● ● ●
●
●● ● ● ●●●●● ● ●
●● ●
●
●
6
● ● ● ●
● ●
● ● ●
●● ●
● ● ●● ● ● ●
● ● ●
● ● ●
● ● ●●● ●
●● ●●
● ● ● ● ●
● ●● ● ●
● ● ●● ● ●
● ●●
5
●● ● ● ● ●
● ●● ●
● ● ●
●
● ● ●● ● ●● ●
● ● ●
● ● ●
● ● ●● ●
● ●●
●●
log(subs)
● ●
● ● ● ●● ●
● ● ●● ● ● ●
4
●● ● ● ●
●● ● ● ●●
●
●
● ● ●●
● ● ●●
● ● ●●
● ●●
● ● ●●
● ● ●
3
● ●
● ●
●
●
● ● ●
●
2
1
−4 −2 0 2
log(citeprice)
Figure 3
57
11 Le modèle de régression simple lorsque X est une variable
dichotomique
Jusqu’ici, nous avons supposé que la variable explicative dans le modèle de régression simple, X,
est une variable aléatoire continue. Il es souvent le cas que la variable explicative est une variable
qualitative qui ne peut prendre que deux valeurs : oui ou non, vrai ou faux, présent ou absent, etc.
On peux représenter ces deux valeurs possibles de la variable explicative variable dichotomique
par soit 0 soit 1. Dans l’example du livre, l’impact de la taille des classes sur le rendement
scolaire dans les conseils scolaires en Californie, on aurait pu avoir des données sur la taille des
classes où Di = 1 pour des ratios élèves/professeurs inférieurs à 20 est Di = 0 pour des ratios
élèves/professeurs au moins égaux à 20.
Dans ces cas, β1 n’a pas l’interprétation d’un coefficient de pente. Il a l’interprétation de la
moyenne conditionnelle de la variable dépendante Y lorsque Di = 1. L’ordonnée β0 a
l’interprétation de la moyenne conditionnelle de Y lorsque Di = 0. Donc, β1 a l’interprétation de
la différence entre les moyennes de deux populations ou plutôt de sous-populations.
Algébriquement, nous avons
Yi = β0 + β1 Xi + ui
et
⇒ E (Yi |Xi = 1) = β0 + β1 × 1 + E (ui |Xi = 1) = β0 + β1 .
On écrit dans le manuel qu’il y a équivalence entre d’une part estimer le modèle de régression
simple par MCO avec une variable explicative X et d’autre part calculer les moyennes
échantillonnales des sous-échantillons. Dans l’encadré qui suit, je montre cette équivalence. Je
montre aussi l’équivalence entre tester la significativité du coefficient estimé β̂1 et tester la
significativité de la différence entre deux moyennes.
58
Le modèle avec une variable explicative dichotomique peut s’écire
Yi = β0 + β1 Di + ui ,
où Di prend deux valeurs possibles, soit 0 soit 1. Soit n1 le nombre d’observations pour
lesquelles Di = 1 et soit n0 le nombre d’observations pour lesquelles Di = 0. Il est clair que
n
1X n1
D̄ ≡ Di = .
n i=1 n
Pn
i=1 Yi − Ȳ Di − D̄
β̂1 = Pn 2 .
i=1 Di − D̄
n
X 2
Di − D̄
i=1
n0 n1
X X 2
= D̄2 + 1 − D̄
i=1 i=1
n 2 n1 2
1
= n0 + n1 1 −
n n
n 2 n 2
1 0
= n0 + n1
n n
n0 n1 2 + n1 n0 2
=
n2
59
n0 n1 (n0 + n1 ) n0 n1
= 2
= .
n n
Définissons Yi1 la valeur de Yi dans le cas où Di = 1. Définissons Yi0 la valeur de Yi dans le
cas où Di = 0. Nous avons
Pn
i=1 Yi − Ȳ Di − D̄
β̂1 =
n0 n1 /n
Pn1 1
Pn0 0
Y i − Ȳ (1 − n 1 /n) − Y i − Ȳ (n1 /n)
= i=1 i=1
n0 n1 /n
Pn1 1
Pn0 0
i=1 Yi − Ȳ (n0 /n) − i=1 Yi − Ȳ (n1 /n)
=
n0 n1 /n
n1 n0
1 X 1 1 X
Yi0 − Ȳ
= Yi − Ȳ −
n1 i=1 n0 i=1
n1 n1 n0 n0
1 X 1 1 X 1 X 0 1 X
= Y − Ȳ 1− Y + Ȳ 1
n1 i=1 i n1 i=1 n0 i=1 i n0 i=1
n1 n0
1 X 1 n1 1 X n0
= Yi − Ȳ − Yi0 + Ȳ
n1 i=1 n1 n0 i=1 n0
n1 n0
1 X 1 1 X
= Y − Y 0.
n1 i=1 i n0 i=1 i
Il faut maintenant montrer que β̂0 est tout simplement égal à la moyenne échantillonnale de Y
pour le sous-échantillon où Di = 0. Nous avons
Pn !
n1 i=1 Yi − Ȳ Di − D̄
β̂0 = Ȳ −
n n0 n1 /n
Pn1 !
Yi1 − Ȳ (1 − n1 /n) − ni=1
Yi0 − Ȳ (n1 /n)
P 0
n1 i=1
= Ȳ −
n n0 n1 /n
60
n0 Pn1 n1
Pn0
Yi1 − Yi0 − Ȳ n0nn1 + Ȳ n0 n1
n1 n i=1 n i=1 n
= Ȳ −
n n0 n1 /n
n0 Pn1 1 n1 Pn0 0
n1 n i=1 Yi − n i=1 Yi
= Ȳ −
n n0 n1 /n
n 1 n
0 n
1X 1X n1 X
= Yi − Yi1 + Y0
n i=1 n i=1 n0 n i=1 i
n1 n0
! n n
1 0
1 X X 1X n1 X
= Yi1 + Yi0 − 1
Y + Y0
n i=1 i=1
n i=1 i n0 n i=1 i
n0
X
1 n1
= + Yi0
n n0 n i=1
n0
1 X
= Y 0,
n0 i=1 i
ce qui fut à démontrer. La statistique t pour tester la significativité du coefficient estimé β̂1 est
donnée par la formule habituelle :
β̂1
t= .
SE β̂1
Ȳ 1 − Ȳ 0
=q ,
Var Ȳ 1 + Var Ȳ 0
Ȳ 1 − Ȳ 0 − 0
= q 2 ,
σ 1 σ2 0
Y
n1
+ n0 Y
où
n1 n0
1 X
1 1 0 1 X
Ȳ ≡ Y , Ȳ ≡ Y 0.
n1 i=1 i n0 i=1 i
Cette formule correspond exactement à la formule dérivée dans le chapitre sur la statistique et
les tests d’hypothèses pour tester la différence entre les moyennes de deux populations
61
différentes.
Ici, l’hypothèse d’hétéroscédasticité permet à la variance de l’erreur du modèle de régression
de dépendre des deux valeurs différentes possibles de Di .
12 Concepts à retenir
62
hypothèses alternatives bilatérales ou unilatérales.
• Retenir l’idée que test de significativité veut dire tester l’hypothèse nulle qu’un
coefficient est égal à zéro contre l’hypothèse alternative bilatérale.
• Comment calculer un intervalle de confiance pour les coefficients du modèle.
• Comment calculer un intervalle de confiance pour un changement prédit.
13 Références
Voir ce lien :
http://www.steveambler.uqam.ca/4272/referenc.pdf
63