0% ont trouvé ce document utile (0 vote)

52 vues63 pages

Cou Ecn

cour econometrie

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

52 vues63 pages

Cou Ecn

cour econometrie

Transféré par

FATIHA

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

ECO 4272 : Introduction à l’économétrie

Notes sur le modèle de régression simple

Steve Ambler∗
Département des sciences économiques
École des sciences de la gestion
Université du Québec à Montréal
c 2018 : Steve Ambler
Hiver 2018

∗
Ces notes sont en cours de développement. J’ai besoin de vos commentaires et de vos suggestions pour
les améliorer. Vous pouvez me faire part de vos commentaires en personne ou en envoyant un message à
[email protected].

1
Table des matières
1 Introduction 4

2 Objectifs du cours 4

3 Le modèle de régression simple 4

4 Estimateur moindres carrés ordinaires (MCO) 5

4.1 Propriétés algébriques clés de l’estimateur MCO . . . . . . . . . . . . . . . . . . 9
4.1.1 La somme des résidus est zéro . . . . . . . . . . . . . . . . . . . . . . . . 10
4.1.2 La valeur moyenne de la variable dépendante prédite est égale à la moyenne
échantillonnale de la variable dépendante . . . . . . . . . . . . . . . . . . 10
4.1.3 Orthogonalité entre la variable explicative et les résidus . . . . . . . . . . . 11
4.2 La notion de l’ajustement statistique (R2 ) . . . . . . . . . . . . . . . . . . . . . . 13
4.3 L’écart type de la régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

5 Hypothèses statistiques de base du modèle 19

5.1 Espérance conditionnelle nulle de l’erreur . . . . . . . . . . . . . . . . . . . . . . 19
5.2 Observations i.i.d. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.3 Les observations aberrantes sont peu probables . . . . . . . . . . . . . . . . . . . 20
5.4 Notre approche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

6 Propriétés statistiques de l’estimateur 22

6.1 Absence de biais de l’estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
6.1.1 β̂1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
6.1.2 β̂0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
6.2 Convergence de l’estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
6.3 Efficience de l’estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
6.3.1 Théorème Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
6.4 Erreur quadratique moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

7 Propriétés échantillonnales de l’estimateur 36

2
7.1 Estimateur convergent de σβ̂ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
1
7.2 Estimateur convergent de σβ̂2 en cas d’homoscédasticité . . . . . . . . . . . . . . . 40
1
7.3 Détecter l’hétéroscédasticité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

8 Tests d’hypothèse 47
8.1 Approche génerale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
8.2 Hypothèse alternative bilatérale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
8.2.1 Test de significativité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
8.3 Hypothèse alternative unilatérale . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

9 Intervalles de confiance pour les coefficients 49

9.1 Intervalles de confiance pour les prédictions . . . . . . . . . . . . . . . . . . . . . 50

2
10 Un exemple d’estimation du modèle de régression simple avec R 52

11 Le modèle de régression simple lorsque X est une variable dichotomique 58

12 Concepts à retenir 62

13 Références 63

3
1 Introduction

2 Objectifs du cours

• Présenter le modèle de régression simple.

• Dériver l’estimateur moindres carrés ordinaires (MCO).
• Étudier les propriétés algébriques de cet estimateur.
• Étudier la mesure habituelle de l’ajustement statistique, le R2 .
• Regarder les hypothèses statistiques derrière le modèle et analyser leurs conséquences
pour l’estimateur MCO (absence de biais, convergence, efficience).
• Montrer l’absence de biais de l’estimateur MCO.
• Dériver les propriétés échantillonnales de l’estimateur MCO et montrer sa convergence.
• Distinguer entre les cas d’erreurs hétéroscédastiques et erreurs homoscédastiques.
• Montrer, sous les hypothèses d’homoscédasticité et normalité, l’efficience de l’estimateur
MCO (théorème Gauss-Markov).
• Analyser les tests d’hypothèse concernant les paramètres estimés du modèle.
• Analyser le calcul d’intervalles de confiance pour les paramètres estimés dans le cadre du
modèle.

3 Le modèle de régression simple

• Le modèle de base peut s’écrire

Yi = β0 + β1 Xi + ui .

L’idée de base est qu’une variable économique Yi peut être prédite ou expliquée par une autre
variable économique Xi . La relation entre les deux variables est linéaire. Sans le terme ui ,
l’équation est l’équation d’une droite. Si on mesure Yi sur l’axe vertical, β0 est l’ordonnée à

4
l’origine et β1 est la pente de la droite. On peut penser au paramètre β0 comme étant associé à une
deuxième variable explicative qui est une constante que l’on normalise pour être égale à un.
Autrement dit, on aurait pu écrire le modèle comme

Yi = β0 × 1 + β1 × Xi + ui .

Le modèle de régression simple contient une constante par défaut. Il est possible aussi d’étudier le
modèle suivant :
Yi = βXi + ui .

Ce modèle, sans constante, a des propriétés statistiques assez différentes. Pour ceux qui
s’intéressent à poursuivre ce sujet, voir Windmeijer (1994), ou Eisenhauer (2003).
On appelle communément Yi la variable dépendante du modèle de régression, et on appelle
Xi la variable explicative du modèle de régression.

4 Estimateur moindres carrés ordinaires (MCO)

• Nous considérons le problème de prédire la valeur de la variable dépendante Yi , étant

donnée la valeur de Xi .
• L’erreur de prévision peut s’écrire Yi − β0 − β1 Xi .
• Le problème à résoudre est celui de choisir les valeurs de β0 et de β1 afin de minimiser la
somme des erreurs de prévision au carré. L’erreur de prévision pour l’ième observation
peut s’écrire
ui = Yi − β0 − β1 Xi .

• Donc, le programme peut s’écrire

n
X n
X
2
min (ui ) = (Yi − β0 − β1 Xi )2 .
β0 ,β1
i=1 i=1

5
• Notez que le critère de minimiser la somme des erreurs au carré n’est pas le seul critère
possible. Par exemple, on pourrait décider de minimiser la somme des erreurs en valeur
absolue. 1
• Il y a deux raisons fondamentales pour la popularité et l’importance de l’estimateur MCO
dans l’histoire de la statistique et de l’économétrie.

1. D’abord, l’algèbre est relativement simple. Le critère (la fonction objectif) est une
expression quadratique (du deuxième degré), et donc les conditions du premier ordre
donnent un système d’équations linéaires. Il est très facile de résoudre un système de
deux équations linéaires.

2. Deuxièmement, sous certaines conditions (à voir plus tard), l’estimateur MCO des
coefficients β0 et β1 est l’estimateur avec la plus petite variance parmi tous les
estimateurs linéaires et non biaisés – autrement dit, il est l’estimateur le plus efficient
parmi les estimateur linéaires non biaisés. Nous avons déjà vu un exemple du
théorème Gauss-Markov dans le chapitre sur la statistique et les tests d’hypothèse,
dans le cadre de la moyenne échantillonnale comme estimateur de l’espérance. Il y a
une version de ce théorème qui s’applique au modèle de régression simple.

• Les conditions du premier ordre (CPOs) pour ce problème sont comme suit. D’abord par
rapport au choix de β0 :
n
X
−2 Yi − β̂0 − β̂1 Xi = 0.
i=1

Ensuite, par rapport au choix de β1 :

n
X
−2 Yi − β̂0 − β̂1 Xi Xi = 0,
i=1

où j’ai écrit un chapeau sur β0 et β1 pour souligner le fait que, une fois la solution au
problème trouvée, il s’agit de nos estimateurs MCO, c’est à dire les solutions au problème
1. C’est un estimateur qui existe — l’estimateur à distance absolue minimale (en anglais minimum absolute
distance ou MAD).

6
de minimisation. 2
• Il s’agit de deux équations où les deux inconnus sont β̂0 et β̂1 .
• Il est facile d’isoler β̂0 en fonction de β̂1 et par la suite de trouver la solution pour β̂1 .
• Nous avons à partir de la première CPO :

n
X
Yi − β̂0 − β̂1 Xi = 0
i=1

n
X n
X
⇒ β̂0 = n β̂0 = Yi − β̂1 Xi
i=1 i=1

n n
1X 1X
⇒ β̂0 = Yi − β̂1 Xi
n i=1 n i=1

⇒ β̂0 = Ȳ − β̂1 X̄.

Nous venons de trouver la solution pour β̂0 en fonction des moyennes échantillonnales X̄
et Ȳ et de la solution pour β̂1 .
• Maintenant, substituant cette solution dans la deuxième CPO, nous avons :

n
X
Yi − Ȳ + β̂1 X̄ − β̂1 Xi Xi = 0.
i=1

1
• Multipliant des deux côtés de l’équation par n
et réarrangeant, nous obtenons

n n n n
1X 1X 1X 1X
Yi Xi − Ȳ Xi − β̂1 (Xi )2 + β̂1 X̄Xi = 0
n i=1 n i=1 n i=1 n i=1

n n
1X 1X
⇒ Yi Xi − Ȳ Xi
n i=1 n i=1

n n
!
1X 1X
−β̂1 (Xi )2 − X̄ Xi =0
n i=1 n i=1

2. En principe, il faudrait vérifier les conditions du deuxième ordre pour savoir que nous avons trouvé un minimum
et non un maximum ou un point de selle. Nous n’allons pas faire cet exercice ici.

7
n
1X
⇒ Yi Xi − Ȳ X̄
n i=1

n
!
1X
−β̂1 (Xi )2 − X̄ X̄ =0
n i=1
1
Pn
Yi Xi − X̄ Ȳ
⇒ β̂1 = n
Pi=1
n
(Xi )2 − X̄ 2
1
n i=1

1
Pn
i=1 Y i − Ȳ X i − X̄
⇒ β̂1 = n Pn 2 .
1
n i=1 X i − X̄
Cette solution dépend des identités

n n
1X 1X
Yi Xi − X̄ Ȳ = Yi − Ȳ Xi − X̄
n i=1 n i=1

et
n n
1X 1X 2
(Xi )2 − X̄ 2 = Xi − X̄ .
n i=1 n i=1

Ceci est facile à montrer. Nous avons

n
1X
Yi − Ȳ Xi − X̄
n i=1

n
1X
Yi Xi − Yi X̄ − Xi Ȳ + X̄ Ȳ
n i=1
n n n n
1X 1X 1X 1X
= Yi Xi − Yi X̄ − Xi Ȳ + X̄ Ȳ
n i=1 n i=1 n i=1 n i=1
n n n
1X 1X 1X n
= Yi Xi − X̄ Yi − Ȳ Xi + X̄ Ȳ
n i=1 n i=1 n i=1 n
n
1X
= Yi Xi − X̄ Ȳ − Ȳ X̄ + X̄ Ȳ
n i=1
n
1X
= Yi Xi − X̄ Ȳ .
n i=1

8
La preuve pour le dénominateur est semblable.
C’est une première façon d’exprimer la solution. Multipliant numérateur et dénominateur
par n nous avons aussi
Pn
i=1 Yi − Ȳ Xi − X̄
β̂1 = Pn 2 .
i=1 Xi − X̄
C’est une deuxième façon d’exprimer la solution. Maintenant, divisant numérateur et
dénominateur par (n − 1) nous avons aussi

1
Pn
(n−1) i=1 Yi − Ȳ Xi − X̄
β̂1 = Pn 2 .
1
(n−1) i=1 Xi − X̄

• Donc, nous avons trois expressions équivalentes pour la solution pour β̂1 .
• Comme aide-mémoire, la dernière expression est peut-être la plus utile. Elle dit que
l’estimateur MCO de β1 est le ratio entre la covariance échantillonnale entre X et Y et la
variance échantillonnale de X (voir le chapitre sur la théorie des probabilités pour les
définitions de covariance échantillonnale et variance échantillonnale).
• Pour répéter ceci en notation algébrique :

Cov (X , Y )
β̂1 = .
Var (X)

• Je crois qu’il n’est pas trop difficile de se souvenir de cette façon d’écrire la solution pour
β̂1 , et de se souvenir de la solution pour β̂0 en termes des moyennes échantillonnales X̄ et
Ȳ et β̂1 .

4.1 Propriétés algébriques clés de l’estimateur MCO

• L’estimateur MCO possède quelques propriétés de base que nous allons démontrer dans
cette section.
• Nous allons par la suite nous servir de ces propriétés à maintes reprises par la suite pour
trouver d’autres propriétés de l’estimateur MCO.

9
• J’appelle ces propriétés les propriétés algébriques puisqu’elles ne dépendent pas
d’hypothèses concernant les propriétés statistiques des variables aléatoires Y , X ou u.
• Autrement dit, pour n’importe quels échantillons d’observations sur deux variables X et
Y , ces propriétés doivent tenir. On n’a même pas besoin de supposer que X et Y sont des
variables aléatoires en bonne et due forme.
• Plusieurs de ces propriétés dépendent du fait que le modèle de régression inclut une
constante.
• Pour le cas de modèles qui n’incluent pas une constante, voir l’article de Windmeijer
(1994), ou encore celui d’Eisenhauer (2003).

4.1.1 La somme des résidus est zéro

• Définissons
ûi ≡ Yi − β̂0 − β̂1 Xi ,

le résidu de la régression pour l’observation i.

• Nous voulons montrer que :
n
1X
ûi = 0.
n i=1

• Voici la preuve.
n n
1X 1 X
ûi = Yi − Ȳ + β̂1 X̄ − β̂1 Xi
n i=1 n i=1
n n
1X 1X
= Yi − Ȳ − β̂1 Xi − X̄ = 0.
n i=1 n i=1

4.1.2 La valeur moyenne de la variable dépendante prédite est égale à la moyenne

échantillonnale de la variable dépendante

• Définissons
Ŷi ≡ β̂0 + β̂1 Xi ,

la valeur prédite de Yi .

10
• Nous voulons montrer que :
n
1X
Ŷi = Ȳ .
n i=1

• Voici la preuve :
Ŷi ≡ Yi − ûi
n n n n
1X 1X 1X 1X
⇒ Ŷi = Yi − ûi = Yi ≡ Ȳ .
n i=1 n i=1 n i=1 n i=1

4.1.3 Orthogonalité entre la variable explicative et les résidus

• Nous voulons montrer que :

n
X
Xi ûi = 0.
i=1

• Ceci est la définition algébrique de l’orthogonalité entre deux variables (ou plutôt entre
deux vecteurs). Il y a aussi une interprétation géométrique que nous allons voir plus loin.
• Puisque nous allons utiliser l’algèbre linéaire dans le chapitre sur le modèle de régression
multiple, c’est peut-être opportun d’introduire ici le concept d’orthogonalité entre deux
vecteurs. Nous pouvons réécrire cette équation en notation vectorielle comme

 
 û1 
n  
û2 
X 
Xi ûi = ≡ X 0 Û = 0.
 
X1 X2 . . . Xn  .. 
i=1

 .  
 
ûn

• Donc c’est la définition habituelle d’orthogonalité entre deux vecteurs en algèbre linéaire.
• Nous verrons plus loin qu’il y a aussi une interprétation géométrique.
• Voici la preuve :
n
X n
X n
X
Xi ûi = Xi ûi − X̄ ûi
i=1 i=1 i=1

n
X
= Xi − X̄ ûi
i=1

11
n
X
= Xi − X̄ Yi − Ȳ + β̂1 X̄ − β̂1 Xi
i=1

n
X
= Xi − X̄ Yi − Ȳ − β̂1 Xi − X̄
i=1

n n
X X 2
= Xi − X̄ Yi − Ȳ − β̂1 Xi − X̄
i=1 i=1

n
X
= Xi − X̄ Yi − Ȳ
i=1
Pn n
i=1 Xi − X̄ Yi − Ȳ X 2
− Pn 2 Xi − X̄
i=1 Xi − X̄ i=1

n
X n
X
= Xi − X̄ Yi − Ȳ − Xi − X̄ Yi − Ȳ
i=1 i=1

= 0.

• L’orthogonalité est reliée à l’interprétation géométrique de la méthode des MCO. Estimer

un modèle par MCO revient à projeter la variable dépendante dans l’espace traversé par
la variable explicative (ou les variables explicatives dans le cas de la régression multiple).
• Le principe est illustré par la Figure 1 ci-dessous. Nous constatons sur le graphique que si
nous prenons la ligne de régression comme un vecteur, la ligne pointillée sur le graphique
est un vecteur dont la longueur égale la valeur de ûi à ce point. Il forme un angle droit par
rapport à la ligne de régression, d’où le terme orthogonal .
• Pour ceux qui veulent aller plus loin, tout ce qu’on pourrait vouloir savoir concernant
l’interprétation géométrique de la régression simple se trouve dans l’article de Davidson et
MacKinnon (1999).

12
Figure 1

4.2 La notion de l’ajustement statistique (R2 )

• Définissons :
n
X 2
TSS ≡ Yi − Ȳ ,
i=1

la somme totale des carrés ( total sum of squares en anglais) ;

n
X 2
SSR ≡ Yi − Ŷi ,
i=1

la somme des résidus au carré ( residual sum of squares en anglais) ;

n
X 2
ESS ≡ Ŷi − Ȳ ,
i=1

la somme expliquée des carrés ( explained sum of squares en anglais).

• TSS est une mesure la variabilité totale de la variable dépendante Y autour de sa moyenne
étant donné l’échantillon d’observations utilisé pour estimer le modèle. ESS est une
mesure de la variabilité de la variable dépendante Y autour de sa moyenne que le modèle
de régression simple réussit à expliquer ou à prédire (étant donné l’échantillon
d’observations utilisé pour estimer le modèle). SSR capte la variabilité de Y qui n’est pas
expliquée par le modèle de régression.

13
• Nous pouvons montrer que :
TSS = ESS + SSR,

ce qui veut dire que la variabilité totale de Y peut être décomposée en la somme de la
variabilité expliquée par le modèle et la variabilité qui n’est pas expliquée par le modèle.
• Voici la preuve :
n
X 2
TSS = Yi − Ȳ
i=1

n
X 2
= Yi − Ŷi + Ŷi − Ȳ
i=1

n
X 2 n
X 2
= Yi − Ŷi + Ŷi − Ȳ
i=1 i=1

n
X
+2 Yi − Ŷi Ŷi − Ȳ
i=1

n
X
= SSR + ESS + 2 ûi Ŷi − Ȳ
i=1

n
X n
X
= SSR + ESS + 2 ûi Ŷi − 2Ȳ ûi
i=1 i=1

n
X
= SSR + ESS + 2 ûi Ŷi
i=1

n
X
= SSR + ESS + 2 ûi β̂0 + β̂1 Xi
i=1

n
X n
X
= SSR + ESS + 2β̂0 ûi + 2β̂1 ûi Xi
i=1 i=1

= SSR + ESS.

Notez que nous avons invoqué à quelques reprises les propriétés algébriques de
l’estimateur MCO que nous avons déjà démontrées.

14
• Maintenant, définissons
ESS
R2 ≡ .
TSS

• Puisque TSS, ESS et SSR sont la somme de termes au carré (et pour cette raison sont des
termes positifs sinon strictement positifs), il faut que :

0 ≤ R2 ≤ 1.

• Il faut aussi que

SSR
R2 = 1 − .
TSS

• L’ajustement statistique s’appelle aussi le coefficient de détermination de la

régression.
• L’ajustement statistique est défini (répétons-le) indépendamment des propriétés
statistiques du modèle de régression. Il a l’interprétation du pourcentage de la variation de
la variable dépendante Y autour de sa moyenne qui peut être expliqué par les variations de
la variable explicative X.
• Pour le modèle de régression simple, il y a une relation algébrique exacte entre le R2 et le
coefficient de corrélation entre les variables X et Y . La relation est

2
R2 = Corr (X, Y ) .

• Je montre ce résultat dans l’encadré qui suit.

• L’équivalence entre l’ajustement statistique et la corrélation (échantillonnale) au carré
entre X et Y est un premier pont entre les propriétés algébriques du modèle de régression
simple et les propriétés statistiques.
• On peut montrer (on ne le fera pas ici) que la corrélation échantillonnale entre deux
variables aléatoires X et Y peut être utilisée comme un estimateur de la corrélation (dans
la population) et que, sous certaines conditions, c’est un estimateur convergent de cette

15
corrélation. L’analyse des propriétés de la corrélation échantillonnale comme estimateur
permet aussi de tester des hypothèses concernant cette corrélation. Donc, en principe, on
peut tester des hypothèses concernant le R2 dans le modèle de régression simple, même si
on ne le fait pas souvent.
• La lecture de l’encadré est facultative, mais je vous encourage à retenir le résultat (égalité
entre la mesure R2 et le coefficient de corrélation entre X et Y au carré).

Je démontre ici que l’ajustement statistique (dans le modèle de régression simple) doit être
égal au carré du coefficient de corrélation entre X et Y . Nous avons

Pn 2
i=1 Ŷi − Ȳ
R2 ≡ Pn 2
i=1 Yi − Ȳ

Nous avons aussi (en multipliant le numérateur et le dénominateur dans la définition de la

corrélation échantillonnale par (n − 1))

2
Corr (X , Y ) ≡

 2
Pn
i=1 Xi − X̄ Yi − Ȳ
q 
Pn 2 qPn 2
i=1 Xi − X̄ i=1 Yi − Ȳ

Pn 2
i=1 Xi − X̄ Yi − Ȳ
= Pn 2 Pn 2
i=1 Xi − X̄ i=1 Yi − Ȳ

Donc, il faut montrer que

Pn 2
Ŷi − Ȳ Pn 2
i=1 i=1 Xi − X̄ Yi − Ȳ
Pn 2 = Pn 2 Pn 2
i=1 Yi − Ȳ i=1 Xi − X̄ i=1 Y i − Ȳ

n n n
!2
X 2 X 2 X
⇔ Ŷi − Ȳ Xi − X̄ = Xi − X̄ Yi − Ȳ .
i=1 i=1 i=1

16
Travaillant avec le bras gauche de cette équation, nous avons

n n
2 X
X 2
Ŷi − Ȳ Xi − X̄
i=1 i=1

n n
2 X
X 2
= β̂0 + β̂1 Xi − Ȳ Xi − X̄
i=1 i=1

n n
2 X
X 2
= Ȳ − β̂1 X̄ + β̂1 Xi − Ȳ Xi − X̄
i=1 i=1

n n
2 X
X 2
= β̂1 Xi − β̂1 X̄ Xi − X̄
i=1 i=1

n n
X 2 X 2
= β̂12 Xi − X̄ Xi − X̄
i=1 i=1

Pn !2 n
!2
i=1 Xi − X̄ Yi − Ȳ X 2
= Pn 2 Xi − X̄
i=1 Xi − X̄ i=1

n
!2
X
= Xi − X̄ Yi − Ȳ ,
i=1

ce qui fut à démontrer.

Donc, même si nous sommes en train de discuter des propriétés algébriques du modèle de
régression simple, et même si la notion du R2 est définie indépendamment des propriétés
statistiques des variables X et Y , nous voyons que le R2 est relié au concept statistique de
corrélation. Il existe des tests d’hypothèse de la significativité de corrélations entre variables
aléatoires (que nous n’allons pas explorer dans ce cours).

• Tel qu’indiqué plus tôt, l’ajustement statistique R2 est défini indépendamment des
hypothèses statistiques derrière le modèle.
• Nous venons de voir (dans l’encadré précédant) qu’il y a un lien stricte dans le modèle de
régression simple entre le R2 et le coefficient de corrélation entre la variable dépendante Y

17
et la variable explicative X.
• Le R2 a aussi une autre interprétation statistique. On peut l’utiliser pour tester l’hypothèse
nulle de l’absence de relation entre la variable explicative (les variables explicatives à part
la constante dans le modèle de régression multiple). Voir Giles (2013b, 2013c). Selon
Giles, le R2 suit, sous l’hypothèse nulle (et sous l’hypothèse de l’homoscédasticité), une
distribution Beta.
• Nous allons voir dans le chapitre sur la régression multiple qu’on peut construire une autre
statistique pour tester la même hypothèse. Cette statistique suit une distribution F de
Fisher.

4.3 L’écart type de la régression

• Définissons :
n
1 X SSR
s2û = (ûi )2 = .
(n − 2) i=1 (n − 2)

• Dans le cas où nous supposons une variance constante du terme d’erreur du modèle (voir
la section suivante concernant les hypothèses statistiques du modèle), c’est un estimateur
non biaisé de la variance du terme d’erreur.
• Il s’agit du cas où les erreurs sont homoscédastiques, où donc Var (ui ) = σu2 , une variance
constante.
• Notez que cette hypothèse (variance constante des erreurs) ne fera pas partie des
hypothèses statistiques de base que nous adopterons.
• Nous divison par (n − 2) afint d’obtenir un estimateur non biaisé.
• Il y a une autre raison pour la division par (n − 2). On perd deux degrés de liberté car il
faut estimer deux paramètres inconnus (β0 et β1 ) afin de calculer les résidus de la
régression.
• Maintenant, définissons :
q
sû ≡ s2û .

18
• sû est l’écart type de la régression.
• L’écart type de la régression est un des résultats d’estimation que fournissent
automatiquement la plupart des logiciels économétriques.

5 Hypothèses statistiques de base du modèle

• À partir de ce point, nous élaborons quelques propriétés statistiques de l’estimateur

MCO. Elles dépendront de certaines hypothèses statistiques de base, que voici.
• Ces hypothèses seront cruciales pour montrer les propriétés d’absence de biais et de
convergence.
• Nous en aurons besoin aussi (avec une hypothèse additionnelle) pour montrer l’efficience
de l’estimateur MCO.

5.1 Espérance conditionnelle nulle de l’erreur

• Nous supposons que :

E (ui |X = Xi ) = 0.

• Intuitivement, l’hypothèse nous dit que le fait de connaı̂tre la valeur réalisée de la variable
explicative ne donne pas d’information concernant la valeur de l’erreur.

5.2 Observations i.i.d.

• Nous supposons que :

(Xi , Yi ) , i = 1, 2, . . . , n i.i.d.

• Nous avons déjà vu le concept d’observations i.i.d. dans le chapitre sur la statistique. On
suppose que nos observations sont indépendantes et qu’elles sont identiquement
distribuées.
• Notez que nous ne faisons pas une hypothèse concernant le type de distribution qui génère

19
les observations (normale, exponentielle, parétienne stable, etc.). Tout ce qu’on suppose
c’est que les observations sont toujours générées par la même distribution.

5.3 Les observations aberrantes sont peu probables

• Nous supposons que :

0 < E X 4 < ∞;

0 < E Y 4 < ∞;

• Cette hypothèse sert à nous rappeler que l’estimateur MCO peut être sensible aux
observations aberrantes.
• Il est toujours bon d’examiner les résidus afin de détecter la présence de ces observations,
qui pourraient indiquer des problèmes comme des erreurs de transcription des valeurs dans
les données, etc.
• Il est important de noter qu’en présence d’observations aberrantes importantes, la valeur
de β̂1 peut être très sensible à cette ou à ces valeurs, même si elles sont peu nombreuses.
Intuitement, même un nombre très faible de ces observations aberrantes peut avoir une
influence prépondérante sur les valeurs estimées des paramètres. Dans un tel cas, les
estimateurs MCO ne seront pas convergents puisqu’ils dépendent d’un petit nombre
d’observations.

5.4 Notre approche

Par rapport à l’approche dans certains manuels de base en économétrie, nous adoptons une
approche plus générale.

1. Souvent, la première fois qu’on présente le modèle de régression simple, on suppose que
les observations sur la variable explicative X sont constantes à travers des échantillons
différents. Pour dériver les propriétés statistiques de notre estimateur MCO, on peut traiter

20
les observations comme des constantes au lieu de les traiter comme des réalisations d’une
variable aléatoire. L’algèbre est plus facile, mais c’est beaucoup moins réaliste.

2. Souvent, lorsqu’on présente le modèle de base, on suppose aussi que la variance

conditionnelle du terme d’erreur est égale à sa variance non conditionnelle et qu’elle est
constante. Autrement dit,

Var (ui |X = Xi ) = Var (ui ) = σu2 .

L’avantage de ces hypothèses simplificatrices est de simplifier l’algèbre. On arrive à une

expression plus simple pour la variance échantillonnale de nos estimateurs MCO.
Malheureusement, ce sont des hypothèses qui tiennent rarement dans les données utilisées
par les économètres appliqués. Cette hypothèse n’est pas retenue ici, ce qui va mener à
une expression plus compliquée mais plus générale pour la variance échantillonnale de
nos estimateurs.

3. Souvent, lorsqu’on présente le modèle de base, on suppose que le terme d’erreur est
distribué selon une loi normale. Ceci permet de faire de l’inférence exacte (voir le chapitre
sur les tests d’hypothèse pour une définition). Cette hypothèse n’est pas retenue ici.

4. Au lieu de supposer la normalité, nous allons faire l’hypothèse que les échantillons de
données que nous avons à notre disposition sont assez grandes pour que les statistiques
utilisées pour faire des tests d’hypothèse soient approximatiement distribuées selon une loi
normale.

21
6 Propriétés statistiques de l’estimateur

6.1 Absence de biais de l’estimateur

6.1.1 β̂1

• Nous avons :
Pn
i=1 Xi − X̄ Yi − Ȳ
β̂1 = Pn 2
i=1 Xi − X̄
Pn
i=1 Xi − X̄ β0 + β1 Xi + ui − β0 − β1 X̄ − ū
= Pn 2
i=1 Xi − X̄
Pn 2 P
Xi − X̄ + ni=1 Xi − X̄ (ui − ū)

β1 i=1
= Pn 2
i=1 Xi − X̄
Pn
X i − X̄ (ui − ū)
= β1 + i=1Pn 2
i=1 Xi − X̄
Pn
i=1 Xi − X̄ ui
= β1 + Pn 2 .
i=1 X i − X̄
• Ceci montre que l’estimateur est égal à sa vraie valeur plus un terme qui dépend du
produit des erreurs avec les écarts des Xi par rapport à leurs moyennes échantillonnales.
• Notez ce que l’on fait pour passer de la première ligne à la deuxième. On substitut Yi
utilisant sa valeur si le modèle de régression est litéralement vrai. Cela fait apparaı̂tre les
vraies valeurs de β0 et de β1 , et fait apparaı̂tre aussi l’erreur (la vraie et non le résidu). On
fera souvent une substitution semblable lorsqu’on veut analyser les propriétés statistiques
d’un estimateur.
• Maintenant, il s’agit de calculer la valeur espérée de cette expression :

Pn !

i=1 Xi − X̄ ui
E β̂1 = β1 + E Pn 2
i=1 Xi − X̄

Pn ! !
i=1 Xi − X̄ ui
= β1 + E E Pn 2 |X1 , X2 , . . . Xn
i=1 Xi − X̄

22
Pn !
i=1 Xi − X̄ E (ui |X1 , X2 , . . . Xn )
= β1 + E Pn 2
i=1 Xi − X̄
Pn !
i=1 Xi − X̄ E (ui |Xi )
= β1 + E Pn 2
i=1 Xi − X̄

= β1 .

• Pour passer de la première ligne à la deuxième dans cette suite d’égalités, nous avons
utilisé la loi des espérances itérées, qui dit que pour n’importe quelle variable aléatoire Y ,

E (E (Yi |Xi )) = E (Yi ) .

Nous l’avons tout simplement appliqué à la variable aléatoire qui est

Pn
i=1 Xi − X̄ ui
Pn 2 .
i=1 Xi − X̄

• Pour passer de la deuxième à la troisième ligne, il faut noter que les espérances des X
conditionnelles aux valeurs des X ne sont plus stochastiques. Nous pouvons les traiter
comme des constantes et les écrire du côté gauche de l’opérateur d’espérance
conditionnelle. Ce faisant, l’opérateur d’espérance conditionnelle s’applique uniquement
au terme d’erreur ui .
• La dernière égalité suit directement de nos hypothèses de base concernant le modèle, dont
une stipule que E (ui |Xi ) = 0.

6.1.2 β̂0

• Nous avons :

E β̂0 = E Ȳ − β̂1 X̄

n
!
1X
= E β0 + β1 X̄ + ui − β̂1 X̄
n i=1

23
n
1X
= β0 + E β1 − β̂1 X̄ + E (ui )
n i=1
n
1X
= β0 + E (E (ui |Xi ))
n i=1

= β0 ,

où encore une fois nous avons utilisé la loi des espérances itérées :

E (ui ) = E (E (ui |Xi )) .

• Ici, j’ai suivi la réponse à la question 4.7 du manuel. Il n’est pas forcément évident que

E β1 − β̂1 X̄ = 0,

puisque X̄ doit être considéré comme une variable aléatoire. Il faut remonter à l’absence
de biais de β̂1 , où on a montré que

Pn
Xi − X̄ ui
β1 − β̂1 = − Pi=1
n 2 .
i=1 Xi − X̄

Donc, on a !
Pn
Xi − X̄ ui
i=1
E β1 − β̂1 X̄ = −E Pn 2 X̄
Xi − X̄
i=1
Pn !!
i=1 Xi − X̄ E (ui |Xi )
= −E X̄ Pn 2
i=1 Xi − X̄

= 0.

Encore une fois, nous avons utilisé la loi des espérances itérées.

24
6.2 Convergence de l’estimateur

• Nous allons remettre ce sujet à un peu plus tard. En calculant les propriétes
échantillonnales de l’estimateur, nous allons montrer que sa variance décroı̂t avec la taille
de l’échantillon n.
• Si c’est le cas, nous avons à toutes fins pratiques montré sa convergence. Nous avons
montré l’absence de biais, et la variance converge à zéro lorsque n tend vers l’infini.

6.3 Efficience de l’estimateur

• Pour montrer l’efficience de l’estimateur MCO, nous aurons besoin d’une hypothèse
additionnelle, que le terme d’erreur du modèle de régression est homoscédastique, ce qui
veut dire a une variance constante.
• Si ce n’est pas le cas, et si nous connaissons de quoi dépend la variance du terme d’erreur,
il peut être possible de trouver un estimateur plus efficient que l’estimateur MCO. Il s’agit
de l’estimateur moindres carrés généralisés (generalised least squares ou GLS en
anglais), que nous n’aurons pas l’occasion d’étudier en détail dans ce cours. Voir le
chapitre 15 du manuel.
• Une preuve détaillée du théorème Gauss-Markov se trouve dans l’ecadré qui suit. Nous
n’aurons probablement pas le temps de voir cette preuve en détail dans le cours. Je vous
invite fortement à la lire et à la comprendre.

6.3.1 Théorème Gauss-Markov

• Il s’agit d’une preuve que l’estimateur β̂1 est l’estimateur le plus efficient parmi les
estimateurs qui sont linéaires en Yi .
• Rappelons d’abord les hypothèses qui doivent tenir pour démontrer le théorème
Gauss-Markov.

25
1. E (ui |X1 , . . . , Xn ) = 0 .

2. Var (ui |X1 , . . . , Xn ) = σu2 , 0 < σu2 < ∞.

3. E (ui uj |X1 , . . . , Xn ) = 0, i 6= j.

• La dernière hypothèse dit que les erreurs ne sont pas corrélées entre elles.
• D’abord, montrons que β̂1 est un estimateur linéaire en Yi . Nous avons

Pn
i=1 Yi − Ȳ Xi − X̄
β̂1 = Pn 2
i=1 Xi − X̄

Pn Pn
i=1 Y i X i − X̄ − Ȳ i=1 X i − X̄
= Pn 2
i=1 Xi − X̄
Pn
i=1 Yi Xi − X̄
= Pn 2
i=1 Xi − X̄

n
X Xi − X̄
= Pn 2 Yi
i=1 i=1 X i − X̄
n
X
≡ âi Yi ,
i=1

où donc
Xi − X̄
âi ≡ Pn 2
i=1 Xi − X̄
• Les poids âi ne dépendent pas des Yi , et donc l’estimateur est linéaire en Yi .
• Nous avons vu que sous l’hypothèse de l’homoscédasticité, la variance conditionnelle
de β̂1 est donnée par

σu2
Var β̂1 |X1 , . . . , Xn = Pn 2 .
i=1 Xi − X̄

• Nous avons aussi montré que l’estimateur β̂1 est conditionnellement non biaisé.

26
• Maintenant, considérons n’importe quel estimateur linéaire

n
X
β̃1 = ai Y i
i=1

et qui satisfait la propriété

E β̃1 |X1 , . . . , Xn = β1 .

• Nous avons
n
X
β̃1 = ai Y i
i=1

n
X
= ai (β0 + β1 Xi + ui )
i=1

n
X n
X n
X
= β0 ai + β1 ai X i + ai u i .
i=1 i=1 i=1

• Nous avons aussi

n
! n
X X
E ai ui |X1 , . . . , Xn = ai E (ui |X1 , . . . , Xn ) = 0.
i=1 i=1

• De cette façon, nous avons

n
! n
!
X X
E β̃1 |X1 , . . . , Xn = β0 ai + β1 ai X i .
i=1 i=1

• Par hypothèse, notre estimateur est conditionnellement non biaisé et donc il faut que

n
! n
!
X X
β0 ai + β1 ai X i = β1 .
i=1 i=1

27
• Pour que cette égalité tienne pour des valeurs quelconques de β0 et de β1 il faut que

n
X
ai = 0
i=1

et
n
X
ai Xi = 1.
i=1

• Nous avons donc

n
X n
X n
X n
X
β̃1 = β0 ai + β 1 ai X i + ai ui = β1 + ai ui .
i=1 i=1 i=1 i=1

• Calculons la variance conditionnelle de β̃1 . Nous avons

n
!
X
Var β̃1 |X1 , . . . , Xn = Var ai ui |X1 , . . . , Xn
i=1

n
X X
= Var (ai ui |X1 , . . . , Xn ) + 2 Cov (ai ui , aj uj |X1 , . . . , Xn )
i=1 i<j

n
X
= Var (ai ui |X1 , . . . , Xn )
i=1

n
X
= σu2 ai 2 .
i=1

• Les covariances disparaissent à cause de la troisième hypothèse ci-dessus.

• Maintenant, il suffit de montrer que la variance conditionnelle de β̃1 doit être
supérieure à la variance conditionnelle de β̂1 .
• Définissons
di ≡ ai − âi

28
• Nous avons

n
X n
X n
X n
X n
X
ai 2 = (âi + di )2 = â2i + 2 âi di + di 2 .
i=1 i=1 i=1 i=1 i=1

• Maintenant, il faut utiliser la définition des âi qui est donnée ci-dessus. Nous avons

n Pn
X Xi − X̄ di
âi di = Pi=1
n 2
i=1 i=1 Xi − X̄

Pn
Xi di − X̄ ni=1 di
P
i=1
= Pn 2
i=1 Xi − X̄
Pn Pn
X i (a i − â i ) − X̄ (ai − âi )
= i=1 Pn i=1
2
i=1 Xi − X̄

( ni=1 Xi ai − ni=1 Xi âi ) − X̄ ( ni=1 ai − ni=1 âi )

P P P P
= Pn 2
i=1 Xi − X̄

= 0.

• La dernière égalité tient puisque les deux estimateurs β̃1 et β̂1 sont conditionnellement
non biaisés et pour cette raison il faut que

n n
!
X X
X i ai − Xi âi = 1 − 1 = 0.
i=1 i=1

• Finalement, nous avons donc

Var β̃1 |X1 , . . . , Xn

n
X
= σu2 ai 2
i=1

n n
!
X X
= σu2 â2i + di 2
i=1 i=1

29
n
X
= Var β̂1 |X1 , . . . , Xn + σu2 di 2
i=1

⇒ Var β̃1 |X1 , . . . , Xn − Var β̂1 |X1 , . . . , Xn

n
X
= σu2 di 2 > 0
i=1

si ∃i tel que di 6= 0. Si di = 0, ∀i, l’estimateur β̃1 est tout simplement l’estimateur

MCO.
• Il y a aussi une preuve du théorème Gauss-Markov dans le cadre du modèle de
régression multiple dans le chapitre suivant. Vous allez constater (j’espère) que la
preuve, qui utilise une notation matricielle, est plus simple que la preuve ici. Notez
que nous n’avons pas démontré l’efficience de l’estimateur β̂0 . Ceci est un autre
avantage de l’approche matricielle : nous pourrons montrer l’efficience des
estimateurs de tous les paramètres simultanément. Ici, il faut montrer dans une preuve
ˆ 0 est efficient.
à part (ce que nous ne ferons pas) que l’estimateur beta

6.4 Erreur quadratique moyenne

• Cette section est une peu plus ardue que les autres. Sa lecture est facultative.
• Nous avons vu que l’efficience d’un estimateur est un concept relatif. Un estimateur est
plus efficient qu’un autre si les deux estimateurs sont non biaisés et que le premier a une
variance moins élevée que le deuxième.
• Une autre façon de comparer deux estimateurs est de comparer leurs erreurs
quadratiques moyennes. Nous avons déjà vu ce concept dans le chapitre sur la
statistique.

30
• Voici la définition de l’erreur quadratique moyenne d’un estimateur quelconque β̃ :

2
EQM β̃ ≡ E β̃ − β .

• Il s’agit de l’espérance de l’écart au carré entre la valeur de l’estimateur et sa vraie valeur.

• C’est une mesure assez intuitive de la précision d’un estimateur.
• Nous pouvons montrer que l’erreur quadratique moyenne est la somme de la variance de
l’estimateur et du biais de l’estimateur au carré. Autrement dit,

2
EQM β̃ = Var β̃ + E β̃ − β .

• Voici la preuve. Nous savons que pour une variable aléatoire quelconque X,

Var (X) = E X 2 − (E (X))2 .

Cette formule s’applique aussi à la variable aléatoire β̃ − β . Donc nous avons

2 2
Var β̃ − β = E β̃ − β − E β̃ − β

2 2
⇒E β̃ − β = Var β̃ − β + E β̃ − β
2 2
⇒E β̃ − β = Var β̃ + E β̃ − β ,

ce qui fut à montrer, puisque

Var β̃ − β = Var β̃

dû au fait que β n’est pas une variable aléatoire.

• Le critère de l’erreur moyenne quadratique permet de comparer deux estimateurs qui ne

31
sont pas forcément non biaisés.
• Il permet aussi de montrer qu’il peut y avoir dans certaines circonstances un arbitrage
entre le biais d’un estimateur (un plus grand biais est mauvais) et la variance de
l’estimateur (une plus grande variance est mauvaise). Il y a des estimateurs qui sont
biaisés mais qui ont néanmoins une erreur quadratique moyenne inférieure à n’importe
quel estimateur non biaisé justement parce qu’ils ont une variance très faible.
• Nous n’allons pas mettre beaucoup d’accent sur la EQM dans le cours. Dans le contexte
du modèle de régression linéaire et l’estimateur MCO, le concept d’efficience est plus au
centre de l’analyse puisque, sous des hypothèses relativement faibles, l’estimateur MCO
est non biaisé.

• Les articles de Giles (2013d, 2013e) portent sur l’erreur quadratique moyenne dans le
contexte du modèle de régression simple.
• Il étudie le modèle de régression simple sans constante :

Yi = βXi + ui ,

où les Xi sont non aléatoires et où on a ui ∼ i.i.d. (0, σ 2 ) (les erreurs sont
indépendamment et identiquement distribuées avec moyenne nulle et variance égale à
σ 2 ). (Le fait de travailler avec des Xi non stochastiques et d’imposer une hypothèse
concernant l’espérance non conditionnelle des erreurs simplifie l’analyse.)
• Il montre que si on minimise l’erreur quadratique moyenne, l’estimateur qu’on
obtient dépend de β lui-même, qui est non observable. Donc, c’est un estimateur qui
est non opérationnel , c’est à dire que nous pouvons même pas calculer.
• Dans son deuxième article (2013e), Giles montre qu’il est possible de trouver un
estimateur opérationnel ( opérationnel veut dire que nous pouvons effectivement le
calculer avec les données que nous avons) si on minimise une combinaison linéaire de

32
la variance et du biais de l’estimateur. Le problème peut s’écrire

    2 
Var β e E β̃ − β
min Q = α 
  + (1 − α)   .
σ 2 β
β
e

• La fonction objectif est une somme pondérée de la variance relative (par rapport à la
variance de l’erreur) et du biais au carré relatif (par rapport à la vraie valeur de β) de
l’estimateur β.
e

• La solution à ce problème (que nous allons calculer un peu plus loin) est

(1 − α) ni=1 Xi 2
P
β=β
e b
α + (1 − α) ni=1 Xi 2
P

où βb est l’estimateur MCO. On peut facilement calculer cet estimateur pour une valeur
donnée de α.
• Pour α = 0 nous avons βe = β.
b Autrement dit, si on met tout le poids sur la

minimisation du biais au carré, on obtient l’estimateur MCO, qui n’est pas biaisé.
• Pour α > 0, |β|
e < |β|.
b L’estimateur βe est plus près de zéro. (C’est un exemple de ce

qu’on appelle un shrinkage estimator en anglais.)

• Cette solution est un peu difficile à montrer. Commençons par définir βe comme un
estimateur linéaire quelconque :

n
X
βe ≡ ai Y i
i=1

pour des constantes quelconques ai .

• Cette définition nous donne immédiatement

n
!
X
E βe = E ai (βXi + ui )
i=1

33
n n
!
X X
=β ai X i + E ai u i
i=1 i=1

n
X
=β ai X i
i=1

n
!
X
⇒ E βe − β = β ai X i − 1
i=1

puisque nous avons fait l’hypothèse que les Xi sont non stochastiques et que
E (ui ) = 0.
• La variance de l’estimateur est donnée par

Xn n
X
2 2
Var β =
e ai Var (Yi ) = σ ai 2
i=1 i=1

pusque nous faisons l’hypothèse que la variance des erreurs est constante.
• Notre problème de minimisation peut donc s’écrire

Pn Pn 2
σ2 ai 2

i=1 β i=1 (ai Xi − 1)
min Q = α + (1 − α)
ai σ2 β

ou bien ! !2
n
X n
X
min Q = α ai 2 + (1 − α) (ai Xi − 1) .
ai
i=1 i=1

• Les variables de choix du problème sont les ai et non βe lui-même.

• En choisissant notre fonction objectif comme une somme pondérée de la variance
relative de l’estimateur et du biais au carré relatif, nous avons réussi à éliminer les
paramètres non observables (β et σ 2 ) du problème.
• Pour un ai quelconque la condition du premier ordre s’écrit

n
!
∂Q X
= 0 = 2αai + 2 (1 − α) Xi aj X j − 1
∂ai j=1

34
n
!
X
⇒ αai + (1 − α) Xi aj X j − 1 = 0.
j=1

• Multiplions cette expression par Yi et calculons la somme à travers les n termes en ai .

Nous obtenons !
n
X
αai Yi + (1 − α) Xi Yi aj X j − 1 =0
j=1

n n n
!
X X X
⇒α ai Yi + (1 − α) Xi Yi aj X j − 1 =0
i=1 i=1 j=1

n n
!
X X
⇒ αβe + (1 − α) Xi Yi aj X j − 1 =0 (1)
i=1 j=1

puisque nous avons défini au départ notre estimateur comme βe ≡ ni=1 ai Yi .

• Nous pouvons aussi multiplier chaque CPO par Xi et calculer la somme à travers les n
termes, ce qui donne

n
!
X
αai Xi + (1 − α) Xi 2 aj X j − 1 =0
j=1

n n n
!
X X X
2
⇒α ai Xi + (1 − α) Xi aj X j − 1 =0
i=1 i=1 j=1

n n n
!
X X X
⇒α aj Xj + (1 − α) Xi 2 aj X j − 1 =0
j=1 i=1 j=1

(par un simple changement d’indice)

n
X n
X n
X n
X
2
⇒α aj Xj + (1 − α) Xi aj Xj − (1 − α) Xi 2 = 0
j=1 i=1 j=1 i=1

n n
! n
!
X X X
2 2
⇒ aj X j α + (1 − α) Xi = (1 − α) Xi
j=1 i=1 i=1

35
n
(1 − α) ni=1 Xi 2
P
X
⇒ aj X j = Pn 2

j=1
α + (1 − α) i=1 X i .
Pn
• Maintenant, substituons cette solution pour j=1 aj Xj dans l´equation (1) et
simplifions :

n P2 !
2

X (1 − α)i=1 X i
⇒ αβe + (1 − α) Xi Yi P2 −1 =0
i=1
α + (1 − α) i=1 Xi 2 .

n Pn Pn !
2 2
X α + (1 − α) i=1 X i − (1 − α) X i
⇒ αβe = (1 − α) X i Yi P2 2
i=1
i=1
α + (1 − α) i=1 X i

n
!
X α
⇒ αβe = (1 − α) Xi Yi
α + (1 − α) 2i=1 Xi 2
P
i=1

n
!
X (1 − α)
⇒ βe = X i Yi
α + (1 − α) 2i=1 Xi 2
P
i=1
Pn
(1 − α) ni=1 Xi 2
P
i=1 Xi Yi
⇒ β = Pn
e
2 P2 2
i=1 Xi α + (1 − α) i=1 Xi
Pn 2
(1 − α) i=1 Xi
=βb
α + (1 − α) 2i=1 Xi 2 .
P

• Ceci est le cas puisque pour ce modèle l’estimateur MCO βb est donné par (exercice)

Pn
Xi Yi
βb = Pi=1
n 2 .
i=1 Xi

7 Propriétés échantillonnales de l’estimateur

• Dans cette section, le but principal de l’exercice est de dériver la variance (et par extension
l’écart type) de nos estimateurs MCO β̂0 et β̂1 .
• Les écarts types de β̂0 et de β̂1 font partie de l’output standard de n’importe quel logiciel

36
de régression.
• Cet exercice est crucial afin de pouvoir effectuer des tests d’hypothèse concernant les
coefficients et aussi afin de pouvoir calculer des intervalles de confiance pour les estimés.
• Nous avons :
Pn
i=1 Xi − X̄ ui
β̂1 = β1 + Pn 2
i=1 Xi − X̄
1
Pn
n i=1 Xi − X̄ ui
= β1 + Pn 2 .
1
n i=1 Xi − X̄
• D’abord, travaillons avec le numérateur.
• Nous avons déjà vu que
p
X̄ →
− µX ,

ce qui veut dire que la moyenne échantillonnale converge en probabilité à la moyenne

dans la population. Donc, pour des échantillons assez grands, nous avons

n n n
1X 1X 1X
Xi − X̄ ui ≈ (Xi − µX ) ui ≡ v̄ ≡ vi .
n i=1 n i=1 n i=1

• La variable aléatoire vi que nous venons de définir satisfait les propriétés suivantes :

1. E (vi ) = 0 ;

2. vi est i.i.d. ;

3. σv2 < ∞ .

• La variable satisfait les hypothèses pour pouvoir invoquer le théorème de la limite

centrale. Donc, nous avons
v̄ d
→
− N (0 , 1) ,
σv̄

où σv̄2 = σv2 /n.

• Maintenant, travaillons avec le dénominateur. Nous avons déjà vu à la fin du chapitre sur
la statistique que la variance échantillonnale est un estimateur convergent de la variance

37
d’une variable aléatoire. Donc nous avons :

n n
1 X 2 1X 2 p 2
Xi − X̄ ≈ Xi − X̄ → − σX .
n − 1 i=1 n i=1

• Mettant ensemble numérateur et dénominateur, nous avons

σv2
Var β̂1 − β1 = 2 2
n (σX )

et, !

d σv2
β̂1 − β1 →
− N 0, 2 2
n (σX )

• Notez très bien ce que nous venons de faire. Nous avons montré la convergence en
distribution du numérateur, et la convergence en probabilité du dénominateur, et par la
suite nous avons sauté tout de suite à la convergence en distribution du ratio des deux.
• Ceci est un tour de passe-passe que nous pouvons employer lorsque nous parlons de
propriétés asymptotiques (propriétés en grand échantillon) de nos statistiques. Notez que
nous ne pouvons pas le faire lorsqu’il s’agit d’espérances. Par exemple,

X E(X)
E 6=
Y E(Y )

sauf dans le cas de variables aléatoires indépendantes.

• Par contre, sous certaines hypothèses, nous avons

p p X̄ p µX
X̄ →
− µX , Ȳ →
− µY ⇒ →
− ,
Ȳ µY

et !
2
d 2
p X̄ d µX 1 2
X̄ →
− N µX , σX̄ , Ȳ →
− µY ⇒ →
− N , σX̄ .
Ȳ µY µY

• Nous avons utilisé le Théorème de Slutsky, un des théorèmes les plus utiles en théorie
des probabilités. Il permet de scinder des expressions compliquées de variables aléatoires

38
(produits ou ratios) en morceaux. Si nous pouvons montrer la convergence des morceaux,
la convergence de l’expression suit immédiatement.
• Nous aurons fréquemment l’occasion d’utiliser une version de ce théorème. Pour plus de
détails, voir le chapitre des notes sur le modèle de régresson multiple.
• Notez que la variance de β̂1 décroı̂t avec n et tend vers zéro lorsque n tend vers l’infini.
Lorsqu’on parle de convergence en distribution, on utilise normalement une variable
aléatoire normalisée de telle façon à ce sa variance ne diminue pas avec la taille de
l’échantillon. Pour cette raison, il serait conventionnel de dire que :
!
√
d σv2
n β̂1 − β1 →− N 0, 2 2
(σX )

• Maintenant, définissons
σv2
σβ̂21 ≡ 2 2.
n (σX )

• Maintenant, si nous divisons β̂1 − β1 par la racine carrée de σβ̂2 , nous obtenons une
1

statistique qui converge en distribution vers une loi normale centrée réduite :

β̂1 − β1 β̂1 − β1 d
q ≡ →
− N (0 , 1) .
σβ̂2 σβ̂1
1

• Notez que nous venons de montrer à toutes fins pratiques la convergence de l’estimateur
MCO de β̂1 . Nous avions déjà montré que l’estimateur MCO est non biaisé. Maintenant,
nous venons de montrer que la variance de notre estimateur tend vers zéro lorsque la taille
de l’échantillon tend vers l’infini. Autrement dit,

lim σβ̂21 = 0.
n→∞

• Nous avons tous les prérequis pour conclure que l’estimateur MCO de β1 converge en
probabilité à sa vraie valeur.

39
7.1 Estimateur convergent de σβ̂2
1

• La variance de la variable aléatoire v̄ définie ci-dessus n’est généralement pas connue, la

variance de X non plus.
• Nous savons maintenant que nous pouvons remplacer un moment inconnu de la
population par un estimateur convergent de ce moment.
• Définissons : Pn 2
1 2
1 n−2 i=1 Xi − X̄ (ûi )
σ̂β̂21 ≡ 2 2 . (2)
n
P
1 n
n i=1 Xi − X̄

• Ensuite, définissons l’écart type estimé de β̂1 comme

q
SE β̂1 ≡ σ̂β̂2 .
1

• La plupart des logiciels de régression calculent cet écart type. Il faut, par contre, vérifier si
l’option par défaut est de calculer cet écart type robuste (robuste à la présence de
l’hétéroscédasticité) ou plutôt de calculer l’écart type qui suppose l’homoscédasticité.

7.2 Estimateur convergent de σβ̂2 en cas d’homoscédasticité

• Si nous sommes prêts à supposer que

Var (ui |X = Xi ) = Var (ui ) = σu2 ,

nous pouvons remplacer l’estimateur convergent de σβ̂2 par

Pn
1 n−1
1
i=1(ûi )2
σ̃β̂21 ≡ 2 . (3)
n1 n
P
n i=1 Xi − X̄

• J’ai utilisé la notation légèrement différente σ̃β̂2 pour distinguer entre le cas général
1

(lorsqu’on ne suppose pas l’homoscédasticité) où on utilise un estimateur robuste de

40
la variance et le cas particulier où on suppose l’homoscédasticité.
• Le manuel est parmi les seuls à utiliser l’estimateur robuste comme l’estimateur par
défaut. Beaucoup de manuels présentent le cas homoscédastique comme le cas de base et
montre par la suite qu’est-ce qui arrive si l’hypothèse d’homoscédasticité ne tient pas. Je
partage l’opinion des auteurs que l’homoscédasticité est une hypothèse forte qui risque de
ne pas tenir dans le cas de beaucoup d’applications empiriques, et que, pour cette raison, il
est bien d’enseigner le cas général et l’estimateur robuste comme l’option par défaut d’un
économètre appliqué.
• Lorsqu’on utilise un logiciel de régression comme R, STATA ou GRETL, il faut lire
attentivement la documentation pour savoir quelle est l’option par défaut utilisée pour
estimer la matrice variance-covariance des coefficients estimés. Dans la plupart des cas
l’option par défaut suppose l’homoscédasticité et il faut spécifier l’option robuste ou
l’équivalent si vous n’êtes pas prêts à supposer l’homoscédasticité, ce qui sera
généralement le cas.

Les écarts types robustes peuvent être plus grands ou plus petits que les écarts types non
robustes. Pour une explication plus détaillée et une illustration dans un cas très simple, voir
Auld (2012). Auld démontre les points suivants.

1. En présence d’hétéroscédasticité, si la variance des erreurs n’est pas fortement

corrélée avec la variable explicative du modèle (X), il y aura peu de différence entre
l’écart type calculé avec la méthode robuste et l’écart type calculé sous l’hypothèse de
l’homoscédasticité.

2. Si la variance des erreurs augmente pour des valeurs des Xi qui sont loin de leur
moyenne échantillonnale X̄, l’écart type calculé avec la méthode non robuste
(supposant l’homoscédasticité) sera biaisé vers zéro (trop petit). L’écart type calculé
avec la méthode robuste sera en général plus grand que l’écart type non robuste.

3. Si la variance des erreurs est plus grande pour des valeurs des Xi qui sont près de leur

41
moyenne échantillonnale X̄, l’écart type calculé avec la méthode non robuste
(supposant l’homoscédasticité) sera biaisé et sera en moyenne trop grand. L’écart type
calculé avec la méthode robuste sera en général plus petit que l’écart type non robuste.

4. Avec les données réelles on rencontre plus souvent le cas où l’écart type non robuste
est baisié vers zéro (est trop petit). Donc, typiquement les écarts types robustes sont
plus élevés que les écarts types non robustes.

L’intuition de ceci n’est pas forcément facile. Auld utilise un exemple très simple, d’un
modèle où on soustrait la moyenne des observations dans le cadre du modèle de regression
simple. Le modèle peut s’écrire

Yi = β0 + β1 Xi + ui .

Si on calcule la moyenne des variables, on a

Ȳ = β0 + β1 X̄ + ū.

La moyenne des erreurs ū n’est pas observable. Soustrayant la deuxième équation de la

première, on obtient

Yi − Ȳ = β1 Xi − X̄ + (ui − ū) .

En fait, Auld écrit le modèle de façon légèrement différente :

(yi − ȳ) = β (xi − x̄) + ui .

L’estimateur MCO de β, β̂ est donné par

Pn
i=1 (xi − x̄) (yi − ȳ)
β̂ = .
(xi − x̄)2

42
Notez que c’est le même estimateur que l’estimateur de β1 dans notre modèle de base. Si on
divise numérateur et dénominateur par (n − 1), on a la covariance échantillonnale entre x et y
divisée par la variance de x.

Sous l’hypothèse de l’homoscédasticité, l’estime de la variance de β̂ est donné par

s2
σ̃β̂2 = Pn 2,
i=1 (xi − x̄)

où s2 ≡ (n − 2)−1
P2
i=1 û2i . J’utilise ici la même notation que Auld (2012). Notez que cette
expression est presqu’identique à (3) ci-dessus, à part le fait de diviser par (n − 2). En fait, si
n est grand les deux expressions sont à toutes fins pratiques identiques.

Pour ce modèle, un estimateur robuste de la variance de β̂ serait

û2 (xi − x̄)2

σ̂β̂2 = Pni 2 2
.
i=1 (x i − x̄)

Encore une fois je suis la formulation de Auld (2012). Notez que cette expression est presque
la même chose que (2), encore une fois à part le fait de diviser par (n − 2).

Quand est-ce qu’il va y avoir une différence entre les deux (en grand échantillon) ? Dans le
cas où il n’y a pas de corrélation (covariance) entre Var(ui ) et (xi − x̄)2 , il n’y a pas de
différence asymptotiquement (lorsque n → ∞) entre les deux. Nous avons en fait

σ̃β̂2 → σ̂β̂2 .

Si Var(ui ) et (xi − x̄)2 sont corrélés positivement, alors σ̃β̂2 sera trop petit et on aura

σ̂β̂2 > σ̃β̂2

lorsque n → ∞. Si Var(ui ) et (xi − x̄)2 sont corrélés négativement, alors σ̃β̂2 sera trop grand

43
et on aura
σ̂β̂2 < σ̃β̂2

lorsque n → ∞.

Regardez la Figure 2 ci-dessous. Les points ont été générés sur ordinateur (c’est donc un
exemple de simulation Monte Carlo) pour une valeur β = 0. Dans le cas du panneau gauche,
il y a par construction une corrélation positive entre Var(ui ) et (xi − x̄)2 . Dans le cas du
panneau droit, la corrélation est négative. Par construction, la variance non conditionnelle de
ui est identique entre les deux panneaux.

Le premier cas est illustré par le panneau gauche. Lorsque les xi sont loin de leur moyenne x̄,
la variance des erreurs a tendance à être plus élevée (notez la plus grande dispersion des
erreurs aux extrémités du graphique). Il est clair que dans ce cas, on peut estimer β avec
beaucoup moins de précision. Imaginez des valeurs différentes de β̂. La somme des erreurs au
carré ne sera pas très sensible aux valeurs différentes de β̂. Par exemple, si on augmente la
valeur de β̂, les erreurs positives à l’extrémité droite du graphique vont diminuer tandis que
les erreurs négatives vont augmenter. À l’extrémité gauche du graphique, ce sera l’inverse.
L’impact net sur la somme des erreurs au carré ne sera pas très grand.

Pour cette raison, l’estimé de β̂ sera moins précis, et on devrait tenir compte de cette
incertitude accrue avec un écart type plus élevé.

Le deuxième cas est illustré par le panneau droit de la Figure 2 ci-dessous. Lorsque les xi sont
loin de leur moyenne x̄, la variance des erreurs a tendance à être plus petite (notez la moins
grande dispersion des erreurs aux extrémités du graphique). Dans ce cas, par opposition au
premier cas, lorsqu’on fait varier la valeur de β̂, la taille des erreurs va augmenter aux deux
extrémités du graphique. Une petite variation de β̂ va donner une variation beaucoup plus
importante de la somme des erreurs au carré, et l’estimé de β̂ va être plus précis. Pour tenir
compte de l’incertitude qui est maintenant moins grande, on devrait en tenir compte ave un

44
écart type moins élevé.

Figure 2

La morale de l’histoire est la suivante. L’hétéroscédasticité en tant que telle n’est pas
importante. Ce qui est important, c’est la corrélation entre la variance des erreurs et l’écart de
la variable explicative par rapport à sa moyenne (dans le modèle de régression multiple, ce
sera les corrélations entre la variance des erreurs et les écarts des variables explicatives par
rapport à leurs moyennes). Auld (2012) résume la morale de l’histoire de la façon suivante :

The upshot is this : if you have heteroskedasticity but the variance of your errors
is independent of the covariates, you can safely ignore it, but if you calculate
robust standard errors anyways they will be very similar to OLS standard errors.
However, if the variance of your error terms tends to be higher when x is far from
its mean, OLS standard errors will tend to be biased down, and robust standard
errors will tend to be larger than OLS standard errors. In the opposite case in
which the variance of the error terms tends to be lower when x is far from its
mean, OLS standard errors will tend to be too large, and robust standard errors
will tend to be smaller than OLS standard errors. With real data it’s commonly

45
but not always going to be the case that the variance of the error will be higher
when x is far from its mean, explaining the result that robust standard errors are
typically larger than OLS standard errors in economic applications.

7.3 Détecter l’hétéroscédasticité

• Il peut être important de pouvoir détecter la présence d’erreurs hétéroscédastiques. Il y a

des tests formels, 3 mais il y a aussi des méthodes moins formelles que les chercheurs
appliqués peuvent utiliser.
• Une première façon relativement simple est de calculer les écarts types robustes et non
robustes. Si les deux sont très différents, c’est un signe très fort de la présence
d’hétéroscédasticité conditionnelle.
• Une autre façon simple serait de créer, une fois le modèle estimé, un graphique avec les Xi
sur l’axe horizontal et les résidus au carré û2i sur l’axe vertical.
• Une relation évidente entre les deux (par exemple, des valeurs de û2i qui semblent
augmenter avec les valeurs de Xi ou semblent diminuer avec les valeurs de Xi ) est un
signe clair de la présence d’hétéroscédasticité.
• Une autre façon serait, une fois le modèle estimé, d’estimer une régression où on prend les
résidus carrés comme variable dépendante et Xi comme variable explicative, ou des
fonctions non linéaires des Xi . Par exemple,

û2i = γ0 + γ1 Xi + i

ou encore
û2i = γ0 + γ1 Xi 2 + i .

• L’idée est d’estimer les valeurs de γ0 et de γ1 par MCO. Soit γ̂1 la valeur estimée du
3. Nous verrons certains de ces tests formels dans le chapitre sur le modèle de régression multiple.

46
coefficient γ1 . Une valeur significative de γ̂1 (voir la section suivante sur les tests
d’hypothèse) serait un indice clair de la présence d’hétéroscédasticité. 4 Nous allons
revenir sur cette question et sur quelques tests formels pour détecter l’homoscédasticité
dans le chapitre sur la régression multiple, et aussi dans le chapitre sur les tests
diagnostics.

8 Tests d’hypothèse

8.1 Approche génerale

• Le principe de base pour tester des hypothèses simples est presqu’identique à ce que nous
avons vu dans le chapitre sur l’inférence statistique.
• L’hypothèse nulle spécifie généralement que le coefficient d’intérêt (qui peut être β̂0 ou β̂1
prend une certaine valeur. L’hypothèse alternative peut être bilatérale ou unilatérale,
dépendant du contexte.
• D’abord, il faut créer une statistique normalisée qui a une moyenne nulle et une variance
unitaire sous l’hypothèse nulle. Il s’agit d’une statistique t même si en général elle
n’obéit pas à une loi t de Student. Par exemple :

β̂1 − β1,0
t≡
SE β̂1

où SE β̂1 est un estimateur convergent de l’écart type du coefficient β1 et β1,0 est la
valeur que prend le coefficient β1 sous l’hypothèse nulle.
• Si nous sommes prêts à faire l’hypothèse que le terme d’erreur du modèle ui obéit à une
loi normale avec variance constante, nous pouvons montrer que la statistique t suit une loi
t de Student. Dans ce cas, bien sûr, il est préférable d’utiliser la forme homoscédastique
4. Notez qu’il ne s’agit pas d’un test formel avec des propriétés statistiques connues. Il faut interpréter le résultat
du test à titre indicatif seulement. Par contre, le test formel appelé test Breusch-Pagan est essentiellement basé sur une
régression de ce type.

47
pour le calcul de l’écart type de l’estimateur β̂1 .
• Si non, sous les hypothèses du modèle de régression, la statistique t obéit en grand
échantillon à une loi normale centrée réduite. Voir la section précédente sur les propriétés
échantillonnales de l’estimateur.
• Comme il est habituellement le cas, nous remplaçons l’écart type dans le dénominateur
par un estimateur convergent.
• Maintenant, nous procédons exactement comme dans le chapitre sur la statistique.

8.2 Hypothèse alternative bilatérale

• D’abord, si l’hypothèse alternative est bilatérale :

H1 : β1 6= β1,0 ,

nous rejetons l’hypothèse nulle si la statistique calculée est suffisamment loin de zéro. La
p-value du test est donnée par :

p-value = Pr |z| > |tact | = 2Φ −|tact |

où tact est la valeur calculée de la statistique et, comme auparavant, Φ(z) est la valeur de la
distribution normale centrée réduite cumulée à z.

8.2.1 Test de significativité

• On appelle appelle communément un test de significativité un test de l’hypothèse

nulle que la variable explicative n’est pas significative, ce qui veut dire qu’elle n’aide pas à
expliquer la variabilité de la variable dépendante.
• Dans, ce cas, l’hypothèse nulle est H0 : β̂1 = 0 et l’hypothèse alternative est bilatérale.
• On peut aussi parler d’un test de significativité de la constante dans le modèle de
régression simple.

48
• Les tests de significativité sont tellement répandus que, si l’output fourni par un logiciel
d’économétrie donne les statistiques t associées aux coefficients estimés, il s’agit de
statistiques appropriées pour tester l’hypothèse nulle que le coefficient est égal à zéro.

8.3 Hypothèse alternative unilatérale

• Ensuite, si l’hypothèse alternative est unilatérale, il faut distinguer entre les deux cas
possibles.

1. D’abord,
H1 : β1 > β1,0 .

Nous rejetons l’hypothèse nulle si la statistique calculée est suffisamment positive. La

p-value du test est donnée par :

p-value = Pr z > tact = 1 − Φ tact .

2. La deuxième possibilité est :

H1 : β1 < β1,0 .

Nous rejetons l’hypothèse nulle si la statistique calculée est suffisamment négative. La

p-value du test est donnée par :

p-value = Pr z < tact = Φ tact .

9 Intervalles de confiance pour les coefficients

• Le principe est identique que pour l’estimateur de la moyenne de la population que nous
avons vu dans le chapitre sur l’inférence statistique.
• Pour calculer les deux bornes de l’intervalle de confiance de X%, d’abord on cherche la

49
valeur de z > 0 tel que
1 − X/100
Φ(−z) = .
2
(100−X)
Donc, on cherche la valeur de z > 0 pour laquelle 2
% de la distribution normale
(100−X)
centrée réduite se trouve à gauche de −z. Cela veut dire bien sûr que 2
% de la
distribution normale centrée réduite se trouve à droite de z.
• Nous avons (pour β̂1 : le principe pour β̂0 est identique) :
!
X β̂1 − β1
= Pr −z ≤ ≤z
100 σ̂β̂1

= Pr −zσ̂β̂1 ≤ β̂1 − β1 ≤ zσ̂β̂1

= Pr −zσ̂β̂1 ≤ β1 − β̂1 ≤ zσ̂β̂1

= Pr β̂1 − zσ̂β̂1 ≤ β1 ≤ β̂1 + zσ̂β̂1 ,

où σ̂β̂1 ≡ SE β̂1 , notre estimateur convergent de l’écart type de β1 .
• Cela implique que l’intervalle de confiance de X% autour de β̂1 peut être écrit de la façon
suivante :
β̂1 ± zσ̂β̂1 ,

où
1 − X/100
Φ(−z) = .
2

9.1 Intervalles de confiance pour les prédictions

Souvent, on estime un modèle de régression pour prédire l’impact du changement de la variable

explicative sur la variable dépendante. Par exemple, dans le cadre du modèle développé en détail
dans le manuel, on pourrait vouloir prédire l’impact sur le rendement scolaire d’une réduction de
la taille moyenne des classes de deux éleves. Soit ∆X le changement proposé de la valeur de la

50
variable explicative. On a tout de suite

∆Ŷi = β̂1 ∆Xi ,

où ∆Ŷi est le changement prédit de la variable dépendante. Développer un intervalle de confiance
dans ce cas est facile. Le changement posé ∆X est connue. On peut le traiter comme une
constante, et donc nous avons

Var ∆Ŷi = Var β̂1 ∆Xi

= (∆Xi )2 Var β̂1

Donc, procédant de la même manière que pour l’intervalle de confiance pour β̂1 lui-même on a

 
X ∆Xi β̂1 − β1
= Pr −z ≤ ≤ z
100 (∆Xi ) σβ̂1

= Pr −z (∆Xi ) σβ̂1 ≤ ∆Xi β̂1 − β1 ≤ z (∆Xi ) σβ̂1

= Pr −z (∆Xi ) σβ̂1 ≤ ∆Xi β1 − β̂1 ≤ z (∆Xi ) σβ̂1

= Pr −z (∆Xi ) σβ̂1 + ∆Xi β̂1 ≤ ∆Xi β1 ≤ z (∆Xi ) σβ̂1 + ∆Xi β̂1 .

Donc, l’intervalle de confiance pour le changement prédit est donné par

∆Xi β̂1 ± z (∆Xi ) σβ̂1

Si nous remplaçons l’écart type de β̂1 par un estimateur convergent (notre truc habituel),
l’intervalle de confiance peut s’écrire

∆Xi β̂1 ± z (∆Xi ) σ̂β̂1

51
10 Un exemple d’estimation du modèle de régression simple

avec R

Voici un exemple de comment estimer un modèle de régression simple avec le logiciel R.

L’exemple provient de Kleiber et Zeileis (2008, chapitre 3), qui contient une analyse beaucoup
plus de détaillée. Vous pouvez facilement jouer avec le code une fois que le logiciel est installé.
Le but du modèle est de prédire la demande pour les abonnements à des revues scientifiques
(abonnements par des bibliothèques universitaires) où la variable explicative est le prix par
nombre de citations. Le modèle est

ln (subsi ) = β0 + β1 ln (citepricei ) + ui ,

où la variable dépendante subsi est le nombre d’abonnements à la revue i (mesuré en logs), et la
variable explicative citepricei est le prix annuel d’un abonnement divisé par le nombre de
citations annuel d’articles publiés dans la revue (mesuré aussi en logs). Notez que le choix de
mesurer les deux variables en logs est celui des auteurs. Nous allons revenir sur cette question
dans le chapitre sur les modèles de régression non linéaires. 5
Les données sont dans une banque de données qui s’appelle Journals . Il s’agit de données
(avec n = 180) sur les abonnements par des bibliothèques universitaires à des revues
scientifiques. La taille de l’échantillon est le nombre de revues dans l’échantillon.

Afin d’effectuer l’estimation d’un modèle de régression simple de base et afin d’effectuer tous
les calculs et tous les tests, il faut non seulement la version de base de R mais aussi les
packages AER (qui contient les données utilisées pour estimer le modèle), lmtest,
sandwich et zoo (ces trois packages permettent de calculer les écarts types robustes du
modèle estimé et d’effectuer des tests d’hypothèse utilisant les écarts types robustes). Si les

5. Entretemps, à moins d’avis contraire, je vous demande d’utiliser des variables non transformées dans les exer-
cices empiriques.

52
packages ne sont pas déjà installés, il faut les installer avec la commande
install.packages(·) :

install.packages("AER")
install.packages("lmtest")
install.packages("zoo")
install.packages("sandwich")

Notez que sous Linux il est préférable d’installer le package comme administrateur du
système ou super-utilisateur. Pour le faire, invoquer le logiciel R avec la commande sudo R.

Une fois les packages installés, on peut procéder à charger les données et estimer le modèle
par MCO. Dans le code R qui suit, j’ajoute des commentaires pour expliquer ce que font les
commandes. Les lignes précédées par # sont des commentaires.

R> # Charger les données.

R> library("AER")
R> data("Journals")
R> # Permettre d’appeler les variables directement par leurs
noms.
R> attach(Journals)
R> # Calculer des statistiques descriptives concernant les
variables.
R> # summary(Journals)
R> # Créer une base de données avec un sous-ensemble des
variables.
R> journals <- Journals[, c("subs", "price")]
R> # Ajouter le prix par citation à la base de données
restreinte.

53
R> journals$citeprice <- Journals$price / Journals$citations
R> # Permettre d’appeler les variables dans journals
directement.
R> attach(journals)
R> # Produire un nuage de points avec les abonnements et le
prix par citation.
R> plot(log(subs) ∼ log(citeprice), data = journals)
R> # Estimer le modèle par MCO utilisant la commande lm(·).
R> # Les résultats sont stockés dans l’objet jour lm.
R> jour lm <- lm(log(subs) ∼ log(citeprice))
R> # Ajouter la ligne de régression estimée au nuage de
points.
R> abline(jour lm)
R> # Calculer des statistiques de base avec l’output de
l’estimation.
R> summary(jour lm)
R> # Ouvrir un fichier pour contenir ces statistiques.
R> # Le nom du fichier est regumm.out .
R> outfile <- file("regsumm.out", "w")
R> capture.output(summary(jour lm), file=outfile)
R> # Fermer le fichier qui contient l’output.
R> close(outfile)

Résumons ce que nous avons fait avec ces commandes.

• La commande data(·) charge la banque de données en mémoire.

• La commande journals<- crée une plus petite banque de données en extrayant les
variables subs (combien d’abonnements) et price (prix de l’abonnement).

54
• La commande journals$citeprice<- ajoute une nouvelle variable à la banque
journals qui est le prix par citation.
• La commande plot(·) crée un graphique avec les observations, avec subs (en
logarithmes) sur l’axe vertical et citeprice (en logarithmes) sur l’axe horizontal)
• La commande lm(·) estime le modèle de régression simple par MCO, et la commande
jour lm<- place les résultats dans la variable jour lm.
• La commande abline(·) utilise les résultats pour placer la ligne de régression sur le
graphique qui a déjà été créé.
• La commande summary(·) imprime les résultats de la régression à l’écran.
• La commande outfile<- crée un fichier texte où on peut envoyer les résultats.
• La commande capture.output(·) envoie les résultats dans le fichier qui a été créé.
• La commande close(·) ferme le fichier.

Les résultats de l’estimation sont comme suit.

Call:
lm(formula = log(subs) ∼ log(citeprice), data = journals)
Residuals:

Min 1Q Median 3Q Max

-2.72478 -0.53609 0.03721 0.46619 1.84808
Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 4.76621 0.05591 85.25 <2e-16 *** —
log(citeprice) -0.53305 0.03561 -14.97 <2e-16 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.7497 on 178 degrees of freedom

Multiple R-squared: 0.5573, Adjusted R-squared: 0.5548

F-statistic: 224 on 1 and 178 DF, p-value: < 2e-16

55
Vous êtes déjà en mesure de comprendre tous les éléments de l’output, sauf à la toute fin
lorsqu’on mentionne Adjusted R-squared et F-statistic. La mesure de
l’ajustement statistique R2 que nous avons étudiée est ce qu’on appelle Multiple
R-squared dans l’output. Nous reviendrons sur ces statistiques dans le chapitre sur le
modèle de régression multiple.

En ce qui concerne les résidus, le logiciel nous donne la valeur minimale parmi les résidus, la
valeur associée au premier quartile (la valeur pour laquelle 25% des résidus on une valeur
inférieure), la valeur médiane (qui n’est pas forcément égale à la moyenne), la valeur associée
au troisième quartile, et la valeur maximale. Ces valeurs (surtout les valeurs minimale et
maximale) peuvent être utiles pour repérer des observations aberrantes.

Une mise en garde : le code ci-dessus estime le modèle par MCO utilisant les options par
défaut. La fonction lm utilise par défaut une hypothèse d’homoscédasticité. Donc, les écarts
types des deux coefficients (β̂0 et β̂1 dans notre notation) ne sont pas des écarts types
robustes. Afin d’obtenir des écarts types robustes à la présence de l’hétéroscédasticité, il faut
utiliser la commande suivante :
R> coeftest(jour lm, vcov=vcovHC)

Notez que pour utiliser cette commande, il faut que les packages sandwich, zoo et
lmtest soit intallés, tel qu’indiqué ci-dessus. Il faut aussi charger en mémoire les packages
lmtest (qui va automatiquement charger zoo aussi) et sandwich avant d’utiliser la
commande coeftest(·), avec les commandes suivantes :

R> library("lmtest")
R> library("sandwich")

Les résultats de cette commande sont comme suit :

Coefficients:

56
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.7662 0.0555 85.8 <2e-16
log(citeprice) -0.5331 0.0345 -15.5 <2e-16
Ce modèle est un exemple d’un modèle où il n’y a pas une différence énorme entre les écarts
types robustes et non robustes. Puisque l’ordinateur est capable de calculer les écarts types en
une fraction de seconde, il coûte presque rien de les calculer des deux façons afin de vérifier si
les résultats sont semblables ou non.
Un graphique avec les données (variable dépendante sur l’axe vertical et variable explicative
sur l’axe horizontal) et la ligne de régression est la Figure 3 ci-dessous.

●
7

●
●
●●
●
● ● ●
●
●● ● ● ●●●●● ● ●
●● ●
●
●
6

● ● ● ●
● ●
● ● ●
●● ●
● ● ●● ● ● ●
● ● ●
● ● ●
● ● ●●● ●
●● ●●
● ● ● ● ●
● ●● ● ●
● ● ●● ● ●
● ●●
5

●● ● ● ● ●
● ●● ●
● ● ●
●
● ● ●● ● ●● ●
● ● ●
● ● ●
● ● ●● ●
● ●●
●●
log(subs)

● ●
● ● ● ●● ●
● ● ●● ● ● ●
4

●● ● ● ●
●● ● ● ●●
●
●
● ● ●●
● ● ●●
● ● ●●
● ●●
● ● ●●
● ● ●
3

● ●
● ●
●
●
● ● ●

●
2
1

−4 −2 0 2

log(citeprice)
Figure 3

57
11 Le modèle de régression simple lorsque X est une variable

dichotomique

Jusqu’ici, nous avons supposé que la variable explicative dans le modèle de régression simple, X,
est une variable aléatoire continue. Il es souvent le cas que la variable explicative est une variable
qualitative qui ne peut prendre que deux valeurs : oui ou non, vrai ou faux, présent ou absent, etc.
On peux représenter ces deux valeurs possibles de la variable explicative variable dichotomique
par soit 0 soit 1. Dans l’example du livre, l’impact de la taille des classes sur le rendement
scolaire dans les conseils scolaires en Californie, on aurait pu avoir des données sur la taille des
classes où Di = 1 pour des ratios élèves/professeurs inférieurs à 20 est Di = 0 pour des ratios
élèves/professeurs au moins égaux à 20.
Dans ces cas, β1 n’a pas l’interprétation d’un coefficient de pente. Il a l’interprétation de la
moyenne conditionnelle de la variable dépendante Y lorsque Di = 1. L’ordonnée β0 a
l’interprétation de la moyenne conditionnelle de Y lorsque Di = 0. Donc, β1 a l’interprétation de
la différence entre les moyennes de deux populations ou plutôt de sous-populations.
Algébriquement, nous avons
Yi = β0 + β1 Xi + ui

⇒ E (Yi |Xi = 0) = β0 + β1 × 0 + E (ui |Xi = 0) = β0

et
⇒ E (Yi |Xi = 1) = β0 + β1 × 1 + E (ui |Xi = 1) = β0 + β1 .

On écrit dans le manuel qu’il y a équivalence entre d’une part estimer le modèle de régression
simple par MCO avec une variable explicative X et d’autre part calculer les moyennes
échantillonnales des sous-échantillons. Dans l’encadré qui suit, je montre cette équivalence. Je
montre aussi l’équivalence entre tester la significativité du coefficient estimé β̂1 et tester la
significativité de la différence entre deux moyennes.

58
Le modèle avec une variable explicative dichotomique peut s’écire

Yi = β0 + β1 Di + ui ,

où Di prend deux valeurs possibles, soit 0 soit 1. Soit n1 le nombre d’observations pour
lesquelles Di = 1 et soit n0 le nombre d’observations pour lesquelles Di = 0. Il est clair que

n
1X n1
D̄ ≡ Di = .
n i=1 n

L’estimateur β̂0 est donné par la formule habituelle

β̂0 = Ȳ − β̂1 D̄.

L’estimateur β̂1 est donné par la formule habituelle

Pn
i=1 Yi − Ȳ Di − D̄
β̂1 = Pn 2 .
i=1 Di − D̄

Dans ce cas, avec Di une variable dichotomique, nous avons

n
X 2
Di − D̄
i=1

n0 n1
X X 2
= D̄2 + 1 − D̄
i=1 i=1
n 2 n1 2
1
= n0 + n1 1 −
n n
n 2 n 2
1 0
= n0 + n1
n n
n0 n1 2 + n1 n0 2
=
n2

59
n0 n1 (n0 + n1 ) n0 n1
= 2
= .
n n

Définissons Yi1 la valeur de Yi dans le cas où Di = 1. Définissons Yi0 la valeur de Yi dans le
cas où Di = 0. Nous avons

Pn
i=1 Yi − Ȳ Di − D̄
β̂1 =
n0 n1 /n

Pn1 1
Pn0 0

Y i − Ȳ (1 − n 1 /n) − Y i − Ȳ (n1 /n)
= i=1 i=1
n0 n1 /n
Pn1 1
Pn0 0

i=1 Yi − Ȳ (n0 /n) − i=1 Yi − Ȳ (n1 /n)
=
n0 n1 /n
n1 n0
1 X 1 1 X
Yi0 − Ȳ

= Yi − Ȳ −
n1 i=1 n0 i=1
n1 n1 n0 n0
1 X 1 1 X 1 X 0 1 X
= Y − Ȳ 1− Y + Ȳ 1
n1 i=1 i n1 i=1 n0 i=1 i n0 i=1
n1 n0
1 X 1 n1 1 X n0
= Yi − Ȳ − Yi0 + Ȳ
n1 i=1 n1 n0 i=1 n0
n1 n0
1 X 1 1 X
= Y − Y 0.
n1 i=1 i n0 i=1 i

Ceci est tout simplement la différence entre la moyenne échantillonnale de Y pour le

sous-échantillon où Di = 1 et sa moyenne échantillonnale pour le sous-échantillon où Di = 0.

Il faut maintenant montrer que β̂0 est tout simplement égal à la moyenne échantillonnale de Y
pour le sous-échantillon où Di = 0. Nous avons

Pn !
n1 i=1 Yi − Ȳ Di − D̄
β̂0 = Ȳ −
n n0 n1 /n

Pn1 !
Yi1 − Ȳ (1 − n1 /n) − ni=1

Yi0 − Ȳ (n1 /n)
P 0
n1 i=1
= Ȳ −
n n0 n1 /n

60
n0 Pn1 n1
Pn0
Yi1 − Yi0 − Ȳ n0nn1 + Ȳ n0 n1
n1 n i=1 n i=1 n
= Ȳ −
n n0 n1 /n
n0 Pn1 1 n1 Pn0 0
n1 n i=1 Yi − n i=1 Yi
= Ȳ −
n n0 n1 /n
n 1 n
0 n
1X 1X n1 X
= Yi − Yi1 + Y0
n i=1 n i=1 n0 n i=1 i

n1 n0
! n n
1 0
1 X X 1X n1 X
= Yi1 + Yi0 − 1
Y + Y0
n i=1 i=1
n i=1 i n0 n i=1 i
n0
X
1 n1
= + Yi0
n n0 n i=1

n0
1 X
= Y 0,
n0 i=1 i

ce qui fut à démontrer. La statistique t pour tester la significativité du coefficient estimé β̂1 est
donnée par la formule habituelle :
β̂1
t= .
SE β̂1

Dans ce cas, nous avons

Ȳ 1 − Ȳ 0
t= q ,
Var Ȳ 1 − Ȳ 0

Ȳ 1 − Ȳ 0
=q ,
Var Ȳ 1 + Var Ȳ 0

Ȳ 1 − Ȳ 0 − 0
= q 2 ,
σ 1 σ2 0
Y
n1
+ n0 Y

où
n1 n0
1 X
1 1 0 1 X
Ȳ ≡ Y , Ȳ ≡ Y 0.
n1 i=1 i n0 i=1 i

Cette formule correspond exactement à la formule dérivée dans le chapitre sur la statistique et
les tests d’hypothèses pour tester la différence entre les moyennes de deux populations

61
différentes.
Ici, l’hypothèse d’hétéroscédasticité permet à la variance de l’erreur du modèle de régression
de dépendre des deux valeurs différentes possibles de Di .

12 Concepts à retenir

• Comment écrire le modèle de régression simple.

• Le problème de minimisation auquel l’estimateur MCO est une solution.
• Pourquoi l’estimateur MCO est l’estimateur le plus fréquemment utilisé dans le modèle de
régression simple (simplicité de la solution et, sous l’hypothèse de l’homoscédasticité du
terme d’erreur, l’efficience de l’estimateur parmi la classe d’estimateurs linéaires).
• Les propriétés algébriques de l’estimateur MCO. Il est important de pouvoir suivre les
démonstrations de ces propriétés et de les comprendre, mais il n’est pas nécessaire d’être
capable de les reproduire.
• Le concept du R2 , et les concepts de somme totale des carrés, somme expliquée des
carrés, et somme des résidus carrés et la relation entre ces sommes.
• Les hypothèses statistiques de base du modèle de régression simple qui sont requises pour
montrer l’absence de biais et la convergence de l’estimateur MCO.
• Les hypothèses additionnelles nécessaires pour montrer l’efficience de l’estimateur MCO
(théorème Gauss-Markov) — l’hypothèse cruciale est celle de l’homoscédasticité de
l’erreur du modèle.
• Il faut avoir suivi et compris la dérivation des propriétés échantillonnales des coefficients
estimés.
• Comprendre pourquoi on utilise des écarts types robustes, et pourquoi et comment ils
peuvent être différents par rapport aux écarts types non robustes.
• Comment tester des hypothèses concernant les coefficients estimés du modèle, contre des

62
hypothèses alternatives bilatérales ou unilatérales.
• Retenir l’idée que test de significativité veut dire tester l’hypothèse nulle qu’un
coefficient est égal à zéro contre l’hypothèse alternative bilatérale.
• Comment calculer un intervalle de confiance pour les coefficients du modèle.
• Comment calculer un intervalle de confiance pour un changement prédit.

13 Références

Voir ce lien :
http://www.steveambler.uqam.ca/4272/referenc.pdf

Dernière modification : 02/03/2018

Vous aimerez peut-être aussi

Introduction à la régression simple en économétrie
Pas encore d'évaluation
Introduction à la régression simple en économétrie
44 pages
Notes sur la régression multiple en économétrie
Pas encore d'évaluation
Notes sur la régression multiple en économétrie
121 pages
Économétrie : Modèles Linéaires et Tests
Pas encore d'évaluation
Économétrie : Modèles Linéaires et Tests
64 pages
Econometrie
Pas encore d'évaluation
Econometrie
118 pages
Modèle de régression multiple en économétrie
Pas encore d'évaluation
Modèle de régression multiple en économétrie
98 pages
Introduction à l'économétrie et modèles statistiques
Pas encore d'évaluation
Introduction à l'économétrie et modèles statistiques
28 pages
Econométrie (M1) - Chapitre 2 (2019-2020)
Pas encore d'évaluation
Econométrie (M1) - Chapitre 2 (2019-2020)
47 pages
Econométrie Cours de Bruno Crepon
Pas encore d'évaluation
Econométrie Cours de Bruno Crepon
279 pages
ENSAEEconometrie Cursusintegre 2006
Pas encore d'évaluation
ENSAEEconometrie Cursusintegre 2006
101 pages
Introduction à l'économétrie linéaire
Pas encore d'évaluation
Introduction à l'économétrie linéaire
283 pages
Introduction à l'économétrie avec SAS
Pas encore d'évaluation
Introduction à l'économétrie avec SAS
15 pages
Modèle de régression linéaire simple
Pas encore d'évaluation
Modèle de régression linéaire simple
14 pages
Econométrie I 17 18
Pas encore d'évaluation
Econométrie I 17 18
31 pages
Econométrie Linéaire Appliquée (PDFDrive)
Pas encore d'évaluation
Econométrie Linéaire Appliquée (PDFDrive)
253 pages
Économétrie Linéaire Appliquée
Pas encore d'évaluation
Économétrie Linéaire Appliquée
253 pages
CHAPITRE II MODELE DE REGRESSION LINEAIRE SIMPLE - Copie - Copie
Pas encore d'évaluation
CHAPITRE II MODELE DE REGRESSION LINEAIRE SIMPLE - Copie - Copie
26 pages
Cours D'économétrie 2 Seco4
Pas encore d'évaluation
Cours D'économétrie 2 Seco4
52 pages
Econométrie I: Mounir JERRY Année Universitaire 2021-2022
Pas encore d'évaluation
Econométrie I: Mounir JERRY Année Universitaire 2021-2022
68 pages
Bruno Crépon - Économétrie Lineaire
Pas encore d'évaluation
Bruno Crépon - Économétrie Lineaire
280 pages
Modèle de régression simple et MCO
Pas encore d'évaluation
Modèle de régression simple et MCO
41 pages
Chap 2
Pas encore d'évaluation
Chap 2
107 pages
Modèle de Régression Linéaire Multiple
100% (2)
Modèle de Régression Linéaire Multiple
65 pages
Cours Econométrie
100% (1)
Cours Econométrie
60 pages
Introduction à la régression linéaire
Pas encore d'évaluation
Introduction à la régression linéaire
20 pages
Initiation à l'économétrie avec SAS
Pas encore d'évaluation
Initiation à l'économétrie avec SAS
58 pages
Introduction à l'économétrie et régression
Pas encore d'évaluation
Introduction à l'économétrie et régression
18 pages
L - Expérience Du Métier Que J - Ai Acquise Au Sein de La Banque Durant L - Exercice 2018
Pas encore d'évaluation
L - Expérience Du Métier Que J - Ai Acquise Au Sein de La Banque Durant L - Exercice 2018
42 pages
Propriétés des Estimateurs en Econométrie
Pas encore d'évaluation
Propriétés des Estimateurs en Econométrie
6 pages
Régression Mutilinéaire
Pas encore d'évaluation
Régression Mutilinéaire
16 pages
Introduction à la Régression Linéaire
Pas encore d'évaluation
Introduction à la Régression Linéaire
1 page
Introduction à l'économétrie et modèles linéaires
Pas encore d'évaluation
Introduction à l'économétrie et modèles linéaires
44 pages
Introduction au Modèle Linéaire
Pas encore d'évaluation
Introduction au Modèle Linéaire
22 pages
Chapitre2 MSI NH
Pas encore d'évaluation
Chapitre2 MSI NH
57 pages
NotesEconometrie
Pas encore d'évaluation
NotesEconometrie
46 pages
Introduction à l'économétrie et régression
Pas encore d'évaluation
Introduction à l'économétrie et régression
84 pages
Introduction à l'économétrie et régression
Pas encore d'évaluation
Introduction à l'économétrie et régression
35 pages
Introduction à la régression linéaire
Pas encore d'évaluation
Introduction à la régression linéaire
181 pages
MEA-Ch2 - S1-18-23
Pas encore d'évaluation
MEA-Ch2 - S1-18-23
83 pages
coursMethEcon3 1415
Pas encore d'évaluation
coursMethEcon3 1415
35 pages
Introduction à la Régression Linéaire
Pas encore d'évaluation
Introduction à la Régression Linéaire
183 pages
Cours d'Économétrie I : Régression et Corrélation
Pas encore d'évaluation
Cours d'Économétrie I : Régression et Corrélation
67 pages
Chap2 Econométrie
Pas encore d'évaluation
Chap2 Econométrie
31 pages
Introduction à l'économétrie appliquée
Pas encore d'évaluation
Introduction à l'économétrie appliquée
113 pages
CHP 2
Pas encore d'évaluation
CHP 2
8 pages
Régression Linéaire Simple et MCO
Pas encore d'évaluation
Régression Linéaire Simple et MCO
9 pages
Régression Linéaire Multiple
Pas encore d'évaluation
Régression Linéaire Multiple
8 pages
Estimation et Modélisation Statistique
Pas encore d'évaluation
Estimation et Modélisation Statistique
68 pages
Modèle de régression linéaire simple
Pas encore d'évaluation
Modèle de régression linéaire simple
13 pages
Regression
Pas encore d'évaluation
Regression
38 pages
Kempe Ners
Pas encore d'évaluation
Kempe Ners
11 pages
Moniteur de Courant AC Par LM358
Pas encore d'évaluation
Moniteur de Courant AC Par LM358
14 pages
Chimie - 1re CD - Electrolyse en Solution Aqueuse
100% (3)
Chimie - 1re CD - Electrolyse en Solution Aqueuse
2 pages
Établissements avec option cinéma audiovisuel
Pas encore d'évaluation
Établissements avec option cinéma audiovisuel
18 pages
Rapport de Stage - 2
100% (1)
Rapport de Stage - 2
28 pages
Chap 2 Le Marché
Pas encore d'évaluation
Chap 2 Le Marché
7 pages
Évaluation des besoins en personnel MCO
Pas encore d'évaluation
Évaluation des besoins en personnel MCO
12 pages
Routage Avec QoS Dans L'internet (QoS Routing in The Internet)
100% (1)
Routage Avec QoS Dans L'internet (QoS Routing in The Internet)
35 pages
TH 7 Interro Générale
Pas encore d'évaluation
TH 7 Interro Générale
7 pages
Évaluation des Risques au Travail
Pas encore d'évaluation
Évaluation des Risques au Travail
1 page
CV
Pas encore d'évaluation
CV
4 pages
Plan Technique de Construction
Pas encore d'évaluation
Plan Technique de Construction
1 page
Anatomie Du Perinee
Pas encore d'évaluation
Anatomie Du Perinee
26 pages
Nemo Hand Book
Pas encore d'évaluation
Nemo Hand Book
132 pages
Se mentir à soi-même : vérité ou illusion ?
0% (1)
Se mentir à soi-même : vérité ou illusion ?
3 pages
La Salsa Dura
100% (1)
La Salsa Dura
9 pages
Combat Proterre : TTA 150 Édition 2018
Pas encore d'évaluation
Combat Proterre : TTA 150 Édition 2018
244 pages
Partition de Guitare "Venom"
Pas encore d'évaluation
Partition de Guitare "Venom"
5 pages
Blanc 2020 Assabila
Pas encore d'évaluation
Blanc 2020 Assabila
5 pages
Corrigé brevet des collèges 2020
Pas encore d'évaluation
Corrigé brevet des collèges 2020
3 pages
Boussole PDF
Pas encore d'évaluation
Boussole PDF
6 pages
Morphologie des Fleurs des Angiospermes
Pas encore d'évaluation
Morphologie des Fleurs des Angiospermes
43 pages
Formations en Froid et Génie Thermique
Pas encore d'évaluation
Formations en Froid et Génie Thermique
2 pages
Principes de Management Support de Cours
Pas encore d'évaluation
Principes de Management Support de Cours
114 pages
Évaluation Diagnostique 5ème Sciences
Pas encore d'évaluation
Évaluation Diagnostique 5ème Sciences
2 pages
Formation en mécanique et maintenance industrielle
Pas encore d'évaluation
Formation en mécanique et maintenance industrielle
5 pages
TP Word 1 A 8 Vo2010 v1
Pas encore d'évaluation
TP Word 1 A 8 Vo2010 v1
34 pages
La Résilience. Session 3
Pas encore d'évaluation
La Résilience. Session 3
4 pages
Équipement Électrique: Caractéristiques
Pas encore d'évaluation
Équipement Électrique: Caractéristiques
26 pages
Resume Mondialisation
Pas encore d'évaluation
Resume Mondialisation
3 pages
Convention Collective Enseignement Privé Hors Contrat
Pas encore d'évaluation
Convention Collective Enseignement Privé Hors Contrat
116 pages

Cou Ecn

Transféré par

Cou Ecn

Transféré par

ECO 4272 : Introduction à l’économétrie

Notes sur le modèle de régression simple

3 Le modèle de régression simple 4

4 Estimateur moindres carrés ordinaires (MCO) 5

5 Hypothèses statistiques de base du modèle 19

6 Propriétés statistiques de l’estimateur 22

7 Propriétés échantillonnales de l’estimateur 36

9 Intervalles de confiance pour les coefficients 49

11 Le modèle de régression simple lorsque X est une variable dichotomique 58

• Présenter le modèle de régression simple.

3 Le modèle de régression simple

• Le modèle de base peut s’écrire

4 Estimateur moindres carrés ordinaires (MCO)

• Nous considérons le problème de prédire la valeur de la variable dépendante Yi , étant

• Donc, le programme peut s’écrire

Ensuite, par rapport au choix de β1 :

⇒ β̂0 = Ȳ − β̂1 X̄.

Ceci est facile à montrer. Nous avons

4.1 Propriétés algébriques clés de l’estimateur MCO

4.1.1 La somme des résidus est zéro

le résidu de la régression pour l’observation i.

4.1.2 La valeur moyenne de la variable dépendante prédite est égale à la moyenne

4.1.3 Orthogonalité entre la variable explicative et les résidus

• Nous voulons montrer que :

• L’orthogonalité est reliée à l’interprétation géométrique de la méthode des MCO. Estimer

4.2 La notion de l’ajustement statistique (R2 )

la somme totale des carrés ( total sum of squares  en anglais) ;

la somme des résidus au carré ( residual sum of squares  en anglais) ;

la somme expliquée des carrés ( explained sum of squares  en anglais).

• Il faut aussi que

• L’ajustement statistique s’appelle aussi le  coefficient de détermination  de la

• Je montre ce résultat dans l’encadré qui suit.

Nous avons aussi (en multipliant le numérateur et le dénominateur dans la définition de la

Donc, il faut montrer que

ce qui fut à démontrer.

4.3 L’écart type de la régression

5 Hypothèses statistiques de base du modèle

• À partir de ce point, nous élaborons quelques propriétés statistiques de l’estimateur

5.1 Espérance conditionnelle nulle de l’erreur

• Nous supposons que :

5.2 Observations i.i.d.

• Nous supposons que :

5.3 Les observations aberrantes sont peu probables

• Nous supposons que :

5.4 Notre approche

2. Souvent, lorsqu’on présente le modèle de base, on suppose aussi que la variance

Var (ui |X = Xi ) = Var (ui ) = σu2 .

L’avantage de ces hypothèses simplificatrices est de simplifier l’algèbre. On arrive à une

6.1 Absence de biais de l’estimateur

E (E (Yi |Xi )) = E (Yi ) .

Nous l’avons tout simplement appliqué à la variable aléatoire qui est

E (ui ) = E (E (ui |Xi )) .

6.3 Efficience de l’estimateur

6.3.1 Théorème Gauss-Markov

2. Var (ui |X1 , . . . , Xn ) = σu2 , 0 < σu2 < ∞.

et qui satisfait la propriété

• Nous avons aussi

• De cette façon, nous avons

• Nous avons donc

• Calculons la variance conditionnelle de β̃1 . Nous avons

• Les covariances disparaissent à cause de la troisième hypothèse ci-dessus.

( ni=1 Xi ai − ni=1 Xi âi ) − X̄ ( ni=1 ai − ni=1 âi )

• Finalement, nous avons donc

si ∃i tel que di 6= 0. Si di = 0, ∀i, l’estimateur β̃1 est tout simplement l’estimateur

6.4 Erreur quadratique moyenne

• Il s’agit de l’espérance de l’écart au carré entre la valeur de l’estimateur et sa vraie valeur.

Var (X) = E X 2 − (E (X))2 .

ce qui fut à montrer, puisque

dû au fait que β n’est pas une variable aléatoire.

qu’on appelle un  shrinkage estimator  en anglais.)

pour des constantes quelconques ai .

• Les variables de choix du problème sont les ai et non βe lui-même.

• Multiplions cette expression par Yi et calculons la somme à travers les n termes en ai .

puisque nous avons défini au départ notre estimateur comme βe ≡ ni=1 ai Yi .

(par un simple changement d’indice)

7 Propriétés échantillonnales de l’estimateur

la somme totale des carrés ( total sum of squares en anglais) ;

la somme des résidus au carré ( residual sum of squares en anglais) ;

la somme expliquée des carrés ( explained sum of squares en anglais).

• L’ajustement statistique s’appelle aussi le coefficient de détermination de la

qu’on appelle un shrinkage estimator en anglais.)

(lorsqu’on ne suppose pas l’homoscédasticité) où on utilise un estimateur robuste de

• On appelle appelle communément un test de significativité un test de l’hypothèse