École National de la Statistique et de l’économie appliquée ECONOMETRIE , Cours 02
1. Estimation de la variance des erreurs
Les variances et la covariance de ˆ et ˆ dépendent du paramètre inconnu σ2 . Une
1 n
procédure naturelle serait de calculer la variance d’échantillon ei e 2 , et de
n i 1
corriger un biais éventuel pour arriver à un estimateur de σ2 .
n n
e e ei
2 2
i
i 1 i 1
Nous avons:
ei Yi Yˆi
ei X i i ˆ ˆX i
i
e X Y ˆX ˆX i i i
ei X X ˆX ˆX
i i i
ei ˆ X X
i i
Alors:
X X 2 ˆ X i X
n n 2 n n
e i ˆ
2 2 2
i i i
i 1 i 1 i 1 i 1
X i X X i X ( ˆ ) X i X
n n n n
w
2 2
i i i
i 1 i 1 i 1 i 1
Puisque:
n n
wi i wi i ˆ
i 1 i 1
Donc:
ˆ X X 2 ˆ X X
n n 2 n 2 n
e i
2 2 2 2
i i i
i 1 i 1 i 1 i 1
X
2 n
X
n n
ei2 i ˆ
2 2
i
i 1 i 1 i 1
Calculons séparément l’espérance de chacun de ces termes:
n 2
n 1 n
2
E i E i2 i n 2 2
n
i 1 i 1 n i 1 n
E ˆ X
2 n
i
2
X 2
i 1
Et donc :
n
E ei2 (n 2) 2
i 1
Alors: l’estimateur de la variance des erreurs est:
1
École National de la Statistique et de l’économie appliquée ECONOMETRIE , Cours 02
e 2
i
ˆ 2 i 1
( n 2)
Dans le cas qui nous occupe, nous avons deux conditions liant les résidus ei, à savoir:
n
e
i 1
i 0
n
e X
i 1
i i 0
Si nous connaissons n−2 des résidus, nous pouvons déterminer les valeurs des deux derniers à
l’aide de ces conditions.
2. Décomposition de la variance: le coefficient de détermination
Le Coefficient de Détermination :
Le R2 indique la proportion de variation dans la variable endogène qui est expliquée par la
variable exogène. Pour dériver la formule du R2, on part de l’expression suivante:
Y Yˆ ˆ
i i i
Yi Y Yˆi Y ˆi
Y i Y Yˆi Y
2
2
ˆ 2 2 Yˆi Y ˆ
En sommant cette dernière expression :
(Y
i
i Y ) 2 (Yˆi Y ) 2 ˆi2
i i
On définit alors le coefficient de détermination comme :
SCE SCR
R2 1
SCT SCT
2
R mesure donc la proportion de la somme expliquée par rapport à la somme totale
0 R 2 1.
SCT : somme des carrés totaux, Elle indique la variabilité totale de Y c.-à-d. l'information
disponible dans les données.
SCE : somme des carrés expliqués par le modèle. Elle indique la variabilité expliquée par le
modèle , c-à-d. la variation de Y expliquée par X.
SCR : somme des carrés résiduels, non expliqués par le modèle.( (partie de la variation totale
qui n'est pas expliquée par le modèle de régression).
R²→1, le modèle est excellent
R→ 0, le modèle ne sert à rien, les variables X et Y ne sont pas corrélées linéairement.
- Dans le meilleur des cas, SCR = 0 et donc SCT = SCE : les variations de Y sont
complètement expliquées par celles de X. On à un modèle parfait, la droite de régression
passe exactement par tous les points du nuage yˆ i y i .
- Dans le pire des cas, SCE =0: X n'apporte aucune information sur Y. Ainsi, yˆ i y .
A partir de ces informations, nous pouvons produire le tableau d'analyse de variance
2
École National de la Statistique et de l’économie appliquée ECONOMETRIE , Cours 02
Tableau d'analyse de variance pour la régression simple
Source de variation Somme des carrés Degrés de liberté Carrés moyens
expliquée SCE= (Yˆi Y ) 2 1 SCE/1
i
Résiduelle SCR= (Yi Yˆ ) 2 n-2 SCR/(n-2)
i
Totale SCT= (Yi Y ) 2 n-1 SCT/(n-1)
i
3. Distribution des coefficients estimés et intervalles de confiances
Pour étudier les coefficients estimés, il importe d'en calculer les paramètres (l'espérance et la
variance essentiellement) et de déterminer la loi de distribution. Nous pourrons dès lors mettre
en œuvre les outils usuels de la statistique inférentielle : la définition des intervalles de
variation à un niveau de confiance donné ; la mise en place des tests d'hypothèses, notamment
les tests de significativité.
3.1 Distribution de ̂ et ̂
X est non stochastique, Y l'est par l'intermédiaire du terme d'erreur ε. Nous introduisons
l'hypothèse selon laquelle: i (0, 2 ).
De fait, Yi X i i suit aussi une loi normale,
n n
Et ˆ d i i , ˆ wi i seront normales, puisque ce sont alors des combinaisons
i 1 i 1
linéaires de variables normales indépendantes.
Si σ2 était connue, nous aurions:
ˆ ˆ
→N(0.1) et →N(0.1)
ˆ ˆ
Rappelons que la variance de ̂ s'écrit :
2
2ˆ n
(X
i 1
i X )2
Nous pourrions alors écrire, par exemple :
ˆ
Pr z z 1
2 ˆ 2
Ou: zα/2 est la valeur de la variable normale centrée réduite ayant une probabilité α/2 d’être
dépassée.
Nous aurions alors:
3
École National de la Statistique et de l’économie appliquée ECONOMETRIE , Cours 02
Pr ˆ z ˆ ˆ z ˆ 1
2 2
Les bornes cherchées sont donc :
ˆ z ˆ et ˆ z ˆ
2 2
Si σ2 était inconnue
En pratique, σ2 est inconnue. Que se passe-t-il lorsqu’on la remplace par son estimation sans
biais ?
3.2 Distribution de l'estimation de la variance de l'erreur
Il nous faut connaître la distribution de l'estimation de la variance de l'erreur pour pouvoir
déterminer la distribution des coefficients estimés lorsque nous introduirons ˆ 2 dans les
expressions de leur variance.
2 ˆ 2
2
ˆ n
ˆ 2
ˆ n
(X
i 1
i X) 2
(X
i 1
i X )2
On a besoin de connaître la distribution de ˆ 2
Par hypothèse Le résidu étant une réalisation de i, elle suit aussi une loi normale:
ˆi N 0, 2
ˆi
N 0,1
En passant au carré, nous avons un 2 . Il ne nous reste plus qu'à former la somme des termes
1
ˆi
2 i ˆ i
2
2
i 2 ( n 2)
Ou, de manière équivalente, en se référant à l'estimateur de la variance de l'erreur :
ˆ 2
(n 2) 2 2
( n 2)
Nous pouvons maintenant revenir sur la distribution des coefficients calculés lorsque
toutes ses composantes sont estimées à partir des données.
2
e 2
i
S 2 ˆ 2 i 1
n2
Distribution des coefficients dans la pratique
Pour reprendre l’exemple de ̂ :
4
École National de la Statistique et de l’économie appliquée ECONOMETRIE , Cours 02
ˆ ˆ
ˆ ˆ 2
e 2
i
1
i 1
n2
X X
n
2
i
i 1
ˆ
1
2
X X
n
2
N 0,1
i
i 1 N
n D 2n 2
e 2
i
i 1 (n 2)
2 n 2
N est une variable normale réduite. Nous prouverons rigoureusement plus loin que :
n
e
i 1
2
i
2
Est une variable χ2 avec n−2 degrés de liberté, indépendante de la variable N. Par définition,
le rapport N/D est alors une variable Student avec n−2 degrés de liberté.
Donc :
ˆ t n2 et, de manière analogue ˆ t n 2
ˆ ˆ ˆ ˆ
Et les intervalles de confiance sont donnés par:
Pr ˆ t ˆ ˆ t
ˆ ˆ ˆ 1
n 2 , n 2 ,
2 2
Pr ˆ t ˆ
ˆ ˆ1 t ˆ ˆ 1
n 2 , n 2 ,
2 2
4. Tests d’hypothèses
Dans le contexte des tests d’hypothèses, il y a toujours deux hypothèses, l’hypothèse nulle
(H0) et l’hypothèse alternative (H1).
Pour tester: H0: 0 contre H1 : 0 on ne rejettera pas H0 si :
0 ˆ ˆ ˆ t n 2 , ˆ ˆ ˆ t n 2
2
2
Pour tester: H0: 0 contre H1: 0 on rejette H0 si :
0 ˆ ˆ ˆ t n 2
2
Pour tester: H0: 0 contre H1: 0 on rejette H0 si : 0 ˆ ˆ ˆ t n 2 2
Des procédures analogues sont évidemment valables pour le paramètre α
Test sur la nullité de la pente β
5
École National de la Statistique et de l’économie appliquée ECONOMETRIE , Cours 02
Test d’hypothèses unilatéral
Soit à tester, à un seuil de 5%, l’hypothèse H0: 0 contre l’hypothèse H1 :
0 ou 0 selon que le coefficient estimé soit positif ou négatif.
Le test d’hypothèses unilatéral consiste donc à comparer le ratio de Student empirique
ˆ
tc à la valeur du t de Student lue dans la table à n – 2 degrés de liberté et pour un seuil
ˆ ˆ
de probabilité égal à 5 %, soit si : n – 2 > 30, t 0.05 1.65
Si t c t 0.05 1.65 nous rejetons l’hypothèse H0 , β est significativement différent de 0.
Attention, la table de Student tabulée pour les tests bilatéraux, il faut donc lire à 10 % = 2 ×
0,05.
Graphique 1 – Test unilatéral à 5%
Test bilatéral
Soit à tester, à un seuil de 5 %, l’hypothèse H0: 0 contre l’hypothèse H1 : 0 Nous
ˆ
savons que suit une loi de Student à n – 2 degrés de liberté.
ˆ ˆ
ˆ 0
Sous H0: 0 le ratio appelé ratio de Student suit donc une loi de Student à n – 2
ˆ ˆ
degrés de liberté.
Le test d’hypothèses bilatéral consiste donc à comparer le ratio de Student empirique
ˆ
tc à la valeur du t de Student lue dans la table à n – 2 degrés de liberté. et pour un seuil
ˆ ˆ
de probabilité égal à 5 %, soit si n – 2 > 30, t 0.025 1.96
Si tc> t 0.025 1.96 , nous rejetons l’hypothèse H0 (cf. graphique 4), le coefficient théorique et
inconnu β est significativement différent de 0.
6
École National de la Statistique et de l’économie appliquée ECONOMETRIE , Cours 02
Graphique 2 – Test bilatéral à 5%
La région de rejet est située à l'extrémité droite et à l'extrémité gauche du domaine (test
bilatéral).
Remarque: si nous rejetons l’hypothèse H0 pour un test bilatéral, alors nous rejetons
forcément (pour un même seuil de probabilité) l’hypothèse H0 pour un test unilatéral.
Le test global : test de Fisher
Il existe un test de Fisher qui dans un modèle avec terme constant permet de tester si
tous les coefficients sont nuls sauf le terme constant.
R2 1 R2
F
1 R 2 (n 2) 1 R 2 .(n 2) ~ F1,n2
SCE 1
F ~ F1,n 2
SCR (n 2)
Si la valeur calculée du test supérieure a la valeur tabulée, on rejette l'hypothèse nulle
Interprétation. Cette statistique indique si la variance expliquée est significativement
supérieure à la variance résiduelle.
Remarque . Équivalence des tests de Student et de Fisher :
t c2 Fc
Il n’y a aucune déférence entre la règle de décision de Student et celle de Fisher dans le cas du
modèle à une variable explicative.
7
École National de la Statistique et de l’économie appliquée ECONOMETRIE , Cours 02
Tables statistiques
8
École National de la Statistique et de l’économie appliquée ECONOMETRIE , Cours 02
9
École National de la Statistique et de l’économie appliquée ECONOMETRIE , Cours 02
11
École National de la Statistique et de l’économie appliquée ECONOMETRIE , Cours 02
11