Econométrie
avec application sous SAS
M1 IES
[email protected] Bibliographie
B. Crépon et N. Jacquemet (2010), Econométrie: méthode et
applications, Groupe de Boeck s.a.;
V. Delsart, A. Rys et N. Vaneecloo (2009), Econométrie: théorie et
application sous SAS, Presses Universitaires du Septentrion
B. Dormont (2006), Introduction à l’économétrie, Montchrestien,
2ème édition;
W. Green (2011), Econométrie, Pearson Education
J. Wooldridge (2009), Introductory Econometrics. A Modern
Approach, Forth Edition.
2
Plan du cours
Introduction: définition, modélisation, données,
estimation, régression simple
Le modèle de régression multiple
Estimation, tests, interprétation des coefficients,
mesures de la qualité de l’ajustement, spécification
Violation de certaines hypothèses:
Multicollinéarité
Hétéroscédasticité et autocorrélation
3
Régression multiple
Inférence
Tests
Interprétation des coefficients
Introduction
Source: cours d’Antoine Terracol pour la première année du Master Economie Théorique et Empirique à Paris 1.
5
Introduction
Source: cours d’Antoine Terracol pour la première année du Master Economie Théorique et Empirique à Paris 1.
6
Introduction
Source: cours d’Antoine Terracol pour la première année du Master Economie Théorique et Empirique à Paris 1.
7
Introduction
Source: cours d’Antoine Terracol pour la première année du Master Economie Théorique et Empirique à Paris 1.
8
Introduction
Source: cours d’Antoine Terracol pour la première année du Master Economie Théorique et Empirique à Paris 1.
9
Introduction
Source: cours d’Antoine Terracol pour la première année du Master Economie Théorique et Empirique à Paris 1.
10
Introduction
Source: cours d’Antoine Terracol pour la première année du Master Economie Théorique et Empirique à Paris 1.
11
Introduction
Les estimations doivent être complétées par
des tests.
La valeur de est une réalisation qui dépend
des observations particulières des variables
explicatives et expliquées figurant dans
l’échantillon utilisé. On trouverait un résultat
différent en utilisant un autre échantillon.
Source: B. Crépon et N. Jacquemet (2010), Econométrie: méthode et applications, Groupe de Boeck s.a 12
Introduction
Il s’agit non seulement d’identifier la valeur vraie compatible
avec les données observées, mais également de caractériser le
lien de cette estimation avec la valeur des paramètres dans la
population dont l’échantillon est tiré.
Cette inférence des résultats issus d’un échantillon sur
l’ensemble des individus de la population est fondamentale: en
son absence, les résultats d’estimation sont spécifiques à
l’échantillon et apportent peu d’information sur le processus vrai
dont il est l’une des manifestations.
Pour transposer les résultats du particulier (l’échantillon) au
général (la population), il faut connaitre la loi de distribution
des estimateurs.
Source: B. Crépon et N. Jacquemet (2010), Econométrie: méthode et applications, Groupe de Boeck s.a 13
La normalité de
H6: Le vecteur des résidus suit une distribution normale
multivariée: ~ 0,
Sous cette hypothèse est aussi normalement distribué:
~ ( , )
L’hypothèse de normalité permet de caractériser de façon
probabiliste les oscillations de l’estimateur, autour de la vraie
valeur des paramètres, induites par les variations d’échantillon.
A l’aide d’intervalles de confiance ou de tests d’hypothèses, il
devient possible d’affiner l’interprétation des résultats en
reliant les estimations issues de l’échantillon aux valeurs
vraies du processus à l’œuvre dans la population.
Source: B. Crépon et N. Jacquemet (2010), Econométrie: méthode et applications, Groupe de Boeck s.a 14
Intervalle de confiance de
− − ; + − =1−$
Lecture:
Intervalle de confiance au niveau 1 − $ , contient la vraie valeur
du paramètre avec les probabilité 1 − $ , et ne la contient pas
avec la probabilité α.
Intervalle de − écarts-types autour notre estimation de
a (1-α)% de chances de contenir la vraie valeur de
Source: B. Crépon et N. Jacquemet (2010), Econométrie: méthode et applications, Groupe de Boeck s.a 15
Intervalle de confiance de
16
Intervalle de confiance de
%&
= (' + (' + ) *' + + + '
% '
%&
- le taux de croissance des salaires
% '
(' - le taux d’inflation trimestriel
*' - le taux de chômage
' - le terme résiduel
%&
= 0,36(' + 0,38(' − 0,15*' + 0,02
% ' (0,079) (0,013) (0,002)
(0,077)
17
Intervalle de confiance de
n=80
− = 1,1 2 76 = 1,99
) − 1,1 2 76 5 ; ) + 1,1 2 76 5
−0,15 − 1,99 × 0,013; −0,15 + 1,99 × 0,013
−0,18; −0,12
Lecture: l’intervalle −0,18; −0,12 a 95% de chances de
contenir la vraie valeur de )
Lecture: l’intervalle de 1,99 écarts-types autour de notre
estimation de ) a 95% de chances de contenir la vraie valeur de
)
18
Les tests d’hypothèses scalaires dans
le modèle linéaire
71 : l’hypothèse nulle
contre
78 : l’hypothèse alternative
Lors de la réalisation d’un test deux types
d’erreurs peuvent être commises:
1. Rejeter l’hypothèse nulle, 71 , alors qu’elle est
vraie, c’est l’erreur de première espèce
2. Ne pas rejeter l’hypothèse nulle alors qu’elle est
fausse, c’est l’erreur de seconde espèce
19
Les tests d’hypothèses scalaires dans
le modèle linéaire
REALITE
71 7:
D
erreur de
E 71 pas d'erreur
C deuxième espèce
I
S
7: erreur de
I pas d'erreur
O première espèce
N
20
Les tests d’hypothèses scalaires dans
le modèle linéaire
Les étapes du test:
1. On spécifie une hypothèse nulle (71 ) que l’on cherche à
tester contre une hypothèse alternative (78 ).
2. On spécifie une statistique de test dont on connaît la loi de
probabilité sous 71 (c’est-à-dire si l’hypothèse nulle est
effectivement vérifiée).
3. On choisit le niveau du test (α) i.e. la probabilité de rejeter
l’hypothèse nulle à tort (risque de première espèce).
4. On calcule la statistique observée à partir des données
5. On cherche à savoir si la valeur obtenue est compatible
avec l’hypothèse nulle, compte tenu de la probabilité
d’erreur que l’on a choisie.
21
Les tests d’hypothèses scalaires dans
le modèle linéaire
Le test d’égalité sur un paramètre ;
71 : = 1
contre
7 : ≠ 1
=
?@
~ ( − )
>
=
AB: ?@
> ( − )
>
22
Les tests d’hypothèses scalaires dans
le modèle linéaire
1
−
AB: > D( − )
− est défini comme la limite des valeurs rarements
prises (dans 5% des cas) par un t(n-p).
Intuition:
comme un connaît la loi de probabilité régissant le « comportement »
de la statistique observée (puisque c’est une variable aléatoire) sous 71 ,
on connaît la probabilité (toujours si 71 est vraie) que la statistique
observée soit éloignée de la valeur “parfaite” de la statistique de plus
d’une certaine distance.
L’appartenance ou non de la statistique observée à une zone de rejet
éloignée de la statistique « parfaite » de façon trop improbable au
regard de notre hypothèse nulle détermine le rejet ou le non-rejet de 71
23
Les tests d’hypothèses scalaires dans
le modèle linéaire
1
−
AB: > D( − )
− est défini comme la limite des valeurs rarements prises (dans 5%
des cas) par un t(n-p).
Intuition (suite):
Imaginons que α=5%. Comme on connaît la loi de probabilité de la
statistique sous 71 , on sait que, en supposant que 71 soit vraie, la
statistique calculée n’aura que 5% de chances d’appartenir à une plage
de valeurs limitées par un (des) seuil(s) de rejet.
Si la valeur observée de la statistique appartient à cette zone de rejet,
cela veut dire qu’il n’y a que 5% de chances qu’elle suive
effectivement la loi théorique.
Il n’y a donc que 5% de chances que 71 soit vraie. On rejette donc
l’hypothèse nulle (il existe une probabilité de 5% pour que l’on se
trompe en faisant cette conclusion).
24
Les tests d’hypothèses scalaires dans
le modèle linéaire
Exemple
%&
= 0,36(' + 0,38(' − 0,15*' + 0,02
% ' (0,077) (0,013) (0,002)
(0,079)
71 : = 0,5
contre:
78 : ( ≠ 0,5)
25
Les tests d’hypothèses scalaires dans
le modèle linéaire
Exemple
%&
= 0,36(' + 0,38(' − 0,15*' + 0,02
% '
(0,079) (0,077) (0,013) (0,002)
71 : = 0,5
contre:
78 : ( ≠ 0,5)
AB: E8F > D ( − )
E8F
− 0,5 0,36 − 0,5 −0,14
= = = = 1,77
G
0,079 0,079
D − = 1,1 2 76 = 1,99
Nous ne sommes pas dans la zone de rejet. On ne rejette donc
pas l’hypothèse nulle = 0,5 au seuil de 5%.
26
Les tests d’hypothèses scalaires dans
le modèle linéaire
Le cas particulier du test de significativité
71 : =0
contre
78 : ≠0
E8F
= ?@
~ ( − )
>
E8F
AB: > ( − )
27
Les tests d’hypothèses scalaires dans
le modèle linéaire
Exemple
%&
= 0,36(' + 0,38(' − 0,15*' + 0,02
% ' (0,079) (0,077) (0,013) (0,002)
71 : ) = 0
contre:
78 : ( ) ≠ 0)
28
Les tests d’hypothèses scalaires dans
le modèle linéaire
Exemple
%&
= 0,36(' + 0,38(' − 0,15*' + 0,02
% '
(0,079) (0,077) (0,013) (0,002)
71 : ) = 0
contre:
78 : ( ) ≠ 0)
AB: E8F > D ( − )
E8F ) −0,15 0,15
= = = = 11,54
5
0,013 0,013
D − = 1,1 2 76 = 1,99
Nous sommes dans la zone de rejet. On rejette donc
l’hypothèse nulle ) = 0 au seuil de 5%. Le coefficient ) est
significativement différent de 0 au seuil de 5%. 29
Test bilatéral sur un paramètre
30
Test unilatéral sur un paramètre IJ
Si on considère un test d’inégalité de la forme:
71 : ≥ 1
contre
7 : < 1
Nous n’avons qu’un seul motif de rejet: soit est
significativement inférieure à 1 :
E8F
AB: <− D −
1
E8F
−
=
31
Test unilatéral sur un paramètre J
32
La notion de p-value
E8F p-value
M M
Constante 8.827 0.059 150.267 0.000000
Education 0.084 0.018 4.6273 0.000004
Expérience 0.014 0.004 3.469 0.000523
NO éQRS TS -0.0002 0.0003 -0.639 0.522857
Nombre d’observations=197
33
La notion de p-value
E8F p-value
M M
Constante 8.827 0.059 150.267 0.000000
Education 0.084 0.018 4.6273 0.000004
Expérience 0.014 0.004 3.469 0.000523
NO éQRS TS -0.0002 0.0003 -0.639 0.522857
Nombre d’observations=197
P-value correspond à la probabilité qu’une variable aléatoire suivant la loi
déduite sous Ho prenne une valeur au moins égale à la statistique calculée
Dans l’exemple P-value correspond à la probabilité qu’une loi de Student à 193
degrés de liberté dépasse, en valeur absolue, la valeur absolue de la statistique
obtenue.
Par exemple, pour le rendement de l’éducation, la statistique est de 4,627, valeur
qui a 0,000004 chances d’être dépassée en valeur absolue par un tirage dans une
loi de Student à 193 degrés de liberté: ce coefficient est donc significativement
différent de 0 puisqu’il est très improbable qu’une loi de Student atteigne la valeur
observée.
34
Tests d’hypothèses jointes
Test de Fisher
35
Tests d’hypothèses jointes
Test de Fisher
VWB1 − VWB8 −
U =
VWB8 X
VWB1 − VWB8 YYZ[\
U =
VWB8 YYZ[= − YYZ[\
VWB1 − somme des carrées des résidus sous 71 (la
contrainte est vérifiée)
VWB8 - somme des carrées des résidus sous 78 (le modèle
complet)
YYZ[\ - le degré de liberté sous 78 (modèle complet)
YYZ[= - le degré de liberté sous 71 (modèle contraint)
X – nombre de contraintes =YYZ[= − YYZ[\
36
Le cas particulier du test de nullité de
tous les coefficients sauf la constante
] = +
] = + ⋯+ _ _ +S _ +
37
Le cas particulier du test de nullité de tous les
coefficients sauf la constante
B −
U =
1−B −1
AB: U > `D ( − 1, − )
38
Interprétation des coefficients
Dans le modèle de régression linéaire, le coefficient de
pente mesure la variation de la valeur moyenne de la
variable dépendante pour une unité de changement de
la valeur d’un régresseur, toutes les autres variables
demeurant constantes.
Si la régression: a = 1 + O, donc ∆a = ∆O
∆c
= - il s’agit donc de l’effet marginal de O sur a qui est
∆d
constant (puisque c’est une droite)
39
Interprétation des coefficients
Exemple 1.
ℎf gR h = 164 + 0,27R TfiS
housing – les dépenses mensuelles pour le logement (en
dollars)
income – le revenu mensuel (en dollars)
40
Interprétation des coefficients
Exemple 1.
ℎf gR h = 164 + 0,27R TfiS
housing – les dépenses mensuelles pour le logement (en dollars)
income – le revenu mensuel (en dollars)
Pour chaque dollar supplémentaire, 27 cents sont dépensés au
logement
41
42
Interprétation des coefficients
Exemple 1.
ℎf gR h = 164 + 0,27R TfiS
housing – les dépenses mensuelles pour le logement (en dollars)
income – le revenu mensuel (en dollars)
Pour chaque dollar supplémentaire, 27 cents sont dépensés au
logement
Et si le revenu familial augmente de 200 dollars?
43
Interprétation des coefficients
Exemple 1.
ℎf gR h = 164 + 0,27R TfiS
housing – les dépenses mensuelles pour le logement (en dollars)
income – le revenu mensuel (en dollars)
Pour chaque dollar supplémentaire, 27 cents sont dépensés au
logement
Et si le revenu familial augmente de 200 dollars?
Les dépenses au logement augmente de (0,27)*200=54$
44
Fonctions Quadratiques
Interprétation des coefficients
Exemple 2.
jkhS = 5,25 + 0,48SO SQ − 0,008SO SQ
wage – salaire horaire
exper – nombre d’années d’expérience professionnelle
Considérons l’équation: a = 1 + O+ O
∆a
≈ +2 O
∆O
∆a ≈ +2 O ∆O
Si > 0 et < 0, le maximum de cette fonction est égale à:
∗
0,48
O = n −2 = = 30
2 × 0,008
45
Fonctions Quadratiques
Interprétation des coefficients
Exemple 2.
jkhS = 5,25 + 0,48SO SQ − 0,008SO SQ
wage – salaire horaire
exper – nombre d’années d’expérience professionnelle
∆a ≈ + 2 O ∆O
La première année d’expérience augmente le salaire horaire
de 0.48 dollars ou 48 cents
Chaque année additionnel d’expérience augmente le salaire
moins que l’année précédente
Après 30 ans d’expérience une année additionnelle diminue
le salaire horaire 46
Logarithme népérien
Interprétation des coefficients
Exemple 3.
log r = 4,7 − 1,25log( )
q – quantité demandée
p – prix
47
Logarithme népérien
Interprétation des coefficients
Exemple 3.
log r = 4,7 − 1,25log( )
q – quantité demandée
p – prix
On peut démontrer que:
Zfh O − Zfh O1 ≈ O − O1 ⁄O1 = ∆O⁄O1
pour les petits changements de O
Si on multiplie par 100 l’équation précédente et posons Zfh O −
Zfh O1 = ∆log(O):
100 × ∆ log O ≈ %∆O
pour les petits changements de O
48
Logarithme népérien
Interprétation des coefficients
Exemple 3.
log r = 4,7 − 1,25log( )
q – quantité demandée
p – prix
Elasticité du prix par rapport à la demande est de -1,25. Une augmentation
d’1 pourcent du prix diminue la demande de 1,25%
On peut démontrer que:
Zfh O − Zfh O1 ≈ O − O1 ⁄O1 = ∆O ⁄O1
pour les petits changements de O
Si on multiplie par 100 l’équation précédente et posons Zfh O −
Zfh O1 = ∆log(O):
100 × ∆ log O ≈ %∆O
pour les petits changements de O
49
Log-level function
Interprétation des coefficients
Exemple 4.
log jkhS = 2,78 + 0,094SY T
wage – salaire horaire
educ – nombre d’années d’éducation
%∆jkhS ≈ 100 0,094 ∆SY T = 9,4∆SY T
Donc, une année d’éducation en plus augmente le salaire
horaire de 9,4%
log a = 1 + O
∆ log a = ∆O; Yf T 100 × ∆ log a = (100 × )∆O
Alors: %∆a ≈ (100 × )∆O 50
Level-log function
Interprétation des coefficients
Exemple 5.
ℎf Qg = 33 + 45,1 × log(wage)
hours – nombre d’heures du travail
wage – salaire
∆ℎf Qg ≈ 45,1⁄100 %∆jkhS = 0,451%∆jkhS
Une augmentation du salaire d’un pourcent augmente les
heures travaillées de 0,45, ou un peu moins qu’une demi-heure
Si le salaire augmente de 10%: ∆ℎf Qg = 0,451 10 = 4,51
51
Level-log function
Interprétation des coefficients
Exemple 5.
ℎf Qg = 33 + 45,1 × log(wage)
hours – nombre d’heures du travail
wage – salaire
a = 1 + log(O)
∆a = ∆log(O)
∆a = /100 100 × ∆log(O)
∆a ≈ /100 %∆O
52
Résumé
53
Interprétation de coefficient d’une
variable explicative binaire
Interprétation de coefficient d’une variable
explicative binaire
jkhS = 1 + y1 zSikZS + SY T +
zSikZS = 1 pour une femme
zSikZS = 0 pour un homme
Si zSikZS = 0:
Si zSikZS = 1:
Interprétation de coefficient d’une variable
explicative binaire
jkhS = 1 + y1 zSikZS + SY T +
zSikZS = 1 pour une femme
zSikZS = 0 pour un homme
Si zSikZS = 0:
jkhS = 1 + SY T +
Si zSikZS = 1:
jkhS = 1 + y1 + SY T +
Interprétation de coefficient d’une variable
explicative binaire
jkhS = 1 + y1 zSikZS + SY T +
zSikZS = 1 pour une femme
zSikZS = 0 pour un homme
Si zSikZS = 0:
jkhS = 1 + SY T +
Si zSikZS = 1:
jkhS = 1 + y1 + SY T +
y1 = N jkhS|zSikZS = 1, SY T − N(jkhS|zSikZS = 0, SY T)
y1 = N jkhS|zSikZS, SY T − N(jkhS|ikZS, SY T)
1 − la constante pour les hommes
y1 - la différence entre les constantes pour les femmes et les
hommes
Interprétation de coefficient d’une variable
explicative binaire
Interprétation de coefficient d’une variable
explicative binaire
jkhS
| = −1.57 − 1.81zSikZS +
0.572SY T + 0.025SO SQ
= 526
Interprétation de coefficient d’une variable
explicative binaire
jkhS
| = −1.57 − 1.81zSikZS + 0.572SY T +
0.025SO SQ
= 526
Le coefficient auprès de zSikZS mesure la
différence moyenne dans le salaire horaire entre
une femme et un homme, pour un même niveau
de l’éducation, de l’expérience
Si on prend une femme et un homme avec le
même niveau d’éducation et d’expérience, la
femme gagne en moyenne 1.81 dollar par heure
moins que l’homme