Econométrie
Chapitre 2 : La méthode et les hypothèses des MCO dans le cas de la régression simple
Introduction :
5 conditions de MCO :
- Linéarité : si différent de B+bx+e
- Qualité de l’Echantillon aléatoire et représentatif
- Espérance du terme d’erreur
- La somme des (xi-X BARRE au carré) = différent de (il faut que x varie)
- Homoséodiscité
Le modèle de régression simple s’écrit yi = β0 + β1xi + εi , sachant que l’on aimerait connaitre :
- β0 qui nous indique le niveau de yi si xi est `a 0 (si on néglige εi)
- β1 qui nous indique de combien varie yi si xi varie d’une unité : - effet marginal (si on néglige εi)
Comment estimer β0 et β1 pour reproduire au mieux le phénomène observé?
Nous pouvons utiliser l’estimateur des Moindres Carrés Ordinaires (MCO) ou en anglais Ordinary Least Squares (OLS) pour
estimer les paramètres de l’équation 1. C’est la méthode attribuée au mathématicien allemand Carl Friedrich Gauss.
Propriété des opérateurs de somme :
Rappelle sur les dérivés partielles :
La dérivée partielle d’une fonction est sa dérivée par rapport à l’une de ses variables les autres étant maintenues constantes.
Exemple : f (a, b) = [ y − (ax + b)] 2
La fonction f (a, b) est de la forme u n et la dérivée de u n est : (u n ) ′ = nu n−1u ′
La dérivée de la fonction f par rapport à a :
La dérivée de la fonction f par rapport à b :
1
Nous cherchons à minimiser la fonction suivante :
Les conditions du premier ordre associées à ce programme d’optimisation sont :
Première condition :
En divisant par −2 on a :
En divisant par n :
On peut déduire l’expression de βˆ 0 :
Deuxième condition :
Nous avons donc estimé les paramètres de la droite d’ajustement linéaire par la technique des MCO !
2
Pourquoi élever au carré les résidus ei, c’est-à-dire les écarts entre la variable yi et sa prédiction :
ˆyi = βˆ 1xi + βˆ 0 ?
Il s’agit de tenir compte de la dispersion des points autour de la droite d’ajustement.
Si la somme des ei est à la puissance 1 alors ∑ i=1 (yi − yˆi) pourrait être minimisé sans tenir compte qu’il existe des écarts
positifs et négatifs. Ces écarts seraient alors autorisés à se compenser.
Dénomination : ei = ˆ€i = yi − yˆi est l’erreur estimée du modèle (ou résidu) lorsque les estimations des paramètres inconnus
β0 et β1 sont données par la méthode des MCO, donc par βˆ 0 et βˆ 1.
Trois propriétés importantes.
Valeurs ajustées et résidus
Une fois βˆ 0 et βˆ 1 obtenus → calcul des valeurs ajust´ees (ou pr´edites) ˆyi :
yˆi = βˆ 0 + βˆ 1xi
Les MCO permettent donc de décomposer chaque yi en deux parties, une valeur ajustée et un résidu (non corrélés) :
yi = ˆyi + ei = ˆyi + ˆǫi
Si ei est positif, la droite de régression ”sous-estime” yi et si ei est négatif la droite ”sur-estime” yi . Certains résidus
seulement peuvent être nuls. On espère que ces derniers autour de la droite de régression soient aussi faibles que possibles.
Décomposition de la variance :
L’équation de la décomposition de la variance peut être ré-écrite comme :
3
SCT = SCE + SCR
SCE : somme des yi chapeau -0 au carré
SCT : somme des yi -0 au carré
SCR(résidu) : somme des yi- yi chapeau au carré
Le ei c’est l’erreur de mesurer, c’est la distance.
La variation totale des valeurs observées de y autour de leur valeurs moyennes peut se scinder en deux éléments : L’un est
attribuable à la droite de régression ; L’autre est attribuable à des forces aléatoires (inobservables) non prises en compte dans
le modèle empirique.
Illustration :
Qu’est-ce qu’un coefficient de détermination ?
Une mesure de la qualité du caractère prédictif de X pour Y est donnée par le R 2. En effet, le R2 est un rapport qui indique la
part de la variance (ou des variations) de la variable dépendante Y qui est (sont) expliquée(s) par le modèle, c’est-à-dire par sa
(ou ses) variable(s) explicative(s). Prenant une valeur comprise entre 0 et 1, il fournit une mesure globale de la qualité de
l’ajustement, c’est-à-dire l’importance avec laquelle les variations de la variable explicative permettent de comprendre celles
de la variable expliquée
Calcul de R2 :
Conclusion :
R2 = 1 indique un ajustement parfait, soit ˆyi = yi. S’il n’y a qu’une variable explicative, cela signifie que tous les points du
nuage sont sur la droite de régression. R2 = 0 indique l’absence de relation entre yi et xi, soit βˆ 1 = 0. ◮ Entre ces deux cas : 0
< R 2 < 1. La variance ou les variations de Y sont en partie expliquée par le modèle et donc la variance ou les variations de la
ou des variables explicatives du modèle.
Interprétation du R2 :
4
Supposons que nous voulons étudier l’impact de la pluviométrie sur la production de blé en France. Les résultats issus d’un
modèle de régression simple montrent : 1 que la pluviométrie a un impact négatif sur la production de blé. 2 que le coefficient
de détermination est R2 = 0.154
des variations ne sont donc pas expliqués par le modèle. ⇒ D’autres facteurs non inclus dans la régression influencent la
15.4% des variations ou de la variance de la production de blé sont expliquées par les variations de la pluviométrie. ◮ 84.6%
production de blé.
Deux points importants en économétrie : 1 Implications d’un changement d’unité de mesure de la variable dépendante et /
ou indépendante sur les estimations obtenues par les MCO. 2 Comment incorporer les formes fonctionnelles couramment
utilisées en économie au sein d’une analyse économétrique ?.
Changement d’unité de la variable dépendante :
Nous mesurons maintenant le salaire en $. Nous créeons la variable salardol (salardol = [Link]) :
salardol = β0 + β1roe +u
Après estimation du modèle par les MCO : salardol ˆ = 963 191 + 18 501roe
Si la variable dépendante est multipliée (divisée) par une constante c alors les coefficients estimés sont aussi multipliés
(divisés) par c.
Les résidus sont aussi multipliés (divisés) par c.
Quid de la forme fonctionnelle :
La contrainte de linéarité entre la variable dépendante et indépendante est-elle (trop) simplificatrice ? Introduire d’effets non
linéaires en redéfinissant les variables.
classique sans transformation au préalable des variables (sans non linéarité dans les variables) ⇒ erreur de spécification. En
Exemple : Relation salaire - éducation ou Y est le salaire et X le nombre d’années d’éducation. Envisager un modèle linéaire
effet, cela supposerait que chaque année d’éducation supplémentaire aurait un impact équivalent sur le salaire espéré → pas
raisonnable !
5
Double transformation logarithmique :
Spécification semi-logarithmique :
Introduction :
Quelles sont les propriétés statistiques de l’estimateur des MCO ?
βˆ 0 et βˆ 1 sont des estimateurs des param`etres de la population β0 et β1. Ce sont donc des variables aléatoires car on
obtiendra des βˆ 0 et βˆ 1 différents si on utilise des échantillons différents (tirés de la même population). ◮ On va devoir
imposer certaines hypothèses sur les estimateurs à respecter pour qu’ils reflètent bien les vraies valeurs des paramètres de la
population.
On s’intéresse, en particulier, à deux propriétés importantes : Est-ce qu’un estimateur est sans biais c’est-à-dire est-ce qu’en
moyenne nous obtenons la vraie valeur du paramètre ? Est-ce qu’un estimateur est ”efficace”, c’est-à-dire, est-ce que pour
tout échantillon le paramètre estimé (variable aléatoire) est dispersé autour du paramètre de population ? Cela nécessite
d’analyser : E(βˆ 0) et E(βˆ 1) d’une part Var(βˆ 0) et Var(βˆ 1) d’autre part.
6
Remarque :
périodes de temps différentes ne sont pas corrélées entre elles : Corr(εt, εs |x) = 0 ∀ t 6= s → absence de corrélation sérielle
Hypothèse supplémentaire pour les modèles sur données chronologiques. Conditionnellement `a x, les erreurs `a deux
des erreurs ou d’autocorrélation des erreurs.
7
Plus il y a de la variation dans la partie non-prédite, c’est-à-dire σ2 , plus β1 est estimé de manière imprécise. Plus il y a de la
variation dans la variable explicative, c-`a-d SCTx , plus β1 est estimé de manière précise. → Comme SCTx = Pn i=1 (xi − x¯) 2 ,
SCTx augmente avec n. σ 2 est non observé→ on doit l’estimer.