0% ont trouvé ce document utile (0 vote)
104 vues52 pages

Modèles de Régression Linéaire

Transféré par

Mamadou Cissé
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
104 vues52 pages

Modèles de Régression Linéaire

Transféré par

Mamadou Cissé
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 2 :

Modèle de Régression Linéaire Multiple


Econométrie

TALNAN EVRARD +

Licence 2 SEA

1
Pourquoi le MRLM ?

1 Dans le MRLS, le terme u peut potentiellement inclure un grand nombre de


variables explicatives.
=) Généralement, l’hypothèse RLS.4 ne tient pas car la variable x est
corrélée à une autre variable qui in‡uence y .
=) Le MRLM est mieux adapté à un raisonnement ceteris paribus car il
permet de "sortir" des variables du terme d’erreur du MRLS et de les
mettre parmi les variables explicatives.

2 Si nous ajoutons des facteurs utiles pour expliquer y dans notre modèle,
nous parviendrons naturellement à expliquer une plus grande partie de la
variation de y .

3 Le MRLM permet de représenter des relations non linéaires complexes entre


une variable expliquée et une ou plusieurs variables explicatives.

2
Plan du chapitre

1 Dé…nition du Modèle de Régression Linéaire Multiple (MRLM)

2 Les moindres carrés ordinaires

3 Propriétés algébriques des MCO

4 Propriétés statistiques des MCO

3
1. Dé…nition du MRLM

Le modèle de régression linéaire multiple dans la population prend la forme


générale suivante :

y = β 0 + β 1 x1 + β 2 x2 + . . . + β K xK + u

y est la variable expliquée

x1 , x2 , ..., xK sont les K variables explicatives (K > 1)

β0 , β1 , ..., βK sont les K + 1 paramètres de la population (inconnus)


β0 est la constante, ou ordonnée à l’origine
βk est le paramètre associé à la variable xk , 8k = 1, ..., K

u est le terme d’erreur ou perturbation =) contient les facteurs, autres


que x1 , x2 , ..., xK , qui a¤ectent y

4
1. Dé…nition du MRLM

Exemple : note …nale et assiduité

Soit le MRLS suivant :

…nal = β0 + β1 missed + u

Avec y = …nal la note à l’examen …nal et x1 = missed le nombre de cours


manqués.

=) Peut-on adopter un raisonnement ceteris paribus ?

5
1. Dé…nition du MRLM

Exemple : résultats scolaires et dépense publique

Soit le MRLM suivant :

avgscore = β0 + β1 expend + β2 avginc + u,

Avec y = avgscore les résultats scolaires à la …n du lycée, x1 = expend la


dépense publique moyenne par élève et x2 = avginc le revenu moyen de la
famille.

=) Peut-on adopter un raisonnement ceteris paribus ?

6
2. Les moindres carrés ordinaires
Echantillon aléatoire de N individus issus de la population que l’on souhaite
étudier.

x1i , x2i , ..., xKi sont respectivement les réalisations des variables
x1 , x2 , ..., xK pour un individu i.

yi et ui sont respectivement les réalisations des variables y et u

Pour chaque individu i, on peut écrire :

yi = β0 + β1 x1i + β2 x2i + . . . + βK xKi + u

x1i , x2i , ..., xKi et yi sont les ièmes observations des variables x1 , x2 , ..., xK et y
ui est la réalisation non observée de la perturbation pour l’individu i

Exemple :
mrdratei = β0 + β1 prbconvi + β2 avgseni + u
avec mrdratei le taux de criminalité urbain, prbconvi la probabilité d’être
condamné et avgseni la durée moyenne des peines, observés pour la ville i.
7
2. Les moindres carrés ordinaires
La régression de y sur x1 , x2 , ..., xK donne la fonction de régression de
l’échantillon :
yb = b
β0 + b β1 x1i + bβ2 x2i + . . . + b
βK xKi
b
β0 , b
β1 , ..., b
βK sont les paramètres estimés du modèle
yb est la valeur ajustée, estimée ou prédiction
b est le résidu ou résidu estimé, avec u
u b=y yb

Comme dans le MRLS, les estimateurs b β0 , b


β1 , ..., b
βK des MCO sont tels qu’ils
minimisent l’erreur d’estimation mesurée par la somme des carrés des résidus :
N N 2
∑ ubi2 = ∑ yi b
β0 b
β1 x1i b
β2 x2i ... b
βK xKi = S (b
β0 , b
β1 , b
β2 , ..., b
βK )
i =1 i =1

=) b
β0 , b
β1 , ..., b
βK sont solutions du programme :

min S (b
β0 , b
β1 , b
β2 , ..., b
βK )
b
β0 , b
β1 ,...,b
βK

8
2. Les moindres carrés ordinaires

On obtient K + 1 conditions du premier ordre :


N
∑ ( yi b
β0 b
β1 x1i b
β2 x2i ... b
βK xKi ) = 0
i =1
N
∑ x1i (yi b
β0 b
β1 x1i b
β2 x2i ... b
βK xKi ) = 0
i =1
N
∑ x2i (yi b
β0 b
β1 x1i b
β2 x2i ... b
βK xKi ) = 0
i =1
..
.
N
∑ xKi (yi b
β0 b
β1 x1i b
β2 x2i ... b
βK xKi ) = 0
i =1

=) Système des équations normales

9
2. Les moindres carrés ordinaires

Interprétation des coe¢ cients :

b
β0 est la valeur prédite de y quand x1 = x2 = ... = xK = 0.

Les coe¢ cients b


β1 , ..., b
βK ont une interprétation ceteris paribus.

Une variation de la valeur prédite s’écrit :

y=b
∆b β1 ∆x1 + b
β2 ∆x2 + . . . + b
βK ∆xK

=) si ∆x2 = ∆x3 = ... = ∆xK = 0 alors ∆b y=b β1 ∆x1 et b


β1 capture bien
l’e¤et marginal de x1 sur y ou e¤et ceteris paribus

De manière générale, b
βk est l’e¤et marginal de xk sur y , 8k = 1, ..., K , car
∆b b
y = βk ∆xk , si ∆xj = 0 8j 6= k

10
2. Les moindres carrés ordinaires
Variables indicatrices

Aussi appelée variable binaire, dummy, dichotomique, muette ! ne prend


que deux valeurs, 0 ou 1.

Permet de décrire l’information qualitative.

Exemples :

- le genre : xi vaut 1 si l’individu i est une femme et 0 sinon.


- le statut marital : xi vaut 1 si l’individu i est marié et 0 sinon.
- localisation géographique : xi vaut 1 si l’individu i se situe dans une ville de
plus de 10000 habitants et 0 sinon.

11
2. Les moindres carrés ordinaires
Variables indicatrices

Soit le modèle,
salaire = β0 + δ0 femme + β2 educ + u
où femmei vaut 1 si le i ème salarié est une femme et 0 sinon.
educ représente le nombre d’années d’études
=) δ0 correspond à la di¤érence de salaire entre les femmes et les hommes
pour un même niveau d’éducation donné et un même terme d’erreur.

Le modèle est :
salaire = β0 + β2 educ + u pour les hommes ! β0 représente la constante
salaire = β0 + δ0 + β2 educ + u pour les femmes ! β0 + δ0 représente la
constante

δ0 = E (salaire jfemme = 1, educ ) E (salaire jfemme = 0, educ )


) on a choisi ici les hommes comme groupe de référence : groupe à partir
duquel on établit les comparaisons.

Remarque : Il serait équivalent de prendre les femmes comme groupe de


référence mais l’interprétation des coe¢ cients serait di¤érente.
12
2. Les moindres carrés ordinaires
Variables indicatrices à catégories multiples

Dans l’exemple précédent, la population était répartie entre deux


catégories, les hommes et les femmes.

Supposons à présent que l’on veuille répartir les individus entre plus de
deux catégories.

Exemple : les ménages français peuvent vivre dans des grandes villes, dans
des villes de taille moyenne ou dans des petites villes. On crée alors 3
variables indicatrices :
G vaut 1 si le ménage réside dans une grande ville et 0 sinon.
M vaut 1 si le ménage réside dans une ville de taille moyenne et 0 sinon.
P vaut 1 si le ménage réside dans une petite ville et 0 sinon.
On a alors G + M + P = 1 ) colinéarité parfaite
) Il faut éliminer une des variables indicatrices, c’est-à-dire choisir le groupe de
référence.
Si le groupe de référence correspond aux ménages vivant dans des grandes villes,
nous utiliserons dans le modèle uniquement les variables indicatrices des deux
autres groupes : M et P.
13
2. Les moindres carrés ordinaires
Variables indicatrices à catégories multiples

Soit le modèle,

salaire = β0 + δ0 M + γ0 P + β2 educ + u

δ0 est l’écart de salaire d’un ménage habitant dans une ville de taille moyenne
par rapport à un ménage du groupe de référence, ceteris paribus.
γ0 est l’écart de salaire d’un ménage habitant dans une petite ville par rapport à
un ménage du groupe de référence, ceteris paribus.

De manière générale, si la population se répartit en g groupes, il faut


choisir une groupe de référence et introduire g 1 variables indicatrices
correspondant aux groupes restants.

14
2. Les moindres carrés ordinaires
Interactions entre variables indépendantes

1. Entre 2 variables indicatrices

Soit le modèle,

salaire = β0 + β1 dip + β2 femme + u

où dip vaut 1 si le salarié est diplômé de l’université et 0 sinon


et femme vaut 1 si c’est une femme et 0 sinon.

Interprétation :
β1 : e¤et marginal d’avoir un diplôme de l’université (par rapport au fait de
ne pas en avoir).
β2 : e¤et marginal d’être une femme (par rapport au fait d’être un homme).
=) e¤et du diplôme considéré indépendant de la variable genre.

15
2. Les moindres carrés ordinaires
Interactions entre variables indépendantes

Cependant, l’e¤et du diplôme sur le salaire pourrait dépendre du genre :

! interaction possible entre "être titulaire d’un diplôme universitaire" et "être


de sexe masculin ou féminin".

! la valeur d’un diplôme sur le marché du travail serait di¤érente pour les
hommes et pour les femmes.

16
2. Les moindres carrés ordinaires
Interactions entre variables indépendantes

Prise en compte de l’interaction entre dip et femme grâce au modèle de


régression avec interaction :

salaire = β0 + β1 dip + β2 femme + β3 (dip femme ) + u

dip femme est appelé terme d’interaction.

E¤et marginal du diplôme sur le salaire :


∂salaire
= β1 + β3 femme
∂dip
D’où ∆salaire = ( β1 + β3 femme ) ∆dip = β1 + β3 femme car ∆dip = 1
L’e¤et du diplôme sur le salaire est :
β1 pour les hommes (femme = 0)
β1 + β3 pour les femmes (femme = 1)

β3 : di¤érence, entre les hommes et les femmes, d’e¤et d’un diplôme


universitaire sur le salaire.
17
2. Les moindres carrés ordinaires
Interactions entre variables indépendantes

2. Entre 1 variable indicatrice et 1 variable continue

Soit le modèle,
salaire = β0 + β1 anc + β2 dip + u

où anc le nombre d’années d’ancienneté du salarié


et dip vaut 1 si le salarié est diplômé de l’université et 0 sinon.

! e¤et de l’ancienneté considéré indépendant du fait d’être diplômé de


l’université.

18
2. Les moindres carrés ordinaires
Interactions entre variables indépendantes

Supposons que l’e¤et de l’ancienneté sur le salaire dépende du fait que le


salarié soit diplômé de l’université :

salaire = β0 + β1 anc + β2 dip + β3 (anc dip ) + u

E¤et marginal de l’ancienneté sur le salaire :


∂salaire
= β1 + β3 dip
∂anc
D’où ∆salaire = ( β1 + β3 dip ) ∆anc

L’e¤et d’une année d’ancienneté supplémentaire (∆anc = 1) sur le salaire


est :
β1 pour les non diplômés (dip = 0)
β1 + β3 pour les diplômés (dip = 1)

β3 : di¤érence, entre les diplomés et non diplômés, d’e¤et d’une année


supplémentaire d’ancienneté sur le salaire.
19
2. Les moindres carrés ordinaires
Interactions entre variables indépendantes

3. Entre 2 variables continues

Soit le modèle
salaire = β0 + β1 anc + β2 etudes + u

où anc le nombre d’années d’ancienneté du salarié


et etudes désigne le nombre d’années d’études.

! e¤et de l’ancienneté considéré indépendant du nombre d’années d’études.

20
2. Les moindres carrés ordinaires
Interactions entre variables indépendantes

Supposons que l’e¤et de l’ancienneté sur le salaire dépende du nombre d’années


d’études :

salaire = β0 + β1 anc + β2 etudes + β3 (anc etudes ) + u

E¤et de l’ancienneté sur le salaire :


∂salaire
= β1 + β3 etudes
∂anc
∆salaire = ( β1 + β3 etudes ) ∆anc

! Si β3 > 0, l’e¤et de l’ancienneté croit avec le nombre d’années d’études.

21
2. Les moindres carrés ordinaires
Modèles quadratiques

Soit le modèle
y = β0 + β1 x + β2 x 2 + u
!b
β1 ne mesure pas le changement de y par rapport à x

L’e¤et marginal de x sur y est alors :


∂y
= β1 + 2β2 x d’où ∆y ( β1 + 2β2 x ) ∆x
∂x

L’e¤et de x sur y prend une forme parabolique : il existe une valeur x de


β
x pour laquelle l’e¤et de x sur y est nul, et x = 2 β1
2
si β2 > 0 ! relation convexe entre x et y : l’e¤et de x sur y est négatif si
x < x et positif sinon.
! Le niveau minimal de y est atteint pour x
si β2 < 0 ! relation concave entre x et y : l’e¤et de x sur y est positif si
x < x et négatif sinon.
! Le niveau maximal de y est atteint pour x
22
3. Propriétés algébriques des MCO

On parle ici des propriétés véri…ées par construction.

1 La droite de régression passe par le point moyen de l’échantillon car


y = β0 + β1 x 1 + β2 x 2 + ... + βK x K .

2 D’après les conditions du premier ordre :

N
∑ ubi = 0
i =1

N
∑ xki ubi = 0 () Cov emp (xk , ub) = 0, 8k = 1, ..., K
i =1

23
3. Propriétés algébriques des MCO
La qualité d’ajustement du modèle

Pour chaque observation, on a :

yi = ybi + u
bi

D’après les propriétés précédentes, on obtient, comme pour le MRLS :


y = yb
emp
Cov (yb, ub) = 0

Comme pour le MRLS, on a :

SCT = SCE + SCR


SCT = Somme des carrés totaux
SCE = Somme des carrés estimés
SCR = Somme des carrés des résidus.
24
3. Propriétés algébriques des MCO
La qualité d’ajustement du modèle

Coe¢ cient de détermination


Var emp (yb) SCE SCR
R2 = emp = =1
Var (y ) SCT SCT

Il est compris entre 0 et 1.


La SCR diminue systématiquement, ne fut-ce que très légèrement, lorsque l’on
ajoute une nouvelle variable explicative au modèle, quelle qu’elle soit.
=) Lorsque une ou plusieurs variables explicatives sont ajoutées dans le
modèle, le R 2 augmente.
=) Le R 2 n’est pas un critère utile pour décider si une ou plusieurs variables
doivent être ajoutées au modèle.
Le R 2 ne peut servir qu’à comparer 2 modèles ayant la même variable y ,
le même nombre de variables explicatives et le même échantillon.
Exemple : note …nale et assiduité (N = 680)
Une régression de …nal sur missed donne R 2 = 0, 0196.
Une régression de …nal sur priGPA (note en début de semestre) donne
R 2 = 0, 1339. 25
4. Propriétés statistiques des MCO
Les propriétés statistiques de b
β0 , b
β1 , ..., b
βK reposent sur un ensemble
d’hypothèses faites sur la population.

Hypothèse RLM.1 (Linéarité dans les paramètres)


Dans le modèle issu de la population, on a :

y = β0 + β1 x1 + β2 x2 + ... + βK xK + u

Où β0 , β1 , β2 , ..., βK .sont les paramètres (inconnus) au sein de la population.

=) Le modèle est linéaire par rapport aux paramètres b


β0 , b
β1 , ..., b
βK et u est le
terme d’erreur non observé.

Hypothèse RLM.2 (Echantillonnage aléatoire)


Nous disposons d’un échantillon aléatoire de taille N,
f(x1i , x2i , ..., xKi , yi ) : i = 1, ..., N g, tiré de la population.

Remarque : hypothèse non véri…ée pour les séries chronologiques.


26
4. Proprétés statistiques des MCO

Hypothèse RLM.3 (Absence de colinéarié parfaite)


Dans l’échantillon (et donc dans la population), aucune variable explicative ne
correspond à une constante et il n’existe pas de combinaison linéaire exacte
entre les variables explicatives.

=) Il n’existe pas de constantes c0 , ...cK avec au moins une de ces constantes


di¤érente de zéro telles que c0 + c1 x1 + ... + cK xK = 0.

Attention : les variables explicatives peuvent être corrélées mais pas


parfaitement. En cas de colinéarité parfaite (corrélation de 1), il n’existe pas
d’estimateurs uniques et le logiciel SAS indiquera un problème.

27
4. Proprétés statistiques des MCO

Exemples de colinéarité parfaite :

Avoir plusieurs fois la même variable dans des unités di¤érentes


ex : le salaire en dollars et en euros. Dans ce cas :
salarydol = 1, 22362 salaryeur

Avoir une transformation logarithmique d’une variable et de cette même


variable élevée à une puissance quelconque.
ex : log (revenu 2 ) = 2 log (revenu )

Avoir plusieurs variables qui se "complètent".


ex : nb de …lles (nbf ), nombre de garçons (nbg ) dans des claisses de 25
élèves.
nbf + nbg = 25

28
4. Proprétés statistiques des MCO

Hypothèse RLM.4 (Espérance conditionnelle de l’erreur égale à zéro)


Le terme d’erreur u a¢ che une espérance égale à zéro, quelles que soient les
valeurs prises par les variables explicatives. Autrement dit,

E (u jx1 , x2 , ..., xK ) = 0.

=) Hypothèse d’exogénéité des x1 , ..., xK : lorsque RLM.4 est violée, on


parle de problème d’endogénéité.

Comme pour le MRLS, les hypothèses RLM.2 et RLM.4 permettent de raisonner


comme si les x1i , ..., xKi étaient …xes en échantillons répétés.

29
4. Propriétés statistiques des MCO

Absence de biais des MCO


Sous les hypothèses RLM.1 à RLM.4, les estimateurs des MCO sont des
estimateurs sans biais.

E ( β̂k ) = βk , k = 0, 1, 2, ..., K

=) La moyenne des estimations sur tous les échantillons aléatoires possibles


correspond à la vraie valeur des paramètres.

Remarque : Considérer qu’une estimation est sans biais n’a pas de sens. Une
estimation est un nombre donné, obtenu à partir d’un échantillon particulier.
Cette estimation est rarement égale au paramètre de la population, elle peut
être supérieure ou inférieure mais nous ne pouvons pas le savoir a priori. Notre
espoir est d’avoir un échantillon qui nous donne une estimation proche de la
valeur de la population mais n’en avons aucune garantie.
Dire que les estimateurs des MCO sont sans biais, c’est dire que la procédure
par laquelle ils sont obtenus est sans biais, en imaginant que cette procédure
soit appliquée à tous les échantillons aléatoires possibles.
30
4. Propriétés statistiques des MCO
Biais de variable omise

1 Supposons que le vrai modèle de la population soit :

y = β0 + β1 x1 + β2 x2 + u

=) Sous les hypothèses RLM.1 à RLM.4, les estimateurs seront sans biais.
2 Dans la régression de y sur x1 , c’est-à-dire omettant x2 , l’estimateur b
β1
∑i =1 (x1i x 1 )(yi y )
N

serait (voir chapitre 1) : b


β1 =
∑i =1 (x1i x 1 )2
N

Sachant qu’en réalité yi = β0 + β1 x1i + β2 x2i + ui :


N N
b
β1 = β1 +
∑i =1 (x1i x 1 ) (ui u) ∑ (x1i x 1 ) (x2i
+ β 2 i =1 N
x2)
N
∑i =1 (x1i x 1 )2 ∑i =1 (x1i x 1 )2
∑i =1 (x1i x 1 )(x2i x 2 )
N

avec l’estimateur de la régression auxiliaire de x2 sur x1 .


∑i =1 (x1i x 1 )2
N

31
4. Propriétés statistiques des MCO
Biais de variable omise

L’omission de la variable x2 conduit alors à :


N N
E (b
∑ (x1i
β 1 ) = β 1 + E ( i =1 N
x 1 ) (ui u) ∑ (x1i x 1 ) (x2i
) + β 2 i =1 N
x2)

|
∑i =1 ({z
x1i x1) 2
}
∑ (x
i =1 1i
x 1 )2
=0

=) L’estimateur b
β1 est biaisé, i.e. E (b
β1 ) 6= β1 , si :

∑i =1 (x1i x 1 )(x2i x 2 ) 6= 0
N

les variables x1 et x2 sont corrélées, i.e.


∑i =1 (x1i x 1 )2
N

ET

l’e¤et marginal de x2 sur y est non nul, soit β2 6= 0

32
4. Propriétés statistiques des MCO
Biais de variable omise

Le biais de b
β1 peut être anticipé de la façon suivante :

corr (x1 , x2 ) > 0 corr (x1 , x2 ) < 0 corr (x1 , x2 ) = 0

β2 > 0 Biais positif Biais négatif Biais nul

β2 < 0 Biais négatif Biais positif Biais nul

β2 = 0 Biais nul Biais nul Biais nul

33
4. Propriétés statistiques des MCO

Exemple : Note …nale et assiduité

Echantillon de 680 étudiants d’un cours d’introduction à la microéconomie.

On estime par les MCO les modèles suivants :

…nal = β0 + β1 missed + u
…nal = β0 + β1 missed + β2 priGPA

Avec priGPA la moyenne obtenue au semestre précédent.

Les étudiants sont notés sur 40 points pour l’examen …nal tandis que la
moyenne est donnée sur 4 points.

34
4. Propriétés statistiques des MCO

Le logiciel SAS fournit les résultats suivants :

35
4. Propriétés statistiques des MCO

Le coe¢ cient de missed devient positif lorsque l’on ajoute la variable


priGPA, mais est très faible.

Un point supplémentaire obtenu pour le GPA du semestre précédent


correspond à 3,24 points supplémentaires à l’examen …nal.

missed et priGPA sont négativement corrélés :

36
4. Propriétés statistiques des MCO
Exemple : Salaire horaire et niveau d’instruction

log\
(wage ) = 1.142 + 0.099educ
log\
(wage ) = 0.728 + 0.073educ + 0.0076IQ

Avec IQ le score de QI.

L’e¤et estimé d’une année d’éducation supplémentaire passe de 9, 9% à


7.3% en contrôlant par les di¤érences de QI.

Pour deux personnes de même QI, on estime qu’une année supplémentaire


d’éducation entraine une hausse de salaire horaire de 7.3%.

Le MRLS ne permet pas de comparer des personnes de même QI : une


partie de l’e¤et de educ est attribué à IQ car Corr (educ, IQ ) = 0.573.

37
4. Propriétés statistiques des MCO
Le résultat précédent découle du théorème de Frisch-Waugh :
Soit le modèle :

y = β0 + β1 x1 + β2 x2 + ... + βK xK + u

Soient b
r1 les résidus de la régression de x1 sur x2 , ...xK , de telle sorte que
b b0 + γ
x1 = γ b 1 x2 + ... + γ
b K xK
D’où

x1 = b
x1 + b
r1
|{z} |{z}
part expliquée par x2 ,...x K part non expliquée par x2 ,...x K

Soit la régression :
y = α0 + α1 b
r1 + e
) Il peut être montré que :
N
b
β1 = b
α1 =
∑i =1 br1i yi
N
∑i =1 br1i2
38
4. Propriétés statistiques des MCO
De manière générale :
N
b
βk =
∑i =1 brki yi , pour tout k = 1, ..., K
N
∑i =1 brki2
Avec brk les résidus de la régression de la variable xk sur l’ensemble des autres
variables explicatives.

=) b βk mesure bien l’e¤et marginal de xk sur y = e¤et de xk sur y net de


l’in‡uence des autres variables explicatives.

=) En omettant une variable explicative corrélée à xk , il n’est donc pas


possible de mesurer correctement l’e¤et marginal de xk sur y

=) On fait face à un problème de sous-spéci…cation du modèle.

ATTENTION : lorsque K > 1, la corrélation entre une seule variable explicative


et le terme d’erreur su¢ t à biaiser tous les estimateurs des MCO. Il est donc
di¢ cile d’identi…er le signe d’un biais de variable omise.
39
4. Propriétés statistiques des MCO

Exemple : Epargne et revenu

Soient les estimations suivantes :

\
savings = 1072.28 + 0.156income 26.73age
\
savings = 995.12 + 0.108income 3.58age + 141.92educ

Supposons que age ne soit pas corrélé à educ.

Cependant, comme Corr (income, educ ) 6= 0 et Corr (income, age ) 6= 0, tous les
estimateurs sont biaisés lorsque l’on omet la variable educ.

40
4. Propriétés statistiques des MCO

Comme pour le MRLS, une hypothèse supplémentaire permet de faciliter le


calcul de la variance des estimateurs.

Hypothèse RLM.5 (Homoscédasticité)


La variance de l’erreur u est constante, quelle que soit la valeur des variables
explicatives. En d’autres termes,

Var (u jx1 , x2 , ..., xK ) = Var (u ) = σ2 .

σ2 , appelée variance de l’erreur, est inconnue.

Remarque : Cette hypothèse ne joue aucun rôle pour montrer que b


β0 , b
β1 , ..., b
βK
sont sans biais.

41
4. Propriétés statistiques des MCO

Sous les hypothèse RLM.1 à RLM.5, on a :

E (y jx1 , x2 , ..., xK ) = β0 + β1 x1 + ... + βK xK

Var (y jx1 , x2 , ..., xK ) = Var (u jx1 , x2 , ..., xK ) = σ2

L’ensemble des hypothèses RLM.1 à RLM.5 sont appelées les hypothèses de


Gauss-Markov.

42
4. Propriétés statistiques des MCO

Variances d’échantillonnage des estimateurs de la pente


Sous les hypothèses RLM.1 à RLM.5 :

σ2 σ2
Var (b
βk ) = =
N (1 Rk2 )NVar emp (xk )
(1 Rk2 ) ∑ (xki x k )2
i =1

pour k = 1, ..., K .

où Rk2 est le R-carré de la régression de xk sur les autres variables explicatives.

Remarque : d’après RLM.3, ∑N


i =1 (xki x̄k )2 6= 0 et Rk2 6= 1.

43
4. Propriétés statistiques des MCO

σ2
V b
βk =
1 Rk2 NVar emp (xk )

! Plus le nombre d’observations N augmente, plus l’estimateur est précis.

! Plus la variance Var emp (xk ) de xk augmente, plus l’estimateur est précis.

! Plus la variance de l’erreur σ2 est grande, moins l’estimateur est précis.

! Plus la variable xk est liée aux autres variables explicatives, i.e. Rk2 se
rapproche de 1, moins l’estimateur est precis.

Remarque : Rk2 = 1 dès lors que l’hypothèse MLR.3 n’est pas véri…ée.

44
4. Propriétés statistiques des MCO
Multicolinéarité imparfaite

Sous RLM.1 à RLM.5 :


σ2
V b
βk =
1 Rk2 NVar emp (xk )

Introduire une nouvelle variable explicative peut permettre de réduire la variance


de l’erreur σ2
MAIS risque d’augmenter Rk2 si elle est fortement corrélée à xk .

! L’introduction d’une nouvelle variable doit apporter su¢ samment


d’information par rapport aux autres variables explicatives (réduire su¢ samment
σ2 par rapport à la hausse de Rk2 ) pour que le paramètre bβk soit estimé avec
précision.

Remarque : Si βk = 0, alors la variable xk ne doit pas être introduite dans la


régression car sa présence ou non n’a aucune conséquence sur le biais des
estimateurs mais l’introduire dans la régression risquerait d’augmenter la
variance des estimateurs.
45
4. Propriétés statistiques des MCO

Comme σ2 est inobservable, on doit l’estime pour ensuite estimer Var (b


βk ),
pour tout k = 1, ...K

bi doivent satisfaire K + 1
Par construction des estimateurs, les résidus u
contraintes :
N
∑ ubi = 0
i =1

N
∑ xki ubi = 0, k = 1, ..., K
i =1

46
4. Propriétés statistiques des MCO
Nous n’avons que N (K + 1) degrés de libertés pour construire un estimateur
bi .
non biaisé à partir des résidus u

Estimateur sans biais de σ2


Sous les hypothèses RLM.1 à RLM.5 :
N
1
1∑ i
c2 =
σ b2
u
N K i =1

D’où :
Estimation sans biais des variances d’échantilllonnage
Sous les hypothèses RLM.1 à RLM.5 :

c2 c2
\
Var (b
βk ) =
σ
=
σ
N (1 Rk2 )NVar emp (xk )
(1 Rk2 ) ∑ (xki x k )2
i =1

pour k = 1, ..., K .
47
4. Propriétés statistiques des MCO

Les logiciels fournissent généralement :

L’écart type estimé des erreurs, appelé écart-type de la régression :


q r
1 N
N K 1 ∑ i =1 i
b= σ =
σ c2 b2
u

=) Sous SAS, cet estimateur est désigné par "root MSE" (= root mean
squared error)

Les écart-types estimés des b


βk :

b
σ b
σ
b(b
σ βk ) = q = q
(1 Rk2 ) ∑N
i =1 (xki x k )2 (1 Rk2 )NVar emp (xk )

48
4. Propriétés statistiques des MCO

L’estimateur σ c2 permet de dé…nir le R 2 ajusté ou corrigé qui permet de corriger


le fait que le R 2 augmente avec le nombre de variables explicatives :

2
c2
σ
SCR
N 1
N K 1
R =1 (N 1) =1 SCT
=1 (1 R2)
N N K 1
∑ (yi y )2 N 1
i =1
2
=) Chercher le modèle qui maximise R revient à cherche le modèle que
c2
minimise σ

N 1 2 2
Comme N K 1 > 1, par construction on a R < R 2 et lim R = R 2
N !∞
2
Attention : Le R ne peut pas s’interpréter à partir de la décomposition de la
2
variance. Par ailleurs, on peut avoir R < 0, ce qui est di¢ cile à interpréter!

49
4. Propriétés statistiques des MCO

Théorème de Gauss-Markov
Sous les hypothèses RLM.1 à RLM.5, b β0 , b
β1 , ..., b
βK sont les estimateurs les plus
e¢ caces parmi l’ensemble des estimateurs linéaires sans biais de β0 , β1 , ..., βK
respectivement.

On dit que b
β0 , b
β1 , ..., b
βK sont les estimateurs de Gauss-Markov ou estimateurs
BLUEs (= Best Linear Unbiased Estimators)

Que signi…e BLUE ?

E (estimator) : un estimateur correspond à une formule qui permet d’obtenir


une estimation pour n’importe quel échantillon de données.

U (unbiased): un estimateur b
βk de βk est sans biais si E (b
βk ) = βk .

50
4. Propriétés statistiques des MCO
L (linear) : un estimateur b
βk de βk est linaire si cet estimateur peut être
exprimé comme une fonction linéaire des observations de la variable expliquée :
N
b
βk = ∑ wki yi
i =1
où chaque wki est une fonction des valeurs prises par les variables explicatives
au sein de l’échantillon.
Or les estimateurs des MCO s’écrivent :
N
∑ brki yi N
b
βk = i =1
N
= ∑ wki yi
∑ brki2
i =1

i =1
b
rki
avec wki = N

∑ brki2
i =1

B (best): "meilleur" signi…e le plus e¢ cace, c’est-à-dire l’estimateur qui a la


plus petite variance.
51
Résumé des hypothèses de Gauss-Markov
9
>
RLM.1 : y = β0 + β1 x1 + β2 x2 + ... + βK xK + u >>
>
>
>
>
>
>
RLM.2 : échantillonnage aléatoire >
>
>
>
>
= Nécessaires pour
RLM.3 : variation de xki au sein de l’échantillon > =)
>
> l’absence de biais
>
>
et absence de colinéarité parfaite. >
>
>
>
>
>
>
>
RLM.4 : E (u jx , x , ..., x ) = 0 >
;
1 2 K

RLM.5 : Var (u jx1 , x2 , ..., xK ) = σ2 =) pour déterminer la variance des


estimateurs

=) Sans RLM.5, la formule de Var (b b(b


βk ) et donc de σ βk ) ne sont plus valables
et les estimateurs ne sont pas BLUEs.

52

Vous aimerez peut-être aussi