Modèles de Régression Linéaire
Modèles de Régression Linéaire
TALNAN EVRARD +
Licence 2 SEA
1
Pourquoi le MRLM ?
2 Si nous ajoutons des facteurs utiles pour expliquer y dans notre modèle,
nous parviendrons naturellement à expliquer une plus grande partie de la
variation de y .
2
Plan du chapitre
3
1. Dé…nition du MRLM
y = β 0 + β 1 x1 + β 2 x2 + . . . + β K xK + u
4
1. Dé…nition du MRLM
…nal = β0 + β1 missed + u
5
1. Dé…nition du MRLM
6
2. Les moindres carrés ordinaires
Echantillon aléatoire de N individus issus de la population que l’on souhaite
étudier.
x1i , x2i , ..., xKi sont respectivement les réalisations des variables
x1 , x2 , ..., xK pour un individu i.
x1i , x2i , ..., xKi et yi sont les ièmes observations des variables x1 , x2 , ..., xK et y
ui est la réalisation non observée de la perturbation pour l’individu i
Exemple :
mrdratei = β0 + β1 prbconvi + β2 avgseni + u
avec mrdratei le taux de criminalité urbain, prbconvi la probabilité d’être
condamné et avgseni la durée moyenne des peines, observés pour la ville i.
7
2. Les moindres carrés ordinaires
La régression de y sur x1 , x2 , ..., xK donne la fonction de régression de
l’échantillon :
yb = b
β0 + b β1 x1i + bβ2 x2i + . . . + b
βK xKi
b
β0 , b
β1 , ..., b
βK sont les paramètres estimés du modèle
yb est la valeur ajustée, estimée ou prédiction
b est le résidu ou résidu estimé, avec u
u b=y yb
=) b
β0 , b
β1 , ..., b
βK sont solutions du programme :
min S (b
β0 , b
β1 , b
β2 , ..., b
βK )
b
β0 , b
β1 ,...,b
βK
8
2. Les moindres carrés ordinaires
9
2. Les moindres carrés ordinaires
b
β0 est la valeur prédite de y quand x1 = x2 = ... = xK = 0.
y=b
∆b β1 ∆x1 + b
β2 ∆x2 + . . . + b
βK ∆xK
De manière générale, b
βk est l’e¤et marginal de xk sur y , 8k = 1, ..., K , car
∆b b
y = βk ∆xk , si ∆xj = 0 8j 6= k
10
2. Les moindres carrés ordinaires
Variables indicatrices
Exemples :
11
2. Les moindres carrés ordinaires
Variables indicatrices
Soit le modèle,
salaire = β0 + δ0 femme + β2 educ + u
où femmei vaut 1 si le i ème salarié est une femme et 0 sinon.
educ représente le nombre d’années d’études
=) δ0 correspond à la di¤érence de salaire entre les femmes et les hommes
pour un même niveau d’éducation donné et un même terme d’erreur.
Le modèle est :
salaire = β0 + β2 educ + u pour les hommes ! β0 représente la constante
salaire = β0 + δ0 + β2 educ + u pour les femmes ! β0 + δ0 représente la
constante
Supposons à présent que l’on veuille répartir les individus entre plus de
deux catégories.
Exemple : les ménages français peuvent vivre dans des grandes villes, dans
des villes de taille moyenne ou dans des petites villes. On crée alors 3
variables indicatrices :
G vaut 1 si le ménage réside dans une grande ville et 0 sinon.
M vaut 1 si le ménage réside dans une ville de taille moyenne et 0 sinon.
P vaut 1 si le ménage réside dans une petite ville et 0 sinon.
On a alors G + M + P = 1 ) colinéarité parfaite
) Il faut éliminer une des variables indicatrices, c’est-à-dire choisir le groupe de
référence.
Si le groupe de référence correspond aux ménages vivant dans des grandes villes,
nous utiliserons dans le modèle uniquement les variables indicatrices des deux
autres groupes : M et P.
13
2. Les moindres carrés ordinaires
Variables indicatrices à catégories multiples
Soit le modèle,
salaire = β0 + δ0 M + γ0 P + β2 educ + u
δ0 est l’écart de salaire d’un ménage habitant dans une ville de taille moyenne
par rapport à un ménage du groupe de référence, ceteris paribus.
γ0 est l’écart de salaire d’un ménage habitant dans une petite ville par rapport à
un ménage du groupe de référence, ceteris paribus.
14
2. Les moindres carrés ordinaires
Interactions entre variables indépendantes
Soit le modèle,
Interprétation :
β1 : e¤et marginal d’avoir un diplôme de l’université (par rapport au fait de
ne pas en avoir).
β2 : e¤et marginal d’être une femme (par rapport au fait d’être un homme).
=) e¤et du diplôme considéré indépendant de la variable genre.
15
2. Les moindres carrés ordinaires
Interactions entre variables indépendantes
! la valeur d’un diplôme sur le marché du travail serait di¤érente pour les
hommes et pour les femmes.
16
2. Les moindres carrés ordinaires
Interactions entre variables indépendantes
Soit le modèle,
salaire = β0 + β1 anc + β2 dip + u
18
2. Les moindres carrés ordinaires
Interactions entre variables indépendantes
Soit le modèle
salaire = β0 + β1 anc + β2 etudes + u
20
2. Les moindres carrés ordinaires
Interactions entre variables indépendantes
21
2. Les moindres carrés ordinaires
Modèles quadratiques
Soit le modèle
y = β0 + β1 x + β2 x 2 + u
!b
β1 ne mesure pas le changement de y par rapport à x
N
∑ ubi = 0
i =1
N
∑ xki ubi = 0 () Cov emp (xk , ub) = 0, 8k = 1, ..., K
i =1
23
3. Propriétés algébriques des MCO
La qualité d’ajustement du modèle
yi = ybi + u
bi
y = β0 + β1 x1 + β2 x2 + ... + βK xK + u
27
4. Proprétés statistiques des MCO
28
4. Proprétés statistiques des MCO
E (u jx1 , x2 , ..., xK ) = 0.
29
4. Propriétés statistiques des MCO
E ( β̂k ) = βk , k = 0, 1, 2, ..., K
Remarque : Considérer qu’une estimation est sans biais n’a pas de sens. Une
estimation est un nombre donné, obtenu à partir d’un échantillon particulier.
Cette estimation est rarement égale au paramètre de la population, elle peut
être supérieure ou inférieure mais nous ne pouvons pas le savoir a priori. Notre
espoir est d’avoir un échantillon qui nous donne une estimation proche de la
valeur de la population mais n’en avons aucune garantie.
Dire que les estimateurs des MCO sont sans biais, c’est dire que la procédure
par laquelle ils sont obtenus est sans biais, en imaginant que cette procédure
soit appliquée à tous les échantillons aléatoires possibles.
30
4. Propriétés statistiques des MCO
Biais de variable omise
y = β0 + β1 x1 + β2 x2 + u
=) Sous les hypothèses RLM.1 à RLM.4, les estimateurs seront sans biais.
2 Dans la régression de y sur x1 , c’est-à-dire omettant x2 , l’estimateur b
β1
∑i =1 (x1i x 1 )(yi y )
N
31
4. Propriétés statistiques des MCO
Biais de variable omise
|
∑i =1 ({z
x1i x1) 2
}
∑ (x
i =1 1i
x 1 )2
=0
=) L’estimateur b
β1 est biaisé, i.e. E (b
β1 ) 6= β1 , si :
∑i =1 (x1i x 1 )(x2i x 2 ) 6= 0
N
ET
32
4. Propriétés statistiques des MCO
Biais de variable omise
Le biais de b
β1 peut être anticipé de la façon suivante :
33
4. Propriétés statistiques des MCO
…nal = β0 + β1 missed + u
…nal = β0 + β1 missed + β2 priGPA
Les étudiants sont notés sur 40 points pour l’examen …nal tandis que la
moyenne est donnée sur 4 points.
34
4. Propriétés statistiques des MCO
35
4. Propriétés statistiques des MCO
36
4. Propriétés statistiques des MCO
Exemple : Salaire horaire et niveau d’instruction
log\
(wage ) = 1.142 + 0.099educ
log\
(wage ) = 0.728 + 0.073educ + 0.0076IQ
37
4. Propriétés statistiques des MCO
Le résultat précédent découle du théorème de Frisch-Waugh :
Soit le modèle :
y = β0 + β1 x1 + β2 x2 + ... + βK xK + u
Soient b
r1 les résidus de la régression de x1 sur x2 , ...xK , de telle sorte que
b b0 + γ
x1 = γ b 1 x2 + ... + γ
b K xK
D’où
x1 = b
x1 + b
r1
|{z} |{z}
part expliquée par x2 ,...x K part non expliquée par x2 ,...x K
Soit la régression :
y = α0 + α1 b
r1 + e
) Il peut être montré que :
N
b
β1 = b
α1 =
∑i =1 br1i yi
N
∑i =1 br1i2
38
4. Propriétés statistiques des MCO
De manière générale :
N
b
βk =
∑i =1 brki yi , pour tout k = 1, ..., K
N
∑i =1 brki2
Avec brk les résidus de la régression de la variable xk sur l’ensemble des autres
variables explicatives.
\
savings = 1072.28 + 0.156income 26.73age
\
savings = 995.12 + 0.108income 3.58age + 141.92educ
Cependant, comme Corr (income, educ ) 6= 0 et Corr (income, age ) 6= 0, tous les
estimateurs sont biaisés lorsque l’on omet la variable educ.
40
4. Propriétés statistiques des MCO
41
4. Propriétés statistiques des MCO
42
4. Propriétés statistiques des MCO
σ2 σ2
Var (b
βk ) = =
N (1 Rk2 )NVar emp (xk )
(1 Rk2 ) ∑ (xki x k )2
i =1
pour k = 1, ..., K .
43
4. Propriétés statistiques des MCO
σ2
V b
βk =
1 Rk2 NVar emp (xk )
! Plus la variance Var emp (xk ) de xk augmente, plus l’estimateur est précis.
! Plus la variable xk est liée aux autres variables explicatives, i.e. Rk2 se
rapproche de 1, moins l’estimateur est precis.
Remarque : Rk2 = 1 dès lors que l’hypothèse MLR.3 n’est pas véri…ée.
44
4. Propriétés statistiques des MCO
Multicolinéarité imparfaite
bi doivent satisfaire K + 1
Par construction des estimateurs, les résidus u
contraintes :
N
∑ ubi = 0
i =1
N
∑ xki ubi = 0, k = 1, ..., K
i =1
46
4. Propriétés statistiques des MCO
Nous n’avons que N (K + 1) degrés de libertés pour construire un estimateur
bi .
non biaisé à partir des résidus u
D’où :
Estimation sans biais des variances d’échantilllonnage
Sous les hypothèses RLM.1 à RLM.5 :
c2 c2
\
Var (b
βk ) =
σ
=
σ
N (1 Rk2 )NVar emp (xk )
(1 Rk2 ) ∑ (xki x k )2
i =1
pour k = 1, ..., K .
47
4. Propriétés statistiques des MCO
=) Sous SAS, cet estimateur est désigné par "root MSE" (= root mean
squared error)
b
σ b
σ
b(b
σ βk ) = q = q
(1 Rk2 ) ∑N
i =1 (xki x k )2 (1 Rk2 )NVar emp (xk )
48
4. Propriétés statistiques des MCO
2
c2
σ
SCR
N 1
N K 1
R =1 (N 1) =1 SCT
=1 (1 R2)
N N K 1
∑ (yi y )2 N 1
i =1
2
=) Chercher le modèle qui maximise R revient à cherche le modèle que
c2
minimise σ
N 1 2 2
Comme N K 1 > 1, par construction on a R < R 2 et lim R = R 2
N !∞
2
Attention : Le R ne peut pas s’interpréter à partir de la décomposition de la
2
variance. Par ailleurs, on peut avoir R < 0, ce qui est di¢ cile à interpréter!
49
4. Propriétés statistiques des MCO
Théorème de Gauss-Markov
Sous les hypothèses RLM.1 à RLM.5, b β0 , b
β1 , ..., b
βK sont les estimateurs les plus
e¢ caces parmi l’ensemble des estimateurs linéaires sans biais de β0 , β1 , ..., βK
respectivement.
On dit que b
β0 , b
β1 , ..., b
βK sont les estimateurs de Gauss-Markov ou estimateurs
BLUEs (= Best Linear Unbiased Estimators)
U (unbiased): un estimateur b
βk de βk est sans biais si E (b
βk ) = βk .
50
4. Propriétés statistiques des MCO
L (linear) : un estimateur b
βk de βk est linaire si cet estimateur peut être
exprimé comme une fonction linéaire des observations de la variable expliquée :
N
b
βk = ∑ wki yi
i =1
où chaque wki est une fonction des valeurs prises par les variables explicatives
au sein de l’échantillon.
Or les estimateurs des MCO s’écrivent :
N
∑ brki yi N
b
βk = i =1
N
= ∑ wki yi
∑ brki2
i =1
i =1
b
rki
avec wki = N
∑ brki2
i =1
52