0% ont trouvé ce document utile (0 vote)
79 vues8 pages

7.cours Regression

Transféré par

ksbenni
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
79 vues8 pages

7.cours Regression

Transféré par

ksbenni
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Part I

Cours régression linéaire simple


et multiple: Mme Hamdad
1 Introduction
La régression linéaire est une méthode statistique appartenant à la famille des
méthodes prédictives du data mining. Son objectif est d’étudier et de modéliser
la relation entre une ou plusieurs variables quantitatives. Elle trouve son utilité
dans plusieurs domaines tels que l’économétrie (effet des institutions sur le
développement d’un pays, l’effet des années d’expériences sur le salaire,...), en
géographie (pluviométrie en fonction de l’altitude dans une région données), en
psychologie, en sport, ect.

2 Régression linéaire simple


Le but de ce cours est d’étudier la relation entre deux variables quantitatives
l’une dépendante Y et l’autre explicative X. Ces deux variables sont observées
sur une population de taille n. On suppose que les variables Y et X sont reliées
par une relation linéaire, et le modè le est donné par:

Yi = axi + b + ei , i = 1, ..., n

Tel que ei représente l’erreur d’observation ou résidu, elle vérifie les propriétés
suivantes:
• E(ei ) = 0.
• Cov(ei , ej ) = 0, ∀i 6= j.
• V ar(ei ) = σ 2 , ∀i = 1, ..., n.
a, b et σ 2 sont des paramètres inconnus à estimer.
L’équation des moindres carrées qui ajuste au mieux le nuage de points
{(Xi , Yi ) , i = 1, ..., n} est obtenue en déterminant les estimateurs des moindres
P 2
carrés de a et b, b a et bb respectivement qui minimisent ei , tel que
i
X X 2
e2i = (Yi − axi − b) .
i i

2.1 Détermination des estimateurs de a et b


a et bb sont solutions du système d’équations aux dérivées partielles suivants
b
 P 2 
 i ei
 
da 2 (b
a, bb) = 0,

P
e
 i i (b
 
db a, b) = 0
b 

1
La résolution de ce système donne, les estimateurs b
a, bb de a et b respectivement
cov(X, Y )
a =
b
V ar(X)
bb = Y −b
aX
n n n
1 1 1
P P P  
tels que Y = n yi , X = n xi , Cov(X, Y ) = n Xi − X Yi − Y , et
i=1 i=1 i=1
n 2
1
P
V ar(X) = n Xi − X , représentent respectivement, les moyennes arithmétiques
i=1
de Y et X, la covariance entre X et Y et la variance de X.

2.2 Propriétés des estimateurs


Parmi les estimateurs sans biais, ces estimateurs sont les meilleurs estimateurs
car ils sont de variances minimales ( Thèorème de Gauss Markov). Ils sont dit
BLUE (Best Linear Unbiased Estimator).
Remarque 1 Un estimateur est dit sans biais si son espérance est égale au
paramètre qu’il estime, c’est à dire que:
E(b
a) = a, E(bb) = b.

Estimateurs des variances Les variances de ces estimateurs sont données


par:
1
a) = σ 2 P
V ar(b 2
(xi − x)
i
et
xi 2
P
i
V ar(bb) = σ 2 P 2
n (xi − x)
i
2
Ces deux variances sont inconnus car σ qui est la variance de l’erreur est aussi
inconnue. Celle ci est estimée par
P 2
ei
2 i
s = .
n−2
En remplaçant σ 2 par s2 dans les deux variances précédentes, nous obtenons les
variances estimées des estimateurs qu’on note Sba2 et Sbb2 respectivement.

2.3 Coéfficient de corrélation linéaire


Ce coefficient mesure la relation linéaire existant entre X et Y . Il est défini par:
Cov(X, Y )
r(X, Y ) = q p .
V ar(X) V ar(Y )

2
Si r(X, Y ) ' 1, alors Y est linéairement liée à X. Sinon, la relation n’est pas
linéaire.

3 Régression linéaire multiple


Dans cette partie, iI s’agit d’étudier la relation entre une variable dépendante
et quantitative Y et p variables explicatives indépendantes X 1 , ..., X p . Ces
variables sont observées sur une population de taille n. Le modèle linéaire
multiple est donné par:
Yi = a0 + a1 Xi1 + ... + ap Xip + ei , i = 1, ..., n.
Tel que ei est appelé erreur ou résidu, et il vérifie:
• E(ei ) = 0, ∀i = 1, ..., n.
• Cov(ei , ei ) = 0, i 6= j.
• V ar(ei ) = σ 2 , ∀i = 1, ..., n.
a0 , a1 , ..., ap sont les paramtres du modle. Ces paramtres et σ 2 sont inconnus
et à estimer.
Le modèle peut aussi s’écrire matriciellement comme suit:
Y = Xβ + e
X11 X1p
 

Y1
 1 ··· 
a0

 .. .. .. .. 
 Y2   . . . . 
  a1 
tels que: Y =  , X = ,β =  ,e =
   
..   .
 .  
 1 X1 ..
.   .. 
n−1
Yn 1 Xn1 ··· Xnp ap
 
e1
 e2 
.
 
 ..
 . 
en
Le vecteur des paramètres β étant inconnu, pour avoir le modèle qui ajuste
au mieux le nuage de points {(Yi , X1I , ..., Xpi ), i = 1, ..., n}, il faudrait obtenir
b C’est à dire βb qui minimise P e2 = kek2 .
l’estimateur des moindres carrés β. i
i
Ainsi βb est solution de
2
d kek b
(β) = 0,

on a
2 2
d kek b d kY − Xβk b
(β) = 0 ⇒ (β) = 0
dβ dβ
or

2
kY − Xβk = (Y − Xβ)t (Y − Xβ) =
= Y t Y − (Xβ)t Y − Y t (Xβ) + (Xβ)t (Xβ)
= Y t Y − 2Y t (Xβ) + (Xβ)t (Xβ)

3
Ainsi
2
d kY − Xβk b
(β) = −2X t Y βb + 2X t X βb = 0

⇒ βb = (X t X)−1 X t Y

Remarque 2 Si n > p + 1 et (X t X) est de rang p alors (X t X) est inversible.

Parmi les estimateurs sans biais βb est un estimateur de β de variance mini-


male (Théorème de Gauss Markov).

Variance de βb

V ar(β)
b = V ar((X t X)−1 X t Y )
= (X t X)−1 X t var(Y )X(X t X)−1

Rappel: Soit A une matrice de dimension (p, n) et Y un vecteur de dimen-


sion n, alors
V ar(AY ) = AV ar(Y )At
or
V ar(Y ) = V ar(Xβ + e) = σ 2 I
car X est une matrice de variables à effets fixes, d’où
b = σ 2 (X t X)−1 .
V ar(β)

σ 2 étant inconnue, elle est estimée par

ei 2
P
2 i
S =
n − (p + 1)

Calcul de S 2 en fonction des estimateurs des paramètres: Supposons que


toutes les variables sont centrées, on a
2
2
kek = Y − X βb

= (Y − X β)b t (Y − X β)b
= Y t Y − 2Y t X βb + βbt X t X βb
= Y t Y − 2Y t X βb + βbt X t X(X t X)−1 X t Y
= Y t Y − 2Y t X βb + βbt X t Y
= Y t Y − Y t X βb

Ainsi sachant que X


Y tY = (Yi − Y )2
i

4
et !
X X
t
Y X βb = (Yi − Y )(Xi1 − X1 ), ..., (Yi − Y )(Xip − Xp ) β,
b
i i

alors
1
S2 = (Y t Y − Y t X β)
b
n − (p + 1)
 
p
n var(Y ) −
X
= aj cov(Xj , Y ) .
n − (p + 1)
b
j=1

(yi − y)2 = (yi − ybi + ybi − y)2 = (yi − ybi )2 + (b


yi − y)2 +
P P P P
Remarque 3
i P 2 iP i i
yi − y)2
P
2 (yi − ybi )(b
yi − y) = ei + (b
i i i
car yb est la projection orthogonale de y sur la droite qui ajuste au mieux le
nuage de points.

3.1 Coefficient de Détermination


Il est défini par
yi − y)2
P
(b
2 var(by) i
R = =P .
V ar(y) (yi − y)2
i

Il mesure la dispersion du nuage de points théorique à la dispersion observée.


Il est compris entre 0 et 1. Cette formule peut aussi s’écrire:

e2i
P

R2 = 1 − P i
(yi − y)2
i

3.2 Intervalle de confiance des paramètres


Soit tα/2 , un scalaire tel que

a−a
< tα/2 ) = 1 − α
b
P (−tα/2 <
sba

Comme T = bas−a a
b
suit une loi de Student à n − (p + 1) degré de liberté (ddl),
alors tα/2 est la valeur tabulée de la loi de Student au seuil α = 1% ou 5%.
L’intervalle de confiance à 95 ou 99% de a est donné par:
 
a − tα/2 sba , b
b a + tα/2 sba

5
3.3 Test de l’effet d’une variableX explicatives sur Y
On voudrait tester si la variable explicative X a un effet linéaire sur la variable
dépendante Y au seuil α = 5%(1%).
Pour cela, on pose l’hypothèse nulle H0 : ”a = o” contre l’alternative H1 :
a 6= 0, tel que a est le parmètre inconnu associé à la variable explicative X.
Sous H0, T = sbaab suit une loi de Student à n − (p + 1) degré de liberté (ddl).
N Si: |T | > tα/2 , cet évènement a 5% de chance de se réaliser sous H0 ,
ainsi, cette dernière est rejetéé et donc H1, est accepté et l’effet de X sur Y est
linéaire.
N Si |T | > tα/2 , H0, est accepté car cet évènement a 95% de chance de se
réaliser, et on ne peut rien dire quant au type d’effet de X sur Y (il n’est pas
linéaire).

3.4 Test de l’effet d’un groupe de variables explicatives


sur Y
Soient X1 , ..., Xp , p variables explicatives, on voudrait tester l’effet linéaire de
k variables parmi p(p ≥ k) sur Y à un seuil α. Pour cela on pose l’hypothèse
H0 : a1 = a2 = ... = ak = 0 contre l’alternative H1 ∃j = 1, ..., k / aj 6= 0.
Sous H0,
R2 − Rk2 1 − R2
Fk = 
k n − (p + 1)
suit une loi de Fisher à (k, n − p − 1) degré de liberté. Pour le test, F est
comparé à f(k,n−p−1) qui est la valeur tabulée de Fisher au seuil α et à un ddl
(k, n − p − 1).tels que k représente le ddl du numérateur et n − p − 1, celui du
dénominateur de F .
tels que Rk2 est le coefficient de détermination du modèle obtenu sous H0 .
N Si Fk > f(k,n−p−1) , alors on rejette H0, et donc il existe au moins un effet
linéaire parmi les k variables explicatives.
N sinon H0, est acceptée, et sur les k variables il n y a aucun effet linéaire.

3.5 Test de la régression globale


Dans ce cas on teste l’effet de toutes les variables explicatives sur Y au seuil α.
Pour cela on pose l’hypothèse H0 : a1 = a2 = ... = ap = 0 contre l’alternative
H1 ∃j = 1, ..., p / aj 6= 0.
Sous H0 :

yi − y)2 p
P
(b
i R2 /p
F =P 2 =
ei /n − p − 1 (1 − R2 )/n − (p + 1)
i

suit une loi de Fisher à (p, n − p − 1) degré de liberté. Pour le test, celle ci est
comparé à f(p,n−p−1) qui est la valeur tabulée de Fisher au seuil α et à un ddl
(p, n − p − 1).

6
N Si F > f(p,n−p−1) , alors on rejette H0, et donc il exite au moins un effet
linéaire parmi les p variables explicatives.
N Sinon H0 est accepté, et sur les p variables il n y a aucun effet linéaire et
le modle est donc rejet.

3.6 Problème de prévision linéaire


Connaissant le niveau des variables explicatives X 1 , ...X P , on voudrait prédire
le niveau de la variable dépendante Y
Soit X01 , ..., X0p , une observation supplémentaire des variables explicatives
X , ..., X p , la prédiction Yb0 est donnée par:
1

Yb0 = b
a0 + b ap X0p .
a1 X01 + ... + b

La valeur à prédire Y0 appartient à 95%(99%) de chance à l’intervalle:


h i
Yb0 − S0 tα/2 , Yb0 + S0 tα/2

tel que S02 est l’estimateur de la variance de l’erreur de prvision donné par:

S02 = S 2 1 + xt0 (X t X)−1 x0


 

tel que x0 = (1, X01 , ..., X0p ) représente l’observation supplémentaire des p
variables explicatives

Remarque 4 Dans le cas du modèle linéaire simple, celle ci se simplifie et se


calcule comme suit:
 
2
1 (x 0 − x)
S02 = S 2 1 + + P 
n (xi − x)2
i

Exemple 5 Soit la variable Y , X1 , X2 ,X3 , représentant les importations, PIB,


la formation des stocks et la consommation des ménages, respectivement. Le
tableau de données centrées et donné ci-dessous
y -3 -2 3 2 0
X1 -14 -5 3 6 10
X2 0 -1 1 0 0
X3 -9 -3 3 4 5

Dans R, la régression de Y en fonction des 3 variables est effectu’ee avec:


♣ lm=lm(y X1+X2+X3)
Les résultats sont stockés dans
♣ summary(lm) Ci- dessous les résultats obtenus:

7
Call:
lm(formula = y ~X1 + X2 + X3)

Residuals:
1 2 3 4 5
0.1203 -0.2139 -0.2139 0.4545 -0.1471

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.643e-16 2.585e-01 0.000 1.000
X1 -7.139e-01 2.335e-01 -3.058 0.201
X2 9.840e-01 4.876e-01 2.018 0.293
X3 1.457e+00 3.863e-01 3.772 0.165

Residual standard error: 0.5781 on 1 degrees of freedom


Multiple R-squared: 0.9871, Adjusted R-squared: 0.9486
F-statistic: 25.6 on 3 and 1 DF, p-value: 0.144.
Au seuil de α = 5% toute les valeurs des p-value (P r(> |t|)) sont supérieures
à 5%, donc l’hypothèse nulle H0j : aj = 0 contre H1j : aj 6= 0 est acceptée
∀j = 1, ..., 3. Ainsi, il n ya pas d’effet linéaire de la variable X j sur Y .

Vous aimerez peut-être aussi