STATISTIQUE APPLIQUEE
Chap. III : Régression linéaire simple
Rachid MCHICH
I. Modèle de régression linéaire simple
Le modèle de régression utilisé dans une régression
linéaire simple s’écrit :
y = β0 + β1 x + ε
y : variable à expliquer (dépendante)
x : variable explicative (indépendante)
β0 et β1 correspondent aux paramètres du modèle
ε est une variable aléatoire appelée: terme d’erreur.
Ce terme prend en compte la variabilité de y qui
n’est pas expliquée par la relation linéaire entre x et
y.
Le terme ε mesure la différence entre les valeurs
réellement observées et les valeurs qui auraient été
observées si la relation spécifiée avait été
rigoureusement exacte. Ce terme regroupe donc trois
erreurs :
Une erreur de spécification : le fait que la seule
variable explicative n’est pas suffisante pour rendre
compte de la totalité du phénomène expliqué;
une erreur de mesure, les données ne représentent
pas exactement le phénomène;
une erreur de fluctuation d’échantillonnage : d’un
échantillon à l’autre les observations, et donc les
estimations, sont légèrement différentes.
Chaque distribution des valeurs de y a sa propre
moyenne. L’équation qui décrit comment la
moyenne de y est liée à x est appelée : équation
de la régression linéaire simple. Elle est donnée
par :
E(y) = β0 + β1 x
CasA: CasB: CasC:
Relation linéaire positive Relation linéaire négative Pas de relation
E(y) E(y) E(y)
Ordonnée
à l'origine
Ordonnée
{Jo
à l'origine La pentcp,est nulle
( )IIIUlIlléc
{Jo 1--------
l'UIIKIIlC Droite de régression
{Jo
Droite de régression
~------------------x L------------------x
YI 12.1 Droites de régression possibles dallS une régressiOlllinéllire simple
En pratique, la valeur des paramètres n’est pas connue
et doit être estimée en utilisant les données d’un
échantillon. D’où l’équation estimée de la
régression linéaire simple :
ŷ = b0 + b1 x
(droite de régression estimée)
II. La méthode des moindres carrés :
La méthode des moindres carrés est une procédure qui
permet d’utiliser les données de l’échantillon pour estimer
l’équation de la régression (b0 et b1). Elle consiste à
minimiser la somme des écarts au carré :
2
min ∑ (yi − ŷi )
Ainsi, la pente et l’ordonnée à l’origine de l’équation
estimée de la régression sont données par :
b =
∑ (x − x )(y − y)
i i
1 b0 = y − b1 x
∑(x − x )
i
2
Exemple : Considérons les données collectées sur les
ventes mensuelles d’un échantillon de 10 restaurants d’une
chaîne de restaurants, par-rapport à la population locale :
Restaurant i Population Ventes mensuelles
(en milliers : xi) (en milliers de dh)
1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202
III. Coefficient de détermination :
Une fois l’équation estimée de la régression établie,
la question qui se pose est : Dans quelle mesure
cette équation s’ajuste-t-elle aux données?
Nous montrerons ainsi que le coefficient de
détermination fournit une mesure de l’adéquation
de l’équation estimée de la régression.
Pour la ième observation, le ième résidu (ou erreur
commise) est donné par :
yi − ŷi
La somme de ces résidus, ou erreurs, au carré
correspond à la quantité minimisée par la
méthode des moindres carrés. Cette quantité,
aussi appelée : somme des carrés des résidus,
est donnée par :
2
SCres = ∑ (yi − ŷi )
D’autre part, pour estimer les yi sans utiliser les xi,
on utilise y la moyenne des yi. Ainsi, pour la ième
observation, yi − y fournit une mesure de l’erreur
commise en utilisant y pour estimer les ventes.
D’où la somme des carrés totale donnée par:
2
SCT = ∑ (yi − y )
Enfin, pour déterminer dans quelle mesure les
valeurs ŷ de la droite de régression dévient de la
moyenne ,yune autre somme des carrés est calculée.
Cette somme est appelée somme des carrés de
la régression, et elle est donnée par :
2
SCreg = ∑ ( ŷi − y )
Ainsi, on a :
SCT = SCreg + SCres
D’autre part, le coefficient de corrélation de
l’échantillon peut être calculé de la façon suivante :
rxy = (signe de b1 ) r 2
IV. Hypothèses du modèle :
Même avec une valeur du coefficient de
détermination assez élevé, une analyse approfondie
de la robustesse du modèle supposé doit être faite.
Pour cela, des tests de signification doivent être
effectués et sont basés sur les hypothèses suivantes,
concernant le terme d’erreur ε :
Hypothèses sur le terme d’erreur ε dans le modèle
de la régression : y = β0 + β1 x + ε
(H1) E(ε ) = 0 (donc E(y) = β0 + β1 x )
(H2) La variance de ε notée σ 2 est la même pour
toutes les valeurs de x.
(H3) Les valeurs de ε sont indépendantes entre
elles.
(H4) Le terme d’erreur ε est une v. a. normalement
distribuée (et donc y aussi).
V.Test de signification :
Pour l’équation de régression simple, on a :
E(y) = β0 + β1 x
Ainsi, si β1 = 0 alors E(y) = β0 ; càd x et y ne sont
pas liées; sinon, les deux variables le sont (si
). β1 ≠ 0
Il faudrait donc effectuer un test d’hypothèses pour
déterminer si β1 = 0 .
Estimation de σ 2 :
La moyenne des carrés des résidus fournit
une estimation de σ 2 :
2 SCres
s = MCres =
n−2
((n-2) ddl)
MCres fournit une estimation sans biais de σ 2 .
Erreur type de l’estimation :
SCres
s = MCres =
n−2
V-1 Test t de Student :
On teste les hypothèses suivantes concernant β1 :
H 0 : β1 = 0
H a : β1 ≠ 0
Notons d’abord que b0 et b1 sont des statistiques
d’échantillonnage qui ont leur propre distribution
d’échantillonnage; ainsi :
Les propriétés de la distribution d’échantillonnage
pour b1 sont données par :
Espérance : E(b1 ) = β1
σ
Ecart type de b1 : σ b1 =
∑ i
(x − x ) 2
Forme de la distribution: Normale.
Comme σ n’est pas connue, alors on calcule :
s
Ecart type estimé de b1 : sb1 =
∑ i
(x − x ) 2
Test de signification de Student dans le cadre
d’une régression linéaire simple :
H 0 : β1 = 0
H a : β1 ≠ 0
b1
Statistique de test : t=
sb1
Règle de rejet :
Approche par la valeur p : Rejet de H0 si p ≤ α
Approche par la valeur critique : Rejet de H0 si
t ≤ −tα /2 ou t ≥ tα /2
où tα /2 est basé sur la distribution de Student à (n-2) ddl.
Intervalle de confiance pour β1 :
L’intervalle de confiance pour β1 est :
b1 ± tα /2 sb1
au coefficient de confiance (1− α ) et à (n-2) ddl.
Au seuil de 99%, l’intervalle de confiance nous offre une
alternative pour conclure le test d’hypothèses dans le cadre
de notre exemple.
En effet, puisque 0, la valeur hypothétique de β1 n’appartient
pas à l’intervalle de confiance, nous pouvons alors rejeter H0
et conclure qu’une relation statistiquement significative
existe entre la taille de la population et les ventes
mensuelles.
V-2 Test F de Fisher :
Si β1 = 0, alors la moyenne des carrés de la
régression fournit une autre estimation de σ 2 :
SCreg
MCreg =
Nbr ddl
Pour les modèles de régression considérés ici, le
nombre ddl = nbr de var. indépendantes; càd. :
SCreg SCreg
MCreg = =
Nbr de var. indépendantes 1
Test F de Fisher :
Statistique du test de Fisher :
MCreg
F=
MCres
MCreg suit une loi de Fisher avec 1 ddl au
MCres
numérateur et n-2 ddl au dénominateur
Test de signification de Fisher:
H 0 : β1 = 0
H a : β1 ≠ 0
Statistique de test : F = MCreg
MCres
Règle de rejet :
Approche par la valeur p : Rejet de H0 si p ≤ α
Approche par la valeur critique : Rejet de H0 si
F ≥ Fα
où Fαest basé sur la distribution de Fisher à 1 ddl au
numérateur et (n-2) ddl au dénominateur.
Tableau ANOVA :
Source Somme Degrés Moyenne des carrés F
de la des de liberté
variation carrés
Régression SCreg 1 SCreg MCreg
MCreg = F=
1 MCres
SCres
Résidu SCres n-2 MCres =
n−2
Totale SCT n-1
Inférence sur β0 :
Distribution d échantillonnage
FSTG Marrakech
La distribution d’échantillonnage de l’estimateur b0 est une distribution
normale :
) # & ,
1/2
+ % ( .
2
+ % 1 x ( .
Régression Linéaire II
b0 N + β0 ;σ + n .
%n 2 (
+
+ % ∑ ( xi − x ) ( .
.
* $ i=1 ' -
Pr. AIT BABRAM Mohamed
b0 − β0
z=
σ ( b0 )
z N (0,1)
Inférence sur b
Remarque : Dans le cas d’un petit échantillon, l’écart réduit suit une loi
de Student :
FSTG Marrakech
b0 − β 0
t= T (n − 2)
s ( b0 )
Régression Linéaire II
1/ 2
# &
% (
%1 x2 (
s (b0 ) = s% + (
n n
Pr. AIT BABRAM Mohamed
2
% ∑ ( xi − x) (
%
$ i =1
(
'
Remarque : Dans le cas où la taille de l échantillon est grande, la
distribution de l écart réduit est
b0 − β 0
t= N ( 0;1)
s ( b0 )
Intervalle de confiance pour β0 :
FSTG Marrakech
L’intervalle de confiance pour β0 est :
b0 − s ( b0 ) × tα /2; (n−2) ≤ β0 ≤ b0 − s ( b0 ) × tα /2; (n−2)
Régression Linéaire II
f(n-2)
1-α
Pr. AIT BABRAM Mohamed
α/2 α/2
- ta / 2;(n -2 ) t a / 2 ;( n - 2 )
Densité de probabilité de la loi
Student avec (n-2) degré de liberté
Exercice :
Considérons le tableau d’observations suivant:
xi 1 2 3 4 5
yi 3 7 5 11 14
a) Représenter le nuage de points associé à ces données.
b) Développer l’équation estimée de la régression.
c) Utiliser l’équation estimée de la régression pour prévoir
la valeur de y lorsque x=4.
d) Calculer la MCres et l’erreur type de l’estimation.
e) Calculer l’écart type estimé de b1.
f) Utiliser le test de Student et de Fisher pour tester les
hypothèses suivantes :
H 0 : β1 = 0
H a : β1 ≠ 0
g) Présenter les résultats sous forme d’un tableau ANOVA.