Régression linéaire simple et
multiple
La régression linéaire (ou les modèles linéaires) est
un outil statistique TRÈS UTILISÉ pour étudier la
présence d ’une relation entre une variable
dépendante Y (quantitative et continue) et une ou
plusieurs variables indépendantes X1, X2, …, Xp
(qualitatives et/ou quantitatives).
Les données
• Y = Variable à expliquer
numérique X Y
1 x1 y1
(ou dépendante) M M M
i xi yi
• X = Variable explicative M M M
numérique ou binaire n xn yn
(ou indépendante)
Le tableau des données
3
Le coefficient de corrélation R de Pearson sert à
mesurer l’intensité de la relation linéaire entre
deux variables quantitatives.
• Le coefficient de corrélation R prendra des valeurs
entre -1 et 1.
• S ’il existe une relation linéaire parfaite entre X et Y
alors R = 1 (r =1 si X et Y varient dans le même sens et
R= -1 si X varie dans le sens opposé à Y).
• Si R = 0, ceci indique qu ’il n ’y a pas de lien linéaire
entre X et Y.
• Plus la valeur de R s ’éloigne de 0 pour s ’approcher de
1 plus l ’intensité du lien linéaire entre X et Y grandit.
Le R2 mesure la force de la liaison linéaire
entre X et Y
1) 0 R2 1
3) R2 = 0
2) R2 = 1
Y
* *
Y
* * * *
* y *
* * *
* * *
* *
*
X
X
La corrélation R mesure la force et
le sens de la liaison linéaire entre X et Y
Y
Y
* * *
* * **
* * *
* * *
*
X X
aˆ 0 aˆ 0
R0 R0
Régression linéaire simple
Pour décrire une relation linéaire entre deux variables
quantitatives ou encore pour pouvoir prédire Y pour
une valeur donnée de X, nous utilisons une droite de
régression:
Y = 0 + 1X +
Puisque tout modèle statistique n’est qu’une
approximation (nous espérons la meilleure possible!!),
il y a toujours une erreur, notée dans le modèle, car
le lien linéaire n’est jamais parfait.
S ’il y avait une relation linéaire parfaite entre Y et X, le
terme d ’erreur serait toujours égale à 0, et toute la
variabilité de Y serait expliquée par la variable
indépendante X.
• Donc, pour une valeur donnée de X, nous aimerions
estimer Y.
• Ainsi, à l’aide des données de l’échantillon nous
estimerons les paramètres 0 et 1 du modèle de
régression de façon à minimiser la somme des carrés
des erreurs.
• Le coefficient de corrélation au carré est appelé
coefficient de détermination et nous indique le
pourcentage de la variabilité de Y expliquée par X:
R2 = 1 - (n-2)/(n-1){Se /Sy}2,
où Se est l’écart type des erreurs et Sy est l’écart
type de Y.
• On peut également utiliser le coefficient de
détermination ajusté pour nous indiquer le
pourcentage de la variabilité de Y expliquée par X:
R2ajusté = 1 - {Se/Sy}2 .
La droite des moindres carrés
1600
1400 yˆ aˆx bˆ
1200
valeur
observée yi1000
erreur ei
800
valeur
prédite
ŷi *
600
400
200
Prix
0
0 100 200 300
xi
Surface 10
Régression linéaire multiple
• Il est fort possible que la variabilité de la variable
dépendante Y soit expliquée non pas par une seule
variable indépendante X mais plutôt par une
combinaison linéaire de plusieurs variables
indépendantes X1, X2, …, Xp.
11
Résultat pour y
• Prévision de y pour x fixé :
yˆ aˆx bˆ
• Intervalle de prévision de y à 95 % pour x fixé :
1 ( x x )2
yˆ t0.975 (n 2) ˆ 1 n
n ( xi x ) 2
i 1
Formule approchée : ŷ 2ˆ
COMMENT VERIFIER LES HYPOTHESES SUR L’ERREUR
Pour vérifier la normalité
Normal Q-Q Plot
1.0
Sample Quantiles
0.0
-1.0
-2 -1 0 1 2
Theoretical Quantiles
20