Regression
Regression
et multiple
1
Exemple
• Une entreprise faisant du marketing direct
en ligne aimerait construire un modèle pour
identifier les clients les plus susceptibles
d’acheter des produits de leur prochain
catalogue qui doit être envoyé le mois
prochain. Ainsi, les clients qui seront
identifiés par le modèle comme ayant peu de
chance d’acheter seront exclu de la
prochaine liste d’envoi.
2
Exemple (suite)
• Au cours de la dernière année, l’entreprise a recueilli
l’information suivante dans sa base de données pour un sous-
ensemble de ses clients (fichier ré[Link]):
– nombre total d’envois postaux,
– nombre total de commandes (achats) reçues,
– montant total (en dollars) des achats jusqu’à
aujourd’hui (variable: Tot_doll),
– montant (en dollars) des commandes des 12 derniers
mois.
– nombre de mois écoulé depuis le dernier achat
– sexe du client (variable: sexe, 0=femme 1=homme).
3
Exemple (suite)
• Malheureusement, l’entreprise n’a pas pensé inclure dans
sa base de données si les clients ont fait un achat (oui ou
non) après chacun des envois postaux.
• Cependant elle émet l’hypothèse que le ratio nombre total
de commandes reçues sur le nombre total d’envois est
une bonne mesure de la probabilité d’un achat. Cette
variable servira de variable dépendante (Y).
• Les autres variables serviront de variables explicatives
dans le modèle.
• Comment procéderiez-vous?
4
Introduction:
• Un des objectifs principaux de la statistique est
d ’expliquer la variabilité que l ’on observe dans
les données.
• La régression linéaire (ou les modèles linéaires)
est un outil statistique TRÈS UTILISÉ pour
étudier la présence d ’une relation entre une
variable dépendante Y (quantitative et continue)
et une ou plusieurs variables indépendantes
X1, X2, …, Xp (qualitatives et/ou quantitatives).
5
Un modèle de régression peut servir à
répondre à un des 3 objectifs suivants:
# pieds
carrés condition
valeur valeur du premier de type de
OBS totale terrain # d'acres plancher l'extérieur chauffage
# salles # salles de
# de # de de bain bain non # de
OBS pièces chambres complète complète foyers GARAGE
1 8 4 2 1 2 Garage
2 6 2 1 0 0 NoGarage
3 7 3 2 0 1 Garage
4 6 3 2 0 1 Garage
5 8 4 2 1 2 NoGarage
...
78 10 5 5 1 1 Garage
79 9 4 2 2 2 Garage
8
Est-ce qu ’il y a un lien entre la valeur totale
et ces différents facteurs?
450000
350000
Totale
250000
150000
50000
40000 90000 140000
Terrain
9
450000 450000
350000 350000
Totale
Totale
250000 250000
150000 150000
50000 50000
0 1 2 3 4 5 6 500 1500 2500 3500
Acre Pied2
450000 450000
350000 350000
Totale
Totale
250000 250000
150000 150000
50000 50000
5 10 15 2 3 4 5 6 7 8
Pièces Chambre
10
450000 450000
350000 350000
Totale
Totale
250000 250000
150000 150000
50000 50000
1 2 3 4 5 6 7 0 1 2 3
SbainsC Sbains
450000 450000
350000 350000
Totale
Totale
250000 250000
150000 150000
50000 50000
0 1 2 3 4 5 6 7 NoGarage Garage
Foyers Garage
11
Le coefficient de corrélation r de Pearson sert à
mesurer l’intensité de la relation linéaire entre
deux variables quantitatives.
• Le coefficient de corrélation r prendra des valeurs entre
-1 et 1.
• S ’il existe une relation linéaire parfaite entre X et Y
alors r = 1 (r =1 si X et Y varient dans le même sens et
r = -1 si X varie dans le sens opposé à Y).
• Si r = 0, ceci indique qu ’il n ’y a pas de lien linéaire
entre X et Y.
• Plus la valeur de r s ’éloigne de 0 pour s ’approcher de
1 plus l ’intensité du lien linéaire entre X et Y grandit.
12
Y ‚
6.5 ˆ * r = 0.035 Y ‚ r = 1
‚ ‚
‚ 31 ˆ *
6.0 ˆ * * 29 ˆ *
‚ 27 ˆ *
‚ 25 ˆ *
5.5 ˆ * * 23 ˆ *
‚ 21 ˆ *
‚ 19 ˆ *
5.0 ˆ * 17 ˆ *
‚ 15 ˆ *
‚ 13 ˆ *
4.5 ˆ * * * 11 ˆ *
‚ ‚
‚ Šƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ
4.0 ˆ * * 4 5 6 7 8 9 10 11 12 13 14
Šƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ
4 5 6 7 8 9 10 11 12 13 14 X
Y ‚ r = -1
‚
-8.0 ˆ *
-10.5 ˆ *
-13.0 ˆ *
-15.5 ˆ *
-18.0 ˆ *
-20.5 ˆ *
-23.0 ˆ *
-25.5 ˆ *
-28.0 ˆ *
-30.5 ˆ *
-33.0 ˆ *
‚
Šƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒ
4 5 6 7 8 9 10 11 12 13 14
X
13
Statistiques descriptives
14
Attention!! Il est important d ’interpréter le coefficient
de corrélation avec le graphique.
r = 0.816 dans tous les cas ci-dessous
12.5 ˆ 10 ˆ
‚ ‚ *
‚ ‚ * * *
‚ * ‚ *
10.0 ˆ * 8 ˆ * *
‚ ‚ *
Y1 ‚ * Y2 ‚
‚ * * ‚
7.5 ˆ * * 6 ˆ *
‚ * ‚
‚ ‚
‚ * ‚ *
5.0 ˆ * 4 ˆ
‚ * ‚
‚ ‚ *
‚ ‚
2.5 ˆ 2 ˆ
Šƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ Šƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ
4 5 6 7 8 9 10 11 12 13 14 4 5 6 7 8 9 10 11 12 13 14
X X
15.0 ˆ Y4 ‚
‚ 12.5 ˆ *
‚ ‚
‚ ‚
12.5 ˆ * ‚
‚ ‚
Y3 ‚ 10.0 ˆ
‚ ‚
10.0 ˆ ‚ *
‚ ‚ *
‚ * ‚ *
‚ * 7.5 ˆ *
7.5 ˆ * * ‚ *
‚ * * ‚ *
‚ * * ‚ *
‚ * * ‚ *
5.0 ˆ 5.0 ˆ
Šƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ Šƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒ
4 5 6 7 8 9 10 11 12 13 14 8 19 15
X X
Régression linéaire simple
• Pour décrire une relation linéaire entre deux variables
quantitatives ou encore pour pouvoir prédire Y pour
une valeur donnée de X, nous utilisons une droite de
régression:
• Y = 0 + 1X +
• Puisque tout modèle statistique n’est qu’une
approximation (nous espérons la meilleure possible!!),
il y a toujours une erreur, notée dans le modèle, car le
lien linéaire n’est jamais parfait.
• S ’il y avait une relation linéaire parfaite entre Y et X,
le terme d ’erreur serait toujours égale à 0, et toute la
variabilité de Y serait expliquée par la variable
indépendante X. 16
OLS: Méthode des moindres
carrés
Y Erreur 2
Erreur 3
Erreur 1
X
Y = B0+ B1X + e
17
• Donc, pour une valeur donnée de X, nous aimerions
estimer Y.
• Ainsi, à l’aide des données de l’échantillon nous
estimerons les paramètres 0 et 1 du modèle de
régression de façon à minimiser la somme des carrés
des erreurs.
• Le coefficient de corrélation au carré est appelé
coefficient de détermination et nous indique le
pourcentage de la variabilité de Y expliquée par X:
R2 = 1 - (n-2)/(n-1){Se /Sy}2,
où Se est l’écart type des erreurs et Sy est l’écart
type de Y.
18
• On peut également utiliser le coefficient de
détermination ajusté pour nous indiquer le
pourcentage de la variabilité de Y expliquée par
X:
R2ajusté = 1 - {Se/Sy}2 .
19
Exemple de régressions linéaires simples:
MODÈLE 1.
Regression Analysis
The regression equation is
Analysis of Variance
Source DF SS MS F P
Regression 1 3,26460E+11 3,26460E+11 109,68 0,000
Residual Error 77 2,29181E+11 2976374177
Total 78 5,55641E+11
20
MODÈLE 2.
The regression equation is : Totale = - 347 + 22021 Pièces
Analysis of Variance
Source DF SS MS F P
Regression 1 2,18090E+11 2,18090E+11 49,75 0,000
Residual Error 77 3,37551E+11 4383775699
Total 78 5,55641E+11
__________________________________________________________________
MODÈLE 3.
The regression equation is : Totale = 32428 + 38829 Chambre
Analysis of Variance
Source DF SS MS F P
Regression 1 1,88445E+11 1,88445E+11 39,52 0,000
Residual Error 77 3,67196E+11 4768775127
Total 78 5,55641E+11 21
• Modèle 1:
– valeur totale = 16209 + 102*( # pieds carrés ).
– R2 = 58,8%. Donc 58,8% de la variabilité de la valeur
totale est expliquée par le # pieds carrés.
• Modèle 2:
– valeur totale = -347 + 22021*( # pièces ).
– R2 = 39,3%. Donc 39,3% de la variabilité de la valeur
totale est expliquée par le # pièces.
• Modèle 3:
– valeur totale = 32428 + 38829*( # chambres ).
– R2 = 33,9%. Donc 33,9% de la variabilité de la valeur
totale est expliquée par le # chambres.
22
Parmi les 3 modèles précédents, lequel
choisiriez vous et pourquoi?
23
Intervalle de confiance au niveau 1- pour la
moyenne des valeurs de Y pour une valeur
spécifique de X:
24
Intervalle de confiance au niveau 1- pour une
nouvelle valeur de Y (prévision) étant donné une
valeur spécifique de X:
• Pour le modèle 1 et une valeur de X=1500 pi2 on
obtient l’estimation ponctuelle suivante:
– est. valeur totale = 16 209 + 101,939*1500 = 169 117$
– intervalle de confiance à 95% pour une valeur totale
prédite lorsque la superficie du premier plancher est de
1500 pi2 :
[59 742, 278 492]
• L ’intervalle de confiance pour une valeur prédite est
toujours plus grand que pour la moyenne des valeurs de Y
pour un X spécifique.
25
Régression linéaire multiple
• Il est fort possible que la variabilité de la variable
dépendante Y soit expliquée non pas par une seule
variable indépendante X mais plutôt par une
combinaison linéaire de plusieurs variables
indépendantes X1, X2, …, Xp.
• Dans ce cas le modèle de régression multiple est donné
par:
Y = 0 + 1X1 + 2X2 + … + pXp +
• Aussi, à l’aide des données de l’échantillon nous
estimerons les paramètres 0, 1, …, p du modèle de
régression de façon à minimiser la somme des carrés
des erreurs. 26
• Le coefficient de corrélation multiple R2 , aussi appelé
coefficient de détermination, nous indique le
pourcentage de la variabilité de Y expliquée par les
variables indépendantes X1, X2, …, Xp.
• Lorsqu’on ajoute une ou plusieurs variables
indépendantes dans le modèle, le coefficient R2
augmente.
• La question est de savoir si le coefficient R2 augmente
de façon significative.
• Notons qu’on ne peut avoir plus de variables
indépendantes dans le modèle qu’il y a d ’observations
dans l’échantillon (règle générale: n 5p). 27
Exemple:
MODÈLE 1.
The regression equation is
Totale = - 89131 + 3,05 Terrain - 20730 Acre + 43,3 Pied2 - 4352 Pièces
+ 10049 Chambre + 7606 SbainsC + 18725 Sbains + 882 Foyers
Analysis of Variance
Source DF SS MS F P
Regression 8 4,93877E+11 61734659810 69,97 0,000
Residual Error 70 61763515565 882335937
Total 78 5,55641E+11 28
MODÈLE 2
Regression Analysis
The regression equation is
Totale = - 97512 + 3,11 Terrain - 21880 Acre + 40,2 Pied2
+ 4411 Chambre + 8466 SbainsC + 14328 Sbains
Analysis of Variance
Source DF SS MS F
P
Regression 6 4,91859E+11 81976430646 92,54
0,000
29
Residual Error 72 63782210167 885864030
MODÈLE 3
Regression Analysis
The regression equation is
Totale = - 90408 + 3,20 Terrain - 22534 Acre + 41,1 Pied2
+ 10234 SbainsC + 14183 Sbains
Analysis of Variance
Source DF SS MS F P
Regression 5 4,90426E+11 98085283380 109,80 0,000
Residual Error 73 65214377146 893347632
Total 78 5,55641E+11
30
Modèle sans la superficie du terrain ( # d ’acres ) à
cause de la multicolinéarité avec la valeur du terrain.
MODÈLE 4
The regression equation is
Totale = - 55533 + 1,82 Terrain + 49,8 Pied2 + 11696 SbainsC
+ 18430 Sbains
Analysis of Variance
Source DF SS MS F P
Regression 4 4,83160E+11 1,20790E+11 123,32 0,000
Residual Error 74 72481137708 979474834
31
Total 78 5,55641E+11
Parmi les 4 modèles précédents, lequel
choisiriez vous et pourquoi?
• Probablement le modèle 4 car toutes les variables
indépendantes sont significatives au niveau 5% (c.-à-
d. p-value < 5% pour chaque dans le modèle) et bien
que le R2 soit plus petit, il n ’est que marginalement
plus petit. De plus tous les coefficients du modèle ont
« du sens »!
• Dans le modèle 1 les variables ‘ # de pièces ’ et ‘ # de
foyers ’ ne sont pas statistiquement significatives au
niveau 5% (p-value > 5%). La variable ‘ # de
chambres ’ est à la limite avec un p-value = 0,0624.
32
Parmi les 4 modèles précédents, lequel
choisiriez vous et pourquoi?
• Dans le modèle 2 la variable ‘ # de chambres ’ n ’est
pas statistiquement significative au niveau 5%.
• Dans le modèle 3 (et les modèles précédents), le
coefficient de la variable ‘ # d ’acres ’ est négatif ce qui
est à l ’encontre du « bon sens » et de ce qu ’on a
observé sur le diagramme de dispersion et le coefficient
de corrélation de Pearson positif (r = 0,608).
• Le coefficient négatif pour la variable ‘ # d ’acres ’ dans
les modèles 1 à 3 est causé par le fait qu ’il y a une forte
relation linéaire entre la valeur du terrain et la superficie
du terrain (r = 0,918); problème de multicolinéarité.
33
Comment choisir un modèle de régression
linéaire parmi tous les modèles possibles?
Il existe plusieurs techniques:
• sélection pas à pas en ajoutant une variable à la fois et
en commençant par la plus significative (stepwise,
forward).
• sélection à partir du modèle incluant toutes les variables
et en enlevant une variable à la fois en commençant par
la moins significative (backward).
• faire tous les modèles possibles et choisir le meilleur
sous-ensemble de variables (best subset) selon certains
critères spécifiques (ex: R2 ajusté, Cp de Mallow.)
34
Exemple de sélection parmi les meilleurs sous-ensembles:
Best Subsets Regression : Response is Totale
T C S
e P h b S F
r P i a a b o
r A i è m i a y
a c e c b n i e
Adj. i r d e r s n r
Vars R-Sq R-Sq C-p s n e 2 s e C s s
T C S
e P h b S F
r P i a a b o
r i è m i a y
a e c b n i e
Adj. i d e r s n r
Vars R-Sq R-Sq C-p s n 2 s e C s s