0% ont trouvé ce document utile (0 vote)
28 vues41 pages

Regression

Transféré par

M'BROH Serge
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPT, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
28 vues41 pages

Regression

Transféré par

M'BROH Serge
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPT, PDF, TXT ou lisez en ligne sur Scribd

Régression linéaire simple

et multiple

1
Exemple
• Une entreprise faisant du marketing direct
en ligne aimerait construire un modèle pour
identifier les clients les plus susceptibles
d’acheter des produits de leur prochain
catalogue qui doit être envoyé le mois
prochain. Ainsi, les clients qui seront
identifiés par le modèle comme ayant peu de
chance d’acheter seront exclu de la
prochaine liste d’envoi.
2
Exemple (suite)
• Au cours de la dernière année, l’entreprise a recueilli
l’information suivante dans sa base de données pour un sous-
ensemble de ses clients (fichier ré[Link]):
– nombre total d’envois postaux,
– nombre total de commandes (achats) reçues,
– montant total (en dollars) des achats jusqu’à
aujourd’hui (variable: Tot_doll),
– montant (en dollars) des commandes des 12 derniers
mois.
– nombre de mois écoulé depuis le dernier achat
– sexe du client (variable: sexe, 0=femme 1=homme).

3
Exemple (suite)
• Malheureusement, l’entreprise n’a pas pensé inclure dans
sa base de données si les clients ont fait un achat (oui ou
non) après chacun des envois postaux.
• Cependant elle émet l’hypothèse que le ratio nombre total
de commandes reçues sur le nombre total d’envois est
une bonne mesure de la probabilité d’un achat. Cette
variable servira de variable dépendante (Y).
• Les autres variables serviront de variables explicatives
dans le modèle.
• Comment procéderiez-vous?

4
Introduction:
• Un des objectifs principaux de la statistique est
d ’expliquer la variabilité que l ’on observe dans
les données.
• La régression linéaire (ou les modèles linéaires)
est un outil statistique TRÈS UTILISÉ pour
étudier la présence d ’une relation entre une
variable dépendante Y (quantitative et continue)
et une ou plusieurs variables indépendantes
X1, X2, …, Xp (qualitatives et/ou quantitatives).
5
Un modèle de régression peut servir à
répondre à un des 3 objectifs suivants:

• Décrire (données provenant d ’études non-


expérimentales c.-à-d. on observe la réalité
telle qu’elle est).
• Confronter des hypothèses (données
provenant d ’études expérimentales
contrôlées).
• Prédire (si on aime le risque!!).
6
Exemple:
Nous sommes intéressés à savoir quels sont les
facteurs importants qui influencent ou
déterminent la valeur d ’une propriété et de
construire un modèle qui nous aidera à évaluer
cette valeur selon ces facteurs. Pour ce faire,
nous avons obtenu la valeur totale pour un
échantillon de 79 propriétés dans une région
donnée. Les variables suivantes ont également
été recueillies pour chacune des propriétés:
7
Bref aperçu du fichier de données:

# pieds
carrés condition
valeur valeur du premier de type de
OBS totale terrain # d'acres plancher l'extérieur chauffage

1 199657 63247 1.63 1726 Good NatGas


2 78482 38091 0.495 1184 Good NatGas
3 119962 37665 0.375 1014 Good Electric
4 116492 54062 0.981 1260 Average Electric
5 131263 61546 1.14 1314 Average NatGas
...
78 253480 57948 0.862 1720 Good Electric
79 257037 57489 0.95 2004 Excellnt Electric

# salles # salles de
# de # de de bain bain non # de
OBS pièces chambres complète complète foyers GARAGE

1 8 4 2 1 2 Garage
2 6 2 1 0 0 NoGarage
3 7 3 2 0 1 Garage
4 6 3 2 0 1 Garage
5 8 4 2 1 2 NoGarage
...
78 10 5 5 1 1 Garage
79 9 4 2 2 2 Garage

8
Est-ce qu ’il y a un lien entre la valeur totale
et ces différents facteurs?

450000

350000
Totale

250000

150000

50000
40000 90000 140000

Terrain

9
450000 450000

350000 350000
Totale

Totale
250000 250000

150000 150000

50000 50000
0 1 2 3 4 5 6 500 1500 2500 3500

Acre Pied2

450000 450000

350000 350000

Totale
Totale

250000 250000

150000 150000

50000 50000
5 10 15 2 3 4 5 6 7 8
Pièces Chambre

10
450000 450000

350000 350000

Totale
Totale

250000 250000

150000 150000

50000 50000
1 2 3 4 5 6 7 0 1 2 3
SbainsC Sbains

450000 450000

350000 350000
Totale

Totale
250000 250000

150000 150000

50000 50000
0 1 2 3 4 5 6 7 NoGarage Garage

Foyers Garage

11
Le coefficient de corrélation r de Pearson sert à
mesurer l’intensité de la relation linéaire entre
deux variables quantitatives.
• Le coefficient de corrélation r prendra des valeurs entre
-1 et 1.
• S ’il existe une relation linéaire parfaite entre X et Y
alors r = 1 (r =1 si X et Y varient dans le même sens et
r = -1 si X varie dans le sens opposé à Y).
• Si r = 0, ceci indique qu ’il n ’y a pas de lien linéaire
entre X et Y.
• Plus la valeur de r s ’éloigne de 0 pour s ’approcher de
1 plus l ’intensité du lien linéaire entre X et Y grandit.
12
Y ‚
6.5 ˆ * r = 0.035 Y ‚ r = 1
‚ ‚
‚ 31 ˆ *
6.0 ˆ * * 29 ˆ *
‚ 27 ˆ *
‚ 25 ˆ *
5.5 ˆ * * 23 ˆ *
‚ 21 ˆ *
‚ 19 ˆ *
5.0 ˆ * 17 ˆ *
‚ 15 ˆ *
‚ 13 ˆ *
4.5 ˆ * * * 11 ˆ *
‚ ‚
‚ Šƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ
4.0 ˆ * * 4 5 6 7 8 9 10 11 12 13 14
Šƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ
4 5 6 7 8 9 10 11 12 13 14 X

Y ‚ r = -1

-8.0 ˆ *
-10.5 ˆ *
-13.0 ˆ *
-15.5 ˆ *
-18.0 ˆ *
-20.5 ˆ *
-23.0 ˆ *
-25.5 ˆ *
-28.0 ˆ *
-30.5 ˆ *
-33.0 ˆ *

Šƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒ
4 5 6 7 8 9 10 11 12 13 14

X
13
Statistiques descriptives

Variable N Moyenne Médiane Écart type Minimum Maximum


Totale 79 187253 156761 84401 74365 453744
Terrain 79 65899 59861 22987 35353 131224
Acre 79 1,579 1,040 1,324 0,290 5,880
Pied2 79 1678 1628 635 672 3501
Pièces 79 8,519 8,000 2,401 5 18
Chambre 79 3,987 4,000 1,266 2 8
SbainsC 79 2,241 2,000 1,283 1 7
Sbains 79 0,7215 1,000 0,715 0 3
Foyers 79 1,975 2,000 1,368 0 7

Coefficients de corrélation de Pearson

Totale Terrain Acre Pied2 Pièces Chambre SbainsC Sbains


Terrain 0,815
Acre 0,608 0,918
Pied2 0,767 0,516 0,301
Pièces 0,626 0,518 0,373 0,563
Chambre 0,582 0,497 0,382 0,431 0,791
SbainsC 0,626 0,506 0,376 0,457 0,479 0,586
Sbains 0,436 0,236 0,074 0,354 0,489 0,166 0,172
Foyers 0,548 0,497 0,391 0,365 0,394 0,400 0,486 0,386

14
Attention!! Il est important d ’interpréter le coefficient
de corrélation avec le graphique.
r = 0.816 dans tous les cas ci-dessous

12.5 ˆ 10 ˆ
‚ ‚ *
‚ ‚ * * *
‚ * ‚ *
10.0 ˆ * 8 ˆ * *
‚ ‚ *
Y1 ‚ * Y2 ‚
‚ * * ‚
7.5 ˆ * * 6 ˆ *
‚ * ‚
‚ ‚
‚ * ‚ *
5.0 ˆ * 4 ˆ
‚ * ‚
‚ ‚ *
‚ ‚
2.5 ˆ 2 ˆ
Šƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ Šƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ
4 5 6 7 8 9 10 11 12 13 14 4 5 6 7 8 9 10 11 12 13 14

X X

15.0 ˆ Y4 ‚
‚ 12.5 ˆ *
‚ ‚
‚ ‚
12.5 ˆ * ‚
‚ ‚
Y3 ‚ 10.0 ˆ
‚ ‚
10.0 ˆ ‚ *
‚ ‚ *
‚ * ‚ *
‚ * 7.5 ˆ *
7.5 ˆ * * ‚ *
‚ * * ‚ *
‚ * * ‚ *
‚ * * ‚ *
5.0 ˆ 5.0 ˆ
Šƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ Šƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒ
4 5 6 7 8 9 10 11 12 13 14 8 19 15
X X
Régression linéaire simple
• Pour décrire une relation linéaire entre deux variables
quantitatives ou encore pour pouvoir prédire Y pour
une valeur donnée de X, nous utilisons une droite de
régression:
• Y = 0 + 1X + 
• Puisque tout modèle statistique n’est qu’une
approximation (nous espérons la meilleure possible!!),
il y a toujours une erreur, notée  dans le modèle, car le
lien linéaire n’est jamais parfait.
• S ’il y avait une relation linéaire parfaite entre Y et X,
le terme d ’erreur serait toujours égale à 0, et toute la
variabilité de Y serait expliquée par la variable
indépendante X. 16
OLS: Méthode des moindres
carrés
Y Erreur 2

Erreur 3

Erreur 1

X
Y = B0+ B1X + e
17
• Donc, pour une valeur donnée de X, nous aimerions
estimer Y.
• Ainsi, à l’aide des données de l’échantillon nous
estimerons les paramètres 0 et 1 du modèle de
régression de façon à minimiser la somme des carrés
des erreurs.
• Le coefficient de corrélation au carré est appelé
coefficient de détermination et nous indique le
pourcentage de la variabilité de Y expliquée par X:
R2 = 1 - (n-2)/(n-1){Se /Sy}2,
où Se est l’écart type des erreurs et Sy est l’écart
type de Y.
18
• On peut également utiliser le coefficient de
détermination ajusté pour nous indiquer le
pourcentage de la variabilité de Y expliquée par
X:

R2ajusté = 1 - {Se/Sy}2 .

19
Exemple de régressions linéaires simples:
MODÈLE 1.

Regression Analysis
The regression equation is

Totale = 16209 + 102 Pied2

Predictor Coef StDev T P


Constant 16209 17447 0,93 0,356
Pied2 101,939 9,734 10,47 0,000

S = 54556 R-Sq = 58,8% R-Sq(adj) = 58,2%

Analysis of Variance

Source DF SS MS F P
Regression 1 3,26460E+11 3,26460E+11 109,68 0,000
Residual Error 77 2,29181E+11 2976374177
Total 78 5,55641E+11
20
MODÈLE 2.
The regression equation is : Totale = - 347 + 22021 Pièces

Predictor Coef StDev T P


Constant -347 27621 -0,01 0,990
Pièces 22021 3122 7,05 0,000

S = 66210 R-Sq = 39,3% R-Sq(adj) = 38,5%

Analysis of Variance
Source DF SS MS F P
Regression 1 2,18090E+11 2,18090E+11 49,75 0,000
Residual Error 77 3,37551E+11 4383775699
Total 78 5,55641E+11
__________________________________________________________________

MODÈLE 3.
The regression equation is : Totale = 32428 + 38829 Chambre

Predictor Coef StDev T P


Constant 32428 25826 1,26 0,213
Chambre 38829 6177 6,29 0,000

S = 69056 R-Sq = 33,9% R-Sq(adj) = 33,1%

Analysis of Variance
Source DF SS MS F P
Regression 1 1,88445E+11 1,88445E+11 39,52 0,000
Residual Error 77 3,67196E+11 4768775127
Total 78 5,55641E+11 21
• Modèle 1:
– valeur totale = 16209 + 102*( # pieds carrés ).
– R2 = 58,8%. Donc 58,8% de la variabilité de la valeur
totale est expliquée par le # pieds carrés.
• Modèle 2:
– valeur totale = -347 + 22021*( # pièces ).
– R2 = 39,3%. Donc 39,3% de la variabilité de la valeur
totale est expliquée par le # pièces.
• Modèle 3:
– valeur totale = 32428 + 38829*( # chambres ).
– R2 = 33,9%. Donc 33,9% de la variabilité de la valeur
totale est expliquée par le # chambres.
22
Parmi les 3 modèles précédents, lequel
choisiriez vous et pourquoi?

Le modèle 1 car il a la plus grande valeur de R2.

23
Intervalle de confiance au niveau 1- pour la
moyenne des valeurs de Y pour une valeur
spécifique de X:

• Pour le modèle 1 et une valeur de X=1500 pi2 on


obtient l ’estimation ponctuelle suivante:
– est. valeur totale = 16 209 + 102*1500 = 169 117$
– intervalle de confiance à 95% pour la moyenne de la
valeur totale pour les propriétés de 1500 pi2 :
[156 418, 181 817]

24
Intervalle de confiance au niveau 1- pour une
nouvelle valeur de Y (prévision) étant donné une
valeur spécifique de X:
• Pour le modèle 1 et une valeur de X=1500 pi2 on
obtient l’estimation ponctuelle suivante:
– est. valeur totale = 16 209 + 101,939*1500 = 169 117$
– intervalle de confiance à 95% pour une valeur totale
prédite lorsque la superficie du premier plancher est de
1500 pi2 :
[59 742, 278 492]
• L ’intervalle de confiance pour une valeur prédite est
toujours plus grand que pour la moyenne des valeurs de Y
pour un X spécifique.
25
Régression linéaire multiple
• Il est fort possible que la variabilité de la variable
dépendante Y soit expliquée non pas par une seule
variable indépendante X mais plutôt par une
combinaison linéaire de plusieurs variables
indépendantes X1, X2, …, Xp.
• Dans ce cas le modèle de régression multiple est donné
par:
Y = 0 + 1X1 + 2X2 + … + pXp + 
• Aussi, à l’aide des données de l’échantillon nous
estimerons les paramètres 0, 1, …, p du modèle de
régression de façon à minimiser la somme des carrés
des erreurs. 26
• Le coefficient de corrélation multiple R2 , aussi appelé
coefficient de détermination, nous indique le
pourcentage de la variabilité de Y expliquée par les
variables indépendantes X1, X2, …, Xp.
• Lorsqu’on ajoute une ou plusieurs variables
indépendantes dans le modèle, le coefficient R2
augmente.
• La question est de savoir si le coefficient R2 augmente
de façon significative.
• Notons qu’on ne peut avoir plus de variables
indépendantes dans le modèle qu’il y a d ’observations
dans l’échantillon (règle générale: n  5p). 27
Exemple:
MODÈLE 1.
The regression equation is
Totale = - 89131 + 3,05 Terrain - 20730 Acre + 43,3 Pied2 - 4352 Pièces
+ 10049 Chambre + 7606 SbainsC + 18725 Sbains + 882 Foyers

Predictor Coef StDev T P


Constant -89131 18302 -4,87 0,000
Terrain 3,0518 0,5260 5,80 0,000
Acre -20730 7907 -2,62 0,011
Pied2 43,336 7,670 5,65 0,000
Pièces -4352 3036 -1,43 0,156
Chambre 10049 5307 1,89 0,062
SbainsC 7606 3610 2,11 0,039
Sbains 18725 6585 2,84 0,006
Foyers 882 3184 0,28 0,783

S = 29704 R-Sq = 88,9% R-Sq(adj) = 87,6%

Analysis of Variance
Source DF SS MS F P
Regression 8 4,93877E+11 61734659810 69,97 0,000
Residual Error 70 61763515565 882335937
Total 78 5,55641E+11 28
MODÈLE 2
Regression Analysis
The regression equation is
Totale = - 97512 + 3,11 Terrain - 21880 Acre + 40,2 Pied2
+ 4411 Chambre + 8466 SbainsC + 14328 Sbains

Predictor Coef StDev T P


Constant -97512 17466 -5,58 0,000
Terrain 3,1103 0,5236 5,94 0,000
Acre -21880 7884 -2,78 0,007
Pied2 40,195 7,384 5,44 0,000
Chambre 4411 3469 1,27 0,208
SbainsC 8466 3488 2,43 0,018
Sbains 14328 5266 2,72 0,008

S = 29763 R-Sq = 88,5% R-Sq(adj) = 87,6%

Analysis of Variance
Source DF SS MS F
P
Regression 6 4,91859E+11 81976430646 92,54
0,000
29
Residual Error 72 63782210167 885864030
MODÈLE 3
Regression Analysis
The regression equation is
Totale = - 90408 + 3,20 Terrain - 22534 Acre + 41,1 Pied2
+ 10234 SbainsC + 14183 Sbains

Predictor Coef StDev T P


Constant -90408 16618 -5,44 0,000
Terrain 3,2045 0,5205 6,16 0,000
Acre -22534 7901 -2,85 0,006
Pied2 41,060 7,383 5,56 0,000
SbainsC 10234 3213 3,19 0,002
Sbains 14183 5287 2,68 0,009

S = 29889 R-Sq = 88,3% R-Sq(adj) = 87,5%

Analysis of Variance
Source DF SS MS F P
Regression 5 4,90426E+11 98085283380 109,80 0,000
Residual Error 73 65214377146 893347632
Total 78 5,55641E+11
30
Modèle sans la superficie du terrain ( # d ’acres ) à
cause de la multicolinéarité avec la valeur du terrain.
MODÈLE 4
The regression equation is
Totale = - 55533 + 1,82 Terrain + 49,8 Pied2 + 11696 SbainsC
+ 18430 Sbains

Predictor Coef StDev T P


Constant -55533 11783 -4,71 0,000
Terrain 1,8159 0,1929 9,42 0,000
Pied2 49,833 7,028 7,09 0,000
SbainsC 11696 3321 3,52 0,001
Sbains 18430 5312 3,47 0,001

S = 31297 R-Sq = 87,0% R-Sq(adj) = 86,3%

Analysis of Variance
Source DF SS MS F P
Regression 4 4,83160E+11 1,20790E+11 123,32 0,000
Residual Error 74 72481137708 979474834
31
Total 78 5,55641E+11
Parmi les 4 modèles précédents, lequel
choisiriez vous et pourquoi?
• Probablement le modèle 4 car toutes les variables
indépendantes sont significatives au niveau 5% (c.-à-
d. p-value < 5% pour chaque  dans le modèle) et bien
que le R2 soit plus petit, il n ’est que marginalement
plus petit. De plus tous les coefficients du modèle ont
« du sens »!
• Dans le modèle 1 les variables ‘ # de pièces ’ et ‘ # de
foyers ’ ne sont pas statistiquement significatives au
niveau 5% (p-value > 5%). La variable ‘ # de
chambres ’ est à la limite avec un p-value = 0,0624.
32
Parmi les 4 modèles précédents, lequel
choisiriez vous et pourquoi?
• Dans le modèle 2 la variable ‘ # de chambres ’ n ’est
pas statistiquement significative au niveau 5%.
• Dans le modèle 3 (et les modèles précédents), le
coefficient de la variable ‘ # d ’acres ’ est négatif ce qui
est à l ’encontre du « bon sens » et de ce qu ’on a
observé sur le diagramme de dispersion et le coefficient
de corrélation de Pearson positif (r = 0,608).
• Le coefficient négatif pour la variable ‘ # d ’acres ’ dans
les modèles 1 à 3 est causé par le fait qu ’il y a une forte
relation linéaire entre la valeur du terrain et la superficie
du terrain (r = 0,918); problème de multicolinéarité.
33
Comment choisir un modèle de régression
linéaire parmi tous les modèles possibles?
Il existe plusieurs techniques:
• sélection pas à pas en ajoutant une variable à la fois et
en commençant par la plus significative (stepwise,
forward).
• sélection à partir du modèle incluant toutes les variables
et en enlevant une variable à la fois en commençant par
la moins significative (backward).
• faire tous les modèles possibles et choisir le meilleur
sous-ensemble de variables (best subset) selon certains
critères spécifiques (ex: R2 ajusté, Cp de Mallow.)
34
Exemple de sélection parmi les meilleurs sous-ensembles:
Best Subsets Regression : Response is Totale

T C S
e P h b S F
r P i a a b o
r A i è m i a y
a c e c b n i e
Adj. i r d e r s n r
Vars R-Sq R-Sq C-p s n e 2 s e C s s

1 66,4 65,9 136,8 49262 X


1 58,8 58,2 184,7 54556 X
1 39,3 38,5 307,6 66210 X

2 82,7 82,2 35,9 35564 X X


2 78,8 78,3 60,3 39343 X X
2 74,4 73,7 88,1 43244 X X

3 85,6 85,0 19,5 32637 X X X


3 84,8 84,2 24,5 33521 X X X
3 84,8 84,2 24,9 33591 X X X

4 87,1 86,4 12,2 31115 X X X X


4 87,0 86,3 13,1 31297 X X X X
4 86,6 85,9 15,2 31682 X X X X

5 88,3 87,5 6,9 29889 X X X X X


5 87,6 86,7 11,2 30744 X X X X X
5 87,4 86,5 12,4 30979 X X X X X

6 88,5 87,6 7,3 29763 X X X X X X


6 88,3 87,3 8,6 30030 X X X X X X
6 88,3 87,3 8,9 30096 X X X X X X

7 88,9 87,8 7,1 29510 X X X X X X X


7 88,6 87,4 9,1 29924 X X X X X X X
7 88,3 87,2 10,6 30240 X X X X X X X 35
8 88,9 87,6 9,0 29704 X X X X X X X X
Sélection du modèle sans la variable # d ’acres
Best Subsets Regression : Response is Totale

T C S
e P h b S F
r P i a a b o
r i è m i a y
a e c b n i e
Adj. i d e r s n r
Vars R-Sq R-Sq C-p s n 2 s e C s s

1 66,4 65,9 120,6 49262 X


1 58,8 58,2 164,9 54556 X
1 39,3 38,5 278,3 66210 X

2 82,7 82,2 27,6 35564 X X


2 72,7 71,9 86,0 44704 X X
2 72,5 71,8 86,8 44813 X X

3 84,8 84,2 17,2 33521 X X X


3 84,8 84,2 17,6 33591 X X X
3 84,0 83,3 22,3 34467 X X X

4 87,0 86,3 6,9 31297 X X X X


4 86,1 85,3 12,1 32352 X X X X
4 85,3 84,5 16,5 33226 X X X X

5 87,3 86,4 6,9 31100 X X X X X


5 87,0 86,1 8,5 31439 X X X X X
5 87,0 86,1 8,9 31509 X X X X X

6 87,8 86,8 6,1 30707 X X X X X X


6 87,3 86,3 8,7 31264 X X X X X X
6 87,0 85,9 10,5 31656 X X X X X X

7 87,8 86,6 8,0 30908 X X X X X X X 36


Le choix du meilleur modèle se fait selon la
combinaison:

• La plus grande valeur de R2 ajusté pour le nombre de


variables dans le modèle.
• La plus petite valeur de Cp .
• Pour les modèles avec R2 ajusté et Cp comparables, on
choisira le modèle qui a le plus de « sens » selon les
experts dans le domaine.
• Pour les modèles avec R2 ajusté et Cp comparables, le
modèle avec les variables indépendantes les plus faciles
et moins coûteuses à mesurer.
• La validité du modèle.
37
Intervalle de confiance au niveau 1- pour la moyenne de Y et
une nouvelle valeur de Y (prévision) étant donné une
combinaison de valeurs spécifiques pour X1, X2, …, Xp .

• Pour le modèle 4 et une propriété avec terrain= 65 000$,


pi2 = 1500, 2 salles de bain complète et 1 non-complète,
on obtient l’estimation ponctuelle suivante:
– est. valeur totale = -55 533 + 1,816*65 000 + 49,833*1 500 +
11 696*2 + 18 430*1 = 179 074$
– intervalle de confiance à 95% pour la moyenne de la valeur
totale:
[170 842, 187 306]
– intervalle de confiance à 95% pour une valeur totale
prédite :
[116 173, 241 974] 38
Remarques:
• Les longueurs des intervalles de confiance au niveau 95% du
modèle de régression multiple pour une propriété de 1500 pi2
sont plus petites que pour le modèle de régression simple.
• Donc l’addition de plusieurs autres variables dans le modèle
a aidé à expliquer encore plus la variabilité de la valeur
totale et à améliorer nos estimations.
• Si deux ou plusieurs variables indépendantes sont corrélées
on dira qu’il y a multicolinéarité. Ceci peut influencer les
valeurs des paramètres dans le modèle.
• Aussi, si deux variables indépendantes sont fortement
corrélées, alors seulement une des deux variables sera incluse
dans le modèle, l ’autre n ’apportant que très peu
d ’information supplémentaire.
• Certaines conditions sont nécessaires à la validité du modèle
et de l ’inférence correspondante (similaire à la régression
linéaire simple). 39
Exemple avec une variable qualitative à deux niveaux
que l’on codera 0 et 1 dans le modèle:
The regression equation is

Totale = - 72080 + 1,83 Terrain + 47,2 Pied2 + 11535 SbainsC +


18899 Sbains + 22372 Garage

Predictor Coef StDev T P


Constant -72080 14175 -5,08 0,000
Terrain 1,8342 0,1892 9,69 0,000
Pied2 47,175 7,013 6,73 0,000
SbainsC 11535 3256 3,54 0,001
Sbains 18899 5211 3,63 0,001
Garage 22372 11116 2,01 0,048

S = 30671 R-Sq = 87,6% R-Sq(adj) = 86,8%

Predicted Values (terrain= 65 000, Pied2=1 500, SbainsC=2,


Sbains=1, Garage=1)

Fit StDev Fit 95,0% CI 95,0% PI


182248 4345 ( 173588; 190908) ( 120511; 243985)
40
Exemple avec une variable qualitative à deux niveaux
que l’on codera 0 et 1 dans le modèle:
The regression equation is

Totale = - 72080 + 1,83 Terrain + 47,2 Pied2 + 11535 SbainsC +


18899 Sbains + 22372 Garage

Predictor Coef StDev T P


Constant -72080 14175 -5,08 0,000
Terrain 1,8342 0,1892 9,69 0,000
Pied2 47,175 7,013 6,73 0,000
SbainsC 11535 3256 3,54 0,001
Sbains 18899 5211 3,63 0,001
Garage 22372 11116 2,01 0,048

S = 30671 R-Sq = 87,6% R-Sq(adj) = 86,8%

Predicted Values (terrain= 65 000, Pied2=1 500, SbainsC=2,


Sbains=1, Garage=0)

Fit StDev Fit 95,0% CI 95,0% PI


159876 10362 ( 139224; 180528) ( 95355; 224397)
41

Vous aimerez peut-être aussi