0% ont trouvé ce document utile (0 vote)

28 vues41 pages

Regression

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PPT, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

28 vues41 pages

Regression

Transféré par

M'BROH Serge

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PPT, PDF, TXT ou lisez en ligne sur Scribd

Régression linéaire simple

et multiple

1
Exemple
• Une entreprise faisant du marketing direct
en ligne aimerait construire un modèle pour
identifier les clients les plus susceptibles
d’acheter des produits de leur prochain
catalogue qui doit être envoyé le mois
prochain. Ainsi, les clients qui seront
identifiés par le modèle comme ayant peu de
chance d’acheter seront exclu de la
prochaine liste d’envoi.
2
Exemple (suite)
• Au cours de la dernière année, l’entreprise a recueilli
l’information suivante dans sa base de données pour un sous-
ensemble de ses clients (fichier ré[Link]):
– nombre total d’envois postaux,
– nombre total de commandes (achats) reçues,
– montant total (en dollars) des achats jusqu’à
aujourd’hui (variable: Tot_doll),
– montant (en dollars) des commandes des 12 derniers
mois.
– nombre de mois écoulé depuis le dernier achat
– sexe du client (variable: sexe, 0=femme 1=homme).

3
Exemple (suite)
• Malheureusement, l’entreprise n’a pas pensé inclure dans
sa base de données si les clients ont fait un achat (oui ou
non) après chacun des envois postaux.
• Cependant elle émet l’hypothèse que le ratio nombre total
de commandes reçues sur le nombre total d’envois est
une bonne mesure de la probabilité d’un achat. Cette
variable servira de variable dépendante (Y).
• Les autres variables serviront de variables explicatives
dans le modèle.
• Comment procéderiez-vous?

4
Introduction:
• Un des objectifs principaux de la statistique est
d ’expliquer la variabilité que l ’on observe dans
les données.
• La régression linéaire (ou les modèles linéaires)
est un outil statistique TRÈS UTILISÉ pour
étudier la présence d ’une relation entre une
variable dépendante Y (quantitative et continue)
et une ou plusieurs variables indépendantes
X1, X2, …, Xp (qualitatives et/ou quantitatives).
5
Un modèle de régression peut servir à
répondre à un des 3 objectifs suivants:

• Décrire (données provenant d ’études non-

expérimentales c.-à-d. on observe la réalité
telle qu’elle est).
• Confronter des hypothèses (données
provenant d ’études expérimentales
contrôlées).
• Prédire (si on aime le risque!!).
6
Exemple:
Nous sommes intéressés à savoir quels sont les
facteurs importants qui influencent ou
déterminent la valeur d ’une propriété et de
construire un modèle qui nous aidera à évaluer
cette valeur selon ces facteurs. Pour ce faire,
nous avons obtenu la valeur totale pour un
échantillon de 79 propriétés dans une région
donnée. Les variables suivantes ont également
été recueillies pour chacune des propriétés:
7
Bref aperçu du fichier de données:

# pieds
carrés condition
valeur valeur du premier de type de
OBS totale terrain # d'acres plancher l'extérieur chauffage

1 199657 63247 1.63 1726 Good NatGas

2 78482 38091 0.495 1184 Good NatGas
3 119962 37665 0.375 1014 Good Electric
4 116492 54062 0.981 1260 Average Electric
5 131263 61546 1.14 1314 Average NatGas
...
78 253480 57948 0.862 1720 Good Electric
79 257037 57489 0.95 2004 Excellnt Electric

# salles # salles de
# de # de de bain bain non # de
OBS pièces chambres complète complète foyers GARAGE

1 8 4 2 1 2 Garage
2 6 2 1 0 0 NoGarage
3 7 3 2 0 1 Garage
4 6 3 2 0 1 Garage
5 8 4 2 1 2 NoGarage
...
78 10 5 5 1 1 Garage
79 9 4 2 2 2 Garage

8
Est-ce qu ’il y a un lien entre la valeur totale
et ces différents facteurs?

450000

350000
Totale

250000

150000

50000
40000 90000 140000

Terrain

9
450000 450000

350000 350000
Totale

Totale
250000 250000

150000 150000

50000 50000
0 1 2 3 4 5 6 500 1500 2500 3500

Acre Pied2

450000 450000

350000 350000

Totale
Totale

250000 250000

150000 150000

50000 50000
5 10 15 2 3 4 5 6 7 8
Pièces Chambre

10
450000 450000

350000 350000

Totale
Totale

250000 250000

150000 150000

50000 50000
1 2 3 4 5 6 7 0 1 2 3
SbainsC Sbains

450000 450000

350000 350000
Totale

Totale
250000 250000

150000 150000

50000 50000
0 1 2 3 4 5 6 7 NoGarage Garage

Foyers Garage

11
Le coefficient de corrélation r de Pearson sert à
mesurer l’intensité de la relation linéaire entre
deux variables quantitatives.
• Le coefficient de corrélation r prendra des valeurs entre
-1 et 1.
• S ’il existe une relation linéaire parfaite entre X et Y
alors r = 1 (r =1 si X et Y varient dans le même sens et
r = -1 si X varie dans le sens opposé à Y).
• Si r = 0, ceci indique qu ’il n ’y a pas de lien linéaire
entre X et Y.
• Plus la valeur de r s ’éloigne de 0 pour s ’approcher de
1 plus l ’intensité du lien linéaire entre X et Y grandit.
12
Y ‚
6.5 ˆ * r = 0.035 Y ‚ r = 1
‚ ‚
‚ 31 ˆ *
6.0 ˆ * * 29 ˆ *
‚ 27 ˆ *
‚ 25 ˆ *
5.5 ˆ * * 23 ˆ *
‚ 21 ˆ *
‚ 19 ˆ *
5.0 ˆ * 17 ˆ *
‚ 15 ˆ *
‚ 13 ˆ *
4.5 ˆ * * * 11 ˆ *
‚ ‚
‚ Šƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ
4.0 ˆ * * 4 5 6 7 8 9 10 11 12 13 14
Šƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ
4 5 6 7 8 9 10 11 12 13 14 X

Y ‚ r = -1
‚
-8.0 ˆ *
-10.5 ˆ *
-13.0 ˆ *
-15.5 ˆ *
-18.0 ˆ *
-20.5 ˆ *
-23.0 ˆ *
-25.5 ˆ *
-28.0 ˆ *
-30.5 ˆ *
-33.0 ˆ *
‚
Šƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒ
4 5 6 7 8 9 10 11 12 13 14

X
13
Statistiques descriptives

Variable N Moyenne Médiane Écart type Minimum Maximum

Totale 79 187253 156761 84401 74365 453744
Terrain 79 65899 59861 22987 35353 131224
Acre 79 1,579 1,040 1,324 0,290 5,880
Pied2 79 1678 1628 635 672 3501
Pièces 79 8,519 8,000 2,401 5 18
Chambre 79 3,987 4,000 1,266 2 8
SbainsC 79 2,241 2,000 1,283 1 7
Sbains 79 0,7215 1,000 0,715 0 3
Foyers 79 1,975 2,000 1,368 0 7

Coefficients de corrélation de Pearson

Totale Terrain Acre Pied2 Pièces Chambre SbainsC Sbains

Terrain 0,815
Acre 0,608 0,918
Pied2 0,767 0,516 0,301
Pièces 0,626 0,518 0,373 0,563
Chambre 0,582 0,497 0,382 0,431 0,791
SbainsC 0,626 0,506 0,376 0,457 0,479 0,586
Sbains 0,436 0,236 0,074 0,354 0,489 0,166 0,172
Foyers 0,548 0,497 0,391 0,365 0,394 0,400 0,486 0,386

14
Attention!! Il est important d ’interpréter le coefficient
de corrélation avec le graphique.
r = 0.816 dans tous les cas ci-dessous

12.5 ˆ 10 ˆ
‚ ‚ *
‚ ‚ * * *
‚ * ‚ *
10.0 ˆ * 8 ˆ * *
‚ ‚ *
Y1 ‚ * Y2 ‚
‚ * * ‚
7.5 ˆ * * 6 ˆ *
‚ * ‚
‚ ‚
‚ * ‚ *
5.0 ˆ * 4 ˆ
‚ * ‚
‚ ‚ *
‚ ‚
2.5 ˆ 2 ˆ
Šƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ Šƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ
4 5 6 7 8 9 10 11 12 13 14 4 5 6 7 8 9 10 11 12 13 14

X X

15.0 ˆ Y4 ‚
‚ 12.5 ˆ *
‚ ‚
‚ ‚
12.5 ˆ * ‚
‚ ‚
Y3 ‚ 10.0 ˆ
‚ ‚
10.0 ˆ ‚ *
‚ ‚ *
‚ * ‚ *
‚ * 7.5 ˆ *
7.5 ˆ * * ‚ *
‚ * * ‚ *
‚ * * ‚ *
‚ * * ‚ *
5.0 ˆ 5.0 ˆ
Šƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ Šƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒ
4 5 6 7 8 9 10 11 12 13 14 8 19 15
X X
Régression linéaire simple
• Pour décrire une relation linéaire entre deux variables
quantitatives ou encore pour pouvoir prédire Y pour
une valeur donnée de X, nous utilisons une droite de
régression:
• Y = 0 + 1X + 
• Puisque tout modèle statistique n’est qu’une
approximation (nous espérons la meilleure possible!!),
il y a toujours une erreur, notée  dans le modèle, car le
lien linéaire n’est jamais parfait.
• S ’il y avait une relation linéaire parfaite entre Y et X,
le terme d ’erreur serait toujours égale à 0, et toute la
variabilité de Y serait expliquée par la variable
indépendante X. 16
OLS: Méthode des moindres
carrés
Y Erreur 2

Erreur 3

Erreur 1

X
Y = B0+ B1X + e
17
• Donc, pour une valeur donnée de X, nous aimerions
estimer Y.
• Ainsi, à l’aide des données de l’échantillon nous
estimerons les paramètres 0 et 1 du modèle de
régression de façon à minimiser la somme des carrés
des erreurs.
• Le coefficient de corrélation au carré est appelé
coefficient de détermination et nous indique le
pourcentage de la variabilité de Y expliquée par X:
R2 = 1 - (n-2)/(n-1){Se /Sy}2,
où Se est l’écart type des erreurs et Sy est l’écart
type de Y.
18
• On peut également utiliser le coefficient de
détermination ajusté pour nous indiquer le
pourcentage de la variabilité de Y expliquée par
X:

R2ajusté = 1 - {Se/Sy}2 .

19
Exemple de régressions linéaires simples:
MODÈLE 1.

Regression Analysis
The regression equation is

Totale = 16209 + 102 Pied2

Predictor Coef StDev T P

Constant 16209 17447 0,93 0,356
Pied2 101,939 9,734 10,47 0,000

S = 54556 R-Sq = 58,8% R-Sq(adj) = 58,2%

Analysis of Variance

Source DF SS MS F P
Regression 1 3,26460E+11 3,26460E+11 109,68 0,000
Residual Error 77 2,29181E+11 2976374177
Total 78 5,55641E+11
20
MODÈLE 2.
The regression equation is : Totale = - 347 + 22021 Pièces

Predictor Coef StDev T P

Constant -347 27621 -0,01 0,990
Pièces 22021 3122 7,05 0,000

S = 66210 R-Sq = 39,3% R-Sq(adj) = 38,5%

Analysis of Variance
Source DF SS MS F P
Regression 1 2,18090E+11 2,18090E+11 49,75 0,000
Residual Error 77 3,37551E+11 4383775699
Total 78 5,55641E+11
__________________________________________________________________

MODÈLE 3.
The regression equation is : Totale = 32428 + 38829 Chambre

Predictor Coef StDev T P

Constant 32428 25826 1,26 0,213
Chambre 38829 6177 6,29 0,000

S = 69056 R-Sq = 33,9% R-Sq(adj) = 33,1%

Analysis of Variance
Source DF SS MS F P
Regression 1 1,88445E+11 1,88445E+11 39,52 0,000
Residual Error 77 3,67196E+11 4768775127
Total 78 5,55641E+11 21
• Modèle 1:
– valeur totale = 16209 + 102*( # pieds carrés ).
– R2 = 58,8%. Donc 58,8% de la variabilité de la valeur
totale est expliquée par le # pieds carrés.
• Modèle 2:
– valeur totale = -347 + 22021*( # pièces ).
– R2 = 39,3%. Donc 39,3% de la variabilité de la valeur
totale est expliquée par le # pièces.
• Modèle 3:
– valeur totale = 32428 + 38829*( # chambres ).
– R2 = 33,9%. Donc 33,9% de la variabilité de la valeur
totale est expliquée par le # chambres.
22
Parmi les 3 modèles précédents, lequel
choisiriez vous et pourquoi?

Le modèle 1 car il a la plus grande valeur de R2.

23
Intervalle de confiance au niveau 1- pour la
moyenne des valeurs de Y pour une valeur
spécifique de X:

• Pour le modèle 1 et une valeur de X=1500 pi2 on

obtient l ’estimation ponctuelle suivante:
– est. valeur totale = 16 209 + 102*1500 = 169 117$
– intervalle de confiance à 95% pour la moyenne de la
valeur totale pour les propriétés de 1500 pi2 :
[156 418, 181 817]

24
Intervalle de confiance au niveau 1- pour une
nouvelle valeur de Y (prévision) étant donné une
valeur spécifique de X:
• Pour le modèle 1 et une valeur de X=1500 pi2 on
obtient l’estimation ponctuelle suivante:
– est. valeur totale = 16 209 + 101,939*1500 = 169 117$
– intervalle de confiance à 95% pour une valeur totale
prédite lorsque la superficie du premier plancher est de
1500 pi2 :
[59 742, 278 492]
• L ’intervalle de confiance pour une valeur prédite est
toujours plus grand que pour la moyenne des valeurs de Y
pour un X spécifique.
25
Régression linéaire multiple
• Il est fort possible que la variabilité de la variable
dépendante Y soit expliquée non pas par une seule
variable indépendante X mais plutôt par une
combinaison linéaire de plusieurs variables
indépendantes X1, X2, …, Xp.
• Dans ce cas le modèle de régression multiple est donné
par:
Y = 0 + 1X1 + 2X2 + … + pXp + 
• Aussi, à l’aide des données de l’échantillon nous
estimerons les paramètres 0, 1, …, p du modèle de
régression de façon à minimiser la somme des carrés
des erreurs. 26
• Le coefficient de corrélation multiple R2 , aussi appelé
coefficient de détermination, nous indique le
pourcentage de la variabilité de Y expliquée par les
variables indépendantes X1, X2, …, Xp.
• Lorsqu’on ajoute une ou plusieurs variables
indépendantes dans le modèle, le coefficient R2
augmente.
• La question est de savoir si le coefficient R2 augmente
de façon significative.
• Notons qu’on ne peut avoir plus de variables
indépendantes dans le modèle qu’il y a d ’observations
dans l’échantillon (règle générale: n  5p). 27
Exemple:
MODÈLE 1.
The regression equation is
Totale = - 89131 + 3,05 Terrain - 20730 Acre + 43,3 Pied2 - 4352 Pièces
+ 10049 Chambre + 7606 SbainsC + 18725 Sbains + 882 Foyers

Predictor Coef StDev T P

Constant -89131 18302 -4,87 0,000
Terrain 3,0518 0,5260 5,80 0,000
Acre -20730 7907 -2,62 0,011
Pied2 43,336 7,670 5,65 0,000
Pièces -4352 3036 -1,43 0,156
Chambre 10049 5307 1,89 0,062
SbainsC 7606 3610 2,11 0,039
Sbains 18725 6585 2,84 0,006
Foyers 882 3184 0,28 0,783

S = 29704 R-Sq = 88,9% R-Sq(adj) = 87,6%

Analysis of Variance
Source DF SS MS F P
Regression 8 4,93877E+11 61734659810 69,97 0,000
Residual Error 70 61763515565 882335937
Total 78 5,55641E+11 28
MODÈLE 2
Regression Analysis
The regression equation is
Totale = - 97512 + 3,11 Terrain - 21880 Acre + 40,2 Pied2
+ 4411 Chambre + 8466 SbainsC + 14328 Sbains

Predictor Coef StDev T P

Constant -97512 17466 -5,58 0,000
Terrain 3,1103 0,5236 5,94 0,000
Acre -21880 7884 -2,78 0,007
Pied2 40,195 7,384 5,44 0,000
Chambre 4411 3469 1,27 0,208
SbainsC 8466 3488 2,43 0,018
Sbains 14328 5266 2,72 0,008

S = 29763 R-Sq = 88,5% R-Sq(adj) = 87,6%

Analysis of Variance
Source DF SS MS F
P
Regression 6 4,91859E+11 81976430646 92,54
0,000
29
Residual Error 72 63782210167 885864030
MODÈLE 3
Regression Analysis
The regression equation is
Totale = - 90408 + 3,20 Terrain - 22534 Acre + 41,1 Pied2
+ 10234 SbainsC + 14183 Sbains

Predictor Coef StDev T P

Constant -90408 16618 -5,44 0,000
Terrain 3,2045 0,5205 6,16 0,000
Acre -22534 7901 -2,85 0,006
Pied2 41,060 7,383 5,56 0,000
SbainsC 10234 3213 3,19 0,002
Sbains 14183 5287 2,68 0,009

S = 29889 R-Sq = 88,3% R-Sq(adj) = 87,5%

Analysis of Variance
Source DF SS MS F P
Regression 5 4,90426E+11 98085283380 109,80 0,000
Residual Error 73 65214377146 893347632
Total 78 5,55641E+11
30
Modèle sans la superficie du terrain ( # d ’acres ) à
cause de la multicolinéarité avec la valeur du terrain.
MODÈLE 4
The regression equation is
Totale = - 55533 + 1,82 Terrain + 49,8 Pied2 + 11696 SbainsC
+ 18430 Sbains

Predictor Coef StDev T P

Constant -55533 11783 -4,71 0,000
Terrain 1,8159 0,1929 9,42 0,000
Pied2 49,833 7,028 7,09 0,000
SbainsC 11696 3321 3,52 0,001
Sbains 18430 5312 3,47 0,001

S = 31297 R-Sq = 87,0% R-Sq(adj) = 86,3%

Analysis of Variance
Source DF SS MS F P
Regression 4 4,83160E+11 1,20790E+11 123,32 0,000
Residual Error 74 72481137708 979474834
31
Total 78 5,55641E+11
Parmi les 4 modèles précédents, lequel
choisiriez vous et pourquoi?
• Probablement le modèle 4 car toutes les variables
indépendantes sont significatives au niveau 5% (c.-à-
d. p-value < 5% pour chaque  dans le modèle) et bien
que le R2 soit plus petit, il n ’est que marginalement
plus petit. De plus tous les coefficients du modèle ont
« du sens »!
• Dans le modèle 1 les variables ‘ # de pièces ’ et ‘ # de
foyers ’ ne sont pas statistiquement significatives au
niveau 5% (p-value > 5%). La variable ‘ # de
chambres ’ est à la limite avec un p-value = 0,0624.
32
Parmi les 4 modèles précédents, lequel
choisiriez vous et pourquoi?
• Dans le modèle 2 la variable ‘ # de chambres ’ n ’est
pas statistiquement significative au niveau 5%.
• Dans le modèle 3 (et les modèles précédents), le
coefficient de la variable ‘ # d ’acres ’ est négatif ce qui
est à l ’encontre du « bon sens » et de ce qu ’on a
observé sur le diagramme de dispersion et le coefficient
de corrélation de Pearson positif (r = 0,608).
• Le coefficient négatif pour la variable ‘ # d ’acres ’ dans
les modèles 1 à 3 est causé par le fait qu ’il y a une forte
relation linéaire entre la valeur du terrain et la superficie
du terrain (r = 0,918); problème de multicolinéarité.
33
Comment choisir un modèle de régression
linéaire parmi tous les modèles possibles?
Il existe plusieurs techniques:
• sélection pas à pas en ajoutant une variable à la fois et
en commençant par la plus significative (stepwise,
forward).
• sélection à partir du modèle incluant toutes les variables
et en enlevant une variable à la fois en commençant par
la moins significative (backward).
• faire tous les modèles possibles et choisir le meilleur
sous-ensemble de variables (best subset) selon certains
critères spécifiques (ex: R2 ajusté, Cp de Mallow.)
34
Exemple de sélection parmi les meilleurs sous-ensembles:
Best Subsets Regression : Response is Totale

T C S
e P h b S F
r P i a a b o
r A i è m i a y
a c e c b n i e
Adj. i r d e r s n r
Vars R-Sq R-Sq C-p s n e 2 s e C s s

1 66,4 65,9 136,8 49262 X

1 58,8 58,2 184,7 54556 X
1 39,3 38,5 307,6 66210 X

2 82,7 82,2 35,9 35564 X X

2 78,8 78,3 60,3 39343 X X
2 74,4 73,7 88,1 43244 X X

3 85,6 85,0 19,5 32637 X X X

3 84,8 84,2 24,5 33521 X X X
3 84,8 84,2 24,9 33591 X X X

4 87,1 86,4 12,2 31115 X X X X

4 87,0 86,3 13,1 31297 X X X X
4 86,6 85,9 15,2 31682 X X X X

5 88,3 87,5 6,9 29889 X X X X X

5 87,6 86,7 11,2 30744 X X X X X
5 87,4 86,5 12,4 30979 X X X X X

6 88,5 87,6 7,3 29763 X X X X X X

6 88,3 87,3 8,6 30030 X X X X X X
6 88,3 87,3 8,9 30096 X X X X X X

7 88,9 87,8 7,1 29510 X X X X X X X

7 88,6 87,4 9,1 29924 X X X X X X X
7 88,3 87,2 10,6 30240 X X X X X X X 35
8 88,9 87,6 9,0 29704 X X X X X X X X
Sélection du modèle sans la variable # d ’acres
Best Subsets Regression : Response is Totale

T C S
e P h b S F
r P i a a b o
r i è m i a y
a e c b n i e
Adj. i d e r s n r
Vars R-Sq R-Sq C-p s n 2 s e C s s

1 66,4 65,9 120,6 49262 X

1 58,8 58,2 164,9 54556 X
1 39,3 38,5 278,3 66210 X

2 82,7 82,2 27,6 35564 X X

2 72,7 71,9 86,0 44704 X X
2 72,5 71,8 86,8 44813 X X

3 84,8 84,2 17,2 33521 X X X

3 84,8 84,2 17,6 33591 X X X
3 84,0 83,3 22,3 34467 X X X

4 87,0 86,3 6,9 31297 X X X X

4 86,1 85,3 12,1 32352 X X X X
4 85,3 84,5 16,5 33226 X X X X

5 87,3 86,4 6,9 31100 X X X X X

5 87,0 86,1 8,5 31439 X X X X X
5 87,0 86,1 8,9 31509 X X X X X

6 87,8 86,8 6,1 30707 X X X X X X

6 87,3 86,3 8,7 31264 X X X X X X
6 87,0 85,9 10,5 31656 X X X X X X

7 87,8 86,6 8,0 30908 X X X X X X X 36

Le choix du meilleur modèle se fait selon la
combinaison:

• La plus grande valeur de R2 ajusté pour le nombre de

variables dans le modèle.
• La plus petite valeur de Cp .
• Pour les modèles avec R2 ajusté et Cp comparables, on
choisira le modèle qui a le plus de « sens » selon les
experts dans le domaine.
• Pour les modèles avec R2 ajusté et Cp comparables, le
modèle avec les variables indépendantes les plus faciles
et moins coûteuses à mesurer.
• La validité du modèle.
37
Intervalle de confiance au niveau 1- pour la moyenne de Y et
une nouvelle valeur de Y (prévision) étant donné une
combinaison de valeurs spécifiques pour X1, X2, …, Xp .

• Pour le modèle 4 et une propriété avec terrain= 65 000$,

pi2 = 1500, 2 salles de bain complète et 1 non-complète,
on obtient l’estimation ponctuelle suivante:
– est. valeur totale = -55 533 + 1,816*65 000 + 49,833*1 500 +
11 696*2 + 18 430*1 = 179 074$
– intervalle de confiance à 95% pour la moyenne de la valeur
totale:
[170 842, 187 306]
– intervalle de confiance à 95% pour une valeur totale
prédite :
[116 173, 241 974] 38
Remarques:
• Les longueurs des intervalles de confiance au niveau 95% du
modèle de régression multiple pour une propriété de 1500 pi2
sont plus petites que pour le modèle de régression simple.
• Donc l’addition de plusieurs autres variables dans le modèle
a aidé à expliquer encore plus la variabilité de la valeur
totale et à améliorer nos estimations.
• Si deux ou plusieurs variables indépendantes sont corrélées
on dira qu’il y a multicolinéarité. Ceci peut influencer les
valeurs des paramètres dans le modèle.
• Aussi, si deux variables indépendantes sont fortement
corrélées, alors seulement une des deux variables sera incluse
dans le modèle, l ’autre n ’apportant que très peu
d ’information supplémentaire.
• Certaines conditions sont nécessaires à la validité du modèle
et de l ’inférence correspondante (similaire à la régression
linéaire simple). 39
Exemple avec une variable qualitative à deux niveaux
que l’on codera 0 et 1 dans le modèle:
The regression equation is

Totale = - 72080 + 1,83 Terrain + 47,2 Pied2 + 11535 SbainsC +

18899 Sbains + 22372 Garage

Predictor Coef StDev T P

Constant -72080 14175 -5,08 0,000
Terrain 1,8342 0,1892 9,69 0,000
Pied2 47,175 7,013 6,73 0,000
SbainsC 11535 3256 3,54 0,001
Sbains 18899 5211 3,63 0,001
Garage 22372 11116 2,01 0,048

S = 30671 R-Sq = 87,6% R-Sq(adj) = 86,8%

Predicted Values (terrain= 65 000, Pied2=1 500, SbainsC=2,

Sbains=1, Garage=1)

Fit StDev Fit 95,0% CI 95,0% PI

182248 4345 ( 173588; 190908) ( 120511; 243985)
40
Exemple avec une variable qualitative à deux niveaux
que l’on codera 0 et 1 dans le modèle:
The regression equation is

Totale = - 72080 + 1,83 Terrain + 47,2 Pied2 + 11535 SbainsC +

18899 Sbains + 22372 Garage

Predictor Coef StDev T P

Constant -72080 14175 -5,08 0,000
Terrain 1,8342 0,1892 9,69 0,000
Pied2 47,175 7,013 6,73 0,000
SbainsC 11535 3256 3,54 0,001
Sbains 18899 5211 3,63 0,001
Garage 22372 11116 2,01 0,048

S = 30671 R-Sq = 87,6% R-Sq(adj) = 86,8%

Predicted Values (terrain= 65 000, Pied2=1 500, SbainsC=2,

Sbains=1, Garage=0)

Fit StDev Fit 95,0% CI 95,0% PI

159876 10362 ( 139224; 180528) ( 95355; 224397)
41

Vous aimerez peut-être aussi

TD 1 Informatique - Décisionnelle
Pas encore d'évaluation
TD 1 Informatique - Décisionnelle
4 pages
Data Science Lab 2
Pas encore d'évaluation
Data Science Lab 2
1 page
Linear Regression Example
Pas encore d'évaluation
Linear Regression Example
2 pages
Corrélation des Indicateurs de Production
Pas encore d'évaluation
Corrélation des Indicateurs de Production
8 pages
Regression (Simple Et Muliple
Pas encore d'évaluation
Regression (Simple Et Muliple
70 pages
Network Design Nawalpur
Pas encore d'évaluation
Network Design Nawalpur
81 pages
Regression
Pas encore d'évaluation
Regression
60 pages
Spline Interpolation by CCD
Pas encore d'évaluation
Spline Interpolation by CCD
18 pages
Resumen 1
Pas encore d'évaluation
Resumen 1
26 pages
Trabajo Topografia
Pas encore d'évaluation
Trabajo Topografia
3 pages
Vérification Contrainte Sol EHPAD Lilas
Pas encore d'évaluation
Vérification Contrainte Sol EHPAD Lilas
32 pages
Ramirez 8 Storey
Pas encore d'évaluation
Ramirez 8 Storey
14 pages
DT2-Iluminacion Clases
Pas encore d'évaluation
DT2-Iluminacion Clases
1 page
Table des carrés et racines 1-100
Pas encore d'évaluation
Table des carrés et racines 1-100
4 pages
Cyclo Cyclo
Pas encore d'évaluation
Cyclo Cyclo
9 pages
Ext, Fibonnaci
Pas encore d'évaluation
Ext, Fibonnaci
16 pages
Coordonnées des joints STAAD SPACE
Pas encore d'évaluation
Coordonnées des joints STAAD SPACE
28 pages
CH 4 Ta4
Pas encore d'évaluation
CH 4 Ta4
6 pages
Compte Rendu TP1 sur Matlab
Pas encore d'évaluation
Compte Rendu TP1 sur Matlab
18 pages
Rapport de Résumé des Plaques 2023
Pas encore d'évaluation
Rapport de Résumé des Plaques 2023
5 pages
10.4 Applications Des Méthodes Numériques Applications de L'élimination de Gauss Avec Pivotement
Pas encore d'évaluation
10.4 Applications Des Méthodes Numériques Applications de L'élimination de Gauss Avec Pivotement
11 pages
De Ala, Renz Allen M.
Pas encore d'évaluation
De Ala, Renz Allen M.
434 pages
REPORT
Pas encore d'évaluation
REPORT
22 pages
N - Poutre DAO - C0P4 - 4
Pas encore d'évaluation
N - Poutre DAO - C0P4 - 4
4 pages
Castellated Beam Honeycomb Exact
Pas encore d'évaluation
Castellated Beam Honeycomb Exact
2 pages
Paramètres de l'Éllipsoïde PRS92
Pas encore d'évaluation
Paramètres de l'Éllipsoïde PRS92
19 pages
Detalle Escalera 12 D Oct
Pas encore d'évaluation
Detalle Escalera 12 D Oct
1 page
Load-Combi-For-Frames - Moment
Pas encore d'évaluation
Load-Combi-For-Frames - Moment
1 page
Grafik Tugas 2 Math
Pas encore d'évaluation
Grafik Tugas 2 Math
2 pages
Deflect Eur
Pas encore d'évaluation
Deflect Eur
1 page
Sleep Hours Data Matm
Pas encore d'évaluation
Sleep Hours Data Matm
3 pages
8 Pages To Print
Pas encore d'évaluation
8 Pages To Print
7 pages
Structural Calculation 511 r3 Mc3
Pas encore d'évaluation
Structural Calculation 511 r3 Mc3
2 165 pages
Devoir CST 1
Pas encore d'évaluation
Devoir CST 1
21 pages
Notes de Calcul. Volume Chaussée Et Listing D'implantation
Pas encore d'évaluation
Notes de Calcul. Volume Chaussée Et Listing D'implantation
351 pages
Lista de Materiales - R5
Pas encore d'évaluation
Lista de Materiales - R5
5 pages
Castellated Beam Honeycomb Final
Pas encore d'évaluation
Castellated Beam Honeycomb Final
2 pages
R et SAS pour Analyse Statistique
Pas encore d'évaluation
R et SAS pour Analyse Statistique
215 pages
Exercice 3
Pas encore d'évaluation
Exercice 3
92 pages
Slip On
Pas encore d'évaluation
Slip On
1 page
Table des paramètres de réflexion
Pas encore d'évaluation
Table des paramètres de réflexion
2 pages
Staad Space Structure1
Pas encore d'évaluation
Staad Space Structure1
19 pages
Modèle Optimisé avec Eccentricité
Pas encore d'évaluation
Modèle Optimisé avec Eccentricité
82 pages
Superficie du terrain : 1242,01 m²
Pas encore d'évaluation
Superficie du terrain : 1242,01 m²
1 page
RTD Tables
Pas encore d'évaluation
RTD Tables
1 page
Cyclo Uni
Pas encore d'évaluation
Cyclo Uni
9 pages
Coordonnées de Joint Techniques
Pas encore d'évaluation
Coordonnées de Joint Techniques
56 pages
Vidu1 Chuong2
Pas encore d'évaluation
Vidu1 Chuong2
2 pages
Extra Clase 2
Pas encore d'évaluation
Extra Clase 2
13 pages
Classeur 1
Pas encore d'évaluation
Classeur 1
10 pages
Result
Pas encore d'évaluation
Result
6 pages
Perfil W-45
Pas encore d'évaluation
Perfil W-45
2 pages
Diagrama de Masas Maquinarias
Pas encore d'évaluation
Diagrama de Masas Maquinarias
5 pages
Contours
Pas encore d'évaluation
Contours
22 pages
Draft Dilplacement Table
Pas encore d'évaluation
Draft Dilplacement Table
31 pages
Examens5 Licence RDM2018
Pas encore d'évaluation
Examens5 Licence RDM2018
1 page
Analysis Results
Pas encore d'évaluation
Analysis Results
23 pages
Calificaciones
Pas encore d'évaluation
Calificaciones
2 pages
Practica Lab 3 1
Pas encore d'évaluation
Practica Lab 3 1
2 pages
TD2 Idd 2024 2025
Pas encore d'évaluation
TD2 Idd 2024 2025
3 pages
Introduction Proba-Stat pour Débutants
100% (7)
Introduction Proba-Stat pour Débutants
100 pages
Esperance Conditionnelle Master
100% (1)
Esperance Conditionnelle Master
6 pages
Confidence
Pas encore d'évaluation
Confidence
22 pages
Examen Dénombrement Et Probabilité
Pas encore d'évaluation
Examen Dénombrement Et Probabilité
7 pages
Ajustements À Différentes Lois de Probabilité Connues
Pas encore d'évaluation
Ajustements À Différentes Lois de Probabilité Connues
4 pages
Probabilités et Loi Binomiale
Pas encore d'évaluation
Probabilités et Loi Binomiale
8 pages
Tests Paramétriques pour Comparer Deux Moyennes
Pas encore d'évaluation
Tests Paramétriques pour Comparer Deux Moyennes
6 pages
Étalonnage des Manomètres de Pression
Pas encore d'évaluation
Étalonnage des Manomètres de Pression
13 pages
Exercices sur la loi binomiale STMG
Pas encore d'évaluation
Exercices sur la loi binomiale STMG
1 page
Statistique Inferentielle Licence 2
Pas encore d'évaluation
Statistique Inferentielle Licence 2
75 pages
Exercises About Probability
Pas encore d'évaluation
Exercises About Probability
25 pages
Econométrie Des Variables Qualitatives Polycopié D'exercices Corrigés PDF
100% (6)
Econométrie Des Variables Qualitatives Polycopié D'exercices Corrigés PDF
62 pages
TD Econometrie S6 2019 2020 Correction
100% (2)
TD Econometrie S6 2019 2020 Correction
86 pages
Fanta 2012 Guide D Echantillonnage Et Addendum
Pas encore d'évaluation
Fanta 2012 Guide D Echantillonnage Et Addendum
71 pages
Corps de L'exposé
Pas encore d'évaluation
Corps de L'exposé
5 pages
Statistique Inférentielle et Tests: Concepts Clés
Pas encore d'évaluation
Statistique Inférentielle et Tests: Concepts Clés
77 pages
Variables Aléatoires: Discrètes et Continues
Pas encore d'évaluation
Variables Aléatoires: Discrètes et Continues
13 pages
Partie A - Probalilité - Cours
Pas encore d'évaluation
Partie A - Probalilité - Cours
39 pages
Mathématique Échantillonnage
Pas encore d'évaluation
Mathématique Échantillonnage
69 pages
Évaluation par régression sur discontinuité
Pas encore d'évaluation
Évaluation par régression sur discontinuité
11 pages
Probabilités
Pas encore d'évaluation
Probabilités
3 pages
Thèse Version Finale
Pas encore d'évaluation
Thèse Version Finale
113 pages
Cours 1 PRB
Pas encore d'évaluation
Cours 1 PRB
4 pages
Cours de Statistique Mathématique
Pas encore d'évaluation
Cours de Statistique Mathématique
3 pages
03 STAT MAT 2020-21 PDF
Pas encore d'évaluation
03 STAT MAT 2020-21 PDF
2 pages
Processus Stochastqiues
Pas encore d'évaluation
Processus Stochastqiues
114 pages
Cours Stat Math - Chapitre2
Pas encore d'évaluation
Cours Stat Math - Chapitre2
24 pages
Cours de Biostatistique - 1er Partie
Pas encore d'évaluation
Cours de Biostatistique - 1er Partie
22 pages
QCM Outils Aide Decision 2019 2020 CORRIGE
Pas encore d'évaluation
QCM Outils Aide Decision 2019 2020 CORRIGE
9 pages