Solutions MAT3375 Professor
Student Name
Student number Time: ….
1
Soit le jeu de données suivant :
Job
## Y X1 X2 X3 X4
## 1 88 86 110 100 87
## 2 80 62 97 99 100
## 3 96 110 107 103 103
## 4 76 101 117 93 95
## 5 80 100 101 95 88
## 6 73 78 85 95 84
## 7 58 120 77 80 74
## 8 116 105 122 116 102
## 9 104 112 119 106 105
## 10 99 120 89 105 97
## 11 64 87 81 90 88
## 12 126 133 120 113 108
## 13 94 140 121 96 89
## 14 71 84 113 98 78
## 15 111 106 102 109 109
## 16 109 109 129 102 108
## 17 100 104 83 100 102
## 18 127 150 118 107 110
## 19 99 98 125 108 95
## 20 82 120 94 95 90
## 21 67 74 121 91 85
## 22 109 96 114 114 103
## 23 78 104 73 93 80
## 24 115 94 121 115 104
## 25 83 91 129 97 83
On va renommer les variables de la manière suivante :
Score=Job$Y
Test1=Job$X1
Test2=Job$X2
Test3=Job$X3
Test4=Job$X4
Q1. (5 points) Que pouvez-vous déduire du graphique matriciel, des diagrammes en boîte et du
tableau des corrélations présentés ci-dessous ? Traitez chaque élément séparément..
2
Solution
1. Y semble être corrélé positivement avec X3 et X4.
2. Y ne semble pas être corrélé avec X1 et X2.
3. X3 et X4 semblent être corrélés positivement. Cela pourrait jouer un rôle
plus tard lorsque nous vérifierons la multicolinéarité.
3
Q2. (5 points)
Un modèle de régression linéaire multiple a été ajusté avec Score comme variable dépendante et
X1 à X4 comme variables explicatives. Que pouvez-vous déduire du tableau d'analyse de varianc
e ci-dessous ?
model=lm(Score~X1+X2+X3+X4,data=Job)
anova(model)
## Analysis of Variance Table
##
## Response: Score
## Df Sum Sq Mean Sq F value Pr(>F)
## X1 1 2395.9 2395.9 142.620 1.480e-10 ***
## X2 1 1807.0 1807.0 107.565 1.708e-09 ***
## X3 1 4254.5 4254.5 253.259 8.045e-13 ***
## X4 1 260.7 260.7 15.521 0.00081 ***
## Residuals 20 336.0 16.8
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
SOLUTION
L'ANOVA présente une somme des carrés séquentielle, toutes significatives
lorsqu'elles sont ajoutées séquentiellement.
X1 a une somme des carrés égale à 2395,9 et est significatif.
X2, étant donné X1, a une somme des carrés égale à 1807,0 et est
significatif.
X3, étant donné (X1 et X2), a une somme des carrés égale à 4254,5 et est
significatif.
X4, étant donné (X1, X2 et X3), a une somme des carrés égale à 260,7 et est
significatif.
La somme totale des carrés est de 9054,1.
Ici, significatif signifie que leurs p-values sont inférieures à α.
4
5
Q3. (5 points)
Ce qui suit représente des résultats supplémentaires provenant de R en utilis
ant la commande.
Quelles conclusions pouvez-vous tirer ?
Fournissez des intervalles de confiance à 90 % pour les coefficients de X1 et
X3.
>summary(model).
##
## Call:
## lm(formula = Score ~ X1 + X2 + X3 + X4, data = Job)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.9779 -3.4506 0.0941 2.4749 5.9959
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -124.38182 9.94106 -12.512 6.48e-11 ***
## X1 0.29573 0.04397 6.725 1.52e-06 ***
## X2 0.04829 0.05662 0.853 0.40383
## X3 1.30601 0.16409 7.959 1.26e-07 ***
## X4 0.51982 0.13194 3.940 0.00081 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.099 on 20 degrees of freedom
## Multiple R-squared: 0.9629, Adjusted R-squared: 0.9555
## F-statistic: 129.7 on 4 and 20 DF, p-value: 5.262e-14
SOLUTION
1. Le résumé montre qu'à l'exception de X2, tous les coefficients sont
significatifs.
2. Pour un intervalle de confiance conjoint à 90 %, nous avons besoin
d'intervalles de confiance individuels à 95 %, c'est-à-dire...
1-2α =90\% implies 𝛼 = 5\%
and 1 − 𝛼 = 95\%.
Ainsi, la valeur critique pour la distribution de t est t(20,0.025) = 2.086.
Les intervalles de confiance pour β₁ et β₃ à partir du tableau ci-dessus sont
Pour 𝛽! : (0.204, 0.387) et pour 𝛽" : (0.964, 1.648)
6
Q4. (5 points) Soit la droite de régression linéaire suivante de Y (en $1000)
et X.
𝑌/ = 50,000 − 8X
Qu’est-ce que cela implique-t-il ?
a) Une augmentation de 1 \$ du prix est associée à une diminution de 8 \$ des
ventes.
b) Une augmentation de 1 \$ du prix est associée à une diminution de 8,000
\$ des ventes.
c) Une augmentation de 8 \$ du prix est associée à une augmentation de 8,000
\$ des ventes.
d) Une augmentation de 1 \$ du prix est associée à une diminution de 42,000
\$ des ventes.
Réponse : b) Une augmentation de 1 \$ du prix est associée à une diminution
de 8,000 \$ des ventes.
7
Q6 (5 points) Tester les hypothèses suivantes H_0 : 𝛽" = 0 et l’adéquation du
modele. Compare ce modèle avec celui définit dans la question 5).
model1=lm(Score~X1+X3,data=Job)
anova(model1)
## Analysis of Variance Table
##
## Response: Score
## Df Sum Sq Mean Sq F value Pr(>F)
## X1 1 2395.9 2395.9 86.884 4.269e-09 ***
## X3 1 6051.5 6051.5 219.453 6.313e-13 ***
## Residuals 22 606.7 27.6
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
summary(model1)
##
## Call:
## lm(formula = Score ~ X1 + X3, data = Job)
##
## Residuals:
## Min 1Q Median 3Q Max
## -9.3489 -2.8086 -0.4546 2.8981 12.6469
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -127.59569 12.68526 -10.06 1.09e-09 ***
## X1 0.34846 0.05369 6.49 1.58e-06 ***
## X3 1.82321 0.12307 14.81 6.31e-13 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.251 on 22 degrees of freedom
## Multiple R-squared: 0.933, Adjusted R-squared: 0.9269
## F-statistic: 153.2 on 2 and 22 DF, p-value: 1.222e-13
Solution
1. Pour H_0 : 𝛽" = 0, on peut conclure qu’on rejette H_0 et donc le
coefficient n’est pas signficatif.
2. Pour l’adéquation du modèle, on peut coclure que la régréssion est
significative car la p valeur est < à 𝛼 = 5%.
3. Le modèle dans la Q5) est meilleur que ce modèle (car plus grand 𝑅#
justé. Cependant, tous les coefs du modèle (Q6) sont significatifs,
tandis que le coef de X_2 n’est pas statistiquement significatif.
8
Q7. (5 points) The following plots were obtained for model1. What does each plot tell you?
par(mfrow=c(2,2))
plot(model1)
SOLUTION
1. Le graphique des résidus par rapport aux valeurs ajustées est utilisé pour vérifier la
constance de la variance. Il montre que les résidus oscillent de manière aléatoire
autour de 0, ce qui indique une variance constante. Les observations 14, 17 et 18 ont
des résidus élevés.
2. Le graphique de la racine carrée des résidus standardisés par rapport aux valeurs
ajustées est utilisé pour vérifier la constance de la variance. Il est préféré au
graphique précédent car théoriquement, les résidus standardisés ont une variance
constante. Encore une fois, nous avons une dispersion aléatoire des points,
indiquant ainsi une variance constante.
3. Le graphique QQ normal des résidus standardisés est utilisé pour vérifier la
normalité. L'hypothèse de normalité n'est pas rejetée ici car les points se situent sur
la ligne, à l'exception de quelques écarts pour les grands quantiles positifs.
4. Le graphique des résidus standardisés par rapport à la leverage est utilisé pour
détecter les valeurs aberrantes. Les observations 2, 14 et 18 ont des résidus élevés
(dans le graphique 4). Le graphique de la localisation de l'échelle montre que les
observations 14, 17 et 18 sont des valeurs aberrantes (dans le graphique 3).
9
Q8 (3 points) Dans un modèle de régression multiple, si le coefficient de la variable X3 est
égal à 0, cela signifie que :
a) X3 a un effet significatif sur la variable dépendante.
b) X3 n'a aucun effet sur la variable dépendante.
c) X3 est indépendant des autres variables explicatives.
d) X3 doit être retiré du modèle.
Réponse : b) et d) X3 n'a aucun effet sur la variable dépendante.
Q9 (5 points) L'ajout d'une nouvelle variable explicative dans un modèle de régression
multiple :
a) Augmente toujours 𝑅! ajusté.
b) Diminue 𝑅! ajusté si la nouvelle variable n'est pas significative.
c) N'affecte pas 𝑅! ajusté.
d) Ne change rien à la qualité du modèle.
Réponse : b) Diminue 𝑅! ajusté si la nouvelle variable n'est pas significative.
Q10 (5 points) Dans un modèle de régression multiple, la relation entre la variable
dépendante Y et les variables explicatives X_1 , X_2 et X_3 est donnée par :
𝑌$ = 5 + 2𝑋" – 3𝑋! + 4𝑋#
Que se passe-t-il pour Y si X_1 augmente de 1, X_2 reste constant et X_3 diminue de 2 ?
Lorsque X1 augmente de 1, Y augmente de 2×1=22 x 1 = 22×1=2.
Lorsque X3 diminue de 2, Y diminue de 4×(−2)=−84 x (-2) = -84×(−2)=−8.
Le changement total de Y est donc : 2+8=62 + 8 = 62+8=6.
Q11 (6 points)
Étant donné un modèle de régression multiple 𝑌$=10 + 1.5X_1 + 0.75X_2
Calculez la valeur prédite de Y pour X1=4 et X2=8.
a) 18.5
b) 20
c) 22
d) 24
Réponse : b) 20
10