Final, hiver 2014
STT 2400
- Examen d'une durée de 3 heures.
- Calculette permise.
- Documentation permise : une feuille aide-mémoire recto-verso.
1. (20) Un échantillon aléatoire de 20 hommes est obtenu et les variables suivantes sont
obervées.
X= Nombre de grammes de gras consommés par jour.
Y = Cholestérol total dans le sang en milligrammes par décilitre.
x y
1 21 130
2 29 163
3 43 169
4 52 136
5 56 187
6 64 193
7 77 170
8 81 115
9 84 196
10 93 237
11 98 214
12 101 239
13 107 258
14 109 283
15 113 242
16 120 289
17 127 298
18 134 271
19 148 297
20 157 316
r:
On a déjà calculé [Link]; X;= 1814, [Link]; Xf = 192204, l:::i Yi= 4403, [Link]; 2 = 1041419 et
L:i X;Yi = 438848. On suppose un modèle linéaire Y= (30 +(31 X +E, où les erreurs sont
indépendantes de loi N(O, Œ2 ). Une analyse statistique produit les résultats suivants.
Call:
lm(formula = Y - X, data = D)
Residuals:
Min 1Q Median 3Q Max
-91.306 -11.857 6.737 16.511 36.733
Coefficients:
1
Estimate Std. Error t value Pr(>ltl)
(Intercept) 90.7053 17.4209 5.207 5.95e-05 ***
x 1.4272 0.1777 8.031 2.32e-07 ***
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 ' ' 0.1 ' ' 1
Residual standard error: 29.56 on 18 degrees of freedom
Multiple R-squared: 0.7818, Adjusted R-squared: 0.7697
F-statistic: 64.5 on 1 and 18 DF, p-value: 2.319e-07
a) (4) Contruire un intervalle de confiance pour {30 de niveau 95%.
b) (4) Contruire un intervalle de confiance pour {31 de niveau 99%. Cet intervalle est-il
en accord avec l'analyse rapportée ci-dessus?
c) (4) Estimer le cholestérol total moyen pour les hommes consommant 50 grammes
de gras par jour. Construire un intervalle de confiance de niveau 95% pour cette
moyenne.
d) (4) Quelle est la corrélation entre les variables X et Y ?
e) (4) Un homme dont la consommation de gras par jour est de 100 grammes se
présente au bureau d'un médecin. Construire un intervalle de niveau 95% pour
son cholestérol total.
2. (20) Un petit jeu de données artificielles avec trois régresseurs est le suivant
y x1 x2 x3
6 3 9 16
9 6 13 13
12 4 3 17
5 8 2 10
13 3 4 9
2 2 4 7
On aJuste le modèle de moyenne
E(Y) = f3o + X1f31 + X2f32 + X3f33.
Des calculs intermédiaires ont donné (X' X)- 1
[' 1] [, 2] [,3] [,4]
[1,] 2.59578 -0.15375 -0.01962 -0.13737
[2,] -0.15375 0.03965 -0.00014 -0.00144
[3,] -0.01962 -0.00014 0.01234 -0.00431
[4,] -0.13737 -0.00144 -0.00431 0.01406
et X'Y
[' 1]
[1,] 47
[2, J 203
[3 ,] 277
[4,] 598
2
a) (5) Calculer ,B.
b) (5) Calculer les termes de la décomposition de la variation totale
SST = SSR + SSE.
c) (5) Calculer la statistique de Student associée au coefficient (31 .
d) (5) Calculer le coefficient de détermination R 2 .
3. (10) La taille en pouces Y d'une plante dans les premiers jours suivant la germination
est liée à la température en degrés Fahrenheit X 1 et au nombre de jours après la
germination X 2. Les données suivantes portent sur 20 plants où X 3 = X 1X 2.
Xi X2 X3 y
i 60 6 360 3.11
2 60 6 360 2.04
3 60 i2 720 4.36
4 60 i2 720 4.60
5 70 6 420 2.98
6 70 6 420 3.65
7 70 i2 840 6.3i
8 70 i2 840 7.05
9 80 6 480 4.2i
iO 80 6 480 4.3i
11 80 i2 960 7.86
i2 80 i2 960 8.45
i3 90 6 540 4.86
i4 90 6 540 4.25
i5 90 i2 i080 9.63
i6 90 i2 i080 9.59
17 iOO 6 600 5.66
i8 iOO 6 600 5.28
i9 iOO i2 i200 i0.89
20 iOO i2 i200 ii.23
L'ajustement du modèle de régression
E(Y) = f3o + (31X1 + (32X2 + (33X1X2
a donné les résultats suivants.
Gall:
lm(formula = Y - Xi + X2 + X3, data = D)
Residuals:
Min iQ Median 3Q Max
-0.5890 -0.2i55 -0.0005 0.2330 0.6620
3
Coefficients:
Estimate Std. Error t value Pr(>ltl)
(Intercept) 1.697000 1. 512748 1.122 0.2785
Xl -0.020300 0.018621 -1.090 0.2918
X2 -0.547667 0.159458 -3.435 0.0034 **
X3 0.015100 0.001963 7.693 9.18e-07 ***
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1' ' 1
Residual standard error: 0.3724 on 16 degrees of freedom
Multiple R-squared: 0.9844, Adjusted R-squared: 0.9815
F-statistic: 336.8 on 3 and 16 DF, p-value: 1.155e-14
Effectuer le test de la validité du modèle (lack of fit).
4. (15) Considérons le modèle
où tPr(Xi) est un polynôme en Xi de degré r, r = 0, 1, ... , k, et ces polynômes sont
orthogonaux sur les xi, c'est-à-dire
n
L tPr(Xi)tPs(Xi) = 0, r =/=S.
i=l
Puisque q?0 (Xi) est un polynôme de degré 0, on peut prendre q? 0 (Xi) = 1.
a) (5) Montrer
b) (5) Montrer que la somme de carrés résiduelle est
c) (5) Montrer que le test F pour l'hypothèse H: Pk= 0 est
F = /J~ 2:7=1 tP~(Xi)
SSE/(n- k -1)'
Rappel : Dans le modèle Y = XoPo + X 1p1 + E, où Xo a Po colonnes et X1 a p -Po
colonnes, la statistique F pour H : p1 = 0 peut s'écrire
F = (SSEo- SS E)j(p- Po).
s2
4
5. (10) On adopte le modèle de régression de moyenne
Décrire le graphique de la régression partielle pour la variable X 2 ("added variable
plot") dans les deux cas suivants.
a) (5) Les données satisfont X 1 = 2.2X2 exactement pour tous les cas.
b) (5) La variable Y est parfaitement corrélée avec X 1 , disons Y= 3X1 exactement
pour tous les cas.
6. (10) Soit le modèle de régression complet
Un modèle candidat est celui de moyenne
Soit FH la statistique de test F pour l'hypothèse H : fh = /34 = O. Exprimer la
statistique Cp de Mallows évaluée au modèle candidat en fonction de FH.
Rappel : La statistique de Mallows est définie par
7. (15) Lors d'une régression linéaire avec n =54 observations dont le modèle est
les résultats ont donné ..jlv! SE = s = 4 et pour deux cas
1.000 0.9000
10.295 0.185
Calculer pour chacun des deux cas, les résidus standardisés 7i, les résidus studentisés
Tt et les distances de Cook Ci.
Rappel:
T*t TiV(n- p- 1)/(n- p- Tl)
ci = 1 hii T2
p 1 - hii t
Martin BILODEAU
5
644
Appendix of Tables
TABLE A3 Vàluer ofta,n
n a: =.10 a:= .05 a= .025 a= .01 a:= .005
1 3.078 6.314 12.706 31.821 63.657
2 1.886 2.920 4.303 6.965 9.925
3 1.638 2.353 3.182 4.541 5.841
4 1.533 2.132 2.776 3.474 4.604
5 1.476 2.015 2.571 3.365 4.032
6 1.440 1.943 2.447 3.143 3.707
... ~
·'
7 1.415 1.895 2.365 2.998 3.499
8 1.397 1.860 2.306 2.896 3.355
9 1.383 1.833 2.262 2.821 3.250
10 1.372 1.812 2.228 2.764 3.169
11 1.363 1.796 2.201 2.718 3.106
12 1.356 1.782 2.179 2.681 3.055
13 1.350 1.771 2.160 2.650 3.012
14 1.345 1.761 2.145 2.624 2.977
15 1.341 1.753 2.131 2.602 2.947
16 1.337 1.746 2.120 2.583 2.921
17 1.333 1.740 2.110 2.567 2.898
18 1.330 1.734 2.101 2.552 2.878
19 1.328 1.729 2.093 2.539 2.861
20 1.325 1.725 2.086 2.528 2.845
21 1.323 1.721 2.080 2.518 2.831
22 1.321 1.717 2.074 2.508 2.819
23 1.319 1.714 2.069 2.500 2.807
24 1.318 1.711 2.064 2.492 2.797
25 1.316 1.708 2.060 2.485 2.787
26 1.315 1.706 2.056 2.479 2.779
27 1.314 1.703 2.052 2.473 2.771
28 1.313 1.701 2.048 2.467 2.763
29 1.311 1.699 2.045 2.462 2.756
00 1.282 1.645 1.960 2.326 2.576
Othn- t probabilitifs;
P(T8 < 2.541} =
.9825 P(T8 < 2.7} = .9864 = .n
1.66} =
.94 P( T12 < 2.8} = .984.
P(Tll < .7635} PITti < .934} = .81 P(Tll <
Appendix of Tables 645
TABlE A4 Valu~J ofF.o5,n,m
m =Degrees
n = Degrees of Freedom
ofFreedom
for Numerator
for
Denominator 1 2 3 4 5
1 161 200 216 225 230
2 18.50 19.00 19.20 19.20 19.30
3 10.10 9.55 9.28 9.12 9.01
4 7.71 6.94 6.59 6.39 6.26
5 6.61 5.79 5.41 5.19 5.05
6 5.99 5.14 4.76 4.53 4.39
7 5.59 4.74 4.35 4.12 3.97
8 5.32 4.46 4.07 3.84 3.69
9 5.12 4.26 3.86 3.63 3.48
10 4.96 4.10 3.71 3.48 3.33
Il 4.84 3.98 3.59 3.36 3.20
12 4.75 3.89 3.49 3.26 3.11
13 4.67 3.81 3.41 3.18 3.03
14 4.60 3.74 3.34 3.11 2.96
15 4.54 3.68 3.29 3.06 2.90
16 4.49 3.63 3.24 3.01 2.85
17 3.45 3.59 3.20 2.96 2.81
18 4.41 3.55 3.16 2.93 2.77
19 4.38 3.52 3.13 2.90 2.74
20 4.35 3.49 3.10 2.87 2.71
21 4.32 3.47 3.07 2.84 2.68
22 4.30 3.44 3.05 2.82 2.66
23 4.28 3.42 3.03 2.80 2.64
24 4.26 3.40 3.01 2.78 2.62
25 4.24 3.39 2.99 2.76 2.60
30 4.17 3.32 2.92 2.69 2.53
40 4.08 3.23 2.84 2.61 2.45
60 4. 00 3.15 2.76 2.53 2.37
120 3.92 3.07 2.68 2.45 2.29
00 3.84 3.00 2.60 2.37 2.21
Otlur F probabiliri":
P1.75 = .337 1'117.7 < !..376} = .316 P{F20 , 14 < 2.461} = .911 l'{F9.4 < .5) = .1782.