Université Laval STT-2902
Faculté des sciences et de génie Automne 2012
Département de mathématiques et de statistique Emmanuelle Reny-Nolin
Corrigé - Série 2
Inférence sur les paramètres
Exercice 1 - Les enfants qui dépassent leurs parents
a) Les filles sont-elles plus grandes que leurs mères en moyenne ?
H0 : µfilles = µmères
H1 : µfilles > µmères
On répondra par un test de Student sur des données appariées (groupées par paires
mère-fille). On voudra donc faire calculer la valeur observée de la statistique du test
D
T0 = √
SD / n
Dans l’Utilitaire d’analyse, on commande un Test d’égalité des espérances : observa-
tions pairées et on obtient le résultat ci-dessous :
Puisque tobs = 2, 521, le seuil observé du test unilatéral est P (T > 2, 521) = 0, 0109892,
où T ∼ t17 . Cette valeur-P étant inférieure à 5% (le seuil du test), on rejette H0 et on
conclut que les filles sont significativement plus grandes que leurs mères en moyenne.
On aurait pu tirer la même conclusion en comparant tobs = 2, 521 à la valeur critique
d’une loi de Student, soit tα;n−1 = t0,05;17 = 1, 739. Le test étant unilatéral à droite,
on rejette H0 , car tobs > 1, 739.
Le test de Student suppose que les données sont issues d’une loi normale. Un histo-
gramme des 18 différences nous montre une tendance à la bimodalité, mais le nombre
de valeurs étant peu élevé, il est difficile de rejeter catégoriquement la normalité.
1
Université Laval STT-2902
Faculté des sciences et de génie Automne 2012
Département de mathématiques et de statistique Emmanuelle Reny-Nolin
b) La différence mère-fille est-elle plus petite que la différence père-fils ?
H0 : µmère-fille = µpère-fils
H1 : µmère-fille < µpère-fils
Il faut d’abord calculer les 18 différences concernées. On répondra par un test de
Student sur des échantillons indépendants. Pour choisir le bon test, il faut d’abord
déterminer si les variances peuvent être considérées égales (à l’aide d’un test de Fi-
sher).
2 2
H0 : σmère-fille = σpère-fils
2 2
H1 : σmère-fille 6= σpère-fils
On voudra faire calculer la valeur observée de la statistique du test
S12
F0 = 2
S2
Dans l’Utilitaire d’analyse, on commande un Test d’égalité des variances (F-test) et
on obtient le résultat ci-dessous :
Puisque fobs = 0, 3122, le seuil observé du test bilatéral est 2 × P (F < 0, 3122) =
2 × 0, 016875 = 0.03375, où F ∼ F17,10 . Cette valeur-P étant inférieure à 5% (le seuil
du test), on rejette H0 et on conclut que les variances diffèrent significativement.
2
Université Laval STT-2902
Faculté des sciences et de génie Automne 2012
Département de mathématiques et de statistique Emmanuelle Reny-Nolin
Le test de Student à utiliser sera donc celui avec variances inégales. On voudra donc
faire calculer la valeur observée de la statistique du test
X1 − X2
T0 = q 2
S1 S2
n1
+ n22
Dans l’Utilitaire d’analyse, on commande un Test d’égalité des espérances : deux
observations de variances différentes et on obtient le résultat ci-dessous :
Puisque tobs = −0, 03777, le seuil observé du test unilatéral est P (T < −0, 03777) =
0, 4852, où T ∼ t14 . Cette valeur-P étant supérieure à 5% (le seuil du test), on ne
rejette pas H0 et on conclut que la différence mère-fille n’est pas significativement
inférieure à la différence père-fils.
c) Estimer la proportion de jeunes qui dépassent le parent du même sexe, avec un niveau
de confiance de 95%.
On veut construire un intervalle de confiance sur une proportion. Il faut donc avoir
une grande taille d’échantillon, car l’IC est asymptotique. Ici, n = 29 est tout juste
acceptable.
Il faut définir la variable binaire qui identifie les gens plus grands que leur parent du
même sexe à l’aide de la fonction
SI(Test logique ;Valeur si vrai ;Valeur si faux) = SI(C2>D2 ;1 ;0).
On calcule ensuite la proportion échantillonnale p̂ en faisant la moyenne de cette
colonne, puis on complète les calculs en utilisant la formule
r
p̂(1 − p̂)
p̂ ± zα/2
n
et on obtient l’intervalle [0, 335; 0, 699].
3
Université Laval STT-2902
Faculté des sciences et de génie Automne 2012
Département de mathématiques et de statistique Emmanuelle Reny-Nolin
Exercice 2 - Les donateurs aux partis politiques
a) La valeur moyenne d’un don est-elle la même d’un parti à l’autre ?
L’Utilitaire d’analyse permet de faire un test global de comparaison des moyennes avec
la commande Analyse de variance : un facteur. Les trois séries de données doivent
être placées dans trois colonnes adjacentes. On obtient un tableau des moyennes et
des variances échantillonnales, ainsi que la table d’anova :
On est tenté de rejeter d’emblée H0 : µCAQ = µP LQ = µP Q en raison du seuil observé
inférieur à 5% :
Valeur − P = P (F > 8, 3345) = 0, 00039157 où F ∼ F2,131
Mais attention...
b) Les postulats du modèle d’analyse de la variance appliqué en a) sont-ils respectés ?
Pour répondre à cette question, il faut faire une analyse de résidus. On doit vérifier
que la loi normale est un modèle raisonnable, et que les variances sont similaires d’un
échantillon à l’autre.
Pour créer la variable résidus dans une nouvelle colonne, on soustrait à chaque obser-
vation sa moyenne échantillonnale locale : eij = yij − y i• .
4
Université Laval STT-2902
Faculté des sciences et de génie Automne 2012
Département de mathématiques et de statistique Emmanuelle Reny-Nolin
On construit ensuite l’histogramme des résidus et le graphique des résidus en fonction
des valeurs prédites :
On remarque une bonne asymétrie vers la droite dans l’histogramme. De plus, le gra-
phique de droite présente un patron en forme d’entonnoir, donc une hétéroscédasticité
assez claire. Ces deux aspects viennent mettre un gros bémol sur la validité du test F
effectué en a).
Devant une telle situation, l’option la plus fréquemment envisagée est la transforma-
√
tion de la variable réponse (Y ) avec une fonction monotone comme Y , ln(Y ), 1/Y, Y 2 ,
etc. On refait l’anova avec plusieurs variables transformées jusqu’à ce que les postulats
soient respectés.
Après quelques essais, on voit que dans notre cas, c’est la transformation logarithmique
qui donne les meilleurs résultats. Voici la nouvelle analyse :
5
Université Laval STT-2902
Faculté des sciences et de génie Automne 2012
Département de mathématiques et de statistique Emmanuelle Reny-Nolin
Puisque l’analyse des résidus est plus satisfaisante (malgré une légère asymétrie à
gauche), on peut interpréter les résultats du test global de comparaison des moyennes.
Le seuil observé étant inférieur à 5% :
Valeur − P = P (F > 5, 82855) = 0, 00375882 où F ∼ F2,131 ,
on rejette H0 , et on conclut que la valeur du don moyen à un des trois principaux
partis politiques est différente selon le parti.
c) Peut-on voir où se situent les différences significatives ?
Le test global est significatif, on peut donc comparer les moyennes deux à deux.
Puisque les tailles d’échantillon sont différentes, on ne peut pas calculer une seule
”PPDS”. Il faut calculer une différence significative (une marge d’erreur) pour chaque
paire de moyennes.
Ici, on conclut que seuls le PQ et le
PLQ reçoivent des dons dont la valeur
moyenne diffère significativement. On
pourrait représenter schématiquement
ces comparaisons deux à deux comme
suit :
PQ CAQ PLQ
141, 79 $ 199, 68 $ 293, 74 $
4, 32 4, 71 5, 17
6
Université Laval STT-2902
Faculté des sciences et de génie Automne 2012
Département de mathématiques et de statistique Emmanuelle Reny-Nolin
Exercice 3 - Distribution des naissances
a)
b) Il y a moins de naissances en février... donc le mois de mai n’est pas propice à la
fécondation ? En fait, cela est peut-être dû au fait que février compte moins de jours
que les autres mois ? Il serait peut-être plus judicieux de comparer le nombre moyen
de naissances par jour d’un mois à l’autre :
Février est toujours le plus bas en 2010 !
c) Observe-t-on le même phénomène en 2011 ?
C’est en décembre et en janvier que les naissances sont les moins nombreuses en 2011.
On voit quand même une tendance se dessiner : il semble y avoir plus de naissances
en été qu’en hiver. Il serait intéressant d’étudier un plus grand nombre d’années pour
voir si ce n’est que ponctuel.
7
Université Laval STT-2902
Faculté des sciences et de génie Automne 2012
Département de mathématiques et de statistique Emmanuelle Reny-Nolin
d) Peut-on affirmer que l’accroissement naturel (naissances - décès) est supérieur à 2000
individus en moyenne à chaque mois, au seuil de 5% ?
On réalise un test de comparaison de moyennes en considérant les observations ap-
pariées. On peut le faire directement dans Excel à partir des naissances et des décès, ou
en se ramenant à un seul échantillon de différences : on calcule soi-même les différences
entre les naissances et les décès chaque mois, et on fait un test de Student à un
échantillon pour vérifier si la moyenne des différences est supérieure à 2000.
H0 : µD = 2000
H1 : µD > 2000
.
d − 2000
On rejette H0 si tobs = √ > t11;0,05 = 1, 796. Puisque tobs = 3, 10, on rejette H0
sD / 12
au seuil de 5%. La valeur du seuil observé (0,005) nous mène évidemment à la même
conclusion, car il est inférieur au seuil du test.
On conclut donc que l’accroissement naturel moyen par mois est significativement
supérieur à 2000.
Bien sûr, ce test se base sur le postulat de normalité. L’histogramme des différences
n’a pas une forme de cloche parfaite, mais considérant que seulement 12 données le
composent, il ne s’en éloigne pas suffisamment pour rejeter l’analyse de Student.
8
Université Laval STT-2902
Faculté des sciences et de génie Automne 2012
Département de mathématiques et de statistique Emmanuelle Reny-Nolin
Exercice 4 - Séries éliminatoires
a) Peut-on dire que le nombre de buts comptés par l’équipe locale est supérieur en
moyenne au nombre de buts comptés par l’équipe en visite ?
Test de comparaison de deux moyennes sur des données appariées provenant de po-
pulations normales à variances inconnues.
H0 : µlocal = µvisiteur
H1 : µlocal > µvisiteur
tobs = 0, 230, à comparer avec le quantile d’une loi de Student t88;0,01 = 2, 369.
Seuil observé : P (T > 0, 230) = 0, 409 où T ∼ t88 .
Au seuil de 1%, on ne rejette pas l’égalité des moyennes. L’équipe locale ne compte
pas significativement plus de buts que les visiteurs en moyenne.
b) Le nombre de buts total comptés dans un match de séries est-il plus élevé quand
l’équipe locale gagne que quand elle perd ?
Il faut d’abord créer une variable représentant la somme des buts des deux équipes.
On crée ensuite une variable binaire pour distinguer si l’équipe locale a gagné ou
perdu (aucune nulle en série). On trie les données selon cette variable, et on distingue
ainsi deux échantillons de valeurs qu’on considère indépendants puisqu’associés à des
matchs différents.
9
Université Laval STT-2902
Faculté des sciences et de génie Automne 2012
Département de mathématiques et de statistique Emmanuelle Reny-Nolin
Test de comparaison de deux moyennes provenant de populations normales à variances
inconnues, dont les échantillons sont indépendants.
H0 : µloc gagne = µloc perd
H1 : µloc gagne > µloc perd
Le test F de comparaison des variances n’est pas significatif, donc on utilise le test
de Student avec variances égales.
tobs = 1, 021, à comparer avec le quantile d’une loi de Student t87;0,01 = 1, 663.
Seuil observé : P (T > 1, 021) = 0, 155 où T ∼ t87 .
Au seuil de 1%, on ne rejette pas l’égalité des moyennes. Le nombre moyen de buts
comptés dans un match n’est pas plus élevé lorsque l’équipe locale gagne.
Exercice 5 - 1, 2, 3... payez !
Nous supposons que le prix de l’essence dans les villes du Canada (X) suit une loi normale.
Dans notre échantillon,
n = 12
x = 118, 7 cents
s = 10, 3 cents.
a) Intervalle de confiance à 99% pour le prix moyen réel :
√
x ± t11,0,005 s/ n = 118, 7 ± 9, 24 = [109.46, 127.94]
b) Pour réduire la longueur de cet intervalle de confiance, on peut augmenter la taille
d’échantillon ou diminuer le niveau de confiance (i.e. augmenter α).
10
Université Laval STT-2902
Faculté des sciences et de génie Automne 2012
Département de mathématiques et de statistique Emmanuelle Reny-Nolin
c) X ≈ N (118.7, 10.32 )
(Note : ici, ce sont les paramètres qui sont approximatifs, et non la loi !)
P (X > 120) ≈ P (Z > 0, 126) = 0, 450.
d) X ≈ N (118, 7, (10, 3)2 /12)
(Note : ici encore, ce sont les paramètres qui sont approximatifs, et non la loi !)
P (X > 120) ≈ P (Z > 0.437) = 0.331
Exercice 6 - Seuils observés
a) H0 : Les étudiants trouvent le cours plate.
H1 : Les étudiants ne trouvent pas le cours plate.
Seuil observé de 0,0246, inférieur au seuil du test (5%) : On rejette H0 .
Ma conclusion ? Les étudiants ne trouvent pas le cours plate (quelle question... !).
b) n = 25, population normale de variance inconnue.
H0 : µ = 21
H1 : µ < 21
1) Valeur-p = P (T < tobs ) = 0, 0413. On déduit que la valeur observée de la statis-
tique du test est négative (car la valeur-p est inférieure à 1/2)., et donc que x est
inférieure à 21 (significativement).
La valeur-p du test bilatéral aurait été 2 × P (T < tobs ) = 2 × 0, 0413 = 0, 0826.
2) Valeur-p = P (T < tobs ) = 0, 3413, donc x inférieure à 21 (mais pas significative-
ment).
La valeur-p du test bilatéral aurait été 2 × P (T < tobs ) = 2 × 0, 3413 = 0, 6826.
3) Valeur-p = P (T < tobs ) = 0, 6413, donc x supérieure à 21 (car la valeur-p est
supérieure à 1/2).
La valeur-p du test bilatéral aurait été 2×P (T > |tobs |) = 2×(1−0, 6413) = 0, 7174.
4) n = 25, x = 18, et s2 = 100.
x − µ0 18 − 21
La valeur observée de la statistique du test sera tobs = √ =p = −1, 5
s/ n 100/25
11
Université Laval STT-2902
Faculté des sciences et de génie Automne 2012
Département de mathématiques et de statistique Emmanuelle Reny-Nolin
Le seuil observé du test se calcule comme suit :
P (T < tobs ) = P (T < −1, 5) = 0, 0733, où T ∼ t24
Remarque : Si vous avez consulté une table de la loi de Student pour évaluer la
probabilité, vous avez seulement pu borner la valeur-p entre 0,05 et 0,10 car la
valeur observée se situe entre les quantiles -1,318 et -1,711. La valeur ci-dessus a
été obtenue par Excel.
5) n > 25, x = 18, et s2 = 100.
La valeur observée de la statistique du test sera plus grande en valeur absolue,
car n est plus grand. Puisqu’elle est négative, elle sera plus à gauche, et fera donc
diminuer la probabilité d’observer une valeur inférieure sous H0 .
De plus, en faisant augmenter n, on augmente les degrés de liberté de la loi t, qui
sera donc moins évasée. L’aire sous la courbe à gauche de la valeur observée sera
donc diminuée.
Le seuil observé sera donc plus bas que le précédent, et le test plus significatif.
(C’est normal : un écart de 3 unités entre les moyennes théorique et échantillonnale
est plus significatif s’il provient de 100 données que de 25 données.)
6) Aucun impact sur le calcul du seuil observé. C’est seulement sur la conclusion que
cela peut faire une différence, si le seuil observé se trouve entre 0,05 et 0,10.
c) Faux : l’inverse est vrai.
d) Faux : on rejette H0 s’il est inférieur au seuil du test.
e) Faux : cette notation indique seulement que Excel a calculé le seuil observé d’un test
unilatéral. À vous de déterminer lequel (à droite ou à gauche).
f) Faux : la probabilité que H0 soit vraie ne se calcule pas.
g) Faux : évidemment.
12