Exercices de Statistique et Probabilités
Exercices de Statistique et Probabilités
HEI 3 - 2014/2015
A. RIDARD
2
Table des matières
1 Loi normale 5
2 Estimation 7
3 Tests statistiques 11
4 Régression linéaire 13
5 Analyse de variance 19
Annales 25
3
4
Chapitre 1
Loi normale
Exercice 1.
La demande mensuelle d’un produit obéit à une loi normale. Elle a une probabilité 0,1 d’être inférieure
à 15 000 unités (resp. supérieure à 25 000 unités).
1. Quels sont les paramètres de cette loi ?
2. Calculer la probabilité qu’en un mois la demande dépasse 23 000 unités.
3. Quel doit être le stock pour ne risquer une rupture qu’avec une probabilité d’environ 0.1% ?
Exercice 2.
Une société envisage la mise en place de nouveaux équipements. Dans le cadre de ce projet, elle a défini
trois tâches A, B et C. On sait que la tâche A dure 10 semaines et que les tâches B et C ont des durées
aléatoires indépendantes ; la durée de B obéissant à la loi normale de moyenne 18 et d’écart-type 4, la
durée de C obéissant à la loi normale de moyenne 20 et d’écart-type 5.
1. Quelle est la probabilité que la tâche B (resp. C) dure entre 18 et 25 semaines ?
2. Quelle est la probabilité que la durée totale D des trois tâches ne dépasse pas 55 semaines ?
3. Déterminer un intervalle centré sur l’espérance mathématique dans lequel se trouve la durée totale
avec une probabilité de 0,75.
Exercice 3.
Les ampoules de la marque A ont une durée de vie moyenne de 2500 heures avec un écart-type de 500
heures, celles de la marque B ont une durée de vie moyenne de 2300 heures avec un écart-type de 800
heures. On prélève 300 ampoules A et 200 ampoules B.
1. Quelle est la loi de la durée de vie moyenne des 300 ampoules A (resp. des 200 ampoules B) ?
2. Quelle est la probabilité que la durée de vie moyenne des 300 ampoules A ne soit pas supérieure
de plus de 100 heures à la durée de vie moyenne des 200 ampoules B ?
3. Quelle est la probabilité que l’écart entre les deux durées de vie moyenne ne dépasse pas 40 heures ?
5
3. Quelle devrait être la période de garantie si Multisonic ne souhaitait remplacer que 0,05% des
appareils vendus ?
Supposons que c1 = 2 mm, que c2 = 6 mm et que X1 , X2 soient des variables aléatoires indépendantes
respectivement de moyenne 5 kN et 8kN, d’écart-type 0,25 kN et 0,40 kN.
1. Déterminer l’espérance et l’écart-type du moment fléchissant. Soit X, Y des variables aléatoires
indépendantes et a, b des réels. Alors
V ar(X + Y ) = V ar(X) + V ar(Y ) et V ar(aX + b) = a2 V ar(X)
2. Si X1 et X2 sont distribuées normalement, quelle est la probabilité que le moment fléchissant soit
supérieur à 64 Kn.mm ?
6
Chapitre 2
Estimation
Exercice 10.
Un fabricant et livreur de pizzas à domicile désire faire une étude sur le temps moyen qui s’écoule entre
le moment où la commande est passée par téléphone et le moment où le client est livré. Une observation
rapide faite sur 25 commandes fait ressortir un temps moyen de 27 mn.
En supposant que le temps de fabrication-livraison suive une loi normale d’espérance m et d’écart-type
1, donner un intervalle de confiance pour m au seuil 95%.
Exercice 11.
On suppose que le chiffre d’affaires journalier X d’un hypermarché est distribué selon une loi normale
d’espérance m et d’écart-type inconnu. Durant 31 jours, on a relevé la valeur du chiffre d’affaires (en
milliers d’euros) et obtenu le résultat suivant :
31
X 31
X
xi = 279 et x2i = 2945
i=1 i=1
Exercice 12.
On vous demande de faire une enquête afin de déterminer le pourcentage des votants qui exerceront leur
droit de vote lors du prochain référendum. On exige de vous une estimation du pourcentage au seuil 95%
avec une incertitude de ±2%.
Quel est le nombre minimal de personnes que vous devez interroger ?
Exercice 13.
Une étude réalisée sur la vitesse coronarienne X fournit, pour 18 individus, les résultats suivants :
75, 77, 78, 77, 77, 72, 72, 72, 70, 71, 69, 69, 68, 66, 64, 66, 62, 61
7
Exercice 14 (juin 2009).
L’entreprise Metallo a effectué des essais en traction sur des tiges métalliques employées dans l’assemblage
de structures. Notons X la résistance à la traction (en kg/cm2 ) d’espérance m et de variance σ 2 = 900.
Des essais sur 50 tiges fournissent un échantillon de moyenne 380 kg/cm2 .
50
1 X
1. Notons Xi la résistance à la traction de la i-ième tige de l’échantillon et X̄ = Xi . Déterminer
50 i=1
√
50
une approximation de la loi de (X̄ − m).
σ
2. En déduire un intervalle de confiance pour m au seuil 95%.
1. Si σ = 9.
2. Si σ est inconnu.
On en tire : s2 = 0.0116
8
Exercice 18 (janvier 2011).
En mai 2006, le ministre de l’Economie des Finances et de l’Industrie a mis en place la déclaration
de revenus préremplie par l’administration. Les premiers contrôles effectués sur un échantillon de 780
déclarations d’imposition préremplies montrent que 12% des ces déclarations présentent au moins une
erreur. Le montant moyen des erreurs, calculé à l’euro près, étant de 3500 euros. On supposera l’écart-type
σ connu égal à 800 euros.
1. Donner un intervalle de confiance au niveau 95% pour les paramètres suivants :
(a) La proportion p de déclarations erronées.
(b) Le montant moyen m des erreurs.
2. Donner le nombre minimal de déclarations à contrôler pour avoir au niveau 95% :
(a) une incertitude n’excédant pas 2% pour la proportion p de déclarations erronées.
(b) une incertitude n’excédant pas 50 pour le montant moyen m des erreurs.
1. Estimer par intervalle de confiance au niveau 98% les paramètres suivants (des basketteurs du
Nord) :
(a) L’écart-type de la détente sèche.
(b) La détente sèche moyenne.
2. En supposant maintenant σ connu égal à 2.37, estimer par intervalle de confiance au niveau 98%
la détente sèche moyenne des basketteurs du Nord.
3. Comparer les intervalles de confiance pour m et commenter.
4. Refaire les questions 1.(b) et 2. sans supposer la détente sèche gaussienne.
9
10
Chapitre 3
Tests statistiques
Exercice 20.
Le cahier des charges du principal client d’un fabricant de cartes à puces impose une proportion de cartes
défectueuses dans la production totale, inférieure ou égale à 0,5%. Suite à une livraison contenant 0,7%
de cartes défecteuses, selon le client, le fournisseur décide de contrôler un échantillon de taille 1000.
H0 : p = 0, 005
1. Six cartes étant défectueuses, tester au seuil de 2% ?
H1 : p = 0, 007
2. Calculer le risque de deuxième espèce puis commenter.
Exercice 21.
Deux échantillons indépendants et gaussiens ont donné les résultats suivants :
La différence observée entre les deux moyennes empiriques est-elle statistiquement significative au seuil
de 5% ?
Exercice 22 (juin 2010).
Les associations de consommateurs font appel à des organismes indépendants pour tester les
caractéristiques avancées par les fabricants pour de nombreux produits. Une des questions soulevées
est relative à l’influence, sur la consommation d’électricité, de l’utilisation d’un adoucisseur d’eau pour
alimenter la machine à laver. L’entartrage n’intervenant qu’après une utilisation prolongée, les 42
machines testées sont âgées de 4 ans.
A partir des relevées ci-dessous, décider si l’efficacité de l’adoucisseur est statistiquement significative
au seuil de 5% en supposant les consommations avec adoucisseur (XA ) et sans adoucisseur (XB )
gaussiennes et indépendantes.
Indice : on effectuera pour cela un test unilatéral de comparaison de moyennes précédé d’un test de
comparaison de variances, les deux au seuil de 5%
11
12
Chapitre 4
Régression linéaire
Exercice 23.
Le tableau suivant donne la consommation X de graisse ainsi que le taux Y de mortalité par
athlérosclérose pour 100 000 habitants de la Norvège sur une période couvrant la seconde guerre mondiale.
Exercice 24.
Un physicien a mesuré le volume V et la pression P d’un gaz. Ses résultats sont consignés dans le tableau
suivant.
13
Un extrait est fourni dans le tableau suivant :
Rang du mois xi 1 6 11 16 21 26 31 36
Nombre de logiciels vendus zi 60 250 340 360 320 270 220 200
(a) Sans calcul, justifier qu’un ajustement linéaire n’est pas approprié.
(b) Reproduire et compléter le tableau suivant (les yi seront arrondies au centième) :
Rang du mois
xi 1 6 11 16 21 26 31 36
yi = ln xzii 4, 09 1, 96 1, 71
14
Il s’agit d’ajuster le nuage de points par une courbe, afin d’utiliser celle-ci pour prévoir les taux
k
d’équipement futurs. L’observation suggère un ajustement logisitique Y = . Les fonctions
1 + ke−(aX+b)
logistiques sont bien adpatées pour modéliser l’évolution dans le temps des ventes d’un produit depuis
sa création. En effet, il n’est pas rare que la phase de démarrage soit suivie d’une phase de croissance
forte, elle même suivie d’une dernière phase de stagnation :
k
1. Montrer que l’ajustement logistique Y = se ramène à l’ajustement linéaire Y 0 =
1 + ke−(aX+b)
aX 0 + b avec X 0 = X et Y 0 = ln( k−Y
kY
).
k
2. Déterminer lim quand a > 0.
X→+∞ 1 + ke−(aX+b)
3. Pour les deux valeurs suivantes de k qui représente le seuil de saturation, réaliser l’ajustement
logistique en précisant bien les valeurs de a et b ainsi que le coefficient de détermination r2 :
(a) k = 0, 83
(b) k = 0, 78
4. Quel modèle doit-on privilégier pour une prévison à court terme ?
15
Exercice 27 (avril 2012).
MOULICAF envisage de racheter l’entreprise RAPENEX, entreprise concurrente confrontée à de délicats
problèmes de succession. Le chiffre d’affaires des derniers exercices est le suivant (en millions de livres
poldaves), après correction de l’incidence de l’inflation :
1. Modéliser cette série chronologique à l’aide du modèle linéaire X = aT + b en précisant bien les
paramètres.
2. Donner le coefficient de détermination r2 et interpréter le résultat.
3. Notons x∗t = at + b le chiffre d’affaires estimé par le modèle et et = xt − x∗t l’écart résiduel entre le
chiffre d’affaires observé et celui estimé par le modèle.
(a) Déterminer les 6 écarts résiduels, leur moyenne et leur variance s2x/t .
4. Modéliser maintenant la série chronologique à l’aide des modèles suivants en précisant bien les
paramètres ainsi que le modèle linéaire équivalent utilisé :
Exercice 28.
Un agent immobilier possède huit studios à louer dans une banlieue de Paris. Il a noté dans un tableau
la distance X de ces studios à la station de RER la plus proche ainsi que le montant Y du loyer mensuel.
Distance en km 0, 54 0, 90 1, 26 1, 98 2, 16 4, 14 5, 22 5, 4
Loyer mensuel en Francs 3300 3000 3120 2460 2760 2280 2400 2280
16
1. On ajuste cette série par le modèle linéaire : Y = at + b.
Calculer les coefficients de ce modèle par la méthode des moindres carrés.
2. On ajuste maintenant cette série par le modèle quadratique : Y = at2 + b.
Calculer les coefficients de ce modèle par la méthode des moindres carrés.
3. Quel modèle choisissez-vous (justifiez votre réponse) ?
4. Déterminer, au niveau 95%, l’intervalle de prévison du nombre de contrats souscrits à la fin du
mois de décembre 2003.
Exercice 30 (inspiré de avril 2010).
Le tableau suivant présente l’évolution du taux de mortalité infantile M (pour 1000) de 1950 à 2004.
T (en ms) 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2.0 2.2 2.4 2.6 2.8 3.0
U (en Volt) 5.7 5.5 5.3 5.1 4.9 4.8 4.5 4.2 3.8 3.4 3.0 2.5 2 1.4 0.7
17
Exercice 32 (inspiré de novembre 2011).
Le tableau ci-dessous donne l’évolution du nombre de personnes agées en milliers (Y) de plus de 85 ans,
en France métropolitaine, de 1950 a 2000.
Année 1950 1955 1960 1965 1970 1975 1980 1985 1990 1995 2000
x 0 5 10 15 20 25 30 35 40 45 50
y 201 231 290 361 423 498 567 684 874 1079 1267
18
Chapitre 5
Analyse de variance
Exercice 33.
Des élèves choisis au hasard dans une promotion sont répartis en trois groupes, et leurs notes à l’issue
de l’épreuve de statistique sont inscrites dans le tableau suivant. Le groupe a-t-il un effet significatif sur
la note ?
Groupe 1 Groupe 2 Groupe 3
19 7 11
19 7 13
17 8 20
7 11 2
13 20 1
17 16 16
7 13 5
13 6 2
8 2 8
15 19 14
3 14 6
19 12 16
7 6 2
20 10 16
14 19 6
14 20 8
9 13 11
17 2 4
19 19 13
3 20 5
8 10 20
15 3 19
6 8 10
5 4 6
19 17
9 10
19 20
6
3
17
3
6
7
8
18
19
Exercice 34.
Le tableau suivant présente les salaires annuels bruts d’individus au bout de cinq ans d’expériences
selon leur niveau de formation initiale. Qu’en pensez-vous ?
B1 B2 B3 B4 B5
A1 1,2 1,3 1,5 1,3 1,6
A2 1,3 1,4 1,2 1,4 1,2
A3 1,3 1,2 1,4 1,3 1,5
A4 1,2 1,1 1,3 1,5 1,4
Exercice 36.
1. On considère le rendement de trois variétés de maı̈s dont la culture a été effectuée avec cinq
engrais différents. Dans le tableau suivant, chaque observation est spécifique à une variété et un
engrais. Il s’agit de tester le rendement moyen des parcelles en tenant compte de deux facteurs de
variabilité : la variété et le type d’engrais. Effectuer les tests avec un seuil de 5%.
20
Exercice 37.
Un fabricant de coussinets en bronze fritté se propose de déterminer si la résistance à la rupture du
bronze dépend des lots de poudre de cuivre et d’étain utilisés pour son élaboration. On réalise à partir
de trois lots différents de poudre de cuivre (facteur A) et de trois lots différents de poudre d’étain
(facteur B), neuf mélanges de composition identiques (90% de cuivre et 10% d’étain), correspondants
aux neuf combinaisons deux à deux des lots de cuivre et d’étain utilisés. A partir de chacun de ces
mélanges, on comprime, sous une même pression, quatre éprouvettes de flexion identique. Les trente-six
éprouvettes obtenues sont ensuite frittées en une même opération dans un four à atmosphère réductrice.
Ces éprouvettes sont enfin cassées sur une machine d’essai. Les charges de rupture ainsi déterminées
arrondies à 0.12 kg /mm près sont reportées dans le tableau ci-après, en hectogrammes.
B1 B2 B3
A1 6 1 0
7 1 5
3 4 6
8 3 2
A2 1 6 0
6 4 3
7 4 2
4 10 2
A3 6 8 2
10 3 4
8 7 3
7 7 7
B1 B2 B3 B4
A1 C1 21 C2 26 C4 20 C3 25
A2 C4 23 C3 26 C1 20 C2 27
A3 C2 15 C4 13 C3 16 C1 16
A4 C3 17 C1 15 C2 20 C4 20
1. L’additif a-t-il un effet significatif sur les émissions d’oxyde d’azote au seuil de 5% ?
2. Le véhicule a-t-il un effet significatif sur les émissions d’oxyde d’azote au seuil de 5% ?
3. Le conducteur a-t-il un effet significatif sur les émissions d’oxyde d’azote au seuil de 5% ? 10% ?
21
22
Annales
23
Examen de Statistique
HEI 3 - 21 janvier 2013
– Durée : 2 heures
– Autorisés : calculatrice et recto-verso manuscrit
– Le barème n’est donné qu’à titre indicatif
Exercice 2 (5 points).
La distance d’arrêt d’un véhicule est égale à la distance de réaction (distance parcourue entre le
moment où le conducteur perçoit un obstacle et celui où il appuie sur la pédale de frein) augmentée
du chemin de freinage (distance parcourue entre le début du freinage et l’arrêt total). Le tableau
suivant fournit pour 12 vitesses V un chemin de freinage C mesuré en mètres.
Vitesse V Chemin de freinage C
40 8,8
50 11
60 19,8
70 27
80 39
90 44,6
100 58
110 78
120 79,4
130 93,1
140 108
150 124
1. A l’aide de l’annexe 1, préciser pour chacun des modèles suivants une estimation (ponctuelle)
des paramètres α et β ainsi que du coefficient de détermination :
(a) Modèle linéaire : C ' αV + β.
(b) Modèle puissance : C ' αV β .
2. (a) Pourquoi avons-nous utilisé le signe ' plutôt que le signe = ?
(b) A quel modèle correspond le tableau inutilisé de l’annexe 1 ?
3. (a) Quel est le meilleur des modèles ?
(b) Donner un intervalle de confiance, au niveau 95%, pour le α du modèle choisi ?
(c) A l’aide du modèle choisi, donner un intervalle de prévision pour le chemin de freinage à
une vitesse de 170 km/h, au niveau 95%.
1. Indiquer si les opérateurs ont un effet significatif sur le temps d’usinage au seuil de 5% :
(a) A l’aide du tableau obtenu avec une ANOVA à 1 facteur :
(b) A l’aide du tableau obtenu cette fois avec une ANOVA à 2 facteurs que l’on complètera
au besoin :
– Durée : 2 heures
– Autorisés : calculatrice et recto-verso manuscrit
– Le barème n’est donné qu’à titre indicatif
Sauf mention contraire, on réalisera les tests au seuil de 5% en détaillant bien les étapes.
Exercice 1 (5 points).
Le tableau ci dessous indique pour un échantillon de 9 étudiants de troisième année, le nombre X de
jours consacrés à préparer les examens de fin de semestre et Y la moyenne obtenue sur 20.
X 43 45 47 53 55 57 61 65 67
Y 7,2 7,3 8,1 8,4 10 10,4 12 12,6 14,3
Les options graphiques d’Excel et son utilitaire d’analyse permettent d’obtenir les
résultats fournis en Annexe.
Exercice 2 (4 points).
1. En réalisant un test de comparaison à partir des données suivantes, peut-on rejeter l’idée selon
laquelle il y’aurait plus de femmes à fumer que d’hommes ?
Homme Femme
Fumeur 24 41
Non fumeur 23 35
2. En réalisant un test du chi 2, étudier la dépendance entre l’environnement familial et le fait de
fumer.
Père fumeur et Père fumeur et Père non fumeur et Père non fumeur et
mère fumeuse mère non fumeuse mère fumeuse mère non fumeuse
Fumeur 13 16 7 29
Non fumeur 5 24 6 23
Exercice 3 (6 points).
Dans le cadre d’un concours comptant 1500 candidats, un des correcteurs rend ses 100 copies au
secrétariat qui établit la distribution suivante :
1. Peut-on considérer que les notes suivent une loi normale ? La réponse sera justifiée par un test.
2. Estimer par intervalle de confiance, au niveau 95%, la moyenne et la variance des candidats.
3. Calculer la barre d’admission si le concours offre 150 places.
Exercice 4 (5 points).
Dans cet exercice, on utilisera les sorties Excel fournies que l’on complétera au besoin.
Le détail des tests mis en oeuvre pour répondre n’est pas attendu.
Nous nous proposons d’analyser l’influence du temps et de trois espèces ligneuses d’arbre sur la
décomposition de la masse d’une litière constituée de feuilles de Lierre.
1. Pour ce faire, 12 sachets d’une masse identique de feuilles de lierre ont été constitués, sachets
permettant une décomposition naturelle. Puis une première série de 4 sachets, choisis au hasard,
a été déposée sous un chêne, une deuxième sous un peuplier, et la dernière série sous un frêne.
Après 2, 7, 10 et 16 semaines respectivement, un sachet est prélevé au hasard sous chaque
arbre et la masse résiduelle est déterminée pour chacun d’eux. Cette masse est exprimée en
pourcentage de la masse initiale.
Semaine Chêne Peuplier Frêne
2 85 85 84
7 75 73 72
10 71 74 67
16 62 67 58
Une ANOVA à deux facteurs sans répétition fournit le résultat suivant :
(a) L’interaction entre le temps et l’espèce de l’arbre a-t-elle un effet significatif sur la
décomposition ?
(b) Le temps a-t-il un effet significatif sur la décomposition ?
(c) L’espèce de l’arbre a-t-elle un effet significatif sur la décomposition ?
(d) L’ANOVA à deux facteurs fournissant des réponses différentes suivant qu’elle est sans ou
avec répétitions, quelle réponse doit-on privilégier quant à l’effet de l’espèce de l’arbre sur
la décomposition ?
3. En ne considérant que les différentes espèces, une ANOVA à un facteur fournit le résultat
suivant :
– Durée : 2 heures
– Autorisés : calculatrice et recto-verso manuscrit
– Le barème n’est donné qu’à titre indicatif
Sauf mention contraire, on réalisera les tests au seuil de 5% en détaillant bien les étapes.
Exercice 1 (4 points).
Une entreprise remplit des boites de 200 g de chocolats.
1. On suppose dans cette question (uniquement) que le poids d’une boite de chocolats suive une
loi normale. La probabilité qu’il soit supérieur à 230 g est de 0,02 et celle qu’il soit inférieur à
180 g est de 0,015.
(a) Déterminer les paramètres de la loi.
(b) Quelle est la probabilité que le poids d’une boite soit inférieur à 200 g ?
(c) Quelle est la probabilité que la différence entre les poids de deux boites soit inférieure à
20g ?
2. On suppose maintenant que les boites de chocolats aient un poids moyen de 207 g avec un écart
type de 20 g. L’entreprise livre les chocolats aux grandes surfaces par cartons de 100 boites.
(a) Quelle est la loi du poids moyen de 100 boites ?
(b) Quelle est la probabilité que la différence entre les poids moyens de 100 boites dans deux
cartons soit supérieure à 10 g ?
Exercice 2 (5 points).
Sur une parcelle de soja, on a mesuré la hauteur en cm de 100 plantes à l’âge de 6 semaines.
On obtient les résultats suivants après regroupememt par classes et en considérent pour les hauteurs
les centres des classes :
Hauteurs 36 37 38 39 40 41
Effectifs 6 11 26 32 14 11
Exercice 4 (6 points).
On souhaite interpréter l’influence de la prise d’un médicament sur un taux d’anticorps produit.
L’échantillon A, constitué d’individus non traités, est de taille 50. On observe un taux moyen de 1,6
et une variance de 1,8.
L’échantillon B, constitué d’individus traités, est de taille 40. On observe un taux moyen de 3 et une
variance de 2,3.
1. En supposant le taux d’anticorps produit gaussien, le traitement est-il efficace ?
2. En ne supposant plus le taux d’anticorps produit gaussien, le traitement est-il efficace ?
Examen de Statistique
HEI 3 - 20 janvier 2014
– Durée : 2 heures
– Autorisés : calculatrice et recto-verso manuscrit
– Le barème n’est donné qu’à titre indicatif
Sauf mention contraire, on réalisera les tests au seuil de 5% en détaillant bien toutes les
étapes : hypothèses, variable de décision et sa loi, région critique, valeur observée de la
variable de décision et enfin conclusion
Exercice 1 (5 points).
En biostatistique, une étude de la croissance d’une population de campagnols des champs (Microtus
Arvalis) a fourni, pour le nombre d’individus N suivant le temps T (en mois), les résultats suivants :
T 2 4 6 8 10 12 14
N 5 16 20 40 100 200 320
En Annexe, vous trouverez les résultats fournis par les options graphiques d’Excel et
son utilitaire d’analyse.
1. (a) Pour le modèle linéaire, donner le coefficient directeur de la droite.
(b) Pour le modèle puissance, donner le coefficient de détermination.
(c) Pour le modèle exponentiel, compléter le résultat fourni par l’utilitaire d’analyse.
2. Quel modèle ajuste au mieux le nuage de points ?
3. En utilisant le meilleur des modèles, donner pour 18 mois :
(a) Une estimation ponctuelle du nombre d’individus.
(b) Un intervalle de prévision du nombre d’individus.
Exercice 3 (2 points).
On désire savoir s’il existe une dépendance entre l’âge d’un individu atteint du cancer et ses chances
de guérison. On mène une enquête sur trois classes d’âge et on obtient les résultats suivants :
Guéri Non guéri
50 - 60 ans 1409 507
60 - 70 ans 763 248
70 - 80 ans 571 192
Quelle est votre conclusion ? La réponse sera justifiée à l’aide d’un test du chi 2.
Dans cet exercice, on utilisera les sorties Excel fournies que l’on complétera au besoin.
Les différentes étapes des tests mis en oeuvre pour répondre aux questions ne sont pas
attendues ici.
Dans le cadre d’une étude pédagogique, quatre méthodes d’apprentissage sont expérimentées.
1. A l’issue de la formation, une évaluation est proposée à 12 étudiants (trois pour chacune des
méthodes M1, M2, M3 et M4) dont les résultats sont regroupés dans le tableau suivant :
M1 M2 M3 M4
15 45 56 39
27 65 47 43
37 76 43 72
Une ANOVA à un facteur fournit :
La méthode d’apprentissage a-t-elle un effet significatif sur la note obtenue lors de l’évaluation ?
2. En considérant le QI des étudiants (C1 si QI < 100, C2 si 100 ≤ QI < 115 et C3 si QI ≥ 115),
on peut en fait voir les données précédentes de la manière suivante :
M1 M2 M3 M4
C1 15 45 56 39
C2 27 65 47 43
C3 37 76 43 72
Une ANOVA à deux facteurs sans répétition fournit :
– Durée : 2 heures
– Autorisés : calculatrice et recto-verso manuscrit
– Le barème n’est donné qu’à titre indicatif
Sauf mention contraire, on réalisera les tests au seuil de 5% en détaillant bien toutes les
étapes : hypothèses, variable de décision et sa loi, région critique, valeur observée de la
variable de décision et enfin conclusion
Exercice 1 (7 points).
1. On souhaite savoir s’il existe une dépendance entre la filière d’un étudiant en deuxième année
de prépas et son sexe. Pour cela, on dispose des résultats suivants :
PC PSI MP
M 70 96 86
F 80 13 23
Quelle est votre conclusion ? La réponse sera justifiée à l’aide d’un test du chi 2.
2. On souhaite maintenant étudier le lien entre la moyenne en Mathématiques d’un étudiant en
deuxième année de prépas (X) et sa moyenne générale (Y ). Pour cela, on dispose des moyennes
suivantes calculées sur un échantillon de 54 étudiants ainsi que des résultats fournis par les
options graphiques d’Excel et son utilitaire d’analyse (cf. Annexes).
X Y ln X ln Y
moyenne 10,44 11,14 2,33 2,41
(a) i. Pour le modèle linéaire, déterminer l’ordonnée à l’origine de la droite.
ii. Pour le modèle exponentiel, donner le coefficient de détermination.
iii. Pour le modèle puissance, compléter le résultat fourni par l’utilitaire d’analyse.
(b) Quel modèle ajuste au mieux le nuage de points ?
(c) En utilisant le meilleur des modèles, donner pour un étudiant ayant une moyenne de 11/20
en Mathématiques :
i. Une estimation ponctuelle de sa moyenne générale.
ii. Un intervalle de prévision de sa moyenne générale.
Exercice 2 (7 points).
Les résultats d’une étude menée en 1967 sur 237 enfants, décrits par leur sexe et leur poids en livres
(1 livre = 0.45 kg), sont résumés ci-dessous.
1. Justifier, à l’aide d’un test du chi 2, que le poids des filles peut être modélisé par une loi normale.
2. En supposant que le poids des garçons peut, lui aussi, être modélisé par une loi normale, étudier
si la différence entre le poids moyen des filles et celui des garçons est significative ou pas. On
fera un test bilatéral pour comparer les moyennes.
Dans les deux exercices suivants, on utilisera les sorties Excel fournies que l’on
complétera au besoin. Les différentes étapes des tests mis en oeuvre pour répondre aux
questions ne sont pas attendues ici.
Exercice 3 (2 points).
Les données suivantes correspondent à une expérience où 4 dentifrices (T1, T2, T3 et T4) ont été
chacun testés sur 6 personnes afin que soit mesuré leur impact sur la blancheur des dents. Tous les
patients utilisaient auparavant le même dentifrice.
T1 T2 T3 T4
16 18 19 20
17 20 27 23
17 20 28 24
19 21 29 25
21 22 32 26
24 23 34 29
Exercice 4 (4 points).
Pour étudier l’impact, sur le rendement, de la méthode de culture et du type de champ (mêmes sols,
mais des expositions différentes), une expérience a été menée où trois méthodes de culture ont été
testées sur trois types de champs.
1. Les rendements mesurés après la moisson sont regroupés dans le tableau suivant :
Méthode Champ 1 Champ 2 Champ 3
1 20 39 34
2 35 30 58
3 62 82 69
Une ANOVA à deux facteurs sans répétition fournit :
(a) La méthode a-t-elle un effet significatif sur le rendement de la culture ?
(b) Le type de champ a-t-il un effet significatif sur le rendement de la culture ?
2. En répétant l’expérience, les résultats suivants ont été obtenus :
Méthode Champ 1 Champ 2 Champ 3
1 20 39 34
7 17 13
2 35 30 58
52 28 73
3 62 82 69
44 81 84
Une ANOVA à deux facteurs avec répétition fournit alors :
(a) L’interaction entre la méthode et le type de champ a-t-elle un effet significatif sur le
rendement de la culture ?
(b) La méthode a-t-elle un effet significatif sur le rendement de la culture ?
(c) Le type de champ a-t-il un effet significatif sur le rendement de la culture ?
(d) Comparer les résultats obtenus aux questions 1.(b) et 2.(c).
Annexe 1 : trois graphiques
Annexe 2 : trois régressions linéaires
– Durée : 2 heures
– Autorisés : calculatrice et recto-verso manuscrit
– Le barème n’est donné qu’à titre indicatif
Sauf mention contraire, on réalisera les tests au seuil de 5% en détaillant bien toutes les
étapes : hypothèses, variable de décision et sa loi, région critique, valeur observée de la
variable de décision et enfin conclusion
Dans ce sujet, nous nous intéressons à l’étude du prix (en euros) de location d’un garde-meubles dans
trois pays européens : France, Hollande et Belgique. Les différentes données ont été récoltées par des
étudiants d’HEI dans le cadre de leur projet piste.
Exercice 1 (5 points).
On souhaite ici étudier, pour la Hollande, le lien entre le volume (V ) et le prix (P ) d’un garde-meubles.
Pour cela, on dispose des moyennes suivantes calculées sur un échantillon de 29 garde-meubles ainsi
que des résultats fournis par les options graphiques d’Excel et son utilitaire d’analyse (cf. Annexes).
V P ln V ln P
Moyenne 5,92 47,84 1,68 3,73
Exercice 2 (6 points).
1. On souhaite ici savoir s’il existe une dépendance entre le pays 1 et le prix au m3 (trois classes
sont considérées). Pour cela, on dispose des résultats suivants :
France Hollande
< 7.13 54 10
[7.13,13.13[ 15 16
≥ 13.13 14 5
Quelle est votre conclusion ? La réponse sera justifiée à l’aide d’un test du chi 2.
2. On souhaite maintenant estimer par intervalle de confiance, au niveau 95%, le prix au m3 en
Hollande. Pour cela, on dispose d’un échantillon de 29 prix au m3 , de moyenne 8,04 et d’écart-
type corrigé 2,19. Le regroupement en classes fournit :
1. Les données récoltées en Belgique n’étant pas suffisantes, nous nous limiterons à la France et à la Hollande
Classes Effectifs
< 6.13 4
[6.13,7.63[ 9
[7.63,9.13[ 8
≥ 9.13 8
(a) Justifier, à l’aide d’un test du chi 2, que le prix au m3 peut être modélisé par une loi normale.
(b) En déduire l’intervalle de confiance souhaité.
Dans l’exercice suivant, on utilisera les sorties Excel fournies que l’on complétera au
besoin. Les différentes étapes des tests mis en oeuvre pour répondre aux questions ne
sont pas attendues ici. Les hypothèses de l’ANOVA sont supposées vérifiées.
Exercice 3 (9 points).
On s’intéresse enfin à certains facteurs pouvant expliquer le prix au m3 .
1. D’abord, on étudie l’effet éventuel du pays sur le prix au m3 à partir de trois échantillons.
Une ANOVA à un facteur fournit :
(a) L’interaction entre le pays et le volume a-t-elle un effet significatif sur le prix au m3 ?
(b) Le pays a-t-il un effet significatif sur le prix au m3 ?
(c) Le volume a-t-il un effet significatif sur le prix au m3 ?
(d) Discuter les résultats obtenus aux questions 2.(b) et 3.(c).
Annexe 1 : trois graphiques
Annexe 2 : trois régressions linéaires