P OLYTECH ’L ILLE
D ÉPARTEMENT G.I.S.
Travaux pratiques de Statistiques Inférentielles sous SAS et R - GIS 3
TP 3 : Tests
Les jeux de données étudiés sont disponibles sur [Link]
Exercice 1 (SAS): Tests de comparaisons moyenne et variance
Afin de sélectionner des candidats qui ont postulé à un emploi, le directeur d’une entreprise a fait passer un test
d’aptitude aux candidats, et il a noté le temps (en minutes) nécessaire à chacun des candidats pour répondre au
test. Parmi les 27 candidats, 15 étaient des hommes et 12 des femmes. Les résultats obtenus sont les suivants:
Hommes 8,6 10,9 7,3 9,2 8,5 9,2 9,1 8,9 10,7 8,2 7,1 9,4 8,3 9,7 9,2
Femmes 8,3 7,2 8,7 6,7 10,3 6,8 9,8 8,9 9,6 8,6 6,7 7,5
Nous supposons que les temps de réponse sont distribués normalement.
1. Peut-on dire que les variances des temps de réponse des hommes et des femmes sont identiques ?
2. Si la performance des candidats des deux sexes lors du test n’est évaluée que par le temps nécessaire pour
y répondre, peut-on affirmer qu’il y a une différence réelle entre la performance moyenne des candidats et
celle des candidates ?
Indication : utiliser la procédure ttest (α = 5%).
Exercice 2 (SAS): Test d’indépendance de variables qualitatives
Sur 2000 personnes interrogées dans le Nord, 1040 disent acheter la marque de dentifrice X. Sur 1500 interrogées
dans le reste de la France, 615 disent acheter la marque X.
Est-ce que ces résultats permettent de soutenir que les parts de marché de la marque X sont les mêmes dans le
Nord que dans le reste de la France, au seuil de risque de 5%?
Indication : une solution peut être d’utiliser un test d’indépendance du χ2 entre les deux variables région et achat.
Ceci peut être réalisé à l’aide de la procédure freq.
Exercice 3 (SAS ou R): ANOVA
Le fichier [Link] contient les valeurs de rendements de six engrais azotés pour 4 types de sols (dans l’ordre
traitement, bloc, rendement). Les engrais sont les suivants :
1 : (NH4)2 SO2, 2 : NH4NO3, 3 : CO(NH2)2, 4 : CA(NO3)2, 5 : NaNO3, 6 : Rien.
1. L’engrais a-t-il une influence sur le rendement ?
2. Analyser ensuite les deux facteurs engrais et type de sols à l’aide d’une ANOVA à 2 facteurs.
Exercice 4 (SAS)
Récupérer le fichier [Link].
En s’inspirant des méthodes statistiques vues en cours, répondre aux questions suivantes en justifiant et illustrant
vos réponses :
1. Les clients de cette banque sont-ils jeunes (moins de 30 ans) ?
2. Le sexe a-t-il une influence sur le montant emprunté ? Si oui, les femmes empruntent-elles un montant plus
important que les hommes ?
1
3. L’emploi et le sexe influent-ils sur la durée de l’emprunt ?
4. Le montant du crédit ainsi que la durée sont-elles des variables gaussiennes ?
5. Le montant du crédit est-il lié à la durée ?
Exercice 5 (R)
On s’intéresse au taux de fer présent dans le foie et le régime à suivre pour mieux contrôler ce taux. On souhaite
comparer l’effet des 5 régimes. Il s’agit d’une étude sur des souris. Le plan d’expérience consiste à assigner de
manière aléatoire 9 souris pour chaque régime (on considère que la durée du régime est suffisamment grande pour
qu’elle efface les éventuelles différences entre les souris avant le régime). Les résultats obtenus sont :
A B C D E
2.23 5.59 4.50 1.35 1.40
1.14 0.96 3.92 1.06 1.51
2.63 6.96 10.33 0.74 2.49
1.00 1.23 8.23 0.96 1.74
1.35 1.61 2.07 1.16 1.59
2.01 2.94 4.90 2.08 1.36
1.64 1.96 6.84 0.69 3.00
1.13 3.68 6.42 0.68 4.81
1.01 1.54 3.72 0.84 5.21
Remarque : On organisera les données sous la forme d’un tableau à deux colonnes : X = tau de fer, Y = type de
régime (variable qualitative = fonction R as. factor). Chaque ligne correspond donc à un individu.
1. Tracer sur un même graphique :
• les 5 boîtes à moustaches correspondant aux 5 échantillons,
• les 5 fonction de répartition empiriques correspondant aux 5 échantillons.
2. Est-ce qu’il y a une différence entre les régimes. On utilisera à la fois un test paramétrique (après avoir
rappelé les hypothèses faites) et un test non paramétrique.
Exercice 6 (R)
Sur 10 patients choisis au hasard on observe l’évolution durant 5 jours du taux (en mg/litre sang) d’une certaine
substance.
P1 P2 P3 P4 P5 P6 P7 P8 P9 P10
Jour 1 124 88 130 115 92 80 101 98 132 85
Jour 2 125 75 138 108 92 78 105 97 125 86
Jour 3 117 73 133 108 92 74 101 92 124 83
Jour 4 123 69 130 102 88 70 95 93 128 84
Jour 5 119 70 127 98 88 70 95 93 125 85
1. Tracer sur un même graphique les 5 fonctions de répartition empiriques ainsi que les 5 boîtes à moustaches
correspondant aux 5 jours.
2. Les données observées permettent-elles de conclure à une variation significative dans le temps du taux
mesuré.
3. Les données observées permettent-elles de conclure à une décroissance significative dans le temps du taux
mesuré.