Statistiques descriptives en mathématiques
Statistiques descriptives en mathématiques
TD n° 1
Statistique descriptive univariée et bivariée
Questions. Parmi ces assertions, préciser celles qui sont vraies, celles qui sont fausses :
1. On appelle variable, une caractéristique que l’on étudie
2. La tâche de la statistique descriptive est de recueillir des données.
3. La tâche de la statistique descriptive est de présenter les données sous forme de tableaux, de
graphiques et d’indicateurs statistiques.
4. Les valeurs des variables sont aussi appelées modalités.
5. Pour une variable qualitative, chaque individu statistique ne peut avoir qu’une seule modalité.
6. Pour faire des traitements statistiques, il arrive qu’on transforme une variable quantitative en
variable qualitative.
Solution –
1) Vrai
2) Faux
3) Vrai
4) Vrai
5) Vrai
6) Vrai
Exercice 2. On a demandé à 300 jeunes collégiens quel était leur fruit préféré parmi les six fruits les plus
consommés au Maroc : banane, nectarine, orange, pêche, poire, pomme. Voici les résultats obtenus :
1
1. Il s’agit de la variable ”le fruit préféré des 300 collégiens”. C’est une var. qualitative nominale.
2. Tableau des fréquences :
Fruit Eff ni Fréquence fi
Banane 72 0.24
Nectarine 33 0.11
Orange 30 0.10
Pêche 36 0.12
Poivre 45 0.15
Pomme 84 0.28
Total 300 1
3. ”La pomme” dont l’effectif est le plus élevé est la valeur modale (ou mode) de cette série
statistique.
4. (i) On trace le Diagramme en tuyaux d’orgue des effectifs (ou des fréquences). (appelé aussi
Diagramme en barres).
(ii) On trace le Diagramme en Secteur : αi = fi × 360 est le nombre de degrés mesurant le secteur
angulaire de la modalité i = 86; ; 40; 36; 54 et 101.
Exercice 3. Une enquête en vue de la réduction du montant des allocations familiales, a été réalisée
auprès d’un échantillon de 100 femmes de 40 ans. Cette enquête a donné les résultats suivants :
Nombre d’enfants (xi ) Nombre de femmes (ni )
0 10
1 20
2 20
3 30
4 20
1) Caractériser la distribution (la population et sa taille, l’individu, les modalités, le caractère (la
variable) et son type).
2) Tracer le diagramme correspondant.
3) Définir et représenter la courbe cumulative croissante.
4) Donner la proportion (fréquence) des femmes ayant moins de 4 enfants.
5) Donner la fréquence des femmes ayant au moins 2 enfants.
6) Calculer la moyenne et l’écart-type de cette distribution.
Solution –
1) Caractériser la distribution (la population et sa taille, l’individu, les modalités, le caractère (la
variable) et son type).
la population : ”femmes de 40ans” ; sa taille : n = 50, l’individu : ”une femme de 40ans”, les modalités :
”0, 1, 2, 3, 4”, le caractère (la variable) : X : ”Nombre de femmes” ; son type : ”quantitatif discret.
1) Tracer le diagramme correspondant : On peut tracer soit le digramme en bâtons des effectif soit le
diagramme en bâtons des fréquences.
3) Définir et représenter la courbe cumulative croissante.
La représentation de la fonction cumulative croissante (appelée aussi fonction de répartition) est
réalisée au moyen des fréquences cumulées. Cette fonction est définie de R dans [0, 1] et vaut
0 si x < 0
0.1 si 0≤x<1
0.3 si 1 ≤ x < 2
F (x) =
0.5 si 2 ≤ x < 3
0.8 si 3 ≤ x < 4
1 si x ≥ 4
voir tableau :
Nombre d’enfants (xi ) Nombre de femmes (ni ) fi Fi
0 10 0.1 0.1
1 20 0.2 0.3
2 20 0.2 0.5
3 30 0.3 0.8
4 20 0.2 1
Σ 100 1 //
2
4) Donner la proportion (fréquence) des femmes ayant moins de 4 enfants : 0.8
5) Donner la fréquence des femmes ayant au moins 2 enfants : 0.2 + 0.3 + 0.2 = 0.7
6) x̄ = 2.3
V (x) = 1.61
σX ≃ 1.27
On a de plus (en calculant les np) :
x +x
Me = (50) 2 (51) = (2 + 3)/2 = 2.5
x +x
Q1 = (25) 2 (26) = (1 + 1)/2 = 1
x(75) +x(76)
Q3 = 2 = (3 + 3)/2 = 3
Exercice 4. Les données suivantes sont les frais d’électricité (en DH) durant le mois de mars pour un
échantillon de 50 petits appartements dans une grande ville :
80 90 95 96 102 108 109 111 114 116
119 123 127 128 129 130 130 135 137 139
141 143 144 147 148 149 149 150 151 153
154 157 158 163 165 166 167 168 171 172
175 178 183 185 187 191 197 202 206 220
Q1 = x(⌈12.5⌉) = x(13)
– Calcul de Me = Q2 : np = 50 × 0.5 = 25 est un entier, donc :
3) Construire l’histogramme, puis après le polygone des fréquence (sur la même figure)
Exercice 5. Dans une enquête, menée auprès des étudiants de l’université Mohammed V, l’enquêteur
relevait le temps (en minutes) mis par chaque répondant pour se rendre à l’université. Le tableau suivant
résume les temps observés.
3
Classe [21; 22[ [22; 23[ [23; 24[ [24; 26[ [26; 30[
Effectif 50 90 70 60 40
4
3) La moyenne est donnée par
5 5
1X X
x= ni ci = fi ci = 23.76 min
n i=1 i=1
et la variance par
5
1X 1214.356
s2 = ni (ci − x)2 = ≃ 3.92 min2
n i=1 310
F (Qj) − F (xi )
Qj = xi + (xi+1 − xi ) × ; Qj ∈ [xi , xi+1 [
F (xi+1 ) − F (xi )
Dans ce cas,
-
0.25 − 0.16
Q1 = 22 + (23 − 22) × = 22.31,
0.45 − 0.16
-
0.5 − 0.45
Q2 = 23 + (24 − 23) × = 23.22,
0.68 − 0.45
-
0.75 − 0.68
Q3 = 24 + (26 − 24) × = 24.75.
0.87 − 0.68
5) Le coefficient d’asymétrie de Pearson est :
3(x̄ − Q2 ) 3(23.76?23.22)
γ3 = = √ ≃ 0.82.
s 3, 92
Budget [800, 1000[ [1000, 1400[ [1400, 1600[ [1600, y[ [y, 2400[ [2400, x[
Fréq. cumulée 0.08 0.18 0.34 0.64 0, 73 1
Solution –
PARTIE 1 : Certaines données sont manquantes.
1. La borne manquante x = xmax sachant que l’étendue e de la série est égale à 3200 euros :
On sait que l’étendue e = xmax − xmin
et donc
3200 = xmax − 800 =⇒ x = xmax = 4000.
2. La borne manquante y dans les deux cas suivants :
5
(a) le budget moyen est égal à 1995 euros :
k k
1X X
x̄ = ni ci = fi ci
n i=1 i=1
Il faut donc au préalable calculer les fréquences à partir des fréquences cumulées dans le tableau
précédent.
Classes [800, 1000[ [1000, 1400[ [1400, 1600[ [1600, y[ [y, 2400[ [2400, 4000[
Fi 0.08 0.18 0.34 0.64 0, 73 1
fi 0.08 0.1 0.16 0.3 0, 09 0.27
Donc
Pk
x̄ = i=1 fi ci = 1995
c-à-d,
1600+y y+2400
0.08 × 900 + 0.1 × 1200 + 0.16 × 1500 + 0, 3 × 2 + 0.09 × 2 + 0, 27 × 3200 = 1995
On trouve : y = 1800.
fi
fic = ×α
ai
α est le correcteur de l’échelle, est égale à la valeur de la plus petite amplitude ou la valeur de
l’amplitude qui se répète. Ici on prend α = 400
Classes [800, 1000[ [1000, 1400[ [1400, 1600[ [1600, 2000[ [2000, 2400[ [2400, 4000[
ai 200 400 200 400 400 1600
fi 0.08 0.1 0.16 0.3 0, 09 0.27
fic 0.16 0.1 0.32 0.3 0, 09 0.0675
On a :
k k
1X 1X
V (X) = 604044 = ni (ci − x̄)2 = ni c2i − (x̄)2
n i=1 n i=1
6
et
n
X
ni c2i = 4741200000 et x̄ = 2034.
i=1
Donc
1
604044 = × 4741200000 − (2034)2
n
=⇒ n = 1000
et pour calculer les effectifs des classes on applique la formule : ni = fi × n
Exercice 7. On considère les statistiques (des ”frais d’électricité (en DH)” durant le mois de mars pour
un échantillon de 50 petits appartements dans une grande ville) données dans l’Exercice 4.
1) Construire le diagramme en boite.
2) Interpréter les résultats.
Solution –
Les paramètres de la boite à moustache : (voir Exercice 4.)
– Q1 = 127
– Me = 148.5
– Q3 = 168
– EIQ = Q3 − Q1 = 168 − 127 = 41
– a = max(Q1 − 1.5 × EIQ; xmin ) = max(65.5; 80) = 80
– b = min(Q3 + 1.5 × EIQ; xmax ) = min(229.5; 220) = 220
Cette distribution ne présente aucune valeur aberrante.
2. On trouve :
3
1 X 29 × 1 + 38 × 2 + 33 × 3
x= ni. ci = = 2.04,
100 i=1 100
7
2
1 X 54 × 0 + 46 × 1
y= n.j yj = = 0.46,
100 j=1 100
3
!
1 X
V (X) = s2x
= ni. ci − (x)2 = 4.78 − 2.042 = 0.6184,
2
100 i=1
2
1 X
V (Y ) = s2y = n.j yj2 − (y)2 = 0.2484.
100 j=1
√
s
3. CVY = yy = 0.2484
0.46 = 1.083473 ≃ 108%. la distribution de Y est hétérogène.
4. Rappelons que les variables X et Y sont indépendantes si et seulement si
ni. × n.j
nij = , ∀i = 1, 2, 3 et j = 1, 2.
n
HH Y
HH 0 1 Σ
X H
[0.5, 1.5[ 21 8 29
[1.5, 2.5[ 23 15 38
[2.5, 3.5[ 10 23 33
Σ 54 46 100
Or, on a (contre exemple)
n2. × n.1 38 × 54
n21 = 23 ̸= = = 20.52,
n 100
donc les variables X et Y sont liées.
5. V (Z) = V (0.165X + 0.13Y ) = 0.1652 V (X) + 0.132 V (Y ) + 2 × 0.165 × 0.13 cov(X, Y ),
avec, la covariance entre X et Y :
3 X 2
1 X
sxy = cov(X, Y ) = nij ci yj − x × y = 0.1316
100 i=1 j=1
Exercice 9. Un responsable bancaire aimerait savoir s’il existe une relation entre le revenu annuel X et
le montant d’argent Y consacré à l’épargne. Pour un échantillon de 10 familles, il a obtenu les résultats
suivants (en 104 DH)
X 12 15 13 10 10 14 16 18 16 14
Y 0,2 1,2 1 0,7 0,3 1 1,6 1,4 1,2 0,7
8
sxy
2. Le coefficient de corrélation est ρ = sx sy , où
10
1 X
Cov(X, Y ) = sxy = (xi − x)(yi − y) = 0.886.
10 i=1
y = ax + b
s
où a = sxy
2 et b = y − ax.
x
Ce qui donne
a ≃ 0.1438 et b ≃ −1.0549.
d’où
y = 0.1438 × x − 1.0549.
4. si x = 11, alors y ≃ 0, 5273 soit environ 5273 DH comme montant épargné par cette famille.
Exercices supplémentaires
Exercice 10. Les téléspectateurs sont invités à évaluer une émission en envoyant un message contenant
l’une des lettres A, B, C ou D qui représentent respectivement ”très bonne émission”, ”bonne émission”,
”mauvaise émission” et ”très mauvaise émission” ; çi après les évaluations de 32 spectateurs :
B, B, A, C, A, D, A, A, B, C, D, D, C, A, B, B, C, A, D, C, A, A, B, A, C, D, B, B, C, D, B, A
1) Caractériser la variable.
2) Dresser le tableau de distribution des effectifs et des fréquences.
3) Tracer une représentation graphique associée.
Exercice 11. Les durées, en minutes et arrondies à l’entier le plus proche, enregistrées pour 22 communications,
dans un centre d’appel, sont données dans le tableau suivant :
10 12 14 14 15 15 16 16 17 17 17
18 18 18 19 19 20 20 21 22 23 24
où k = 1 + 3, 322log10 22 = 1 + 3, 322 × 1, 342 = 5, 459 qu’on arrondit à 5 et on construit donc les
Classei ni fi Fi
[10, 13[ 2 0.09 0.09
[13, 16[ 4 0.18 0.27
[16, 19[ 8 0.36 0.63
[19, 22[ 5 0.23 0.86
[22, 25[ 3 0.14 1
T otal 22 1 1
9
Figure 2 – Histogramme des effectifs
Soit F (13) ≤ F (x) ≤ F (16) donc 13 ≤ x ≤ 16, en notant x la valeur cherchée. Par interpolation
linéaire :
x − 13 0.25 − 0.09 0.16
= ⇒ x = 13 + (16 − 13) × ≈ 15.67 minutes
16 − 13 0.27 − 0.09 0.18
Donc 25% des durées sont inférieurs à 15.67mm
10
5) La moyenne de ces durées est donnée par :
22
1 X 1 385
x̄ = xi = (10 + 12 + ... + 23 + 24) = = 17.5 minutes.
22 i=1 22 22
22 22
1 X 2 2
X
2
et la variance s = x − (17.5) où x2i = 6989
22 i=1 i i=1
Exercice 12. On a relevé la taille (en cm) de 50 étudiantes de la filière IA, les résultats sont regroupés
dans le tableaux suivant
Classe [151.5, 155.5[ [155.5, 159.5[ [159, 5; 163, 5[ [163, 5; 167, 5[ [167, 5; 171, 5[
Effectif 10 12 11 7 10
11
Figure 4 – Histogramme des fréquences
1
Pk Pk xi +xi+1
(6) La moyenne : x̄ = n i=1 ni ci = i=1 fi ci , avec ci = 2 est le centre de la classe
[xi , xi+1 [.
10 × 153.5 + 12 × 157.5 + 11 × 161.5 + 7 × 165.5 + 10 × 169.5
x̄ =
50
= 0.20 × 153.5 + 0.24 × 157.5 + 0.22 × 161.5 + 0.14 × 165.5 + 0.20 × 169.5
= 161.1cm.
1
Pk Pk
(6) La variance : S 2 = n i=1 ni c2i − (x̄)2 = i=1 fi c2i − (x̄)2 .
k
1X 10 × 153.52 + 12 × 157.52 + 11 × 161.52 + 7 × 165.52 + 10 × 169.52
ni c2i =
n i=1 50
= 25984.73cm2
k
X
fi c2i = 0.20 × 153.52 + 0.24 × 157.52 + 0.22 × 161.52 + 0.14 × 165.52 + 0.20 × 169.52 .
i=1
12
Classe Fi Ni
[151.5, 155.5[ 0.20 10
[155.5, 159.5[ 0.44 22
[159, 5; 163, 5[ 0.66 33
[163, 5; 167, 5[ 0.80 40
[167, 5; 171, 5[ 1.00 50
(8) La médiane : Me ∈]159, 5; 163, 5[ :
0.50 − 0.44
Me = 159.5 + × (163.5 − 159.5) ≃ 160.59cm
0.66 − 0.44
Le premier quartile : Q1 ∈]155, 5; 159, 5[ :
0.25 − 0.20
Q1 = 155.5 + × (159.5 − 155.5) ≃ 156.33cm
0.44 − 0.20
Le troisième quartile : Q3 ∈]163, 5; 167, 5[ :
0.75 − 0.66
Q3 = 163.5 + × (167.5 − 163.5) ≃ 166.07cm
0.80 − 0.66
⇒ EIQ = Q3 − Q1 ≃ 9.74cm
(9) Quelle est la fréquence des étudiantes ayant au moins 165cm ?
Par interpolation, on cherche d’abord la fréquence f des étudiantes ayant moins de 165cm :
puisque 165 ∈]163, 5; 167, 5[, alors par interpolation linéaire on a :
f − 0.66 165 − 163.5
=
0.80 − 0.66 167.5 − 163.5
165−163.5
qui donne f = 0.66 + 167.5−163.5 × (0.80 − 0.66) = 0.7125
Donc la proportion (fréquence) des étudiantes ayant au moins 165cm est égale à 1 − 0.7125 =
0.2875
Exercice 13. Une voiture roule pendant 200 kilomètres à 50km/h, puis pendant 100 kilomètres à
100km/h.
Quelle est sa vitesse moyenne sur son trajet ?
Solution –
Cette vitesse moyenne sera égale au rapport entre la distance parcourue et le temps de trajet. Soit
200 + 100 = 300 kilomètres parcourus.
300
xH = 200 = 60km/h
50+ 100
100
Soit :
– 200km à 50km/h durent 4heures ;
– 100km à 100km/h durent 1heure.
Le trajet dure donc 5 heures pour 300 kilomètres parcourus : la vitesse moyenne est bien de 60km/h.
Exercice 14. Dans le but d’évaluer la relation entre la densité des grains semés et le rendement, on a
procédé à une série d’essais sur différentes parcelles d’une céréale. L’expérimentation a donné les résultats
suivants :
xi 150 250 350 450
zi 57.06 60.73 62.73 63.48
yi
avec, xi désigne le nombre de grain semés par m2 et zi désigne le rendement par hectare.
1) Calculer les nombres yi = ln(64 − zi ), pour i = 1, 2, 3, 4.
2) Calculer le coefficient de corrélation linéaire entre x et y. Interpréter.
3) Déterminer l’équation de la droite de régression de y en x. En déduire une expression de z en
fonction de x.
13
Trajets en km [10 − 16[ [16 − 20[ [20 − m[ [m − 25[ [25 − 30[ Total
Nombre de visiteurs 4 8 20 24 n5 n
1) (1pt) Retrouver les valeurs manquantes, sachant que le trajet moyen est égal à 21.5 km et que
les bornes des classes étant toujours des nombres entiers (m, n, n5 ∈ N).
Pour la suite de l’exercice, on prend m = 22 et n = 60.
2) (1pt) Représenter l’histogramme des fréquences.
3) (1,5pt) Déterminer le mode et la médiane de cette distribution.
4) (3pts) Déterminer l’écart interquartile et tracer le diagramme en boı̂te (box-plot).
5) (1,5pt) Calculer le coefficient de variation de cette distribution. Interpréter.
Solution –
Trajets en km [10 − 16[ [16 − 20[ [20 − m[ [m − 25[ [25 − 30[ Σ
ci 13 18 (20 + m)/2 (m + 25)/2 27.5 //
Nombre de visiteurs 4 8 20 24 n5 n
1) (1pt) Retrouver les valeurs manquantes, sachant que le trajet moyen est égal à 21.5 km et que les
bornes des classes étant toujours des nombres entiers (m, n, n5 ∈ N).
13 × 4 + 18 × 8 + 20+m × 20 + m+25
x̄ = 21.5 × 24 + 27.5 × n5 = 21.5 × n
P5 ⇐⇒ 2 2
i=1 ni = n
4 + 8 + 20 + 24 + n5 = n
696 + 22 × m + 27.5 × n5 = 21.5 × n
⇐⇒
56 + n5 = n
On multiplie la deuxième équation par 27.5 puis on soustrait la première, on trouve :
844 − 22m = 6n
m est un entier et peut prendre les valeurs : 21, 22, 23, 24
Pour m = 21 on trouve 844 − 22 × 21 = 382 = 6n c’est à dire n = 382/6 = 63.3333 (impossible).
Pour m = 22 on trouve 844 − 22 × 22 = 360 = 6n c’est à dire n = 360/6 = 60 possible et donc
n5 = 60 − 56 = 4.
Le tableau maintenant est le suivant :
Trajets en km [10 − 16[ [16 − 20[ [20 − 22[ [22 − 25[ [25 − 30[ Σ
ci 13 18 21 23.5 27.5 //
Nombre de visiteurs 4 8 20 24 4 60
fi 0.0667 0.1333 0.3333 0.4 0.0667 1
ai 6 4 2 3 5 //
fic = fi /ai 0.0111 0.0333 0.1667 0.1333 0.0133 //
c
fi = fi /ai × 2 0.0222 0.0667 0.3333 0.2667 0.0267 //
Fi 0.0667 0.2 0.5333 0.9333 1 //
2) (1pt) Représenter l’histogramme des fréquences : voir tableau des fréquences corrigés (puisque les
classes n’ont pas la même amplitude) et tracer les graphiques correspondants.
3) Déterminer :
(0.5pt) ∗ le mode : Mo ≃ 21. (centre de la classe associée à la fréquence corrigée la plus élevée)
(1pt) ∗ la médiane ; par interpolation linéaire :
M e − 20 0.5 − 0.2
=
22 − 20 0.5333 − 0.2
0.5 − 0.2
M e = 20 + (22 − 20) = 21.80018 ≃ 21.8002
0.5333 − 0.2
4) (3pts) Déterminer l’écart interquartile et tracer le diagramme en boı̂te ( box-plot).
(0.5pt)
Q1 − 20 0.25 − 0.2
=
22 − 20 0.5333 − 0.2
0.25 − 0.2
Q1 = 20 + (22 − 20) = 20.30003 ≃ 20.3000 = 20.3
0.5333 − 0.2
14
(0.5pt)
Q3 − 22 0.75 − 0.5333
=
25 − 22 0.9333 − 0.5333
0.75 − 0.5333
Q3 = 22 + (25 − 22) = 23.62525 ≃ 23.6253
0.9333 − 0.5333
– (0.5pt) EIQ = Q3 − Q1 ≃ 23.6253 − 20.3 ≃ 3.3253
– (0.5pt) a = max(Q1 − 1.5 × EIQ; xmin ) = max(15.3121; 10) = 15.3121
– (0.5pt) b = min(Q3 + 1.5 × EIQ; xmax ) = min(28.6133; 30) = 28.6133
– (0.5pt) Le graphe
Cette distribution présente des valeurs aberrantes qui sont inférieure à 15.3121 km et supérieure à
28.6133 km.
5) (1.5pt) Calculer le coefficient de variation de cette distribution. Interpréter.
(0.5pt) On doit calculer l’écart-type :
V(X) = x2 − (x̄)2 = 472.7833 − 21.52 = 10.5333, avec
2 2 2 2 2
x2 = 4×13 +8×18 +20×2160 +24×23.5 +4×27.5 = 472.7833
√
donc l’écart-type : σ = 10.5333 ≃ 3.2455
(0.5pt) CV = σx̄ = 3.2455
21.5 ≃ 0.1510
(0.5pt) Interprétation : 0.15 ≤ CV < 0.85 : la série statistique est homogène.
Nombre de défauts ni Ni fi Fi
2 5500
3 12000
4 22000
5 30000
6 36000
7 40000
Σ − −
15
3. Construire un diagramme correspondant : On trace le diagramme en bâtons des effectifs (ou des
fréquences)
8) (1pt) Quel est le nombre de défauts modal de cette nouvelle technologie ?
Mo = 4
4. (1pt) Quel est le nombre de défauts médian de cette nouvelle technologie ?
n × 21 = 20000 est un entier donc
16