0% ont trouvé ce document utile (0 vote)
186 vues16 pages

Statistiques descriptives en mathématiques

Le document présente un TD sur la statistique descriptive univariée et bivariée pour l'année universitaire 2024-2025 à l'Université Mohammed V. Il contient des exercices sur la nature des variables, des enquêtes sur les préférences de fruits et des frais d'électricité, ainsi que des calculs de quartiles, moyennes et variances. Les solutions incluent des tableaux de fréquences, des graphiques et des analyses statistiques détaillées.

Transféré par

Imane Imane
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
186 vues16 pages

Statistiques descriptives en mathématiques

Le document présente un TD sur la statistique descriptive univariée et bivariée pour l'année universitaire 2024-2025 à l'Université Mohammed V. Il contient des exercices sur la nature des variables, des enquêtes sur les préférences de fruits et des frais d'électricité, ainsi que des calculs de quartiles, moyennes et variances. Les solutions incluent des tableaux de fréquences, des graphiques et des analyses statistiques détaillées.

Transféré par

Imane Imane
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université Mohammed V Année Universitaire 2024–2025

Faculté des Sciences de Rabat Module Probabilités et Statistique


Département de Mathématiques Filière – IA (S3)

TD n° 1
Statistique descriptive univariée et bivariée
Questions. Parmi ces assertions, préciser celles qui sont vraies, celles qui sont fausses :
1. On appelle variable, une caractéristique que l’on étudie
2. La tâche de la statistique descriptive est de recueillir des données.
3. La tâche de la statistique descriptive est de présenter les données sous forme de tableaux, de
graphiques et d’indicateurs statistiques.
4. Les valeurs des variables sont aussi appelées modalités.
5. Pour une variable qualitative, chaque individu statistique ne peut avoir qu’une seule modalité.
6. Pour faire des traitements statistiques, il arrive qu’on transforme une variable quantitative en
variable qualitative.
Solution –
1) Vrai
2) Faux
3) Vrai
4) Vrai
5) Vrai
6) Vrai

Exercice 1. Donner la nature de chacune des variables suivantes :


(i) Degré de satisfaction concernant le séjour estival dans un centre de vacances (Très élevé ; Élevé ;
Modéré ; Bas ; Nul).
(ii) La moyenne semestrielle d’un étudiant à la faculté de pharmacie.
(iii) Le temps consacré par un étudiant de S2 pour suivre les informations sur un journal écrit ou
télévisé.
(iv) La section (A,B,C,...) du cours de biologie à laquelle est inscrit un étudiant.
(v) Le nombre d’appels téléphoniques reçus en une journée par un étudiant.
Solution –
(i) Degré de satisfaction concernant le séjour estival dans un centre de vacances (Très élevé ; Élevé ;
Modéré ; Bas ; Nul) :
C’est une var. qualitative ordinale. Une hiérarchie est établie entre les degrés de satisfaction.
(ii) La moyenne semestrielle d’un étudiant à la faculté de pharmacie :
C’est une var. quantitative continue prenant ses valeurs dans un intervalle de R+ : [0, 20] .
(iii) Le temps consacré par un étudiant de S2 pour suivre les informations sur un journal écrit ou
télévisé :
C’est une var. quantitative continue prenant ses valeurs dans un intervalle [0, t] , t > 0.
(iv) La section (A,B,C,...) du cours de biologie à laquelle est inscrit un étudiant :
C’est une var. qualitative nominale.
(v) Le nombre d’appels téléphoniques reçus en une journée par un étudiant :
C’est une var. quantitative discrète prenant ses valeurs dans {0, 1, 2, · · · , n}, n ∈ N∗ .

Exercice 2. On a demandé à 300 jeunes collégiens quel était leur fruit préféré parmi les six fruits les plus
consommés au Maroc : banane, nectarine, orange, pêche, poire, pomme. Voici les résultats obtenus :

Fruit Banane Nectarine Orange Pêche Poire Pomme


Effectif 72 33 30 36 45 84

1) Identifier la variable et préciser sa nature.


2) Dresser le tableau des fréquences.
3) Existe-t-il un mode ? si oui, donner le.
4) Faire deux représentations graphiques de cette variable.
Solution –

1
1. Il s’agit de la variable ”le fruit préféré des 300 collégiens”. C’est une var. qualitative nominale.
2. Tableau des fréquences :
Fruit Eff ni Fréquence fi
Banane 72 0.24
Nectarine 33 0.11
Orange 30 0.10
Pêche 36 0.12
Poivre 45 0.15
Pomme 84 0.28
Total 300 1
3. ”La pomme” dont l’effectif est le plus élevé est la valeur modale (ou mode) de cette série
statistique.
4. (i) On trace le Diagramme en tuyaux d’orgue des effectifs (ou des fréquences). (appelé aussi
Diagramme en barres).
(ii) On trace le Diagramme en Secteur : αi = fi × 360 est le nombre de degrés mesurant le secteur
angulaire de la modalité i = 86; ; 40; 36; 54 et 101.

Exercice 3. Une enquête en vue de la réduction du montant des allocations familiales, a été réalisée
auprès d’un échantillon de 100 femmes de 40 ans. Cette enquête a donné les résultats suivants :
Nombre d’enfants (xi ) Nombre de femmes (ni )
0 10
1 20
2 20
3 30
4 20

1) Caractériser la distribution (la population et sa taille, l’individu, les modalités, le caractère (la
variable) et son type).
2) Tracer le diagramme correspondant.
3) Définir et représenter la courbe cumulative croissante.
4) Donner la proportion (fréquence) des femmes ayant moins de 4 enfants.
5) Donner la fréquence des femmes ayant au moins 2 enfants.
6) Calculer la moyenne et l’écart-type de cette distribution.
Solution –
1) Caractériser la distribution (la population et sa taille, l’individu, les modalités, le caractère (la
variable) et son type).
la population : ”femmes de 40ans” ; sa taille : n = 50, l’individu : ”une femme de 40ans”, les modalités :
”0, 1, 2, 3, 4”, le caractère (la variable) : X : ”Nombre de femmes” ; son type : ”quantitatif discret.
1) Tracer le diagramme correspondant : On peut tracer soit le digramme en bâtons des effectif soit le
diagramme en bâtons des fréquences.
3) Définir et représenter la courbe cumulative croissante.
La représentation de la fonction cumulative croissante (appelée aussi fonction de répartition) est
réalisée au moyen des fréquences cumulées. Cette fonction est définie de R dans [0, 1] et vaut


 0 si x < 0
0.1 si 0≤x<1




0.3 si 1 ≤ x < 2

F (x) =

 0.5 si 2 ≤ x < 3
0.8 si 3 ≤ x < 4




1 si x ≥ 4

voir tableau :
Nombre d’enfants (xi ) Nombre de femmes (ni ) fi Fi
0 10 0.1 0.1
1 20 0.2 0.3
2 20 0.2 0.5
3 30 0.3 0.8
4 20 0.2 1
Σ 100 1 //

2
4) Donner la proportion (fréquence) des femmes ayant moins de 4 enfants : 0.8
5) Donner la fréquence des femmes ayant au moins 2 enfants : 0.2 + 0.3 + 0.2 = 0.7
6) x̄ = 2.3
V (x) = 1.61
σX ≃ 1.27
On a de plus (en calculant les np) :
x +x
Me = (50) 2 (51) = (2 + 3)/2 = 2.5
x +x
Q1 = (25) 2 (26) = (1 + 1)/2 = 1
x(75) +x(76)
Q3 = 2 = (3 + 3)/2 = 3

Exercice 4. Les données suivantes sont les frais d’électricité (en DH) durant le mois de mars pour un
échantillon de 50 petits appartements dans une grande ville :
80 90 95 96 102 108 109 111 114 116
119 123 127 128 129 130 130 135 137 139
141 143 144 147 148 149 149 150 151 153
154 157 158 163 165 166 167 168 171 172
175 178 183 185 187 191 197 202 206 220

1) Calculer les quartiles Q1 , Q2 et Q3 de cet échantillon.


2) Regrouper les données en classes d’amplitudes égales puis construire le tableau des fréquences et
fréquences cumulées.
3) Tracer l’histogramme et le polygone des fréquences.
Solution –
1) En utilisant la procédure de calcul,vu dans le cours, les données sont ordonnée :
– Calcul de Q1 : np = 50 × 0.25 = 12.5 n’est pas un entier, donc :

Q1 = x(⌈12.5⌉) = x(13)
– Calcul de Me = Q2 : np = 50 × 0.5 = 25 est un entier, donc :

x(np) + x(np+1) x(25) + x(26) 148 + 149


Me = = = = 148.5
2 2 2
– Calcul de Q3 : np = 50 × 0.75 = 37.5 n’est pas un entier, donc :

Q3 = x(⌈37.5⌉) = x(38) = 168


2) La formule de Sturges donne le nombre de classes :

k = 1 + 3.33 log10 N ≃ 1 + 3.33 log10 (50) ≃ 7 classes.


On calcule l’étendue : e = xmax − xmin = 220 − 80 = 140.
On calcule le pas (l’amplitude) de chaque classe : A = e/140 = 20
On obtient le tableau :
Classei ni fi Fi
[80, 100[ 4 0.08 0.08
[100, 120[ 7 0.14 0.22
[120, 140[ 9 0.18 0.40
[140, 160[ 13 0.26 0.66
[160, 180[ 9 0.18 0.84
[180, 200[ 5 0.10 0.94
[200, 220[ 3 0.06 1
Total 50 1 //

3) Construire l’histogramme, puis après le polygone des fréquence (sur la même figure)

Exercice 5. Dans une enquête, menée auprès des étudiants de l’université Mohammed V, l’enquêteur
relevait le temps (en minutes) mis par chaque répondant pour se rendre à l’université. Le tableau suivant
résume les temps observés.

3
Classe [21; 22[ [22; 23[ [23; 24[ [24; 26[ [26; 30[
Effectif 50 90 70 60 40

1) Dresser le tableau des fréquences cumulées.


2) Représenter ces données à l’aide d’un histogramme et tracer le polygone des fréquences.
3) Calculer la moyenne et la variance.
4) Calculer les quartiles.
5) Cette distribution est-elle symétrique ou asymétrique ?
Solution –
1) On obtient le tableau de fréquence suivant,
Classes Eff ni Fréq fi Fréq cumu F (x) Fréq corri fic ci fi ci ni (ci − x)2
[21,22[ 50 0.16 0.16 0.16 21.5 3.44 255.38
[22,23[ 90 0.29 0.45 0.29 22.5 6.525 142.884
[23,24[ 70 0.23 0.68 0.23 23.5 5.405 4.732
[24,26[ 60 0.19 0.87 0.09 25 4.75 92.256
[26,30[ 40 0.13 1 0.03 28 3.64 719.104
Total 310 1 - - - 23.76 1214.356
où la fréquence corrigée de la classe i est noté fic est définie par,
a0
fic = f i × .
ai
— a0 étant l’amplitude de base (ici 1).
— ai est l’amplitude de la classe i.
— l’amplitude de la classe [xi , xi+1 [ est ai = xi+1 − xi .

2) Histogramme et polygone de fréquence (voir la figure ci-dessous)

Figure 1 – Histogramme et polygone des fréquences de la distribution

4
3) La moyenne est donnée par
5 5
1X X
x= ni ci = fi ci = 23.76 min
n i=1 i=1

et la variance par
5
1X 1214.356
s2 = ni (ci − x)2 = ≃ 3.92 min2
n i=1 310

4) Pour calculer les quartiles, on peut obtenir les formules pour j = 1, 2, 3

F (Qj) − F (xi )
Qj = xi + (xi+1 − xi ) × ; Qj ∈ [xi , xi+1 [
F (xi+1 ) − F (xi )

Dans ce cas,
-
0.25 − 0.16
Q1 = 22 + (23 − 22) × = 22.31,
0.45 − 0.16
-
0.5 − 0.45
Q2 = 23 + (24 − 23) × = 23.22,
0.68 − 0.45
-
0.75 − 0.68
Q3 = 24 + (26 − 24) × = 24.75.
0.87 − 0.68
5) Le coefficient d’asymétrie de Pearson est :

3(x̄ − Q2 ) 3(23.76?23.22)
γ3 = = √ ≃ 0.82.
s 3, 92

γ3 est positif donc la série présente une asymétrie à droite,

Exercice 6. Une étude de budget a donné les résultats suivants :

Budget [800, 1000[ [1000, 1400[ [1400, 1600[ [1600, y[ [y, 2400[ [2400, x[
Fréq. cumulée 0.08 0.18 0.34 0.64 0, 73 1

PARTIE 1 : Certaines données sont manquantes.


1) Calculer la borne manquante x sachant que l’étendue de la série est égale à 3200 euros.
2) Calculer la borne manquante y dans les deux cas suivants
a) le budget moyen est égal à 1995 euros,
b) le budget médian est égal à 1920 euros.
PARTIE 2 : Considérons maintenant que la borne manquante y est égale à 2000 euros.
3) Donner une représentation graphique de la distribution des budgets.
4) Calculer le budget moyen et médian.
5) Retrouver les effectifs ni correspondant à chacune des tranches de budgets ainsi que l’effectif total
n, sachant que :
k
X
ni c2i = 4741200000 et V(X) = 604044.
i=1

Solution –
PARTIE 1 : Certaines données sont manquantes.
1. La borne manquante x = xmax sachant que l’étendue e de la série est égale à 3200 euros :
On sait que l’étendue e = xmax − xmin
et donc
3200 = xmax − 800 =⇒ x = xmax = 4000.
2. La borne manquante y dans les deux cas suivants :

5
(a) le budget moyen est égal à 1995 euros :

k k
1X X
x̄ = ni ci = fi ci
n i=1 i=1

Il faut donc au préalable calculer les fréquences à partir des fréquences cumulées dans le tableau
précédent.
Classes [800, 1000[ [1000, 1400[ [1400, 1600[ [1600, y[ [y, 2400[ [2400, 4000[
Fi 0.08 0.18 0.34 0.64 0, 73 1
fi 0.08 0.1 0.16 0.3 0, 09 0.27

Donc
Pk
x̄ = i=1 fi ci = 1995
c-à-d,
1600+y y+2400
0.08 × 900 + 0.1 × 1200 + 0.16 × 1500 + 0, 3 × 2 + 0.09 × 2 + 0, 27 × 3200 = 1995
On trouve : y = 1800.

(b) le budget médian est égal à 1920 euros.


Le budget médian est égal à 1920 euros. Il faut raisonner par interpolation linéaire sur l’intervalle
[1600, y[ :

1920 − 1600 0.5 − 0.34


= .
y − 1600 0.64 − 0.34
On trouve : y = 2200.
PARTIE 2 : Considérons maintenant que la borne manquante y est égale à 2000 euros.
3. Donner une représentation graphique de la distribution des budgets.
On trace l’histogramme : Pour donner la représentation graphique correcte de la distribution,,
il faut au préalable corriger les fréquences puisque les amplitudes des classes ne sont pas égales :

fi
fic = ×α
ai
α est le correcteur de l’échelle, est égale à la valeur de la plus petite amplitude ou la valeur de
l’amplitude qui se répète. Ici on prend α = 400
Classes [800, 1000[ [1000, 1400[ [1400, 1600[ [1600, 2000[ [2000, 2400[ [2400, 4000[
ai 200 400 200 400 400 1600
fi 0.08 0.1 0.16 0.3 0, 09 0.27
fic 0.16 0.1 0.32 0.3 0, 09 0.0675

4. Calculer le budget moyen et médian.


Pk
x̄ = i=1 fi ci = 0.08 × 900 + 0.1 × 1200 + 0.16 × 1500 + 0.3 × 1800 + 0.09 × 2200 + 0.27 × 3200 = 2034
Le budget médian est dans l’intervalle [1600, 2000[ . Il faut raisonner par interpolation linéaire :

Me − 1600 0.5 − 0.34


= .
2000 − 1600 0.64 − 0.34
On trouve : Me = 1813.
5. Retrouver les effectifs ni correspondant à chacune des tranches de budgets ainsi que l’effectif total
n, sachant que :
n
X
ni c2i = 4741200000 et V(X) = 604044.
i=1

On a :
k k
1X 1X
V (X) = 604044 = ni (ci − x̄)2 = ni c2i − (x̄)2
n i=1 n i=1

6
et
n
X
ni c2i = 4741200000 et x̄ = 2034.
i=1

Donc

1
604044 = × 4741200000 − (2034)2
n

=⇒ n = 1000
et pour calculer les effectifs des classes on applique la formule : ni = fi × n

Exercice 7. On considère les statistiques (des ”frais d’électricité (en DH)” durant le mois de mars pour
un échantillon de 50 petits appartements dans une grande ville) données dans l’Exercice 4.
1) Construire le diagramme en boite.
2) Interpréter les résultats.
Solution –
Les paramètres de la boite à moustache : (voir Exercice 4.)
– Q1 = 127
– Me = 148.5
– Q3 = 168
– EIQ = Q3 − Q1 = 168 − 127 = 41
– a = max(Q1 − 1.5 × EIQ; xmin ) = max(65.5; 80) = 80
– b = min(Q3 + 1.5 × EIQ; xmax ) = min(229.5; 220) = 220
Cette distribution ne présente aucune valeur aberrante.

Exercice 8. Soit le tableau suivant donnant la distribution du couple (X, Y ).


HH Y
H 0 1
X HH
[0.5, 1.5[ 21 8
[1.5, 2.5[ 23 15
[2.5, 3.5[ 10 23

1) Quelles sont les distributions marginales de X et de Y ?


2) Calculer les moyennes et les variances marginales de X et de Y .
3) Calculer le coefficient de variation marginale de Y . Interpréter.
4) Les variables X et Y sont elles indépendantes ?
5) Calculer la moyenne et la variance de la variable Z = 0.165X + 0.13Y .
Solution –
1. La distribution marginale de X est donnée dans le tableau suivant :
X effectif
[0.5, 1.5[ 29
[1.5, 2.5[ 38
[2.5, 3.5[ 33
Σ 100

La distribution marginale de Y est donnée dans le tableau suivant :


Y effectif
0 54
1 46
Σ 100

2. On trouve :

3
1 X 29 × 1 + 38 × 2 + 33 × 3
x= ni. ci = = 2.04,
100 i=1 100

7
2
1 X 54 × 0 + 46 × 1
y= n.j yj = = 0.46,
100 j=1 100

3
!
1 X
V (X) = s2x
= ni. ci − (x)2 = 4.78 − 2.042 = 0.6184,
2
100 i=1
 
2
1 X
V (Y ) = s2y =  n.j yj2  − (y)2 = 0.2484.
100 j=1

s
3. CVY = yy = 0.2484
0.46 = 1.083473 ≃ 108%. la distribution de Y est hétérogène.
4. Rappelons que les variables X et Y sont indépendantes si et seulement si
ni. × n.j
nij = , ∀i = 1, 2, 3 et j = 1, 2.
n
HH Y
HH 0 1 Σ
X H
[0.5, 1.5[ 21 8 29
[1.5, 2.5[ 23 15 38
[2.5, 3.5[ 10 23 33
Σ 54 46 100
Or, on a (contre exemple)
n2. × n.1 38 × 54
n21 = 23 ̸= = = 20.52,
n 100
donc les variables X et Y sont liées.
5. V (Z) = V (0.165X + 0.13Y ) = 0.1652 V (X) + 0.132 V (Y ) + 2 × 0.165 × 0.13 cov(X, Y ),
avec, la covariance entre X et Y :
 
3 X 2
1 X
sxy = cov(X, Y ) =  nij ci yj  − x × y = 0.1316
100 i=1 j=1

Exercice 9. Un responsable bancaire aimerait savoir s’il existe une relation entre le revenu annuel X et
le montant d’argent Y consacré à l’épargne. Pour un échantillon de 10 familles, il a obtenu les résultats
suivants (en 104 DH)
X 12 15 13 10 10 14 16 18 16 14
Y 0,2 1,2 1 0,7 0,3 1 1,6 1,4 1,2 0,7

1) Calculer les moyennes x̄, ȳ et les écart-types sx , sy :


2) Calculer le coefficient de corrélation et interpréter ce résultat.
3) Chercher l’expression de la droite de régression de Y en X.
4) Estimer le montant d’argent consacré à l’épargne par une famille ayant un revenu de 110000DH.
Solution –
1. On trouve :
10
1 X 138
x= xi = = 13.8,
10 i=1 10
10
1 X 9.3
y= yi = = 0.93,
10 i=1 10
10
1 X
s2x = (xi − x)2 = 6.16
10 i=1
10
1 X
s2y = (yi − y)2 = 0.1861.
10 i=1

8
sxy
2. Le coefficient de corrélation est ρ = sx sy , où

10
1 X
Cov(X, Y ) = sxy = (xi − x)(yi − y) = 0.886.
10 i=1

Donc ρ ≃ 0.8275, il y a une forte liaison positive entre Y et X.


3. Puisque ρ > 0.8, on peut chercher à déterminer la droite de régression de Y en X.
l’équation de la régression entre X et Y est donnée par :

y = ax + b
s
où a = sxy
2 et b = y − ax.
x
Ce qui donne
a ≃ 0.1438 et b ≃ −1.0549.
d’où
y = 0.1438 × x − 1.0549.
4. si x = 11, alors y ≃ 0, 5273 soit environ 5273 DH comme montant épargné par cette famille.

Exercices supplémentaires

Exercice 10. Les téléspectateurs sont invités à évaluer une émission en envoyant un message contenant
l’une des lettres A, B, C ou D qui représentent respectivement ”très bonne émission”, ”bonne émission”,
”mauvaise émission” et ”très mauvaise émission” ; çi après les évaluations de 32 spectateurs :

B, B, A, C, A, D, A, A, B, C, D, D, C, A, B, B, C, A, D, C, A, A, B, A, C, D, B, B, C, D, B, A

1) Caractériser la variable.
2) Dresser le tableau de distribution des effectifs et des fréquences.
3) Tracer une représentation graphique associée.

Exercice 11. Les durées, en minutes et arrondies à l’entier le plus proche, enregistrées pour 22 communications,
dans un centre d’appel, sont données dans le tableau suivant :
10 12 14 14 15 15 16 16 17 17 17
18 18 18 19 19 20 20 21 22 23 24

1) Établir le tableau des fréquences et fréquences cumulées, en utilisant cinq classes.


2) Construire l’histogramme de cette série statistique.
3) Représenter graphiquement la courbe cumulée croissante.
4) A quelle valeur sont inférieures 25% des durées observées ?
5) Calculer la moyenne et l’écart-type de cette distribution.
6) Calculer le coefficient de variation. Cette distribution statistique est-elle homogène ?
Solution –
e 24 − 10
1) l’amplitude commune à ces 5 classes est donnée par a ∼ = = 2, 8 (qu’on peut arrondir
k 5
à 3)

où k = 1 + 3, 322log10 22 = 1 + 3, 322 × 1, 342 = 5, 459 qu’on arrondit à 5 et on construit donc les

classes. On obtient le tableau de fréquences suivant :

Classei ni fi Fi
[10, 13[ 2 0.09 0.09
[13, 16[ 4 0.18 0.27
[16, 19[ 8 0.36 0.63
[19, 22[ 5 0.23 0.86
[22, 25[ 3 0.14 1
T otal 22 1 1

9
Figure 2 – Histogramme des effectifs

2) On peut tracer soit l’histogramme des effectifs ou des fréquences ;


3) Les points particuliers de la courbe cumulée croissante sont :
Absc 10 13 16 19 22 25
Ord (en %) 0 9 27 63 56 100
La fonction de répartition (fonction cumulée croissante) est représentée comme suit :

Figure 3 – Fonction cumulée croissante

4) La fonction cumulée F étant croissante on a 0.09 ≤ 0.25 ≤ 0.27

Soit F (13) ≤ F (x) ≤ F (16) donc 13 ≤ x ≤ 16, en notant x la valeur cherchée. Par interpolation

linéaire :
x − 13 0.25 − 0.09 0.16
= ⇒ x = 13 + (16 − 13) × ≈ 15.67 minutes
16 − 13 0.27 − 0.09 0.18
Donc 25% des durées sont inférieurs à 15.67mm

10
5) La moyenne de ces durées est donnée par :
22
1 X 1 385
x̄ = xi = (10 + 12 + ... + 23 + 24) = = 17.5 minutes.
22 i=1 22 22
22 22
1 X 2 2
X
2
et la variance s = x − (17.5) où x2i = 6989
22 i=1 i i=1

Donc s2 ≈ 11.43 minutes2



d’où l’écart-type s = 11.43 ≈ 3.38 minutes.

6) Le coefficient, noté CV, est défini par :


s 3.38
CV = . Dans notre cas CV = ≈ 0.1931 = 19.31%
x̄ 17.5
Cette distribution statistique est homogène.

Exercice 12. On a relevé la taille (en cm) de 50 étudiantes de la filière IA, les résultats sont regroupés
dans le tableaux suivant
Classe [151.5, 155.5[ [155.5, 159.5[ [159, 5; 163, 5[ [163, 5; 167, 5[ [167, 5; 171, 5[
Effectif 10 12 11 7 10

1. Caractériser la distribution (la population et sa taille, l’individu, la variable et son type).


2. Dresser le tableau statistique complet (calculer les fréquences, les fréquences cumulées et les effectifs
cumulés)
3. Tracer le diagramme correspondant.
4. Quelle est la classe modale ?
5. Définir et représenter la courbe cumulative croissante.
6. Calculer la moyenne et la variance.
7. Calculer le coefficient de variation. Interpréter le résultat.
8. Calculer la médiane ainsi que le premier et le troisième quantile.
9. Quelle est la fréquence des étudiantes ayant au moins 165cm ?
Solution –
(1) Caractériser la distribution (la population et sa taille, l’individu, la variable et son type).
Population étudiée : Les étudiantes de la filière IA ; Taille : 50 ;
L’individu : une étudiante de la filière IA ;
Variable : ”taille en cm des étudiantes” ; Type : Quantitative continue.
(2) Le tableau statistique est le suivant :
Classe ni fi Fi Ni
[151.5, 155.5[ 10 0.20 0.20 10
[155.5, 159.5[ 12 0.24 0.44 22
[159, 5; 163, 5[ 11 0.22 0.66 33
[163, 5; 167, 5[ 7 0.14 0.80 40
[167, 5; 171, 5[ 10 0.20 1.00 50
Σ 50 1.00 // //
(3) Le diagramme correspondant : Puisque la variable est quantitative continue, on trace l’histogramme
des effectif ou des fréquence. Et puisque les classes sont d’amplitudes égales alors on trace
directement l’histogramme.
(4) Puisque les classes sont d’amplitudes égales alors on retrouve directement la classe qui contient
l’effectif (ou la fréquence) le plus élevé(e) : il s’agit de la classe des taille entre 155.5 et 159.5
centimètre.
(5) La courbe cumulative croissante (fonction de répartition) est définie par les points Ai (xi+1 , Fi )
donnés dans le tableau statistique.

11
Figure 4 – Histogramme des fréquences

Figure 5 – Fonction cumulative (fonction de répartition)

1
Pk Pk xi +xi+1
(6) La moyenne : x̄ = n i=1 ni ci = i=1 fi ci , avec ci = 2 est le centre de la classe
[xi , xi+1 [.
10 × 153.5 + 12 × 157.5 + 11 × 161.5 + 7 × 165.5 + 10 × 169.5
x̄ =
50
= 0.20 × 153.5 + 0.24 × 157.5 + 0.22 × 161.5 + 0.14 × 165.5 + 0.20 × 169.5
= 161.1cm.

1
Pk Pk
(6) La variance : S 2 = n i=1 ni c2i − (x̄)2 = i=1 fi c2i − (x̄)2 .

k
1X 10 × 153.52 + 12 × 157.52 + 11 × 161.52 + 7 × 165.52 + 10 × 169.52
ni c2i =
n i=1 50
= 25984.73cm2

k
X
fi c2i = 0.20 × 153.52 + 0.24 × 157.52 + 0.22 × 161.52 + 0.14 × 165.52 + 0.20 × 169.52 .
i=1

S 2 = 25984.73 − 161.12 = 31.52cm2 .


(7) Le coefficient de variation

S 31.52
CV = × 100 = × 100 = 03.49%.
x̄ 161.1
Interprétation : la série est très homogène.

12
Classe Fi Ni
[151.5, 155.5[ 0.20 10
[155.5, 159.5[ 0.44 22
[159, 5; 163, 5[ 0.66 33
[163, 5; 167, 5[ 0.80 40
[167, 5; 171, 5[ 1.00 50
(8) La médiane : Me ∈]159, 5; 163, 5[ :
0.50 − 0.44
Me = 159.5 + × (163.5 − 159.5) ≃ 160.59cm
0.66 − 0.44
Le premier quartile : Q1 ∈]155, 5; 159, 5[ :
0.25 − 0.20
Q1 = 155.5 + × (159.5 − 155.5) ≃ 156.33cm
0.44 − 0.20
Le troisième quartile : Q3 ∈]163, 5; 167, 5[ :
0.75 − 0.66
Q3 = 163.5 + × (167.5 − 163.5) ≃ 166.07cm
0.80 − 0.66
⇒ EIQ = Q3 − Q1 ≃ 9.74cm
(9) Quelle est la fréquence des étudiantes ayant au moins 165cm ?
Par interpolation, on cherche d’abord la fréquence f des étudiantes ayant moins de 165cm :
puisque 165 ∈]163, 5; 167, 5[, alors par interpolation linéaire on a :
f − 0.66 165 − 163.5
=
0.80 − 0.66 167.5 − 163.5
165−163.5
qui donne f = 0.66 + 167.5−163.5 × (0.80 − 0.66) = 0.7125
Donc la proportion (fréquence) des étudiantes ayant au moins 165cm est égale à 1 − 0.7125 =
0.2875

Exercice 13. Une voiture roule pendant 200 kilomètres à 50km/h, puis pendant 100 kilomètres à
100km/h.
Quelle est sa vitesse moyenne sur son trajet ?
Solution –
Cette vitesse moyenne sera égale au rapport entre la distance parcourue et le temps de trajet. Soit
200 + 100 = 300 kilomètres parcourus.
300
xH = 200 = 60km/h
50+ 100
100

Soit :
– 200km à 50km/h durent 4heures ;
– 100km à 100km/h durent 1heure.
Le trajet dure donc 5 heures pour 300 kilomètres parcourus : la vitesse moyenne est bien de 60km/h.

Exercice 14. Dans le but d’évaluer la relation entre la densité des grains semés et le rendement, on a
procédé à une série d’essais sur différentes parcelles d’une céréale. L’expérimentation a donné les résultats
suivants :
xi 150 250 350 450
zi 57.06 60.73 62.73 63.48
yi

avec, xi désigne le nombre de grain semés par m2 et zi désigne le rendement par hectare.
1) Calculer les nombres yi = ln(64 − zi ), pour i = 1, 2, 3, 4.
2) Calculer le coefficient de corrélation linéaire entre x et y. Interpréter.
3) Déterminer l’équation de la droite de régression de y en x. En déduire une expression de z en
fonction de x.

Exercice 15. Examen 2022/23


Un laboratoire pharmaceutique a enquêté sur le nombre de kilomètres parcouru par jour par des
visiteurs médicaux pour représenter leurs produits. Les résultats sont ceux du tableau ci-dessous. Certaines
données sont manquantes.

13
Trajets en km [10 − 16[ [16 − 20[ [20 − m[ [m − 25[ [25 − 30[ Total
Nombre de visiteurs 4 8 20 24 n5 n

1) (1pt) Retrouver les valeurs manquantes, sachant que le trajet moyen est égal à 21.5 km et que
les bornes des classes étant toujours des nombres entiers (m, n, n5 ∈ N).
Pour la suite de l’exercice, on prend m = 22 et n = 60.
2) (1pt) Représenter l’histogramme des fréquences.
3) (1,5pt) Déterminer le mode et la médiane de cette distribution.
4) (3pts) Déterminer l’écart interquartile et tracer le diagramme en boı̂te (box-plot).
5) (1,5pt) Calculer le coefficient de variation de cette distribution. Interpréter.
Solution –
Trajets en km [10 − 16[ [16 − 20[ [20 − m[ [m − 25[ [25 − 30[ Σ
ci 13 18 (20 + m)/2 (m + 25)/2 27.5 //
Nombre de visiteurs 4 8 20 24 n5 n

1) (1pt) Retrouver les valeurs manquantes, sachant que le trajet moyen est égal à 21.5 km et que les
bornes des classes étant toujours des nombres entiers (m, n, n5 ∈ N).

13 × 4 + 18 × 8 + 20+m × 20 + m+25
 
x̄ = 21.5 × 24 + 27.5 × n5 = 21.5 × n
P5 ⇐⇒ 2 2
i=1 ni = n
4 + 8 + 20 + 24 + n5 = n

696 + 22 × m + 27.5 × n5 = 21.5 × n
⇐⇒
56 + n5 = n
On multiplie la deuxième équation par 27.5 puis on soustrait la première, on trouve :

844 − 22m = 6n
m est un entier et peut prendre les valeurs : 21, 22, 23, 24
Pour m = 21 on trouve 844 − 22 × 21 = 382 = 6n c’est à dire n = 382/6 = 63.3333 (impossible).
Pour m = 22 on trouve 844 − 22 × 22 = 360 = 6n c’est à dire n = 360/6 = 60 possible et donc
n5 = 60 − 56 = 4.
Le tableau maintenant est le suivant :
Trajets en km [10 − 16[ [16 − 20[ [20 − 22[ [22 − 25[ [25 − 30[ Σ
ci 13 18 21 23.5 27.5 //
Nombre de visiteurs 4 8 20 24 4 60
fi 0.0667 0.1333 0.3333 0.4 0.0667 1
ai 6 4 2 3 5 //
fic = fi /ai 0.0111 0.0333 0.1667 0.1333 0.0133 //
c
fi = fi /ai × 2 0.0222 0.0667 0.3333 0.2667 0.0267 //
Fi 0.0667 0.2 0.5333 0.9333 1 //

2) (1pt) Représenter l’histogramme des fréquences : voir tableau des fréquences corrigés (puisque les
classes n’ont pas la même amplitude) et tracer les graphiques correspondants.
3) Déterminer :
(0.5pt) ∗ le mode : Mo ≃ 21. (centre de la classe associée à la fréquence corrigée la plus élevée)
(1pt) ∗ la médiane ; par interpolation linéaire :
M e − 20 0.5 − 0.2
=
22 − 20 0.5333 − 0.2
0.5 − 0.2
M e = 20 + (22 − 20) = 21.80018 ≃ 21.8002
0.5333 − 0.2
4) (3pts) Déterminer l’écart interquartile et tracer le diagramme en boı̂te ( box-plot).
(0.5pt)
Q1 − 20 0.25 − 0.2
=
22 − 20 0.5333 − 0.2
0.25 − 0.2
Q1 = 20 + (22 − 20) = 20.30003 ≃ 20.3000 = 20.3
0.5333 − 0.2

14
(0.5pt)
Q3 − 22 0.75 − 0.5333
=
25 − 22 0.9333 − 0.5333
0.75 − 0.5333
Q3 = 22 + (25 − 22) = 23.62525 ≃ 23.6253
0.9333 − 0.5333
– (0.5pt) EIQ = Q3 − Q1 ≃ 23.6253 − 20.3 ≃ 3.3253
– (0.5pt) a = max(Q1 − 1.5 × EIQ; xmin ) = max(15.3121; 10) = 15.3121
– (0.5pt) b = min(Q3 + 1.5 × EIQ; xmax ) = min(28.6133; 30) = 28.6133
– (0.5pt) Le graphe
Cette distribution présente des valeurs aberrantes qui sont inférieure à 15.3121 km et supérieure à
28.6133 km.
5) (1.5pt) Calculer le coefficient de variation de cette distribution. Interpréter.
(0.5pt) On doit calculer l’écart-type :
V(X) = x2 − (x̄)2 = 472.7833 − 21.52 = 10.5333, avec
2 2 2 2 2
x2 = 4×13 +8×18 +20×2160 +24×23.5 +4×27.5 = 472.7833

donc l’écart-type : σ = 10.5333 ≃ 3.2455
(0.5pt) CV = σx̄ = 3.2455
21.5 ≃ 0.1510
(0.5pt) Interprétation : 0.15 ≤ CV < 0.85 : la série statistique est homogène.

Exercice 16. Rattrapage 2022/23


Une compagnie de fabrication de microprocesseurs essaie une nouvelle technologie. Elle compte le
nombre de défauts sur 40000 composants, elle a trouvé les résultats suivants :

Nombre de défauts ni Ni fi Fi
2 5500
3 12000
4 22000
5 30000
6 36000
7 40000
Σ − −

– ni : effectif – Ni : effectif cumulé – fi : fréquence – Fi : fréquence cumulée.


1) (1pt) Préciser la variable étudiée et sa nature (cette variable sera notée par X).
2) (1pt) Recopier et compléter le tableau ci-dessus.
3) (1pt) Quel est le nombre de défauts modal de cette nouvelle technologie ?
4) (1pt) Quel est le nombre de défauts médian de cette nouvelle technologie ?
5) (1pt) Quel est le nombre de défauts moyen de cette nouvelle technologie ?
6) (1pt) Tracer la courbe cumulative des fréquences.
7) (2pts) On a répertorié indépendamment une autre base de donnée contenant des informations sur
le nombre de défauts de cette nouvelle technologie (cette variable sera noté Y ), on a mesuré les indicateurs
suivants : ȳ = 2 ; V(Y ) = 3.
Sachant que V(X) ≃ 2.28, Calculer la moyenne et la variance de W = X + 2Y .
Solution –
1. (1pt) Préciser la variable étudiée sa nature : X la variable représentant ”nombre de défauts”.
Il s’agit d’une variable quantitative discrète.
2. (1pt) Recopier et compléter le tableau :
xi ci ni Ni fi Fi
2 5 5500 5500 0.14 0.14
3 15 6500 12000 0.16 0.30
4 25 10000 22000 0.25 0.55
5 35 8000 30000 0.20 0.75
6 45 6000 36000 0.15 0.90
7 55 4000 40000 0.10 1
Σ − 40000 − 1 −

15
3. Construire un diagramme correspondant : On trace le diagramme en bâtons des effectifs (ou des
fréquences)
8) (1pt) Quel est le nombre de défauts modal de cette nouvelle technologie ?

Mo = 4
4. (1pt) Quel est le nombre de défauts médian de cette nouvelle technologie ?
n × 21 = 20000 est un entier donc

Me = (x(20000) + x(20001) )/2 = 4


5. (1pt) Quel est le nombre de défauts moyen de cette nouvelle technologie ?
x̄ ≃ 4.36
6. (1pt) Tracer la courbe des fréquences cumulées. (fonction en escalier croissante)
7. (2pts) On a répertorié indépendamment une autre base de donnée contenant des informations sur
le nombre de défauts de cette nouvelle technologie (cette variable sera noté Y ), on a mesuré les
indicateurs suivants : ȳ = 2 ; V(Y ) = 3.
Sachant que V(X) ≃ 2.28, Calculer la moyenne et la variance de W = X + 2Y .
On a x̄ = 4.36 et V(X) ≃ 2.28,
w = x̄ + 2ȳ = 8.36
V(W ) = V(X) + 4V(Y ) = 14.28

16

Vous aimerez peut-être aussi