Statistique descriptive à une variable
Introduction
La statistique est une méthode scientifique qui recueille, ordonne, analyse et
interprète des données numériques ; afin d’avoir une meilleure lisibilité ces
données sont représentées graphiquement. On utilise la statistiques dans plusieurs
domaines parmi ces domaines : la biologie, l’économie, l’agronomie,...
Vocabulaire
L’étude statistique ce porte sur un ensemble dite population (si notre population est
très importante dans ce cas on prélève un échantillon représentatif) ces
composantes (éléments) sont appelés individu ou unité
statistique (𝒍𝒆 𝒏𝒐𝒎𝒃𝒓𝒆 𝒅′ é𝒕𝒖𝒅𝒊𝒂𝒏𝒕𝒔 𝒏𝒊 𝒂𝒔𝒔𝒐𝒄𝒊é𝒔 à 𝒍𝒂 𝒎𝒐𝒅𝒂𝒍𝒊𝒕é 𝒊), la taille de la
population est notée N
Chaque individu se diffère d’un autre, cette différence s’appelle un caractère ou une
variable statistique et chaque différence c’est une modalité
(𝒍𝒂 𝒎𝒐𝒅𝒂𝒍𝒊𝒕é 𝒊 𝒆𝒔𝒕 𝒏𝒐𝒕é𝒆 𝒙𝒊 )
1) Ces modalités peuvent être mesurable dite variable quantitative :
a) discrète ces valeurs sont isolées ou
b) continue ces valeurs sont prises sur un intervalle.
ou
2) ces valeurs ne sont pas mesurable dans ce cas c’est un variable qualitative.
Pour éclaircir, on prend quelques exemples.
Quelques exemples :
1) L’ensemble des étudiants au département MI est une population.
a) Chaque étudiant est une unité statistique.
b) On associé à chaque unité (étudiant) un caractère.
i) Caractère de nature qualificatif, exemple : la couleur de la peau, la
couleur des yeux, son adresse, la filière du baccalauréat…
ii) Caractère de nature quantitatif (de type discrètes ou continue),
exemple : les notes obtenus, les moyennes des étudiants, la tailles
des étudiants en centimètres…
Quelques définitions :
Effectif total : 𝑁 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑝 = ∑𝑝𝑖=1 𝑛𝑖 , tel que 𝑝 c’est le nombre de modalité.
La fréquence relative de la modalité 𝒊 :
𝑛 𝑝
1) 𝑓𝑖 = 𝑁𝑖 , 0 ≤ 𝑓𝑖 ≤ 1 1 ≤ 𝑖 ≤ 𝑝 et ∑𝑖=1 𝑓𝑖 = 1.
2) Pour calculer le pourcentage des effectifs, on utilise les fréquences relatives en
𝑛
pourcentage c-à-d : 𝑓𝑖 % = 𝑁𝑖 × 100
Les données peuvent êtres données sous forme de liste ou de tableau, on réorganise nos
données dans un tableau.
Exemples:
1) On a ci-dessous les notes de dix étudiants au module algèbre1 du groupe 3:
10, 11.5, 15, 10, 10, 11.5, 9, 9, 9, 9.
La population étudié c’est les étudiants du groupe 3.
Le caractère étudié c’est les notes du module algèbre 1, on remarque bien les notes sont
des nombres donc notre variable est quantitative et ces valeurs sont isolés donc on est dans
le cas discret.
LAOUAR MOUNIA 2021/2022 Page 1
Les notes 𝒙𝒊 9 10 11.5 15 Total
L’effectif 𝒏𝒊 4 3 2 1 𝑁 = ∑4𝑖=1 𝑛𝑖 =10
Effectif total
La fréquence 4 3 2 1 4
= 0.4 = 0.3 = 0.2 = 0.1 ∑ 𝑓𝑖 = 1
relative 𝑓𝑖 10 10 10 10
𝑖=1
- On a 4 modalités.
2) On a la taille en centimètres de 10 étudiants du groupe 3 :
La taille [150,155[ [155 ,160[ [160,165[ [165,170[ Total
L’effectif 𝒏𝒊 4 3 2 1 𝑁 = ∑4𝑖=1 𝑛𝑖 =10
Effectif total
La fréquence 4 3 2 1 4
× 100 × 100 × 100 × 100 ∑ 𝑓𝑖 % = 100%
relative en 10 10 10 10
pourcentage = 40 = 30 = 20 = 10 𝑖=1
𝑓𝑖 %
On remarque bien, que nos modalités sont écrites sous la forme d’intervalle dite
classe, donc notre caractère est quantitative continue.
Remarque : dans ce type de série la première des choses on calcule le centre de
chaque classe. Une classe est écrite sous la forme suivante: [𝑎𝑖 , 𝑏𝑖 [, le centre de
cette classe est calculé comme suit :
𝑎𝑖 + 𝑏𝑖
𝑐𝑖 =
2
On va réécrire, de nouveau notre tableau :
La taille [150,155[ [155 ,160[ [160,165[ [165,170[ total
L’effectif 𝒏𝒊 4 3 2 1 𝑁 = ∑4𝑖=1 𝑛𝑖 =10
Effectif total
La fréquence 4 3 2 1 4
× 100 × 100 × 100 × 100 ∑ 𝑓𝑖 % = 100%
relative en 10 10 10 10
pourcentage = 40 = 30 = 20 = 10 𝑖=1
𝑓𝑖 %
Le centre 150 + 155 160 + 155 160 + 165 170 + 165
des classes 2 2 2 2
𝑐𝑖 = 152.5 = 157.5 = 162.5 = 167.5
Les paramètres d’une série statistique
Une série statistique est l’ensemble des couples ( xi , ni )où xi est la modalité i avec
l’effectif ni .
1) Les paramètres de position :
1.1) Le mode « Mo » : pour trouver la valeur du mode, tout d’abord on cherche la
valeur la plus grande des effectifs parmi toutes les valeurs données ;
1.1.a) dans le cas d’une série statistique discrète, on cherche la variable qui lui
corresponde.
1.1.b) mais dans le cas d’une série statistique continue, on cherche la classe qui lui
corresponde, le centre de cette classe c’est la valeur du mode.
Remarque : en général, le mode ce n’est pas une valeur unique, si notre série à un
seule mode donc c’est une série dite uni-modale, si on a deux valeurs du mode
dans ce cas c’est une série statistique bimodales si non multimodales.
LAOUAR MOUNIA 2021/2022 Page 2
Exemple :
1)
Les notes 𝒙𝒊 9 10 11.5 15 total
L’effectif 𝒏𝒊 4 3 2 1 𝑁 = ∑4𝑖=1 𝑛𝑖 =10
Effectif total
On remarque bien, la plus grande des effectifs c’est 4 , la valeur de la
modalité qui lui correspond c’est 9, donc le mode : Mo=9.
2)
La taille [150,155[ [155 ,160[ [160,165[ [165,170[ total
L’effectif 𝒏𝒊 4 3 2 1 𝑁 = ∑4𝑖=1 𝑛𝑖 =10
Effectif total
On remarque bien, la plus grande des effectifs c’est 4 , la valeur de la classe
modale qui lui correspond c’est [150,155[, donc le mode:
150+155
Mo = = 152.5.
2
Remarque :
Une série statistique continue dite uniforme si les amplitudes de toutes les
classes de cette série sont égales.
L’amplitude de la classe [𝑎𝑖 , 𝑏𝑖 [ est calculée comme suit : 𝑒𝑖 = 𝑏𝑖 − 𝑎𝑖 .
Pour calculer le mode dans une série continue uniforme, on cherche
directement la plus grande valeur des effectifs et la valeur du mode c’est le
centre de la classe modale qui lui correspond.
Mais pour une série statistique avec des amplitudes différentes, au lieu de
chercher l’effectif on cherche l’effectif corrigé (on va voir un exemple
explicatif pendant la révision).
1.2) La moyenne arithmétique pondérée 𝑿 ̅ : (on dit simplement la moyenne
arithmétique)
1.2.a) dans le cas d’une série statistique discrète, la moyenne arithmétique se
calcule comme suit :
𝑝
𝑛1 𝑥1 + 𝑛2 𝑥2 + ⋯ + 𝑛𝑝 𝑥𝑝 ∑𝑝𝑖=1 𝑛𝑖 𝑥𝑖 ∑𝑝𝑖=1 𝑛𝑖 𝑥𝑖 𝑛𝑖 𝑥 𝑖
̅
𝑋= = 𝑝 = ≠∑
𝑛1 + 𝑛2 + ⋯ + 𝑛𝑝 ∑𝑖=1 𝑛𝑖 𝑁 𝑛𝑖
𝑖=1
Ou, on utilise les fréquences relatives donc :
𝑝 𝑝 𝑝
∑𝑝𝑖=1 𝑛𝑖 𝑥𝑖 𝑛𝑖 𝑥 𝑖 𝑛𝑖
𝑋̅ = =∑ = ∑ 𝑥𝑖 = ∑ 𝑓𝑖 𝑥𝑖
𝑁 𝑁 𝑁
𝑖=1 𝑖=1 𝑖=1
1.2.b) dans le cas d’une série statistique continue, la moyenne arithmétique se
calcule comme suit :
𝑝 𝑝
𝑛 𝑐 +𝑛 𝑐 +⋯+𝑛 𝑐 ∑ 𝑛𝑖 𝑐𝑖 ∑ 𝑛𝑐 𝑝 𝑛𝑐
𝑋̅ = 1 𝑛1 +𝑛2 2+⋯+𝑛 𝑝 𝑝 = ∑𝑖=1
𝑝 = 𝑖=1𝑁 𝑖 𝑖 ≠ ∑𝑖=1 𝑛𝑖 𝑖, où 𝑐𝑖 c’est le centre des
1 2 𝑝 𝑛 𝑖=1 𝑖 𝑖
classes.
Ou, on utilise les fréquences relatives donc :
LAOUAR MOUNIA 2021/2022 Page 3
𝑝 𝑝 𝑝
∑𝑝𝑖=1 𝑛𝑖 𝑐𝑖 𝑛𝑖 𝑐𝑖 𝑛𝑖
̅
𝑋= =∑ = ∑ 𝑐𝑖 = ∑ 𝑓𝑖 𝑐𝑖
𝑁 𝑁 𝑁
𝑖=1 𝑖=1 𝑖=1
Remarque : y’a d’autre moyenne, mais pour le moment on va voir seulement la
moyenne arithmétique.
Exemple : on calcule la moyenne avec les fréquences et les effectifs
1) Pour simplifier les calcules on rajoute une ligne
Les 9 10 11.5 15 total
notes 𝒙𝒊
L’effectif 4 3 2 1 𝑁=
𝒏𝒊 ∑4𝑖=1 𝑛𝑖 =10
Effectif total
4
𝒏𝒊 𝒙𝒊 36 30 23 15
∑ 𝑛𝑖 𝒙𝒊
𝑖=1
= 104
𝒇𝒊 0.4 0.3 0.2 0.1 1
4
𝒇𝒊 𝒙𝒊 3.6 3 2.3 1.5
∑ 𝑓𝑖 𝒙𝒊
𝑖=1
= 10,4
𝑝
∑ 𝑛𝑥 104 𝑝
𝑋̅ = 𝑖=1𝑁 𝑖 𝑖 = 10 = 10.4 ou 𝑋̅ = ∑𝑖=1 𝑓𝑖 𝑥𝑖 = 10.4.
2)
La taille [150,155[ [155 ,160[ [160,165[ [165,170[ total
L’effectif 𝒏𝒊 4 3 2 1 𝑁 = ∑4𝑖=1 𝑛𝑖 =10
Effectif total
𝒄𝒊 152.5 157.5 162.5 167.5
𝒏𝒊 𝒄𝒊 610 472.5 325 167.5 1575
𝒇𝒊 0.4 0.3 0.2 0.1 1
𝒇𝒊 𝒙𝒊 61 47.25 32.5 16.75 157.5
𝑝
∑ 𝑛𝑖 𝑐𝑖 1575 𝑝
𝑋̅ = 𝑖=1𝑁 = 10 = 157.5 ou 𝑋̅ = ∑𝑖=1 𝑓𝑖 𝑐𝑖 = 157.5.
1.3) Les quantiles : on va voir seulement la médiane « Me ».
Dans le cas discret on utilise les effectifs cumulés croissant (E.C.C)
𝒙𝒊 𝒙𝟏 𝒙𝟐 ………. 𝒙𝒑 total
𝑝
L’effectif 𝒏𝒊 𝒏𝟏 𝒏𝟐 ……….. 𝒏𝒑
𝑁 = ∑ 𝑛𝑖
𝑖=1
𝑝
𝑬𝑪𝑪 𝒏𝟏 𝒏𝟏 + 𝒏𝟐 …………
𝑁 = ∑ 𝑛𝑖
𝑖=1
Deuxième des choses on calcule le rang, on a deux cas :
𝑁+1
a) Si N est impair, le rang de la médiane c’est cette valeur on va la trouver dans la
2
dernière ligne, après l’avoir trouver on cherche la valeur de la médiane
LAOUAR MOUNIA 2021/2022 Page 4
𝑀𝑒 = 𝑥𝑁+1
2
b) Si N est pair, la médiane se trouve dans l’intervalle [ 𝑥𝑁 , 𝑥𝑁+1 ]donc la valeur de la
2 2
médiane est :
𝑥𝑁 + 𝑥𝑁 +1
2 2
𝑀𝑒 =
2
Dans le cas continu on utilise les effectifs cumulés croissant (E.C.C) ou les
fréquences cumulées croissantes (F.C.C) ou les fréquences cumulées
croissantes en pourcentage (F.C.C %)
Les classes [𝑎1 , 𝑏1 [ [𝑎2 , 𝑏2 [ …… [𝑎𝑝 , 𝑏𝑝 [ total
….
𝑝
L’effectif 𝒏𝒊 𝒏𝟏 𝒏𝟐 …… 𝒏𝒑
….. 𝑁 = ∑ 𝑛𝑖
𝑖=1
𝑝
𝑬𝑪𝑪 𝒏𝟏 𝒏𝟏 + 𝒏𝟐 ……
…… 𝑁 = ∑ 𝑛𝑖
𝑖=1
𝒇𝒊 𝒇𝟏 𝒇𝟐 …… 𝒇𝒑 1
……
F.C.C 𝒇𝟏 𝒇𝟏 + 𝒇𝟐 …… 1
……
𝒇𝒊 % 𝒇𝟏 *100 𝒇𝟐 *100 …… 𝒇𝒑 *100 100
……
F.C.C % 𝒇𝟏 *100 𝒇𝟏 ∗ 𝟏𝟎𝟎 + 𝒇𝟐 ∗ 𝟏𝟎𝟎 …… 100
……
Deuxième des choses on calcule La position, mais on ne va pas s’intéresser au cas pair et
impair:
𝑁
a) Si on utilise , donc le rang de la médiane c’est cette valeur on va la trouver dans
2
la dernière ligne, après l’avoir trouver on utilise l’interpolation affine ou bien
linéaire
b) Si on utilise , donc le position de la médiane c’est 0.5, on utilise l’interpolation
affine.
c) Si on utilise % , donc le position de la médiane c’est 50%, on utilise l’interpolation
affine.
Exemple :
1)
Les notes 𝒙𝒊 9 10 11.5 15 total
L’effectif 𝒏𝒊 4 3 2 1 𝑁 = ∑4𝑖=1 𝑛𝑖 =10
Effectif total
𝑬𝑪𝑪 4 4+3=7 4+3+2=9 4+3+2+1=10
On remarque N=10 est pair donc 𝑀𝑒 ∈ [𝑥10 , 𝑥10+1 ]donc la valeur de la médiane est :
2 2
LAOUAR MOUNIA 2021/2022 Page 5
𝑥10 + 𝑥10+1
2 2 𝑥5 + 𝑥6 10 + 10
𝑀𝑒 = = = = 10
2 2 2
2)
Les notes 𝒙𝒊 9 10 11.5 15 total
L’effectif 𝒏𝒊 4 3 2 2 𝑁 = ∑4𝑖=1 𝑛𝑖 =11
Effectif total
𝑬𝑪𝑪 4 4+3=7 4+3+2=9 4+3+2+2=11
11+1
On a « N=11 » est impair, le rang de la médiane c’est 2 =6 , donc la valeur de la
médiane
𝑀𝑒 = 𝑥6 = 10
3)
La taille [150,155[ [155 ,160[ [160,165[ [165,170[ total
L’effectif 𝒏𝒊 4 3 2 1 𝑁=
∑4𝑖=1 𝑛𝑖 =10
Effectif total
ECC 4 4+3=7 7+2=9 9+1=10
𝒇𝒊 0.4 0.3 0.2 0.1 1
FCC 0.4 0.4+0.3=0.7 0.4+0.3+0.2=0.9 0.9+0.1=1
𝒇𝒊 % 40 30 20 10 100
FCC% 40 40+30=70 70+20=90 90+10=100
Remarque : Ces valeurs ne change jamais .
10
= 5 donc la médiane, donc 𝑀𝑒 ∈ [155,160[
2
155 4
Me 5
160 7
𝑀𝑒 − 155 5 − 4
=
160 − 155 7 − 4
Et on va résoudre une équation du premier degré :
5−4
𝑀𝑒 = (160 − 155) + 155 ≈ 156.67
7−4
0.5 donc la médiane, donc 𝑀𝑒 ∈ [155,160[
155 0.4
Me 0.5
160 0.7
𝑀𝑒 − 155 0.5 − 0.4
=
160 − 155 0.7 − 0.4
Et on va résoudre une équation du premier degré :
𝑀𝑒 ≈ 156.67
50% donc la médiane, donc 𝑀𝑒 ∈ [155,160[
155 40
Me 50
LAOUAR MOUNIA 2021/2022 Page 6
160 70
𝑀𝑒 − 155 50 − 40
=
160 − 155 70 − 40
Et on va résoudre une équation du premier degré :
𝑀𝑒 ≈ 156.67
2) Paramètres de dispersions :
2.1) Etendue
L’étendue d’une série statistique, notée e est la différence entre la plus grande valeur xmax
et la plus petite valeur xmin du caractère : 𝑒 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 .
Exemple :
1)
Les notes 𝒙𝒊 9 10 11.5 15 total
L’effectif 𝒏𝒊 4 3 2 1 𝑁 = ∑4𝑖=1 𝑛𝑖 =10
Effectif total
𝑒 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 = 15 − 9 = 6
2)
La taille [150,155[ [155 ,160[ [160,165[ [165,170[ total
L’effectif 𝒏𝒊 4 3 2 1 𝑁 = ∑4𝑖=1 𝑛𝑖 =10
Effectif total
𝑒 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 = 170 − 150 = 20
2.2) la variance et l’écart type
2.2.a) la variance : c’est la moyenne des carrées des écarts à la moyenne arithmétique
dans le cas discret :
𝑝 𝑛𝑖 (𝑥𝑖 −𝑋̅)2 𝑝 𝑛𝑖 𝑥𝑖 2 −2𝑛𝑖 𝑥𝑖 𝑋̅+𝑛𝑖 𝑋̅ 2 𝑝 𝑛𝑖 𝑥𝑖 2 𝑝 𝑛𝑖 𝑥𝑖 𝑋̅
𝑣 (𝑥) = ∑𝑖=1 = ∑𝑖=1 = ∑𝑖=1 − 2 ∑𝑖=1 +
𝑁 𝑁 𝑁 𝑁
𝑛𝑖 (𝑋̅)2
∑𝑝𝑖=1 = ̅̅̅̅ ̅̅̅̅2 − (𝑋̅)2 .
𝑋 2 − 2(𝑋̅)2 +(𝑋̅)2 =𝑋
𝑁
𝑝 𝑛𝑖 (𝑐𝑖 −𝑋̅)2
Dans le cas continue 𝑣(𝑥 ) = ∑𝑖=1 =̅̅̅̅
𝑋 2 − (𝑋̅)2
𝑁
̅̅̅̅2 − (𝑋̅)2 , c’est la formule de K𝒐̈ nig
Cette formule 𝑣(𝑥 )=𝑋
2.2.b) l’écart type 𝜎 (𝑥 ) = √𝑣(𝑥)
Remarque : L’écart type mesure la dispersion des 𝑥𝑖 autour de 𝑋̅, et il s’exprime
dans la même unité que le caractère étudié.
Contrairement à la variance qui s’exprime dans l’unité au carré du caractère.
La représentation graphique :
la représentation graphique sa dépendra de la nature de notre série
statistique .
I. Dans le cas qualificatif, on peut utiliser deux types de diagramme : le diagramme à secteur
LAOUAR MOUNIA 2021/2022 Page 7
ou le diagramme à bandes.
Exemple on a pris dix personne et on a étudié la couleur des yeux, et on eu le tableau
suivant :
La couleur des yeux effectif 𝒇𝒊 Les mesures
des secteurs
bleu 1 0.1 0.1*360=36
vert 1 0.1 0.1*360=36
noir 5 0.5 0.5*360=180
marron 3 0.3 0.3*360=108
total 10 1 360o
diagramme à secteur
bleu vert noir marron
10%
30% 10%
50%
le diagramme à bandes
6
5
4
3
2
1
0
bleu vert noir marron
II. Dans le cas quantitatif discret, on peut utiliser le diagramme en bâtons.
Exemple :
Les notes 9 10 11 12 13 total
𝒙𝒊
L’effectif 𝒏𝒊 1 1 4 3 1 𝑁 =10
LAOUAR MOUNIA 2021/2022 Page 8
5
3 Colonne1
Colonne2
2
Colonne3
1
0
9 10 11 12 13
Diagramme en bâtons
III. Dans le cas quantitatif continu, L’histogramme est un diagramme composé de
rectangles dont l’aire est proportionnelle à l’effectif de chaque classe. Il faut
envisager le cas où les amplitudes des classes sont égales et le cas où ces amplitudes
sont inégales.
Pour le moment on prendre seulement les séries à amplitudes avec classes
égales.
Exemple :
La taille effectif
[150,155[ 2
[155,160[ 1
[160,165[ 4
[165,170[ 3
total 10
histogramme
5
4
effectifs
3
2
1
0
la taille
LAOUAR MOUNIA 2021/2022 Page 9
LAOUAR MOUNIA 2021/2022 Page 10
.
LAOUAR MOUNIA 2021/2022 Page 11