BTS 1ère Année
Comment procéder pour traiter des données quand il y a des populations très
nombreuses ?
On fait une étude statistique adaptée à la situation donnée.
Cette étude a pour objet de recueillir des données, de les organiser et les présenter de
façon à pouvoir les analyser et en tirer des enseignements permettant de gérer ou de
prévoir.
A- Définitions :
1) Données statistiques :
• Population – Echantillon : Ensemble ou partie d’un ensemble d’individus ou d’unités
statistiques dont on observe un ou plusieurs caractères. Le nombre de ses éléments
est sa taille ou son effectif.
• Caractère qualitatif : caractère dont les modalités sont seulement repérables (couleur,
forme, marque…).
• Caractère quantitatif : caractère dont les modalités sont mesurables, les mesures étant
les valeurs d’une variable statistique (poids, taille, longueur…).
o Caractère quantitatif discret : variable qui ne peut prendre qu’un nombre limité de
valeurs isolées (par exemple entières). A chaque valeur correspond un effectif, la série
est dite pondérée.
o Caractère quantitatif continu : Variable qui peut prendre toutes les valeurs d’un
intervalle.
• Classe : intervalle partiel intervenant dans la partition de l’intervalle d’étude.
o La largeur ou étendue de la classe est la différence entre l’extrémité et le début.
d+e
o Le centre de la classe est le nombre (milieu de l’intervalle).
2
BTS – Cours – Statistiques à une variable 1
BTS 1ère Année
2) Tableaux et diagrammes :
Les tableaux statistiques et les diagrammes permettent d'organiser et de présenter les
données recueillies. A chaque type de données est attribué un type de tableau et
diagramme.
Une série statistique associe à chaque valeur xi du caractère quantitatif le nombre
d'individus correspondant appelé effectif et noté ni.
o Dans le cas d'une répartition en classes, on utilise un histogramme pour
représenter graphiquement les effectifs (ou les fréquences) : les aires des
rectangles sont proportionnelles aux effectifs (ou aux fréquences).
Exemple :
On a relevé le montant de 300 chèques remis à un guichet, on a obtenu le tableau suivant :
Montant
des chèques Effectif n
(€)
116
0;50 26
116
136
50;100
26
100;200
22
136
0 20 40 60 80 100 120 140 160 180 200 220 240 x
200;250 22 = 1,0 %
Histogramme
o Dans le cas de variable discrète le diagramme utilisé est alors le diagramme en
bâtons : la hauteur d'un bâton est proportionnelle à l'effectif (ou à la
fréquence).
Exemple :
Ancienneté dans n
30
l’entreprise Effectif
(année) 25
2 4 20
3 18 15
4 30 10
5 28 5
6 20
7 12 0 1 2 3 4 5 6 7 8 9 10 x
8 4 Diagramme en bâtons
10 4
BTS – Cours – Statistiques à une variable 2
BTS 1ère Année
Effectifs cumulés :
Pour des facilités de lecture de tableaux ou d'analyse, on a besoin de calculer les
effectifs cumulés croissants ou décroissants.
L'effectif cumulé croissant (E.C.C) d'une valeur du caractère est la somme de l'effectif
de cette valeur et des effectifs des valeurs précédentes.
L'effectif cumulé décroissant (E.C.D) d'une valeur du caractère est la différence de
l'effectif total de la série et des effectifs des valeurs précédentes.
Pour tracer le polygone des effectifs cumulés croissants, on place les points dont :
- l'abscisse est la limite supérieure d'une classe ;
- l'ordonnée est l'effectif cumulé croissant de cette classe.
Pour tracer le polygone des effectifs cumulés décroissants, on place les points
dont :
- l'abscisse est la limite inférieure d'une classe ;
- l'ordonnée est l'effectif cumulé décroissant de cette classe.
Exemple : « avec les chèques » :
Montant
Effectif E.C.C. E.C.D.
des chèques (€)
0;50 26 26 300 = 274 + 26
50;100 116 142 = 26 + 116 274 = 158 + 116
100;200 136 278 = 142 + 136 158 = 22 + 136
200;250 22 300 = 278 + 22 22
n n
300 300
250 250
200 200
150 150
100 100
50 50
0 50 100 150 200 250 x 0 50 100 150 200 250 x
Polygone des E.C.C. Polygone des E.C.D.
BTS – Cours – Statistiques à une variable 3
BTS 1ère Année
3) Paramètres de position :
Pour effectuer des calculs avec des valeurs continues (distribution en classe), on
utilise comme représentant de la classe son centre xi.
n
ni x i
➔ La moyenne arithmétique x d'une série est donnée par : x = i =1
N
➔ Le mode d'une série statistique est la valeur qui a le plus grand effectif. Dans le cas
d'une distribution en classe, on parle de classe modale.
ni
➔ La fréquence d'une valeur ou d'une classe est donnée par : fi = .
N
La somme des fréquences est égale à 1. Elle peut s'exprimer en pourcentage.
➔ La médiane d'une série statistique est la valeur de la variable telle que le nombre
des valeurs qui lui sont inférieures est égal au nombre de valeurs qui lui sont
supérieures.
Exemple : « avec les chèques » :
Moyenne 25 26 + 75 116 + 150 136 + 225 22
x= 115,67€
300
Mode Classe modale : 100;200
Fréquence Montant
Fréquence
des chèques (€)
26
0;50 0,09
300
50;100 0,39
100;200 0,45
200;250 0,07
Médiane : n
300
Graphiquement : c’est l’abscisse du point
250
d’intersection des polygones des effectifs cumulés
croissants et décroissants. 200
150
100
50
0 50 100 150 200 250 x
-50 Me=105,8
BTS – Cours – Statistiques à une variable 4
BTS 1ère Année
Le calcul de la médiane: On utilise le tableau des E.C.C. La 150ème valeur (300/2)
appartient à la classe [100;200[.
Montant 0;50 50;100 100;200 200;250
des chèques (€)
E.C.C 26 142 278 300
150 Me
En supposant les valeurs uniformément réparties dans la classe, on peut définir deux
suites que l'on dira proportionnelles :
- une sur les valeurs : (100 Me 200 )
- l'autre sur les effectifs : (142 150 278 )
On exprime cette proportionnalité par l'égalité suivante :
Me − 100 150 − 142
= puis on développe pour calculer la valeur Me :
200 − 100 278 − 142
8
Me = 100 + 100 105,88€ .
136
Les quartiles sont des valeurs semblables à la médiane : au lieu de correspondre à la
moitié de l’effectif, le premier quartile (Q1) correspond à un quart de l’effectif, le
troisième quartile (Q3) à trois quarts de l’effectif. On les calcule avec la même méthode
que la médiane.
On a donc le schéma suivant appelé boîte à moustache :
Minimum 3e Quartile Maximum
Médiane
1er Quartile
Remarque :
Dans le cas de série discrète (diagramme en bâtons), la médiane est déterminée en classant
les observations, puis en prenant l'observation de rang [N + 1] / 2 dans l'ordre obtenu.
Exemple :
La médiane est 13. Autrement dit, la moitié des valeurs est inférieure ou égale à 13 et l'autre
moitié est supérieure ou égale à 13.
BTS – Cours – Statistiques à une variable 5
BTS 1ère Année
Si le nombre d'observations est pair, la médiane est égale à la moyenne des observations de
rang N/2 et [N/2] + 1.
Si vous ajoutez une autre observation égale à 20, la médiane est de 13,5, soit la moyenne
entre la 5e observation (13) et la 6e observation (14)
Exemple : « ancienneté »
Ancienneté dans
2 3 4 5 6 7 8 10
l’entreprise (année)
E.C.C 4 22 50 78 90 102 106 110
La médiane de cette série est la valeur de l’ancienneté qui correspond à un effectif
110
cumulé croissant de = 55 . C’est donc une ancienneté de 5 ans.
2
4) Paramètres de dispersion :
➔ L'étendue d'une série statistique est la différence entre la plus grande et la plus
petite valeur de la série.
➔ La variance V d'une série statistique est la moyenne des carrés des écarts à la
( )
n n
2
ni x i − x n x
2
i i
moyenne: V= i =1
ou V= i =1
− x²
N N
➔ L'écart type est la racine carrée de la variance: = V.
Exemple : « avec les chèques » :
Étendue : 250
Variance V et écart type :
( )
2
Montant des Centre de Effectif ni ni x i − x
Ecart xi - x
chèques classe xi
[0;50[ 25 26 -90,67 213 747,2714
[50;100[ 75 116 -40,67 191 869,6724
[100;200[ 150 136 34,33 160 282,6504
[200;250[ 225 22 109,33 262 967,0758
Total : 300 828866,67
n ( x )
n 2
−x
i i
828866,67
V= i =1
= = 2762,8889 = 2762,8889 52,56.
N 300
BTS – Cours – Statistiques à une variable 6
BTS 1ère Année
ou encore :
Montant des Centre de Effectif ni nixi2
chèques classe xi
[0;50[ 25 26 16 250
[50;100[ 75 116 652 500
[100;200[ 150 136 3 060 000
[200;250[ 225 22 1 113 750
Total : 300 4 842 500
n
n x i i
2
2 4842500
V= i =1
−x = − 115,67² 2762,12 = 2762,12 52,56.
N 300
B- Interprétations :
1) Interprétation de la moyenne et de la médiane :
Une entreprise emploie 64 personnes. Les salaires mensuels se répartissent ainsi :
Salaire (k€) [1,5;1,75[ [1,75;2[ [2;2,25[ [2,25;2,5[ [2,5;2,75[ [2,75;3[ [3;3,25[
Effectif 4 9 15 17 12 5 2
On obtient par les calculs : salaire moyen x = 2,3086 k € ; salaire médian Me=2,3088k€
(donc 50% des personnes gagnent moins de 2,3088 k€ par mois).
Le tableau ne tient pas compte de la rémunération d'un stagiaire (1000€) ni du salaire
du directeur (6000€).
Un nouveau calcul avec ces nouvelles données donnera x = 2,345 k € pour la moyenne.
Par contre, la médiane est inchangée, puisqu'il reste toujours 50% des salaires inférieurs à
2,3088 k€ !
Nous constatons ainsi que la moyenne est influencée par les valeurs extrêmes,
contrairement à la médiane.
Par ailleurs, suivant la nature de l'observation menée, c'est l'un ou l'autre de ces
paramètres qui sera utilisé :
- supposons que l'on accorde une prime spéciale aux salariés gagnant moins de
2,3088 k€ : la connaissance de la médiane permet d'affirmer que la moitié des
personnes bénéficiera de cette mesure;
- supposons qu'une certaine catégorie de personnel voit son salaire modifié : c'est la
moyenne qui répercutera cet événement, mais pas nécessairement la médiane.
BTS – Cours – Statistiques à une variable 7
BTS 1ère Année
2) Modes d'une distribution :
La répartition des notes obtenues à une épreuve par 119 candidats est la suivante :
Les notes comprises entre 6 et 8 sont les plus nombreuses, mais nous constatons qu'il y
a également un "pic" pour les notes de 14 à 16.
On parle dans ce cas de distribution bimodale. Une telle répartition incite à penser qu'il
y aurait lieu de caractériser deux sous-ensembles dans la population observée.
3) Interprétation de l'écart type :
Reprenons l'exemple des chèques bancaires, on obtient pour moyenne et écart type:
x 115,67€ et 52,56.
Cherchons la proportion des valeurs appartenant à l'intervalle x − ; x + .
Nous avons : [63,11;168,23].
En utilisant le polygone des fréquences cumulées croissantes :
F.C.C.
1
0,9
0,8
0 ,95 – 0,25 =0,7
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0 50 100 150 200
Montant des Chèques
Nous voyons qu'il y a environ 70% des valeurs appartenant à l’intervalle x − ; x + .
BTS – Cours – Statistiques à une variable 8
BTS 1ère Année
D'une manière générale :
On rencontre souvent des distributions statistiques dont l'histogramme a la forme
schématisée par la courbe ci-contre.
Pour de telles distributions (diagramme de Gauss ou courbe de Gauss) :
• Environ 68% des valeurs appartiennent à l'intervalle x − ; x + ;
• Environ 95% des valeurs appartiennent à l'intervalle x − 2; x + 2 ;
• Plus de 99% des valeurs appartiennent à l’intervalle x − 3; x + 3 .
BTS – Cours – Statistiques à une variable 9