Chapitre 1
Chapitre 1
STATISTIQUE DESCRIPTIVE
Chapitre 1 : Analyse d’une série de donnée univariée
Année Universitaire :
2020-2021
Notations et abréviations
𝑛𝑖 Effectif
𝑁𝑖 Effectif cumulé
𝑓𝑖 Fréquence
𝐹𝑖 Fréquence cumulée
𝑀𝑜 Mode
𝑀𝑒 Médiane
𝜇 Moyenne d’une population
𝑥 ou 𝑥𝑛 Moyenne d’un échantillon
2
FSJES-Oujda
Sommaire
4. Représentations graphiques_______________________________________________________ 15
4.1 Diagramme à bandes rectangulaires ________________________________________________________ 15
4.2 Diagramme à secteurs circulaires __________________________________________________________ 17
4.3 Histogramme __________________________________________________________________________ 18
4.4 Polygone ______________________________________________________________________________ 19
4.5 L’ogive _______________________________________________________________________________ 20
Bibliographie __________________________________________________________________ 40
3
FSJES-Oujda
Chapitre 1: ANALYSE D’UNE SÉRIE DE DONNÉE UNIVARIÉE
1. Introduction
Nous nous intéressons ici { l’étude de données d’une série statistique, cette série peut être le résultat
d’une enquête sur un phénomène de l’économie ou plus généralement des sciences sociales. Enquêter
ici est dans le sens où on cherche des informations auprès d’une population. Le statisticien ou
l’économiste statisticien doit travailler avec les données de l’enquête afin de les résumer par des
méthodes statistiques1. La manipulation des données ou des statistiques est quelques fois difficile, il
faudra être attentif au choix des méthodes statistiques. Les interprétations des résultats de l’enquête
doivent être soigneusement écrites sans distraction ou manipulation. Voici un exemple qui illustre
cela.
1.1 Exemple
Dans un établissement universitaire, on se pose la question si la sélection des étudiants { l’inscription
est { l’avantage des hommes ou non ?
Définition de la STATISTIQUE
La statistique est une méthode scientifique dont l'objet est
1
Un économiste statisticien est considéré comme un métier, il peut être chargé des prévisions des ventes ou d’achats,
pour cela, il doit être capable de mener des études de marché en utilisant les outils statistiques
4
FSJES-Oujda
de recueillir,
d’organiser et de résumer
et d'analyser
les données d'une enquête, d'une étude ou d'une expérience, puis
de tirer les conclusions logiques
et de prendre les décisions qui s'imposent à partir des analyses effectuées.
EXEMPLE :
Le gouvernement marocain veut réorienter sa politique sociale. Il demande au HCP (HAUT-
COMMISSARIAT AU PLAN) la structure de la population :
âge
revenu
catégorie socioprofessionnelle
état civil
etc.
Le HCP doit procéder aux étapes suivantes :
1. La collecte de données :
De quelle information avons-nous besoin ?
C’est l’objet de l’étude
Qui doit-on examiner ?
Qui est/sont le/s sujet/s (Population, échantillon)
Comment faire ?
C’est la méthode (sondages, entretiens)
2. Organisation des données : nous présentons ici les données sous forme de tableaux ou de
graphiques
Partons d’un échantillon de 1000 personnes, nous avons donc 1000 revenus.
o Tableau de synthèse
o Histogramme
Et si l’information est trop riche, on ne tire que des données caractéristiques, c.à.d.
5
FSJES-Oujda
3. Résumer l’information : On n’en choisi que quelques paramètres significatifs (par exemple mode,
médiane, moyenne, etc)
Exemple 1 : Dans le milieu rural, pour établir la proportion des enfants qui meurent avant l'âge de 5
ans, on considère la population des enfants du milieu rural dont la tranche d'âge se situe entre 0 et 5
ans (strictement).
Exemple 2 : Pour établir le taux de pourcentage des pièces de mauvaise qualité fabriquées par une
machine, on tire au hasard dans un lot fabriqué par cette machine un échantillon.
Exemples :
Chaque automobiliste dans l'exemple précédent est un individu
Toute pièce fabriquée par la machine est une unité statistique
Dans le recensement national marocain de 2014, on veut établir le nombre moyen d'enfants par
famille dans les régions rurales, chaque famille dans ces régions est une unité statistique.
Définition 4 : La taille représente le nombre d'individus d'une population (on notera 𝑁) ou d'un
échantillon (on notera 𝑛).
Définition 5 : Le caractère (ou variable) est l'aspect particulier que l'on désire étudier.
Exemple : Dans une enquête concernant une population de personnes, on peut s'intéresser à
- L’âge
- La taille
- Le sexe
- Le niveau d'éducation
- L’opinion sur un sujet donné
- ……
Exemple 2 : L'appréciation que peut retenir une clientèle vis-à-vis d'un service ou d'un produit
(comestible ou pas) est un caractère qui peut avoir plusieurs modalités, on donne l’exemple d’un
produit alimentaire, électroménager et d’un service :
Définition 7 : On dit d'un caractère qu'il est qualitatif si ses modalités ne s'expriment pas par un
nombre.
Exemple : L'opinion, le sexe, ou la couleur des cheveux sont des caractères qualitatifs.
Dans le premier cas le caractère est dit ordinal tandis que le deuxième est dit nominal
Exemple : l’appréciation d’un client pour un produit est un caractère ordinal, on peut comprendre
ainsi qu’une appréciation « Excellent » est mieux que « Bon »
Remarque : dans le cas d’un caractère ordinal on peut utiliser une échelle de nombres entiers
0 1 2 3 4 5 6 7 8 9 10
Définition 8 : On dit d'un caractère qu'il est quantitatif si ses modalités sont numériques.
Exemple 1 : L'âge, la taille, le poids et la consommation journalière du lait par individu sont des
caractères quantitatifs.
8
FSJES-Oujda
Exemple 2 : Le revenu d'un employé est un caractère quantitatif.
On peut toujours ramener ce caractère en qualitatif en posant pour les trois tranches les modalités
- "faible"
- "moyen"
- "élevé"
Définition 9 : On appelle série statistique l'ensemble des différentes données associées aux individus
d'un échantillon ou d'une population.
Exemple 1 : La série suivante résulte d'une enquête auprès de quelques personnes pour connaître
leur âge :
21 25 18 37 26 19 40 35 22 27
23 18 34 41 28 29 31 30 23 29
Exemple 2 : La série suivante détermine la durée de vie dans un échantillon d'ampoules (elle est
exprimée en heures) :
200 210 205 195 170 180 190 206 185 212 196 198
198 199 207 203 205 196 201 189
Une série statistique peut être traitée de plusieurs façons différentes, en général on distingue
- la représentation graphique
- le calcul des mesures caractéristiques dans le cas de caractères numériques (une mesure
caractéristique peut être la moyenne, la médiane, …)
Remarque : si le caractère a un nombre petit de modalités, on peut former des classes comme dans le
cas du caractère qualitatif.
Par contre si le nombre de modalités est très grand, on traite le cas comme pour le cas du caractère
continu.
Exemple : Le nombre d’enfants par famille dans une région est représenté dans la série suivante :
2 2 3 1 0 4 0 1 3 6 5 1 5 6 4 2 2
5 2 3 4 0 4 3 2 4 3 5 1 3 2 2 3 2
10
FSJES-Oujda
3.3 Cas d’un caractère quantitatif continu
Définition : Un caractère quantitatif est dit continu s’il peut prendre théoriquement n’importe quelle
valeur dans un intervalle donné de nombres réels.
Par exemple, si 𝑛 = 30, la formule de Sturges donne la valeur de 5.907, l’entier le plus proche est 6 :
23 𝑛 < 46 6
46 𝑛 < 91 7
91 𝑛 < 181 8
𝑒
Exemple 1 : On a calculé le quotient pour cinq séries statistiques, on a eut les résultats suivants :
𝑘
0.8912 ; 4.2310 ; 11.1123 ; 6.3146 ; 7.0000
Si les données de la série contiennent deux chiffres après la virgule, l’amplitude des classes sera : 0.90 ;
4.24 ; 11.12 ; 6.32 ; 7.01
Si les données de la série contiennent seulement un chiffre après la virgule, l’amplitude des classes
sera : 0.9 ; 4.3 ; 11.2 ; 6.4 ; 7.1
Si les données de la série sont entières, alors l’amplitude des classes sera : 1 ; 5 ; 12 ; 7 ; 8
Le nombre de classes est égal à 7 ; e = 9.4/7 = 1.34 et l’amplitude des classes sera c = 1.4.
k
Exemple : On revient sur l’exemple 2 de la série qui représente l’ancienneté du personnel cadre d’une
entreprise. La limite inférieure du 1er intervalle coïncidera la valeur 7.0 qui est la plus petite valeur de
la série et puisque l’amplitude est c = 1.4 ; on aura comme premier intervalle [7.0 ; 8.4[ .
Par convention, pour que toute donnée appartienne à une seule classe, les intervalles ainsi constitués
seront fermés à gauche et ouverts à droite.
Les intervalles qui suivront le 1er intervalle seront les suivants :
[8.4 ; 9.8[ [9.8 ; 11.2[ [11.2 ; 12.6[ [12.6 ; 14[ [14 ; 15.4[ [15.4 ; 16.8[
12
FSJES-Oujda
et on s’arrête { la 7ème classe qui contiendra la plus grande valeur.
En effet il faut s’assurer toujours que toutes les données sont incluses dans l’ensemble des classes.
Exemple :
Distribution de 60 cadres selon leur ancienneté
Effectif Fréquence Pourcentage
Ancienneté en année
𝑛𝑖 𝑓𝑖 %
[7.0 ; 8.4[ 6 0.10 10.00
[8.4 ; 9.8[ 6 0.10 10.00
[9.8 ; 11.2[ 16 0.27 26.67
[11.2 ; 12.6[ 15 0.25 25.00
[12.6 ; 14[ 8 0.13 13.33
[14 ; 15.4[ 4 0.07 6.67
[15.4 ; 16.8[ 5 0.08 8.33
Total 60 1.00 100.00
Le centre d’une classe est le point milieu de l’intervalle la constituant, il est donné par :
13
FSJES-Oujda
Remarque : Dans certain cas, on a intérêt à construire un ou deux classes plus larges que les autres, en
général la première ou la dernière. Par exemple, dans une enquête on a interrogé les citoyens d’une
ville, la répartition des individus selon les groupes d’âge est la suivante :
Âge : 𝐴 Effectif
en année 𝑛𝑖
𝐴 < 20 ⋯
20 𝐴 < 30 ⋯
30 𝐴 < 40 ⋯
40 𝐴 < 60 ⋯
60 A ⋯
Exemples à résoudre
Faites l’exercice de résoudre les deux exemples suivants :
Exemple 1 : Les données suivantes représentent l’âge de 45 personnes choisies au hasard dans un
collège :
17 16 17 18 18 17 17 19 17
22 18 17 22 18 38 17 17 21
29 22 18 45 18 17 22 19 44
20 20 17 19 19 17 22 17 17
18 22 21 17 20 18 19 23 18
Solution :
L’âge est un caractère quantitatif continu ; on procède à la construction des classes :
𝑛 = 45 ; Max 𝑥𝑖 = 45 ; Min 𝑥𝑖 = 16 ; l’étendue est la valeur e = 29.
Le nombre de classes est égal à 6 ; e = 29/6 = 4.8 et l’amplitude des classes sera c = 5.
k
La première classe est [16 ; 21[, la dernière est [41 ; 46[.
14
FSJES-Oujda
Exemple 2 : Le salaire horaire (en €) des 42 employés { temps partiel d’un magasin { rayons est
respectivement :
6.80 6.80 7.45 7.60 7.30 6.80 6.30
6.30 6.80 6.30 6.30 7.10 7.30 6.80
5.55 6.00 6.90 7.50 6.40 5.90 6.05
5.75 5.55 5.55 5.55 8.25 6.90 7.00
8.35 5.75 6.70 5.90 6.25 6.50 7.15
5.55 6.25 5.90 8.00 6.60 5.55 7.50
Solution :
4. Représentations graphiques
La représentation des résultats graphiquement c.à.d. par des dessins et tracés géométriques facilite la
description des résultats contenus dans le tableau-synthèse des données.
Il existe plusieurs représentations graphiques d’une même série de données. On peut citer le
diagramme { bandes rectangulaires, l’histogramme, le polygone, l’ogive et le diagramme à secteurs
circulaires.
Effectif Fréquences
Marque d’origine
𝑛𝑖 𝑓𝑖
Européenne 20 0.33
Asiatique 24 0.39
Américaine 17 0.28
Total 61 1
Le caractère observé n’a pas de modalités qu’on peut ordonner, on choisira pour le graphe un
diagramme à bandes rectangulaires horizontales.
Exemple2 : On veut connaître le nombre de voitures par foyer américain, on choisit pour cela au
hasard 72 foyers représentant la population d’un état américain. Les résultats sont regroupés dans le
tableau suivant :
Nombre de foyers
Nombre de voitures
𝑛𝑖
0 02
1 19
2 25
3 16
4 07
5 03
Total 72
Les modalités du caractère étudié sont ordonnées, on choisit le diagramme à bandes rectangulaires
verticales.
16
FSJES-Oujda
4.2 Diagramme à secteurs circulaires
Ce type de graphique est utilisé le plus souvent dans le cas du caractère qualitatif. On divise un cercle
en autant de secteurs circulaires qu’il y’a de classes. Pour déterminer l’angle de chaque secteur on
multiplie la fréquence de la classe par 360° .
Reprenons l’exemple 1 :
Remarque : le diagramme { secteurs circulaire convient bien au cas de l’exemple 2 où le caractère est
quantitatif discret.
17
FSJES-Oujda
4.3 Histogramme
Il convient particulièrement pour présenter un caractère quantitatif continu, il est constitué par la
juxtaposition de bandes rectangulaires verticales, mais adjacentes. De plus, chaque rectangle doit
présenter une largeur équivalente { l’amplitude de la classe qu’il représente, et une hauteur telle que
sa surface soit proportionnelle à l’effectif.
14
12
10 8
8 6 6
6 5
4
4
2
0
7,7 9,1 10,5 11,9 13,3 14,7 16,1
Ancienneté
Dans cet exemple, puisque l’amplitude des classes est uniforme c.à.d. la même, la hauteur des
rectangles coïncide avec l’effectif de la classe correspondante.
Dans d’autres exemples, si une classe (le plus souvent la 1ère ou la dernière) a une amplitude différente
de celles des autres classes, alors on doit ajuster la hauteur de cette classe tel que la surface du
rectangle lui correspondant soit proportionnelle à l’effectif.
Exemple2 : Les notes obtenues par un groupe d’étudiants { un examen d’informatique sont répartis
comme suit :
Nombre d’étudiants
Note sur 20
𝑛𝑖
[00 ; 10[ 135
[10 ; 12[ 43
[12 ; 14[ 16
[14 ; 16[ 13
[16 ; 20[ 09
Total 216
18
FSJES-Oujda
La 1ère et la 5ème classe sont d’amplitudes respectivement 10 et 4, tandis que les autres classes ont une
amplitude standard égale à 2.
Pour la 1ère classe, on doit déterminer la hauteur h1 du rectangle de surface 1 ∗ 10 , cette surface
correspondra au rectangle de largeur 2 et de hauteur 135 c.à.d. qu’on doit vérifier :
(270 est la surface du rectangle de la 1ère classe qui est calculée en supposant le rectangle est de
hauteur 135 et de largeur standard 2)
Pour la 5ème classe, la hauteur h2 du rectangle lui correspondant vérifie h2 * 4 = 18, c.à.d. que h2 = 4.5.
40
Effectif des étudiants
35
30 27
25
20 16
15 13
10
4,5
5
0
Note en informatique
4.4 Polygone
Pour dessiner ce graphe, on place tout d’abord les centres des classes sur l’axe des abscisses et pour
chaque centre on place à hauteur verticale un autre point avec une distance correspondant à l’effectif
de la classe considérée. On relie les différents points obtenus par des segments de droite.
Par définition, un polygone est une figure fermée délimitée par des segments.
Pour terminer le graphe, on ferme le polygone en ajoutant deux segments à chaque extrémité, les
points qu’on ajoutera seront sur l’axe des abscisses à une hauteur égal à zéro.
Exemple :
19
FSJES-Oujda
Distribution des cadres selon leur ancienneté
18
16
14
Nombre de cadres
12
10
8
6
4
2
0
6,3 7,7 9,1 10,5 11,9 13,3 14,7 16,1 17,5
Ancienneté
Remarque : Dans les exemples précédents, au lieu de tracer les effectifs sur l’axe vertical, on peut
tracer les fréquences ou les pourcentages, sans que l’allure du graphe change.
4.5 L’ogive
Ce graphe sera utilisé pour tracer les effectifs cumulés, on place tout d’abord les points correspondants
aux limites des classes sur l’axe des abscisses, et pour chaque classe on place un point au dessus de la
limite supérieure de la classe à hauteur l’effectif cumulé de celle-ci. Puis on relie les points par des
segments de droite. On ajoutera un point sur l’axe des abscisses distant de la première limite de classe
par l’amplitude standard des classes puis on relie ce point au graphe.
Remarque : on suppose qu’{ l’intérieure d’une classe la distribution est uniforme, ce qui nous permet
de justifier l’interpolation entre les deux bornes de la même classe par un segment linéaire.
Exemple :
Distribution de 60 cadres selon leur ancienneté
Effectif Effectif
Ancienneté en année Centre 𝑚𝑖
𝑛𝑖 cumulé 𝑁𝑖
[7.0 ; 8.4[ 7.7 6 6
[8.4 ; 9.8[ 9.1 6 12
[9.8 ; 11.2[ 10.5 16 28
[11.2 ; 12.6[ 11.9 15 43
[12.6 ; 14[ 13.3 8 51
[14 ; 15.4[ 14.7 4 55
[15.4 ; 16.8[ 16.1 5 60
Total 60
5.1.1 Le mode
C’est la valeur la plus fréquente (qui se répète le plus souvent), on parle aussi de classe modale, c’est la
classe qui correspond au maximum de l’effectif ou de fréquence.
On notera le mode par 𝑴𝒐.
21
FSJES-Oujda
Exemple1 : soit les trois séries suivantes Série 1 1 3 0 3 2
Série 2 7 6 5 6 4 5 3
Série 3 42 35 18 33 21 23 25
Le mode de la série 1 est 3, ceux de la série 2 sont 6 et 5 tandis que la série 3 n'a pas de mode.
Dans le cas de la classe modale on prendra comme valeur du mode le centre de la classe.
Exemple2 : Dans l’exemple de la distribution de 60 cadres selon leur ancienneté, la classe modale est
[9.8 ; 11.2[ d’effectif maximal égal { 16.
On prend comme valeur modale le centre de classe, c.à.d. la valeur 𝑀𝑜 = 10.5
On dira que l’ancienneté la plus fréquente dans la société est dix ans et demi
5.1.2 La médiane
Dans le cas où 𝑛 est pair, le rang de la médiane se situe entre les observations de rang
𝑛 𝑛
et + 1
2 2
22
FSJES-Oujda
On en prend généralement la valeur intermédiaire (le milieu) comme valeur médiane
il s’agit de la classe qui contient l’observation de rang (n+1)/2, c’est-à-dire la première classe
dont la fréquence cumulée égale ou dépasse 50%
On donne les deux formules qui approche la valeur médiane, l’une utilisera les effectifs et l’autre les
fréquences.
Si on utilise les effectifs, on peut approcher la valeur de la médiane par la formule suivante :
𝑛
− 𝑁𝑖−1
𝑀𝑒 ≅ 𝑏𝑖𝑛𝑓 + 2 ∗ 𝑐
𝑛𝑖
23
FSJES-Oujda
Exemple : Reprenons l’exemple de la distribution de l’ancienneté de 60 cadres d’une société
Effectif Effectif
Ancienneté en année
𝑛𝑖 cumulé 𝑁𝑖
[7.0 ; 8.4[ 6 6
[8.4 ; 9.8[ 6 12
[9.8 ; 11.2[ 16 28
[11.2 ; 12.6[ 15 43
[12.6 ; 14[ 8 51
[14 ; 15.4[ 4 55
[15.4 ; 16.8[ 5 60
Total 60
Calculons
𝑛+1
= 30.5
2
La médiane se situe dans la 4ème classe, c ‘est la classe médiane. Elle contient aussi toutes les données
(ordonnées dans le sens croissant) dont le rang est compris entre 29 et 43.
Ainsi, on obtient :
30 − 28
𝑀𝑒 ≅ 11.2 + ∗ 1.4 = 11.387
15
Conclusion : on peut affirmer que 50% des cadres de la société ont une ancienneté inférieure à 11.39
années et que les 50% qui restent ont une ancienneté de plus de 11.39 années
Si on veut utiliser la colonne des fréquences
Fréquence Fréquence
Ancienneté en année
𝑓𝑖 cumulée 𝐹𝑖
[7.0 ; 8.4[ 0.10 0.10
[8.4 ; 9.8[ 0.10 0.20
[9.8 ; 11.2[ 0.27 0.47
[11.2 ; 12.6[ 0.25 0.72
[12.6 ; 14[ 0.13 0.85
[14 ; 15.4[ 0.07 0.92
[15.4 ; 16.8[ 0.08 1.00
Total 1
24
FSJES-Oujda
Remarque : on peut schématiser la médiane sur un graphe de type histogramme ou ogive.
Médiane
Surface = Surface
100 %
50 %
Médiane
On va la noter 𝝁 pour la moyenne d’une population et 𝒙 ou 𝒙𝒏 pour la moyenne d’un échantillon (en
anglais, mean ou average). C'est la somme des valeurs observées divisée par le nombre d'observations.
Elle représente le centre de gravité de l’ensemble des points représentés par les valeurs de la série,
c.à.d. le point d’équilibre de toutes les données de la série en positionnant les valeurs sur une échelle
graduée.
25
FSJES-Oujda
Dans le cas où toutes les données de la population sont fournies, la moyenne sera calculée sur les 𝑁
valeurs observées :
𝑁
1
𝜇= 𝑥𝑖
𝑁
𝑖=1
avec 𝑥𝑖 la ième valeur observée dans la série des données.
Si le paramètre 𝜇 (mu) est inconnu, on le remplace par la moyenne 𝑥𝑛 calculée sur les 𝑛 données de
l’échantillon :
𝑛
1
𝑥𝑛 = 𝑥𝑖
𝑛
𝑖=1
1 2 2 1 3 0 1 4 2 1 1 2 3 2 2 5 4 3 2 1 2 2 3 2
1 1 2 3 4 2 1 2 2 3 2 1 2 3 4 3 3 5 2 2 3 1 1 2
2 1 1 3 1 1 2 2 3 4 2 3 1 3 4 2 1 1 3 4 0 5 2 3
26
FSJES-Oujda
Cas d’un caractère continu où les données sont groupées en classes :
Les données considérées ici proviennent d’un caractère quantitatif continu.
On calcule approximativement la valeur de la moyenne en utilisant les centres des classes :
𝑘 𝑘
1
𝜇≅ 𝑛𝑖 𝑚𝑖 = 𝑓𝑖 𝑚𝑖 ,
𝑛
𝑖=1 𝑖=1
avec
𝑘 est le nombre de classes
𝑚𝑖 est le centre de la ième classe
Exemple :
Distribution de 60 cadres selon leur ancienneté
Effectif
Ancienneté en année Centre 𝑚𝑖 𝑛𝑖 𝑚𝑖
𝑛𝑖
[7.0 ; 8.4[ 7.7 6 46.2
[8.4 ; 9.8[ 9.1 6 54.6
[9.8 ; 11.2[ 10.5 16 168.0
[11.2 ; 12.6[ 11.9 15 178.5
[12.6 ; 14[ 13.3 8 106.4
[14 ; 15.4[ 14.7 4 58.8
[15.4 ; 16.8[ 16.1 5 80.5
Total 60 693.0
D’où
693
𝜇= = 11.55
60
Remarque : les valeurs extrêmes ne modifient pas la médiane. La moyenne arithmétique par contre y
est sensible, on dit qu'elle n'est pas robuste.
Moyenne pondérée :
Dans beaucoup de cas, on est amené à pondérer les valeurs en les multipliant par des coefficients de
pondération (des poids), le but est de dire que les données recueillis n’ont pas la même importance.
Dans le cas où on accorde la même importance pour toutes les données de la série, c.à.d. que 𝑝𝑖 = 𝑝
pour tout 𝑖, alors la formule de la moyenne pondérée 𝑥𝑝 coïncidera avec la moyenne arithmétique 𝑥 :
𝑛 𝑛 𝑛
𝑖=1 𝑝𝑖 𝑥𝑖 𝑖=1 𝑝 𝑥𝑖 𝑝 𝑖=1 𝑥𝑖
𝑥𝑝 = 𝑛 = 𝑛 = =𝑥
𝑖=1 𝑝𝑖 𝑖=1 𝑝 𝑛𝑝
Exemple1 : Dans un groupe d’étudiants, on a calculé la moyenne de groupe des 3 matières examinées,
le système de coefficients différencie chaque matière par le coefficient qui lui correspond, on voudrait
calculer la moyenne générale de groupe.
27
FSJES-Oujda
Coefficient Moyenne de
Matière 𝑝𝑖 𝑥𝑖
𝑝𝑖 groupe 𝑥𝑖
1 1 11.3 11.3
2 2 9.5 19
3 1.5 12.7 19.05
Total 4.5 49.35
Exemple2 : Dans une usine, on fabrique des pièces simultanément par 5 machines différentes, placées
parallèlement, on veut connaître le pourcentage des pièces défectueuses résultant de cette production.
On a trouvé les résultats suivants :
On doit inclure le poids de chaque échantillon, le poids est présenté ici par la taille de l’échantillon :
2100, 2100, 2100, 2000, 2000, 2200, 2200, 2000, 2600, 11000, la moyenne de cette série est :
28
FSJES-Oujda
30300
𝑥= = 3030
10
Tous les salaires, sauf un, sont inférieurs à cette moyenne.
Dans cet exemple, on ne peut pas se fier { cette moyenne, mais on peut utiliser d’autres mesures de
tendance centrale comme la médiane :
Le nombre d’observation 𝑛 = 10 est pair, on prend la médiane comme la moyenne de la 5ème et la 6ème
valeurs des données ordonnées par ordre croissant :
2000, 2000, 2000, 2100, 2100, 2100, 2200, 2200, 2600, 11000
2100 + 2100
𝑀𝑒 = = 2100
2
Cette valeur représente bien la réalité des salaires dans cette petite entreprise.
Dans d’autres cas, on trouve que la 1ère ou la dernière classe n’est pas bornée, le centre de classe
n’existe pas et ne sera pas utilisé dans la formule du calcul de la moyenne, dans ce cas on utilise la
médiane ou le mode.
La dernière classe n’a pas de limite supérieure, il est impossible de calculer la moyenne, mais on peut
procéder au calcul de la médiane :
𝑛 est impair, 𝑛 2 = 213 2 = 106.5 ; la médiane se situe dans la 3ème classe et on a :
𝑛
2−𝑁2
𝑀𝑒 ≅ 1000 + 𝑛3
∗ 𝑐, 𝑁2 = 81, 𝑛3 = 33 et 𝑐 = 500, ce qui donne
106.5 − 81
𝑀𝑒 ≅ 1000 + ∗ 500 = 1386.36 𝐷𝐻
33
On va conclure que 50% des salariés ont des salaires hebdomadaires inférieurs ou égaux à 1386.36DH.
Pour le mode, il ne constitue pas le premier choix pour le calcul de la mesure de la tendance centrale,
puisqu’il est peu stable dans certains cas où on peut changer une seule donnée pour passer d’une
classe modale à une autre. Mais en général le mode se situe proche de la moyenne et on est intéressé
par connaître la valeur dominante dans la série des données.
29
FSJES-Oujda
Exemple1 : Soit la série suivante : 4, 4, 3, 0, 1, 2, 5, 3, 3, 2, 0, 1, 5.
Le mode est égale { 3, mais une modification d’une seule donnée peut basculer le mode pour prendre
une autre valeur.
Exemple2 : Dans une enquête, on a recensé le nombre d’individus inscris dans un club sportif par
tranche d’âge
Une mesure de dispersion permet d’étudier la dispersion des observations, son objectif est de trouver
un indicateur de cette dispersion. Il faut noter qu’un indicateur de dispersion est toujours supérieur ou
égal { 0. On dira qu’il n’y a pas de variabilité dans les observations si cette dispersion est égale à 0.
Si on résume les données 𝑥𝑖 par leur moyenne 𝑥𝑛 . La moyenne serait la valeur qui représentera toutes
les 𝑛 données 𝑥𝑖 , ainsi on commet 𝑛 erreurs 𝑥𝑖 − 𝑥𝑛
𝑥1 𝑛 𝑥1 − 𝑥𝑛
𝑥2 1 𝑥2 − 𝑥𝑛
⋮ → 𝑥𝑛 = 𝑛 𝑥𝑖 →
⋮
𝑥𝑛 𝑖=1
𝑥𝑛 − 𝑥𝑛
5.2.1 L’étendue
C’est la 1ère mesure de la variabilité des données, elle ne reflète pas la réalité des données puisqu’elle
est la différence de deux valeurs, la plus petite et la plus grande, qui peuvent coïncider avec des valeurs
extrêmes.
Exemple : le résultat d’un examen d’un petit groupe d’étudiants est le suivant :
11, 11, 10, 10, 10, 11, 01, 10, 17,
5.2.2 La variance
Elle évalue la distance entre la moyenne et toutes les données. Dans le cas où les données de toute la
population seraient connues, on définit la variance qu’on note en général par 𝜎 2 (sigma au carré) :
𝑁
1
𝜎2 = 𝑥𝑖 − 𝜇 2
𝑁
𝑖=1
1 𝑁
avec 𝜇 = 𝑁 𝑖=1 𝑥𝑖 la moyenne de toute la population.
La variance est toujours positive puisque c’est la somme de carrés. Dans le cas où on n’aurait pas
toutes les données, sauf celles d’un échantillon, on calcule la variance (qu’on notera 𝑠 2 ou 𝑠𝑛2 ) sur
l’échantillon en remplaçant dans la formule de 𝜎 2 , 𝜇 par 𝑥 et 𝑁 par 𝑛.
Exemple :
Distribution des foyers américains selon le nombre de voitures possédées
Nombre de 2 Nombre de 2
𝑥𝑖∗ 𝑛𝑖 𝑥𝑖∗ 𝑛𝑖 𝑥𝑖∗
voitures 𝑥𝑖∗ foyers 𝑛𝑖
0 0 2 0 0
1 1 19 19 19
2 4 25 50 100
3 9 16 48 144
4 16 7 28 112
5 25 3 15 75
31
FSJES-Oujda
Total n = 72 160 450
La variance qu’on a exprimée auparavant est d’autant plus grande que les données s’éloignent de la
moyenne, cette mesure est exprimée au carré de l’unité de mesure des données, c’est pour cette raison
qu’on a besoin de l’exprimer dans l’unité des données en introduisant une mesure de dispersion qui
est la racine carré de la variance.
On note 𝜎 l’écart type associé { la population et 𝑠 l’écart type associé { l’échantillon. On pose :
𝜎= 𝜎 2 et 𝑠 = 𝑠2
Cette mesure, par définition, est positive.
32
FSJES-Oujda
Exemple : On calcule l’écart type dans l’exemple de la distribution des foyers américains selon le
nombre de voitures possédées, on trouve la valeur 𝑠 = 1.145.
De même pour la distribution des 60 cadres selon leur ancienneté, on trouve la valeur 𝜎 = 2.28.
Il est dit encore coefficient de dispersion relative, ce coefficient est par définition le rapport, en valeur
absolue, de l’écart type { la moyenne, rapport exprimé en pourcentage.
Notée 𝑽, cette mesure permet de comparer la dispersion entre deux séries de données rattachée à des
caractères qui peuvent être tout à fait différents.
Il permet ainsi de comparer un caractère sur des populations différentes avec des moyennes
différentes ou exprimés avec des unités différentes ; par exemple comparer le prix d’un article vendu
au Maroc en milliers de dirhams avec son prix vendu en Europe en centaines d’euros.
Plus grande est l’homogénéité des données d’une série par rapport { la moyenne, plus faible sera le
coefficient de variation du caractère. Inversement, plus étalées sont les données par rapport à la
moyenne, plus grande sera la valeur du coefficient de variation.
Dans le cas d’une population, on pose donc
𝜎
𝑉= ∗ 100
𝜇
où 𝜎 est l’écart type et 𝜇 la moyenne.
Dans le cas d’un échantillon, on a :
𝑠
𝑉= ∗ 100
𝑥
Puisqu’on évalue la valeur absolue du rapport de l’écart type { la moyenne, le coefficient de variation
est une valeur qui est toujours supérieur ou égale à 0.
33
FSJES-Oujda
5.3.1 Les quantiles
Les quantiles correspondent aux valeurs numériques qui occupent des positions bien précises dans le
classement ascendant (croissant) des données d’une série.
Définition1 : le quantile d’ordre 𝛼 (alpha), noté 𝑞𝛼 , est la valeur d’un caractère pour laquelle on
retrouve une proportion 𝛼 de données qui lui sont inférieures ou égales dans la série.
Remarque : la médiane correspond au quantile d’ordre 50%, on peut écrire 𝑀𝑒 = 𝑞0.5 = 𝑞50% .
Parmi les quantiles les plus utilisés, on retrouve les quartiles, les déciles et les centiles.
Définition2 : les quartiles sont les 3 valeurs qui divisent une série en quatre parties contenant
chacune, autant que possible, 25% des données. Ces valeurs sont notées 𝑄1 , 𝑄2 et 𝑄3 , ou 𝑞1 4 , 𝑞2 4 et
𝑞3 4 respectivement.
Définition3 : Les déciles sont les 9 valeurs qui divisent une série en 10 parties contenant chacune,
autant que possible, 10% des données. Ces valeurs sont notées 𝐷1 , 𝐷2 , … , 𝐷9 ou 𝑞1 10 , 𝑞2 10 , … , 𝑞9 10
respectivement.
Définition4 : Les centiles sont les 99 valeurs qui divisent une série en 100 parties contenant chacune,
autant que possible, 1% des données. Ces valeurs sont notées 𝐶1 , 𝐶2 , … , 𝐶99 ou 𝑞1 100 , 𝑞2 100 , … , 𝑞99 100
respectivement.
Remarque : de façon pratique, les quantiles prennent vraiment leurs sens quand le nombre de
données d’une série s’avère assez considérable.
𝑄1 = 𝑞1 4 51.79
𝑄2 = 𝑞2 4 59.65
𝑄3 = 𝑞3 4 65.02
Définition d’une valeur aberrante : une valeur aberrante de la série est toute donnée qui s'écarte
d'une façon remarquable de l'ensemble des données.
34
FSJES-Oujda
On donne une règle pratique et qui est dû à Tukey, pour décider si une donnée est une valeur
aberrante ou non.
Règle de Tukey : une donnée peut être appelé valeur aberrante si elle s'écarte d'une distance d'au
moins 1.5 ∗ (𝑄3 − 𝑄1 ) au-dessus de 𝑄3 ou en-dessous de 𝑄1 .
Préalablement à tout calcul, il faut réaliser le classement ascendant des 𝑛 données de la série
statistique. Par rapport { ce classement, la position du quantile d’ordre alpha est déterminée par
𝑝 = 𝛼𝑛
𝑄1 = 𝑞1/4 = 𝑥3 = 9
𝑥5 + 𝑥6
𝑄2 = 𝑞1/2 = = 11
2
𝑄3 = 𝑞3/4 = 𝑥8 = 12
Y-a-t-il des données aberrantes dans la série ?
On calcule,
1.5 𝑄3 − 𝑄1 = 1.5 12 − 9 = 4.5
Toute valeur au-dessous de 𝑄1 − 1.5 𝑄3 − 𝑄1 = 9 − 4.5 = 4.5 ou au-dessus de 𝑄3 + 1.5 𝑄3 − 𝑄1 =
12 + 4.5 = 16.5 est une valeur aberrante, on décide que les trois valeurs 0, 2 et 20 sont aberrantes.
Si on veut étudier une série de données, il est préférable d’éliminer l’effet des valeurs aberrantes. On
donne l’exemple du calcul de la moyenne et de la variance, avant et après l’élimination des trois
valeurs aberrantes :
Les dix données ont une moyenne de 10.10 avec une variance de 29.09. Si on reprend le calcul avec les
sept valeurs non aberrantes, on aura une moyenne de 11.29 avec une variance de seulement 2.20.
Il y a moins de dispersion dans la série quand on a éliminé les valeurs aberrantes.
35
FSJES-Oujda
Calcul d’un quantile pour des données groupées en classes
Sur la base d’une distribution d’effectifs ou de fréquences, l’approximation du quantile d’ordre alpha
𝑞𝛼 est donnée par la formule
𝛼𝑛 − 𝑁𝑖−1
𝑞𝛼 = 𝐿𝑖 + ∗𝑐
𝑛𝑖
où 𝑛 la taille de l’échantillon,
𝑁𝑖−1 est l’effectif cumulé de la classe précédente la classe contenant la valeur du quantile cherché.
𝐹𝑖−1 est la fréquence cumulée de la classe précédente la classe contenant la valeur du quantile
cherché.
Remarque : il est facile de voir que certains quantiles se coïncident. Par exemple :
𝑞1/2 = 𝑄2 = 𝐷5 = 𝐶50 = 𝑀𝑒
𝑞1/10 = 𝐷1 = 𝐶10
ou
𝑞3/4 = 𝑄3 = 𝐶75
54 − 0
𝑄1 = 𝑞1/4 = 0 + ∗ 10 = 4
135
108 − 0
𝑄2 = 𝑞1/2 = 0 + ∗ 10 = 8
135
36
FSJES-Oujda
162 − 135
𝑄3 = 𝑞3/4 = 10 + ∗ 2 = 11.256
43
En calculant les trois quartiles d’une série, on peut faire une représentation des données sous une
forme de boite avec deux moustaches (voir diagramme suivant). La représentation est faite sur l’axe
des observations, en rapportant dans l’ordre croissant, la plus petite valeur non aberrante, puis le
premier, le deuxième et le troisième quartile et en dernier on ajoute la plus grande valeur non
aberrante :
Exemple : dans le dernier exemple, on a pas trouvé de valeurs aberrantes, on va tracer une boite à
moustaches des notes d’informatique,
8
0 4 11,25 20
50%
C’est la distribution selon la loi normale 𝑁(𝜇, 𝜎) (on lui donne d’autres noms comme la loi gaussienne
ou la loi de Laplace-gauss), 𝜇 et 𝜎 représentent respectivement la moyenne et l’écart type de la
37
FSJES-Oujda
population, ces deux paramètres sont en général inconnus. La courbe qui représente cette distribution
est donnée par la fonction suivante :
1 −
1 𝑥−𝜇 2
𝑥 𝑓𝑁 𝑥 = 𝑒 2 𝜎
𝜎 2𝜋
avec 𝜋 = 3.14159 …
Cette distribution a la forme d’une cloche symétrique par rapport { l’axe 𝑥 = 𝜇, ses extrémités sont
tangentes { l’axe des abscisses.
La quasi-totalité des données sont rassemblées dans un rayon de 3𝜎. Plus l’écart type est grand, plus
les données sont dispersées autour de la moyenne.
La loi normale la plus utilisée en pratique est la loi 𝑁(0,1) dite loi normale standard, toute les autres
lois normales se ramènent à la loi normale standard.
38
FSJES-Oujda
𝛾 = 0 si la distribution est symétrique par rapport à la moyenne 𝑥 ;
𝛾 > 0 si la distribution est plus étalée { droite qu’{ gauche de la moyenne ;
𝛾 < 0 si la distribution est plus étalée { gauche qu’{ droite de la moyenne.
𝛾>0 𝛾<0
Oblique
Etalée
à gauche
à droite
Remarque : si la distribution est totalement symétrique, il faudra remarquer que la médiane n’est
autre que la moyenne.
𝛤 = 0 si l’aplatissement est le même que celui d’une loi normale standard ; on dit que la courbe
est mesokurtique ;
Γ > 0 si la distribution est moins aplatie ; on dit que la courbe est leptokurtique ;
−2 ≤ Γ < 0 si la distribution est plus aplatie ; on dit que la courbe est platikurtique .
3.17
𝛾= = 0.26 > 0
11.865
La distribution n’est pas symétrique, elle est plus étalée à droite, on peut bien le remarquer sur le
polygone de fréquences ou l’histogramme.
39
FSJES-Oujda
Le coefficient d’aplatissement
69.43
𝛤= − 3 = −0.43 < 0
27.06
c.à.d. que la courbe est platikurtique : la distribution est plus aplatie que celle de la loi normale
standard.
BIBLIOGRAPHIE
1. D.R. Anderson, D.J. Sweeney, T.A. Williams, (2010) Statistiques pour l’économie et la gestion, De
Boeck.
2. D. Audet, C. Boucher, A. Caumartin, C. Skeene, (1993) Probabilités et statistique, gaëtan morin.
3. J.-M. Martel (1972) Décision et inférence statistique en affaires, Les Presses de l’université Laval.
4. P.-C. Pupion (2008) Statistiques pour la gestion, applications avec Excel et SPSS, Gestion Sup,
Dunod
40
FSJES-Oujda