0% ont trouvé ce document utile (0 vote)
54 vues40 pages

Chapitre 1

Ce document présente une introduction à l'analyse d'une série de données univariées dans le cadre d'un cours de statistique descriptive. Il définit des concepts clés tels que la population, l'échantillon, et les caractères qualitatifs et quantitatifs, tout en expliquant les méthodes de collecte, d'organisation et de résumé des données. Le document aborde également les représentations graphiques et les mesures caractéristiques des données.

Transféré par

kademrihab1
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
54 vues40 pages

Chapitre 1

Ce document présente une introduction à l'analyse d'une série de données univariées dans le cadre d'un cours de statistique descriptive. Il définit des concepts clés tels que la population, l'échantillon, et les caractères qualitatifs et quantitatifs, tout en expliquant les méthodes de collecte, d'organisation et de résumé des données. Le document aborde également les représentations graphiques et les mesures caractéristiques des données.

Transféré par

kademrihab1
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université Mohamed Premier

Faculté des Sciences Juridiques,


Économiques et Sociales d’Oujda

STATISTIQUE DESCRIPTIVE
Chapitre 1 : Analyse d’une série de donnée univariée

Première année sciences économiques et gestion


Semestre 1

Année Universitaire :
2020-2021
Notations et abréviations
𝑛𝑖 Effectif
𝑁𝑖 Effectif cumulé
𝑓𝑖 Fréquence
𝐹𝑖 Fréquence cumulée
𝑀𝑜 Mode
𝑀𝑒 Médiane
𝜇 Moyenne d’une population
𝑥 ou 𝑥𝑛 Moyenne d’un échantillon

𝜎2 Variance d’une population

𝑠 2 ou 𝑠𝑛2 Variance d’un échantillon


𝜎 Écart-type d’une population
𝑠 ou 𝑠𝑛 Écart-type d’un échantillon

2
FSJES-Oujda
Sommaire

Chapitre 1: Analyse d’une série de donnée univariée _________________________________ 4


1. Introduction ____________________________________________________________________ 4
1.1 Exemple _______________________________________________________________________________ 4

2. Terminologie liée à la statistique ____________________________________________________ 6


3. Présentation des résultats : Tableau-Synthèse _________________________________________ 9
3.1 Cas d’un caractère qualitatif _______________________________________________________________ 9
3.2 Cas d’un caractère quantitatif discret _______________________________________________________ 10
3.3 Cas d’un caractère quantitatif continu ______________________________________________________ 11
3.3.1 Procédé de construction des classes dans le cas continu : __________________________________ 11

4. Représentations graphiques_______________________________________________________ 15
4.1 Diagramme à bandes rectangulaires ________________________________________________________ 15
4.2 Diagramme à secteurs circulaires __________________________________________________________ 17
4.3 Histogramme __________________________________________________________________________ 18
4.4 Polygone ______________________________________________________________________________ 19
4.5 L’ogive _______________________________________________________________________________ 20

5. Calcul des mesures caractéristiques ________________________________________________ 21


5.1 Mesures de tendance centrale ____________________________________________________________ 21
5.1.1 Le mode _________________________________________________________________________ 21
5.1.2 La médiane _______________________________________________________________________ 22
5.1.3 La moyenne arithmétique ___________________________________________________________ 25
5.2 Mesures de dispersion ___________________________________________________________________ 30
5.2.1 L’étendue ________________________________________________________________________ 31
5.2.2 La variance _______________________________________________________________________ 31
5.2.3 L’écart type _______________________________________________________________________ 32
5.2.4 Coefficient de variation _____________________________________________________________ 33
5.3 Mesures de position ____________________________________________________________________ 33
5.3.1 Les quantiles ______________________________________________________________________ 34
5.3.2 Intervalle et écart interquartile _______________________________________________________ 34
5.3.3 Construction d’un diagramme en boite à moustache (Box plot) _____________________________ 37
5.4 Mesures de forme ______________________________________________________________________ 37
5.4.1 Représentation des données selon une courbe normale ___________________________________ 37
5.4.2 Coefficients d’asymétrie et d’aplatissement _____________________________________________ 38

Bibliographie __________________________________________________________________ 40

3
FSJES-Oujda
Chapitre 1: ANALYSE D’UNE SÉRIE DE DONNÉE UNIVARIÉE

1. Introduction
Nous nous intéressons ici { l’étude de données d’une série statistique, cette série peut être le résultat
d’une enquête sur un phénomène de l’économie ou plus généralement des sciences sociales. Enquêter
ici est dans le sens où on cherche des informations auprès d’une population. Le statisticien ou
l’économiste statisticien doit travailler avec les données de l’enquête afin de les résumer par des
méthodes statistiques1. La manipulation des données ou des statistiques est quelques fois difficile, il
faudra être attentif au choix des méthodes statistiques. Les interprétations des résultats de l’enquête
doivent être soigneusement écrites sans distraction ou manipulation. Voici un exemple qui illustre
cela.

1.1 Exemple
Dans un établissement universitaire, on se pose la question si la sélection des étudiants { l’inscription
est { l’avantage des hommes ou non ?

Sur l’ensemble de l’établissement, on a les résultats suivants :


H F
Candidats 1198 449
Sélectionnés 534 113
Proportion 44.6% 25.2%

Conclusion : la sélection est { l’avantage des hommes

On reprend les résultats selon les deux départements A et B :


H F
Département A 512/825 89/108
Proportion 62% 82.4%
Département B 22/373 24/341
Proportion 6% 7%

Conclusion : la sélection est { l’avantage des femmes

 Les deux démarches sont correctes


 Rien ne permet de dire que l’une est plus raisonnable que l’autre !

Il faut distinguer la bonne interprétation à travers la bonne méthode

Définition de la STATISTIQUE
La statistique est une méthode scientifique dont l'objet est

1
Un économiste statisticien est considéré comme un métier, il peut être chargé des prévisions des ventes ou d’achats,
pour cela, il doit être capable de mener des études de marché en utilisant les outils statistiques
4
FSJES-Oujda
 de recueillir,
 d’organiser et de résumer
 et d'analyser
les données d'une enquête, d'une étude ou d'une expérience, puis
 de tirer les conclusions logiques
 et de prendre les décisions qui s'imposent à partir des analyses effectuées.

EXEMPLE :
Le gouvernement marocain veut réorienter sa politique sociale. Il demande au HCP (HAUT-
COMMISSARIAT AU PLAN) la structure de la population :
 âge
 revenu
 catégorie socioprofessionnelle
 état civil
 etc.
Le HCP doit procéder aux étapes suivantes :

1. Recueillir les informations utiles


2. Organiser ces données
3. Les résumer si nécessaire

1. La collecte de données :
De quelle information avons-nous besoin ?
 C’est l’objet de l’étude
Qui doit-on examiner ?
 Qui est/sont le/s sujet/s (Population, échantillon)
Comment faire ?
 C’est la méthode (sondages, entretiens)

2. Organisation des données : nous présentons ici les données sous forme de tableaux ou de
graphiques

Partons d’un échantillon de 1000 personnes, nous avons donc 1000 revenus.

Nous pouvons présenter ces chiffres par le biais de

o Tableau de synthèse

o Histogramme

Et si l’information est trop riche, on ne tire que des données caractéristiques, c.à.d.

5
FSJES-Oujda
3. Résumer l’information : On n’en choisi que quelques paramètres significatifs (par exemple mode,
médiane, moyenne, etc)

Ces trois points sont du domaine de la statistique descriptive.

Si la moyenne des revenus échantillonnés est par exemple de 3256 DH.


Que représente cette valeur par rapport { l’ensemble de la population ?
C’est cela qui importe vraiment pour le gouvernement. Nous entrons là dans le domaine de la
statistique inférentielle (dite aussi statistique inductive ou statistique mathématique) (cours du
semestre 3)

Statistique descriptive  la moyenne est de 3256 DH sur 1000 individus.

le revenu moyen de la population a 95% de chance de se situer


Statistique inférentielle 
dans l’intervalle [3156, 3356]

Une étude de statistique peut se résumer ainsi :

Statistiques descriptives (S1) Calcul de probabilités (S2)


 collecte des données  loi de probabilité
 présentation  mathématique des phénomènes
 résumé aléatoires

Statistiques inférentielle (S3)


 Traitement et interprétation
des données avec les outils du
calcul de probabilité.

2. Terminologie liée à la statistique


Définition 1 : La population est l'ensemble de tous les individus concernés lors de l'étude d'un sujet
particulier.

Exemple 1 : Dans le milieu rural, pour établir la proportion des enfants qui meurent avant l'âge de 5
ans, on considère la population des enfants du milieu rural dont la tranche d'âge se situe entre 0 et 5
ans (strictement).

Remarque : une population peut être


 finie (une population de personnes) ou
 infinie (les produits fabriqués en série sans arrêt)
6
FSJES-Oujda
Exemple 2 : Dans une entreprise de fabrication de batteries pour des Smartphones model A1, A2 et
A3, on veut étudier la durée de consommation de la batterie chargée de model A1, on considère la
population de toutes les batteries des Smartphones model A1 fabriquées par l'entreprise.

Définition 2 : On appelle échantillon toute partie ou sous-ensemble de la population.

Exemple 1 : Pour connaître la réaction des conducteurs de voitures vis-à-vis de la hausse du


carburant, on interroge au hasard des automobilistes.

Exemple 2 : Pour établir le taux de pourcentage des pièces de mauvaise qualité fabriquées par une
machine, on tire au hasard dans un lot fabriqué par cette machine un échantillon.

Définition 3 : On appelle individu chaque élément de la population ou de l'échantillon.

On peut utiliser le terme « unité statistique » quand l'élément représente


- un objet
- un événement
- une entité précise comme l’entreprise
- un groupe de personnes ou d'objets

Exemples :
 Chaque automobiliste dans l'exemple précédent est un individu
 Toute pièce fabriquée par la machine est une unité statistique
 Dans le recensement national marocain de 2014, on veut établir le nombre moyen d'enfants par
famille dans les régions rurales, chaque famille dans ces régions est une unité statistique.

Définition 4 : La taille représente le nombre d'individus d'une population (on notera 𝑁) ou d'un
échantillon (on notera 𝑛).

Définition 5 : Le caractère (ou variable) est l'aspect particulier que l'on désire étudier.

Exemple : Dans une enquête concernant une population de personnes, on peut s'intéresser à
- L’âge
- La taille
- Le sexe
- Le niveau d'éducation
- L’opinion sur un sujet donné
- ……

Définition 6 : On appelle modalités (réalisation ou état possible du caractère) les différentes


possibilités que peut présenter un caractère.
7
FSJES-Oujda
Exemple 1 : Le nombre d'enfants par famille est un caractère de modalités les nombres entiers
suivants 0, 1, 2, 3, 4,…

Exemple 2 : L'appréciation que peut retenir une clientèle vis-à-vis d'un service ou d'un produit
(comestible ou pas) est un caractère qui peut avoir plusieurs modalités, on donne l’exemple d’un
produit alimentaire, électroménager et d’un service :

Pour un produit alimentaire :


 Excellent  Très bon  Assez bon  Moyen  Pas bon

Pour un produit électroménager :


 Très utile  Utile  Moins utile

Pour un produit service :


 Excellent  Important  Banal  Long  Rapide  Convivial  Mal entretenu,…

Définition 7 : On dit d'un caractère qu'il est qualitatif si ses modalités ne s'expriment pas par un
nombre.

Exemple : L'opinion, le sexe, ou la couleur des cheveux sont des caractères qualitatifs.

Remarque : on distingue deux cas pour un caractère qualitatif


- le cas où les modalités représentent un certain accroissement significatif
- le cas du caractère où les modalités n’ont aucune relation avec le sens des
accroissements.

Dans le premier cas le caractère est dit ordinal tandis que le deuxième est dit nominal

Exemple : l’appréciation d’un client pour un produit est un caractère ordinal, on peut comprendre
ainsi qu’une appréciation « Excellent » est mieux que « Bon »

Remarque : dans le cas d’un caractère ordinal on peut utiliser une échelle de nombres entiers

0 1 2 3 4 5 6 7 8 9 10

Absence Moyen Excellent

Définition 8 : On dit d'un caractère qu'il est quantitatif si ses modalités sont numériques.

Exemple 1 : L'âge, la taille, le poids et la consommation journalière du lait par individu sont des
caractères quantitatifs.

8
FSJES-Oujda
Exemple 2 : Le revenu d'un employé est un caractère quantitatif.

Remarque : Dans l'exemple 2, si on classe le revenu en des tranches de


- 0 à 2000DH
- 2000DH à 5000DH
- 5000DH et plus

On peut toujours ramener ce caractère en qualitatif en posant pour les trois tranches les modalités
- "faible"
- "moyen"
- "élevé"

Définition 9 : On appelle série statistique l'ensemble des différentes données associées aux individus
d'un échantillon ou d'une population.

Exemple 1 : La série suivante résulte d'une enquête auprès de quelques personnes pour connaître
leur âge :

21 25 18 37 26 19 40 35 22 27
23 18 34 41 28 29 31 30 23 29

Exemple 2 : La série suivante détermine la durée de vie dans un échantillon d'ampoules (elle est
exprimée en heures) :

200 210 205 195 170 180 190 206 185 212 196 198
198 199 207 203 205 196 201 189

Une série statistique peut être traitée de plusieurs façons différentes, en général on distingue

- le résumé des données sous forme de tableau,

- la représentation graphique

- le calcul des mesures caractéristiques dans le cas de caractères numériques (une mesure
caractéristique peut être la moyenne, la médiane, …)

3. Présentation des résultats : Tableau-Synthèse

3.1 Cas d’un caractère qualitatif


En distinguant les modalités du caractère observé, chacune d’elles constitue une classe particulière.
En comptant le nombre de données de la série qui se trouve dans la même classe, on constitue ce qu’on
appelle « Effectif ».

Si le caractère a 𝑘 modalités distinctes, les effectifs associés seront respectivement 𝑛1 , 𝑛2 , ⋯ , 𝑛𝑘 . Si 𝑛


est la taille de l’échantillon, on doit avoir
9
FSJES-Oujda
𝑛1 + 𝑛2 + ⋯ + 𝑛𝑘 = 𝑛
Effectifs : représentent les distributions des individus ou des unités statistiques sur les différentes
modalités.

On parle aussi de fréquences des classes :


𝑛𝑖
𝑓𝑖 =
𝑛
Qu’on peut exprimer par des pourcentages (il s’ agit d’un formatage), en multipliant les fréquences par
100
𝑛1 𝑛2 𝑛𝑘
100 , 100 , ⋯ ,100
𝑛 𝑛 𝑛
Remarque : une fréquence 𝑓𝑖 𝜖 [0,1] se confond à la probabilité qu’un individu appartienne à la ième
classe.

3.2 Cas d’un caractère quantitatif discret


Définition : Un caractère quantitatif est discret si l’ensemble des valeurs qu’il peut prendre est fini ou
dénombrable. Le plus souvent, ces valeurs sont entières.

Remarque : si le caractère a un nombre petit de modalités, on peut former des classes comme dans le
cas du caractère qualitatif.
Par contre si le nombre de modalités est très grand, on traite le cas comme pour le cas du caractère
continu.

Exemple : Le nombre d’enfants par famille dans une région est représenté dans la série suivante :

2 2 3 1 0 4 0 1 3 6 5 1 5 6 4 2 2
5 2 3 4 0 4 3 2 4 3 5 1 3 2 2 3 2

On résume ces données dans le tableau suivant :


Répartition de 34 familles d’une région selon le nombre d’enfants

Effectifs Fréquences Pourcentage


Nombre d’enfants
𝑛𝑖 𝑓𝑖 100𝑓𝑖
0 3 0.09 8.82
1 4 0.12 11.77
2 9 0.26 26.47
3 7 0.20 20.59
4 5 0.15 14.71
5 4 0.12 11.76
6 2 0.06 5.88
Total 34 (= n) 1.00 100.00

10
FSJES-Oujda
3.3 Cas d’un caractère quantitatif continu
Définition : Un caractère quantitatif est dit continu s’il peut prendre théoriquement n’importe quelle
valeur dans un intervalle donné de nombres réels.

Exemple : La taille et le poids d’un individu.

Construire une distribution d’effectifs :


 Constituer un certain nombre de classes.
 Toute classe représente un intervalle délimité par ses deux bornes appelés limites de classes.
 Deux classes ont une intersection vide ; c.à.d. qu’une donnée appartient { une seule classe.
 Les classes sont contiguës et d’égale largeur

3.3.1 Procédé de construction des classes dans le cas continu :

Étape 1 : Déterminer l’étendue de la série


Soit 𝑥𝑖 la ième donnée observée.
Posons 𝑒 l’étendu de la série :
𝑒 = max 𝑥𝑖 − min 𝑥𝑖
1≤𝑖≤𝑛 1≤𝑖≤𝑛

Étape 2 : Déterminer le nombre de classes


Déterminer par une règle mathématique, on donne ici la formule de Sturges et on prend la valeur
entière la plus proche de

1 + 3.322 𝑙𝑜𝑔10 (𝑛)


où 𝑛 est le nombre de données dans la série

Par exemple, si 𝑛 = 30, la formule de Sturges donne la valeur de 5.907, l’entier le plus proche est 6 :

Nombre de classes selon la taille n de la série


(formule de Sturges)
Valeur de 𝑛 Nombre de classes
12  𝑛 < 23 5

23  𝑛 < 46 6

46  𝑛 < 91 7

91  𝑛 < 181 8

181  𝑛 < 362 9

362  𝑛 < 724 10

724  𝑛 < 1448 11

Étape 3 : Déterminer l’amplitude des classes


L’amplitude des classes sera définit par
𝑒
𝑐=
𝑘
11
FSJES-Oujda
avec 𝑘 le nombre de classes. Le nombre 𝑐 ne contient pas plus de décimales que les données de la série,
𝑒
pour cela il suffit de tronquer le quotient et d’additionner 1 au dernier chiffre retenu afin de se doter
𝑘
d’une amplitude suffisante pour que toutes les données puissent être contenu dans les classes.

𝑒
Exemple 1 : On a calculé le quotient pour cinq séries statistiques, on a eut les résultats suivants :
𝑘
0.8912 ; 4.2310 ; 11.1123 ; 6.3146 ; 7.0000

Si les données de la série contiennent deux chiffres après la virgule, l’amplitude des classes sera : 0.90 ;
4.24 ; 11.12 ; 6.32 ; 7.01

Si les données de la série contiennent seulement un chiffre après la virgule, l’amplitude des classes
sera : 0.9 ; 4.3 ; 11.2 ; 6.4 ; 7.1

Si les données de la série sont entières, alors l’amplitude des classes sera : 1 ; 5 ; 12 ; 7 ; 8

Exemple 2 : La série suivante représente l’ancienneté du personnel cadre d’une entreprise


Ancienneté du personnel cadre en années
9.4 8.4 12.0 16.3 11.9 16.4 9.8 7.0 11.5 12.6
8.3 8.0 9.5 12.1 11.0 14.1 13.1 7.1 12.6 12.1
11.0 12.2 14.0 9.4 10.2 13.4 7.3 14.6 11.1 10.3
11.2 11.0 11.4 15.4 12.5 10.5 10.0 11.9 13.2 15.6
16.3 11.2 11.1 12.8 10.6 10.5 15.0 10.2 13.1 12.0
13.8 10.3 9.8 12.4 11.4 10.4 8.2 9.3 11.6 9.4

𝑛 = 60 ; Max 𝑥𝑖 = 16.4 ; Min 𝑥𝑖 = 7.0 ; l’étendue de la série est e = 9.4.

Le nombre de classes est égal à 7 ; e = 9.4/7 = 1.34 et l’amplitude des classes sera c = 1.4.
k

Étape 4 : Construire les intervalles


On fixe tout d’abord la limite inférieure du 1er intervalle, on peut choisir pour cette limite la plus petite
mesure de la série, ou une autre valeur inférieure mais proche.
En additionnant l’amplitude { cette valeur, on obtient la limite supérieure de la classe.
Pour les autres classes, la limite supérieure coïncide avec la limite inférieure de la classe suivante, puis
on additionne { cette limite l’amplitude pour obtenir la limite supérieure de la nouvelle classe.

Exemple : On revient sur l’exemple 2 de la série qui représente l’ancienneté du personnel cadre d’une
entreprise. La limite inférieure du 1er intervalle coïncidera la valeur 7.0 qui est la plus petite valeur de
la série et puisque l’amplitude est c = 1.4 ; on aura comme premier intervalle [7.0 ; 8.4[ .
Par convention, pour que toute donnée appartienne à une seule classe, les intervalles ainsi constitués
seront fermés à gauche et ouverts à droite.
Les intervalles qui suivront le 1er intervalle seront les suivants :
[8.4 ; 9.8[ [9.8 ; 11.2[ [11.2 ; 12.6[ [12.6 ; 14[ [14 ; 15.4[ [15.4 ; 16.8[

12
FSJES-Oujda
et on s’arrête { la 7ème classe qui contiendra la plus grande valeur.
En effet il faut s’assurer toujours que toutes les données sont incluses dans l’ensemble des classes.

Étape 5 : Effectif et fréquence des classes


Il suffira ensuite de pointer les données de la série dans l’intervalle approprié, on peut ainsi calculer au
besoin la fréquence ou le pourcentage.

Exemple :
Distribution de 60 cadres selon leur ancienneté
Effectif Fréquence Pourcentage
Ancienneté en année
𝑛𝑖 𝑓𝑖 %
[7.0 ; 8.4[ 6 0.10 10.00
[8.4 ; 9.8[ 6 0.10 10.00
[9.8 ; 11.2[ 16 0.27 26.67
[11.2 ; 12.6[ 15 0.25 25.00
[12.6 ; 14[ 8 0.13 13.33
[14 ; 15.4[ 4 0.07 6.67
[15.4 ; 16.8[ 5 0.08 8.33
Total 60 1.00 100.00

Pour calculer certaines mesures caractéristiques de la distribution, on associe à chaque classe un


centre et un effectif cumulé.

Le centre d’une classe est le point milieu de l’intervalle la constituant, il est donné par :

𝑙𝑖𝑚𝑖𝑡𝑒 𝑖𝑛𝑓é𝑟𝑖𝑒𝑢𝑟𝑒 + 𝑙𝑖𝑚𝑖𝑡𝑒 𝑠𝑢𝑝é𝑟𝑖𝑒𝑢𝑟𝑒


2
L’effectif cumulé d’une classe est la somme de l’effectif de cette classe avec les effectifs des classes qui
l’ont précédé. On note 𝑁𝑖 l’effectif cumulé de la ième classe.
𝑁𝑖 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑖
Elle correspond au nombre de données de la série dont la valeur est inférieure à la limite supérieure
de la classe.
Distribution de 60 cadres selon leur ancienneté
Effectif Effectif
Ancienneté en année Centre 𝑚𝑖
𝑛𝑖 cumulé 𝑁𝑖
[7.0 ; 8.4[ 7.7 6 6
[8.4 ; 9.8[ 9.1 6 12
[9.8 ; 11.2[ 10.5 16 28
[11.2 ; 12.6[ 11.9 15 43
[12.6 ; 14[ 13.3 8 51
[14 ; 15.4[ 14.7 4 55
[15.4 ; 16.8[ 16.1 5 60
Total 60

13
FSJES-Oujda
Remarque : Dans certain cas, on a intérêt à construire un ou deux classes plus larges que les autres, en
général la première ou la dernière. Par exemple, dans une enquête on a interrogé les citoyens d’une
ville, la répartition des individus selon les groupes d’âge est la suivante :

Âge : 𝐴 Effectif
en année 𝑛𝑖
𝐴 < 20 ⋯
20  𝐴 < 30 ⋯
30  𝐴 < 40 ⋯
40  𝐴 < 60 ⋯
60  A ⋯

Exemples à résoudre
Faites l’exercice de résoudre les deux exemples suivants :
Exemple 1 : Les données suivantes représentent l’âge de 45 personnes choisies au hasard dans un
collège :
17 16 17 18 18 17 17 19 17
22 18 17 22 18 38 17 17 21
29 22 18 45 18 17 22 19 44
20 20 17 19 19 17 22 17 17
18 22 21 17 20 18 19 23 18

Construire une distribution d’effectif, de fréquence et de pourcentage.

Solution :
L’âge est un caractère quantitatif continu ; on procède à la construction des classes :
𝑛 = 45 ; Max 𝑥𝑖 = 45 ; Min 𝑥𝑖 = 16 ; l’étendue est la valeur e = 29.

Le nombre de classes est égal à 6 ; e = 29/6 = 4.8 et l’amplitude des classes sera c = 5.
k
La première classe est [16 ; 21[, la dernière est [41 ; 46[.

Distribution de 45 collégiens selon leur âge


Effectif Fréquence Pourcentage
Âge
𝑛𝑖 𝑓𝑖 %
[16 ; 21[ 32 0.71 71.1
[21 ; 26[ 9 0.20 20.1
[26 ; 31[ 1 0.02 2.2
[31 ; 36[ 0 0.00 0
[36 ; 41[ 1 0.02 2.2
[41 ; 46[ 2 0.04 4.5
Total 45 1.00 100

14
FSJES-Oujda
Exemple 2 : Le salaire horaire (en €) des 42 employés { temps partiel d’un magasin { rayons est
respectivement :
6.80 6.80 7.45 7.60 7.30 6.80 6.30
6.30 6.80 6.30 6.30 7.10 7.30 6.80
5.55 6.00 6.90 7.50 6.40 5.90 6.05
5.75 5.55 5.55 5.55 8.25 6.90 7.00
8.35 5.75 6.70 5.90 6.25 6.50 7.15
5.55 6.25 5.90 8.00 6.60 5.55 7.50

Construire un tableau de fréquence tout en calculant la moyenne de classe, l’effectif cumulé et la


fréquence cumulée.

Solution :

𝑒 = 8.35 – 5.55 = 2.8 : étendu de la série


𝑘 = 6 : nombre de classes
𝑒 2.8
= = 0.466..
𝑘 6
On choisira comme amplitude la valeur 𝑐 = 0.47

Distribution des employés selon le salaire horaire


Moyenne Effectif Effectif Fréquence Fréquence
Salaire
de classe 𝑛𝑖 cumulé 𝑁𝑖 𝑓𝑖 cumulée 𝐹𝑖
[5.55 ; 6.02[ 5.79 12 12 0.29 0.29
[6.02 ; 6.49[ 6.26 8 20 0.19 0.48
[6.49 ; 6.96[ 6.73 10 30 0.24 0.71
[6.96 ; 7.43[ 7.20 5 35 0.12 0.83
[7.43 ; 7.90[ 7.67 4 39 0.10 0.93
[7.90 ; 8.37[ 8.14 3 42 0.07 1.00
Total 42 1.00

4. Représentations graphiques
La représentation des résultats graphiquement c.à.d. par des dessins et tracés géométriques facilite la
description des résultats contenus dans le tableau-synthèse des données.
Il existe plusieurs représentations graphiques d’une même série de données. On peut citer le
diagramme { bandes rectangulaires, l’histogramme, le polygone, l’ogive et le diagramme à secteurs
circulaires.

4.1 Diagramme à bandes rectangulaires


Il est particulièrement adapté à la représentation d’un caractère qualitatif ou quantitatif discret, il est
constitué par la juxtaposition de bandes verticales ou la superposition de bandes horizontales (le plus
souvent pour ce cas là, l'ordre des modalités pour les données nominales est arbitraire).
15
FSJES-Oujda
Exemple1 : dans le but de connaître les tendances du marché de la voiture citadine, un sondage a été
effectué auprès d’un certain nombre de concessionnaires. Les résultats sont groupés dans le tableau
suivant selon que la voiture est de marque d’origine européenne, asiatique ou américaine :

Effectif Fréquences
Marque d’origine
𝑛𝑖 𝑓𝑖
Européenne 20 0.33
Asiatique 24 0.39
Américaine 17 0.28
Total 61 1

Le caractère observé n’a pas de modalités qu’on peut ordonner, on choisira pour le graphe un
diagramme à bandes rectangulaires horizontales.

Exemple2 : On veut connaître le nombre de voitures par foyer américain, on choisit pour cela au
hasard 72 foyers représentant la population d’un état américain. Les résultats sont regroupés dans le
tableau suivant :
Nombre de foyers
Nombre de voitures
𝑛𝑖
0 02
1 19
2 25
3 16
4 07
5 03
Total 72

Les modalités du caractère étudié sont ordonnées, on choisit le diagramme à bandes rectangulaires
verticales.

16
FSJES-Oujda
4.2 Diagramme à secteurs circulaires
Ce type de graphique est utilisé le plus souvent dans le cas du caractère qualitatif. On divise un cercle
en autant de secteurs circulaires qu’il y’a de classes. Pour déterminer l’angle de chaque secteur on
multiplie la fréquence de la classe par 360° .

Reprenons l’exemple 1 :

Effectif Fréquences Angle au centre


Marque d’origine Pourcentages
𝑛𝑖 𝑓𝑖 du secteur
Européenne 20 0.33 33% 118.03°
Asiatique 24 0.39 39% 141.64°
Américaine 17 0.28 28% 100.33°
Total 61 1.00 100% 360.00°

Remarque : le diagramme { secteurs circulaire convient bien au cas de l’exemple 2 où le caractère est
quantitatif discret.

17
FSJES-Oujda
4.3 Histogramme
Il convient particulièrement pour présenter un caractère quantitatif continu, il est constitué par la
juxtaposition de bandes rectangulaires verticales, mais adjacentes. De plus, chaque rectangle doit
présenter une largeur équivalente { l’amplitude de la classe qu’il représente, et une hauteur telle que
sa surface soit proportionnelle à l’effectif.

Exemple1 : on reprend le tableau–synthèse de la distribution de l’ancienneté de 60 cadres d’une


société

Distribution des cadres selon leur


ancienneté
18 16
16 15
Nombre de cadres

14
12
10 8
8 6 6
6 5
4
4
2
0
7,7 9,1 10,5 11,9 13,3 14,7 16,1
Ancienneté

Dans cet exemple, puisque l’amplitude des classes est uniforme c.à.d. la même, la hauteur des
rectangles coïncide avec l’effectif de la classe correspondante.

Dans d’autres exemples, si une classe (le plus souvent la 1ère ou la dernière) a une amplitude différente
de celles des autres classes, alors on doit ajuster la hauteur de cette classe tel que la surface du
rectangle lui correspondant soit proportionnelle à l’effectif.

Exemple2 : Les notes obtenues par un groupe d’étudiants { un examen d’informatique sont répartis
comme suit :
Nombre d’étudiants
Note sur 20
𝑛𝑖
[00 ; 10[ 135
[10 ; 12[ 43
[12 ; 14[ 16
[14 ; 16[ 13
[16 ; 20[ 09
Total 216
18
FSJES-Oujda
La 1ère et la 5ème classe sont d’amplitudes respectivement 10 et 4, tandis que les autres classes ont une
amplitude standard égale à 2.
Pour la 1ère classe, on doit déterminer la hauteur h1 du rectangle de surface 𝑕1 ∗ 10 , cette surface
correspondra au rectangle de largeur 2 et de hauteur 135 c.à.d. qu’on doit vérifier :

𝑕1 ∗ 10 = 270, ce qui revient à la valeur : 𝑕1 = 27.

(270 est la surface du rectangle de la 1ère classe qui est calculée en supposant le rectangle est de
hauteur 135 et de largeur standard 2)

Pour la 5ème classe, la hauteur h2 du rectangle lui correspondant vérifie h2 * 4 = 18, c.à.d. que h2 = 4.5.

Si on trace l’histogramme des effectifs on obtient le graphe suivant :

Distribution des étudiants selon la note en informatique


50
45 43

40
Effectif des étudiants

35
30 27
25
20 16
15 13

10
4,5
5
0

Note en informatique

4.4 Polygone
Pour dessiner ce graphe, on place tout d’abord les centres des classes sur l’axe des abscisses et pour
chaque centre on place à hauteur verticale un autre point avec une distance correspondant à l’effectif
de la classe considérée. On relie les différents points obtenus par des segments de droite.

Par définition, un polygone est une figure fermée délimitée par des segments.

Pour terminer le graphe, on ferme le polygone en ajoutant deux segments à chaque extrémité, les
points qu’on ajoutera seront sur l’axe des abscisses à une hauteur égal à zéro.

Exemple :

19
FSJES-Oujda
Distribution des cadres selon leur ancienneté
18
16
14

Nombre de cadres
12
10
8
6
4
2
0
6,3 7,7 9,1 10,5 11,9 13,3 14,7 16,1 17,5
Ancienneté

Remarque : Dans les exemples précédents, au lieu de tracer les effectifs sur l’axe vertical, on peut
tracer les fréquences ou les pourcentages, sans que l’allure du graphe change.

4.5 L’ogive
Ce graphe sera utilisé pour tracer les effectifs cumulés, on place tout d’abord les points correspondants
aux limites des classes sur l’axe des abscisses, et pour chaque classe on place un point au dessus de la
limite supérieure de la classe à hauteur l’effectif cumulé de celle-ci. Puis on relie les points par des
segments de droite. On ajoutera un point sur l’axe des abscisses distant de la première limite de classe
par l’amplitude standard des classes puis on relie ce point au graphe.

Remarque : on suppose qu’{ l’intérieure d’une classe la distribution est uniforme, ce qui nous permet
de justifier l’interpolation entre les deux bornes de la même classe par un segment linéaire.

Exemple :
Distribution de 60 cadres selon leur ancienneté
Effectif Effectif
Ancienneté en année Centre 𝑚𝑖
𝑛𝑖 cumulé 𝑁𝑖
[7.0 ; 8.4[ 7.7 6 6
[8.4 ; 9.8[ 9.1 6 12
[9.8 ; 11.2[ 10.5 16 28
[11.2 ; 12.6[ 11.9 15 43
[12.6 ; 14[ 13.3 8 51
[14 ; 15.4[ 14.7 4 55
[15.4 ; 16.8[ 16.1 5 60
Total 60

Dans cet exemple, on doit tracer les points de coordonnés suivants :


20
FSJES-Oujda
(8.4 ; 6) ; (9.8 ; 12) ; (11.2 ; 28) ; (12.6 ; 43) ; (14 ; 51) ; (15.4 ; 55) ; (16.8 ; 60) puis on complète par un
dernier point (7 ; 0). On relie ensuite par des segments de droite.

5. Calcul des mesures caractéristiques


Pour les variables quantitatives. les synthèses telles que les tableaux des effectifs, histogrammes, etc.
ne sont pas suffisantes pour connaître la population ou l’échantillon. On doit apporter d’autres
informations pour comprendre comment les données se comportent.

Il est très difficile d’appréhender (comprendre) l’ensemble des informations de la population ou de


l’échantillon même si elles sont synthétisées.

 Recourir à (faire appel à) des mesures unidimensionnelles pour décrire la population ou


l’échantillon. Ces mesures numériques permettent entre autre la comparaison de populations ou
d’échantillons ; et surtout la description des valeurs observées.

On va considérer ici quatre types de mesures caractéristiques de la série des données :


 Les mesures de tendance centrale sont des valeurs autour desquelles se regroupent les
différentes valeurs de la série
 Les mesures de dispersion informent sur la variabilité des résultats
 Les mesures de position renseignent sur la situation d'un résultat par rapport à l'ensemble de la
distribution
 Les mesures de forme permettent de reconnaitre la forme de la distribution de la variable
étudiée et de la comparer à la distribution dite normale

5.1 Mesures de tendance centrale

5.1.1 Le mode

C’est la valeur la plus fréquente (qui se répète le plus souvent), on parle aussi de classe modale, c’est la
classe qui correspond au maximum de l’effectif ou de fréquence.
On notera le mode par 𝑴𝒐.
21
FSJES-Oujda
Exemple1 : soit les trois séries suivantes Série 1 1 3 0 3 2
Série 2 7 6 5 6 4 5 3
Série 3 42 35 18 33 21 23 25

Le mode de la série 1 est 3, ceux de la série 2 sont 6 et 5 tandis que la série 3 n'a pas de mode.
Dans le cas de la classe modale on prendra comme valeur du mode le centre de la classe.

Exemple2 : Dans l’exemple de la distribution de 60 cadres selon leur ancienneté, la classe modale est
[9.8 ; 11.2[ d’effectif maximal égal { 16.
On prend comme valeur modale le centre de classe, c.à.d. la valeur 𝑀𝑜 = 10.5
On dira que l’ancienneté la plus fréquente dans la société est dix ans et demi

Le mode est défini même pour les caractères qualitatifs.


Exemple3 : Soit la série représentant le caractère sexe d’un groupe de 20 étudiants,
F M F M M F M M M F F M M F M M M F M M
Le mode de cette série est masculin

5.1.2 La médiane

a. Cas de données quantitatives non groupées en classes :


On va la noter 𝑴𝒆. C’est la valeur qui partage la série d'observations ordonnées en deux parties de
tailles égales.
D’une autre façon, si on place les données sur un axe horizontal en respectant l’ordre croissant ou
décroissant des données, alors la médiane se trouvera à mi chemin entre la 1 ère moitié des données à
gauche et la 2ème moitié des données à droite

Le rang de la médiane se détermine de la manière suivante :


𝑛 +1
 Si 𝑛 le nombre d'observations est impaire alors le rang de la médiane sera
2

Exemple1 : soit la série des données suivantes :


1 2 4 3 2 5 2 3 1
La même série sera ordonnée dans le sens croissant :
1 1 2 2 2 3 3 4 5
Ici n=9 impair, donc la médiane est de rang
9+1
=5
2
et ça coïncide avec la valeur 2, d’où
𝑀𝑒 = 2

 Dans le cas où 𝑛 est pair, le rang de la médiane se situe entre les observations de rang
𝑛 𝑛
et + 1
2 2
22
FSJES-Oujda
On en prend généralement la valeur intermédiaire (le milieu) comme valeur médiane

Exemple2 : soit la série des données suivantes :


3 4 2 0 1 2 2 3 5 4
La même série sera ordonnée dans le sens croissant :
0 1 2 2 2 3 3 4 4 5
Ici 𝑛 = 10 pair, donc la médiane est la valeur entre les deux données de rangs
10 10
= 5 𝑒𝑡 +1=6
2 2
d’où la médiane est entre les deux valeurs 2 et 3, on prend le milieu entre les deux valeurs c.à.d. on
prend
2+3
𝑀𝑒 = = 2.5
2
b. Cas où les données sont groupées en classes :
Si les données proviennent d’un caractère quantitatif continu et si elles sont groupées en classes, on
doit en premier définir la classe médiane :

 il s’agit de la classe qui contient l’observation de rang (n+1)/2, c’est-à-dire la première classe
dont la fréquence cumulée égale ou dépasse 50%

On donne les deux formules qui approche la valeur médiane, l’une utilisera les effectifs et l’autre les
fréquences.
Si on utilise les effectifs, on peut approcher la valeur de la médiane par la formule suivante :
𝑛
− 𝑁𝑖−1
𝑀𝑒 ≅ 𝑏𝑖𝑛𝑓 + 2 ∗ 𝑐
𝑛𝑖

où : 𝑛 est le nombre d’observations (taille de la série).

𝑏𝑖𝑛𝑓 est la limite inférieure de la classe médiane.

𝑛𝑖 est l’effectif de la classe médiane.

𝑁𝑖−1 est l’effectif cumulé de la classe précédente la classe médiane.

𝑐 est l’amplitude de la classe médiane.

Si on utilise les fréquences la formule devient


1
− 𝐹𝑖−1
𝑀𝑒 ≅ 𝑏𝑖𝑛𝑓 + 2 ∗ 𝑐
𝑓𝑖

𝑓𝑖 est la fréquence de la classe médiane

𝐹𝑖−1 est la fréquence cumulée de la classe précédente la classe médiane.

23
FSJES-Oujda
Exemple : Reprenons l’exemple de la distribution de l’ancienneté de 60 cadres d’une société

Effectif Effectif
Ancienneté en année
𝑛𝑖 cumulé 𝑁𝑖
[7.0 ; 8.4[ 6 6
[8.4 ; 9.8[ 6 12
[9.8 ; 11.2[ 16 28
[11.2 ; 12.6[ 15 43
[12.6 ; 14[ 8 51
[14 ; 15.4[ 4 55
[15.4 ; 16.8[ 5 60
Total 60
Calculons
𝑛+1
= 30.5
2
La médiane se situe dans la 4ème classe, c ‘est la classe médiane. Elle contient aussi toutes les données
(ordonnées dans le sens croissant) dont le rang est compris entre 29 et 43.

Pour le calcul de la médiane, on a les données suivantes :


𝑛 = 60 ; 𝑏𝑖𝑛𝑓 = 11.2 ; 𝑛𝑖 = 15; 𝑁𝑖−1 = 28; 𝑐 = 1.4

Ainsi, on obtient :
30 − 28
𝑀𝑒 ≅ 11.2 + ∗ 1.4 = 11.387
15
Conclusion : on peut affirmer que 50% des cadres de la société ont une ancienneté inférieure à 11.39
années et que les 50% qui restent ont une ancienneté de plus de 11.39 années
Si on veut utiliser la colonne des fréquences

Fréquence Fréquence
Ancienneté en année
𝑓𝑖 cumulée 𝐹𝑖
[7.0 ; 8.4[ 0.10 0.10
[8.4 ; 9.8[ 0.10 0.20
[9.8 ; 11.2[ 0.27 0.47
[11.2 ; 12.6[ 0.25 0.72
[12.6 ; 14[ 0.13 0.85
[14 ; 15.4[ 0.07 0.92
[15.4 ; 16.8[ 0.08 1.00
Total 1

On cherchera la classe qui correspond à un accumulation de plus de 0.5=50% des données


On fait le calcul : 𝑏𝑖𝑛𝑓 = 11.2 ; 𝑓𝑖 = 0.25 ; 𝐹𝑖−1 = 0.47 ; 𝑐 = 1.4
0.5 − 0.47
𝑀𝑒 ≅ 11.2 + ∗ 1.4 = 11.387
0.25

24
FSJES-Oujda
Remarque : on peut schématiser la médiane sur un graphe de type histogramme ou ogive.

Chercher la médiane à partir d’un histogramme

Médiane
Surface = Surface

Chercher la médiane à partir d’une répartition (ogive)

100 %

50 %

Médiane

5.1.3 La moyenne arithmétique

On va la noter 𝝁 pour la moyenne d’une population et 𝒙 ou 𝒙𝒏 pour la moyenne d’un échantillon (en
anglais, mean ou average). C'est la somme des valeurs observées divisée par le nombre d'observations.
Elle représente le centre de gravité de l’ensemble des points représentés par les valeurs de la série,
c.à.d. le point d’équilibre de toutes les données de la série en positionnant les valeurs sur une échelle
graduée.

25
FSJES-Oujda
Dans le cas où toutes les données de la population sont fournies, la moyenne sera calculée sur les 𝑁
valeurs observées :
𝑁
1
𝜇= 𝑥𝑖
𝑁
𝑖=1
avec 𝑥𝑖 la ième valeur observée dans la série des données.
Si le paramètre 𝜇 (mu) est inconnu, on le remplace par la moyenne 𝑥𝑛 calculée sur les 𝑛 données de
l’échantillon :
𝑛
1
𝑥𝑛 = 𝑥𝑖
𝑛
𝑖=1

Exemple : reprenons l’exemple du nombre de voitures par foyer américain

1 2 2 1 3 0 1 4 2 1 1 2 3 2 2 5 4 3 2 1 2 2 3 2
1 1 2 3 4 2 1 2 2 3 2 1 2 3 4 3 3 5 2 2 3 1 1 2
2 1 1 3 1 1 2 2 3 4 2 3 1 3 4 2 1 1 3 4 0 5 2 3

On calcule la moyenne sur cet échantillon, on obtient :


1 + 2 + 2 + 1 + 3 + ⋯ + 3 160
𝑥𝑛 = = = 2.222
72 72
Ce calcul long peut être allégé en utilisant le tableau-synthèse déjà construit. Posons pour cela
𝑥1∗ , ⋯ , 𝑥𝑘∗ les 𝑘 valeurs distinctes des modalités de la série des données, on peut réécrire la moyenne
𝑥𝑛 :
𝑘 𝑘 𝑘
1 𝑛𝑖 ∗
𝑥𝑛 = 𝑛𝑖 𝑥𝑖∗ = 𝑥 = 𝑓𝑖 𝑥𝑖∗
𝑛 𝑛 𝑖
𝑖=1 𝑖=1 𝑖=1

où 𝑛𝑖 et 𝑓𝑖 sont respectivement l’effectif et la fréquence de la modalité 𝑥𝑖∗


Reprenons l’exemple précédent, on utilisera le tableau-synthèse :

Distribution des foyers américains selon


le nombre de voitures possédées
Nombre de Nombre de Fréquences
𝑓𝑖 𝑥𝑖
voitures 𝑥𝑖∗ foyers 𝑛𝑖 𝑓𝑖
0 02 0.028 0
1 19 0.264 0.264
2 25 0.347 0.694
3 16 0.222 0.667
4 07 0.097 0.389
5 03 0.042 0.208
Total 𝑛 = 72 1.000 𝑥𝑛 = 2.222
La moyenne est : 2.22
𝑘

𝑥𝑛 = 𝑓𝑖 𝑥𝑖∗ = 0 ∗ 0.028 + 1 ∗ 0.264 + 2 ∗ 0.347 + ⋯ + 5 ∗ 0.042 = 2.222


𝑖=1

26
FSJES-Oujda
 Cas d’un caractère continu où les données sont groupées en classes :
Les données considérées ici proviennent d’un caractère quantitatif continu.
On calcule approximativement la valeur de la moyenne en utilisant les centres des classes :
𝑘 𝑘
1
𝜇≅ 𝑛𝑖 𝑚𝑖 = 𝑓𝑖 𝑚𝑖 ,
𝑛
𝑖=1 𝑖=1
avec
𝑘 est le nombre de classes
𝑚𝑖 est le centre de la ième classe

Exemple :
Distribution de 60 cadres selon leur ancienneté
Effectif
Ancienneté en année Centre 𝑚𝑖 𝑛𝑖 𝑚𝑖
𝑛𝑖
[7.0 ; 8.4[ 7.7 6 46.2
[8.4 ; 9.8[ 9.1 6 54.6
[9.8 ; 11.2[ 10.5 16 168.0
[11.2 ; 12.6[ 11.9 15 178.5
[12.6 ; 14[ 13.3 8 106.4
[14 ; 15.4[ 14.7 4 58.8
[15.4 ; 16.8[ 16.1 5 80.5
Total 60 693.0
D’où
693
𝜇= = 11.55
60
Remarque : les valeurs extrêmes ne modifient pas la médiane. La moyenne arithmétique par contre y
est sensible, on dit qu'elle n'est pas robuste.

 Moyenne pondérée :
Dans beaucoup de cas, on est amené à pondérer les valeurs en les multipliant par des coefficients de
pondération (des poids), le but est de dire que les données recueillis n’ont pas la même importance.

Si on attribue à la ième donnée 𝑥𝑖 un poids 𝑝𝑖 , on peut définir la moyenne pondérée par


𝑛
𝑖=1 𝑝𝑖 𝑥𝑖
𝑥𝑝 = 𝑛
𝑖=1 𝑝𝑖

Dans le cas où on accorde la même importance pour toutes les données de la série, c.à.d. que 𝑝𝑖 = 𝑝
pour tout 𝑖, alors la formule de la moyenne pondérée 𝑥𝑝 coïncidera avec la moyenne arithmétique 𝑥 :
𝑛 𝑛 𝑛
𝑖=1 𝑝𝑖 𝑥𝑖 𝑖=1 𝑝 𝑥𝑖 𝑝 𝑖=1 𝑥𝑖
𝑥𝑝 = 𝑛 = 𝑛 = =𝑥
𝑖=1 𝑝𝑖 𝑖=1 𝑝 𝑛𝑝
Exemple1 : Dans un groupe d’étudiants, on a calculé la moyenne de groupe des 3 matières examinées,
le système de coefficients différencie chaque matière par le coefficient qui lui correspond, on voudrait
calculer la moyenne générale de groupe.

27
FSJES-Oujda
Coefficient Moyenne de
Matière 𝑝𝑖 𝑥𝑖
𝑝𝑖 groupe 𝑥𝑖
1 1 11.3 11.3
2 2 9.5 19
3 1.5 12.7 19.05
Total 4.5 49.35

𝑥𝑝 = 49.35 4.5 = 10.97

Exemple2 : Dans une usine, on fabrique des pièces simultanément par 5 machines différentes, placées
parallèlement, on veut connaître le pourcentage des pièces défectueuses résultant de cette production.
On a trouvé les résultats suivants :

Distribution des pièces défectueuses sur 5 machines


Taille de Pourcentage des
Machine
l’échantillon pièces défectueuses
1 60 5.0
2 70 4.5
3 50 7
4 100 2
5 160 1

Le calcul direct de la moyenne arithmétique du pourcentage ne prend pas en compte l’importance de


chaque échantillon prélevé
5 + 4.5 + 7 + 2 + 1
𝑥= = 3.9
5
Cette valeur ne sera considérée que si on a pris la même taille de l’échantillon pour chaque machine.

On doit inclure le poids de chaque échantillon, le poids est présenté ici par la taille de l’échantillon :

5 ∗ 60 + 4.5 ∗ 70 + 7 ∗ 50 + 2 ∗ 100 + 1 ∗ 160 1325


𝑥𝑃 = = = 3.01.
60 + 70 + 50 + 100 + 160 440

On utilise souvent ce procédé de calcul dans les enquêtes et sondages.

 Choix de la mesure de tendance centrale :


La plus importante et la plus utilisée des mesures de tendance centrale est la moyenne, qui peut
représenter fort bien le nuage des données dessinées sur une échelle graduée (ce nuage est constitué
par les données se rapprochant d’elle même plus au moins).
Néanmoins, dans certain cas où des données extrêmes de la série se situent { l’extérieur de ce nuage et
qui par leurs éloignements considérables du nuage affecte la mesure de la moyenne en ne reflétant pas
la réalité des données.

Exemple : Dans une petite entreprise de 10 personnes, on a 8 ouvriers, un gestionnaire comptable et


un directeur, les salaires sont les suivants (exprimées en DH) :

2100, 2100, 2100, 2000, 2000, 2200, 2200, 2000, 2600, 11000, la moyenne de cette série est :
28
FSJES-Oujda
30300
𝑥= = 3030
10
Tous les salaires, sauf un, sont inférieurs à cette moyenne.
Dans cet exemple, on ne peut pas se fier { cette moyenne, mais on peut utiliser d’autres mesures de
tendance centrale comme la médiane :

Le nombre d’observation 𝑛 = 10 est pair, on prend la médiane comme la moyenne de la 5ème et la 6ème
valeurs des données ordonnées par ordre croissant :

2000, 2000, 2000, 2100, 2100, 2100, 2200, 2200, 2600, 11000
2100 + 2100
𝑀𝑒 = = 2100
2
Cette valeur représente bien la réalité des salaires dans cette petite entreprise.

Dans d’autres cas, on trouve que la 1ère ou la dernière classe n’est pas bornée, le centre de classe
n’existe pas et ne sera pas utilisé dans la formule du calcul de la moyenne, dans ce cas on utilise la
médiane ou le mode.

Exemple : La distribution suivante représente la répartition du salaire hebdomadaire d’un groupe


d’individus.

Salaire hebdomadaire Effectif Effectif cumulé


𝑆 (en DH) 𝑛𝑖 𝑁𝑖
S < 500 52 52
500 ≤ S < 1000 29 81
1000 ≤ S < 1500 33 114
1500 ≤ S < 2000 39 153
2000 ≤ S < 2500 30 183
2500 ≤ S < 3750 19 202
3750 ≤ S 11 213
Total 213

La dernière classe n’a pas de limite supérieure, il est impossible de calculer la moyenne, mais on peut
procéder au calcul de la médiane :
𝑛 est impair, 𝑛 2 = 213 2 = 106.5 ; la médiane se situe dans la 3ème classe et on a :
𝑛
2−𝑁2
𝑀𝑒 ≅ 1000 + 𝑛3
∗ 𝑐, 𝑁2 = 81, 𝑛3 = 33 et 𝑐 = 500, ce qui donne

106.5 − 81
𝑀𝑒 ≅ 1000 + ∗ 500 = 1386.36 𝐷𝐻
33
On va conclure que 50% des salariés ont des salaires hebdomadaires inférieurs ou égaux à 1386.36DH.
Pour le mode, il ne constitue pas le premier choix pour le calcul de la mesure de la tendance centrale,
puisqu’il est peu stable dans certains cas où on peut changer une seule donnée pour passer d’une
classe modale à une autre. Mais en général le mode se situe proche de la moyenne et on est intéressé
par connaître la valeur dominante dans la série des données.
29
FSJES-Oujda
Exemple1 : Soit la série suivante : 4, 4, 3, 0, 1, 2, 5, 3, 3, 2, 0, 1, 5.
Le mode est égale { 3, mais une modification d’une seule donnée peut basculer le mode pour prendre
une autre valeur.

Exemple2 : Dans une enquête, on a recensé le nombre d’individus inscris dans un club sportif par
tranche d’âge

Tranche d’âge Effectif 𝑛𝑖


𝑎𝑖 , 𝑏𝑖 𝑛𝑖 𝑏𝑖 − 𝑎𝑖
[15 ; 20[ 11 2.2
[20 ; 30[ 23 2.3
[30 ; 40[ 24 2.4
[40 ; 55[ 17 1.1
[55 ; 65[ 05 0.5
Total 80
La classe modale de cette série est [30 ; 40[ et le mode sera choisi comme le centre de cette classe,
c.à.d. 𝑀𝑜 = 35 𝑎𝑛𝑠.
Dans le tableau de distribution de cette série, on remarquera que si on fait basculer une seule donnée
de l’intervalle [30 ; 40[ vers l’intervalle [20 ; 30[, la classe modale changera et deviendra [20 ; 30[.
Ainsi le mode passera de 35 𝑎𝑛𝑠 à 25 𝑎𝑛𝑠.

5.2 Mesures de dispersion


Les paramètres de tendance centrale ne peuvent pas toujours résumer la série des données. Par
exemple, dans une classe d’étudiants, on aura la même moyenne si tous les étudiants avait dans le
premier contrôle 10 sur 20, et dans le deuxième contrôle 5 sur 20 pour 50% d’étudiants et 15 sur 20
pour les 50% qui restent. Dans les deux contrôles, on a l’impression que le résultat est le même
puisque la moyenne des notes est la même, mais on remarquera que la dispersion des notes autour de
la moyenne diffère entre les deux contrôles.

Une mesure de dispersion permet d’étudier la dispersion des observations, son objectif est de trouver
un indicateur de cette dispersion. Il faut noter qu’un indicateur de dispersion est toujours supérieur ou
égal { 0. On dira qu’il n’y a pas de variabilité dans les observations si cette dispersion est égale à 0.

Si on résume les données 𝑥𝑖 par leur moyenne 𝑥𝑛 . La moyenne serait la valeur qui représentera toutes
les 𝑛 données 𝑥𝑖 , ainsi on commet 𝑛 erreurs 𝑥𝑖 − 𝑥𝑛

𝑥1 𝑛 𝑥1 − 𝑥𝑛
𝑥2 1 𝑥2 − 𝑥𝑛
⋮ → 𝑥𝑛 = 𝑛 𝑥𝑖 →

𝑥𝑛 𝑖=1
𝑥𝑛 − 𝑥𝑛

On doit de même résumer les 𝑛 erreurs, on peut proposer


𝑛
1
𝑥𝑖 − 𝑥𝑛
𝑛
𝑖=1
Ou peut être
30
FSJES-Oujda
1
𝑛 𝑝
1 𝑝
𝑥𝑖 − 𝑥𝑛
𝑛
𝑖=1
En particulier si 𝑝 = 2, cette mesure sera appelée l’écart-type.

5.2.1 L’étendue

C’est la 1ère mesure de la variabilité des données, elle ne reflète pas la réalité des données puisqu’elle
est la différence de deux valeurs, la plus petite et la plus grande, qui peuvent coïncider avec des valeurs
extrêmes.

Exemple : le résultat d’un examen d’un petit groupe d’étudiants est le suivant :
11, 11, 10, 10, 10, 11, 01, 10, 17,

L’étendue est égale à : 𝑒 = 17 − 1 = 16.


Tandis que presque toutes les données sont entre 10 et 11, on a l’impression qu’il y a une grande
variabilité entre les données puisque 𝑒 = 16.

5.2.2 La variance

Elle évalue la distance entre la moyenne et toutes les données. Dans le cas où les données de toute la
population seraient connues, on définit la variance qu’on note en général par 𝜎 2 (sigma au carré) :
𝑁
1
𝜎2 = 𝑥𝑖 − 𝜇 2
𝑁
𝑖=1
1 𝑁
avec 𝜇 = 𝑁 𝑖=1 𝑥𝑖 la moyenne de toute la population.

Pour le calcul on retiendra la formule suivante :


𝑵
𝟏
𝟐
𝝈 = 𝒙𝟐𝒊 − 𝝁𝟐
𝑵
𝒊=𝟏

La variance est toujours positive puisque c’est la somme de carrés. Dans le cas où on n’aurait pas
toutes les données, sauf celles d’un échantillon, on calcule la variance (qu’on notera 𝑠 2 ou 𝑠𝑛2 ) sur
l’échantillon en remplaçant dans la formule de 𝜎 2 , 𝜇 par 𝑥 et 𝑁 par 𝑛.

Exemple :
Distribution des foyers américains selon le nombre de voitures possédées
Nombre de 2 Nombre de 2
𝑥𝑖∗ 𝑛𝑖 𝑥𝑖∗ 𝑛𝑖 𝑥𝑖∗
voitures 𝑥𝑖∗ foyers 𝑛𝑖
0 0 2 0 0
1 1 19 19 19
2 4 25 50 100
3 9 16 48 144
4 16 7 28 112
5 25 3 15 75

31
FSJES-Oujda
Total n = 72 160 450

Les données sont regroupées en classes, on a :


𝑛 𝑘 𝑘 2
1 1 2 𝑖=1𝑛𝑖 𝑥𝑖∗
2
𝑠 = 𝑥𝑖2 −𝑥 = 2
𝑛𝑖 𝑥𝑖∗ −
𝑛 𝑛 𝑛
𝑖=1 𝑖=1
Si on fait le calcul, on aura la variance égal à :
2
450 160
𝑠2 = − = 1.312
72 72

Cas des données groupées en classes : (cas d’un caractère continu)

On représente chaque classe par son centre et on définit une approximation de 𝜎 2 :


𝑘
1
𝜎2 ≅ 𝑛𝑖 𝑚𝑖 − 𝜇 2
𝑁
𝑖=1
Qui peut être exprimé encore par :
𝑘
1
2
𝜎 ≅ 𝑛𝑖 𝑚𝑖2 − 𝜇 2
𝑁
𝑖=1
Exemple :
Distribution de 60 cadres selon leur ancienneté
Ancienneté en Effectif
Centre 𝑚𝑖 𝑚𝑖2 𝑛𝑖 𝑚𝑖 𝑛𝑖 𝑚𝑖2
année 𝑛𝑖
[7.0 ; 8.4[ 7.7 59.29 6 46.2 355.74
[8.4 ; 9.8[ 9.1 82.81 6 54.6 496.86
[9.8 ; 11.2[ 10.5 110.25 16 168 1764.00
[11.2 ; 12.6[ 11.9 141.61 15 178.5 2124.15
[12.6 ; 14[ 13.3 176.89 8 106.4 1415.12
[14 ; 15.4[ 14.7 216.09 4 58.8 864.36
[15.4 ; 16.8[ 16.1 259.21 5 80.5 1296.05
Total 60 693 8316.28

On fait le calcul pour obtenir la variance :


2
8316.28 693
𝜎2 ≅ − = 5.202
60 60

5.2.3 L’écart type

La variance qu’on a exprimée auparavant est d’autant plus grande que les données s’éloignent de la
moyenne, cette mesure est exprimée au carré de l’unité de mesure des données, c’est pour cette raison
qu’on a besoin de l’exprimer dans l’unité des données en introduisant une mesure de dispersion qui
est la racine carré de la variance.
On note 𝜎 l’écart type associé { la population et 𝑠 l’écart type associé { l’échantillon. On pose :
𝜎= 𝜎 2 et 𝑠 = 𝑠2
Cette mesure, par définition, est positive.

32
FSJES-Oujda
Exemple : On calcule l’écart type dans l’exemple de la distribution des foyers américains selon le
nombre de voitures possédées, on trouve la valeur 𝑠 = 1.145.

De même pour la distribution des 60 cadres selon leur ancienneté, on trouve la valeur 𝜎 = 2.28.

5.2.4 Coefficient de variation

Il est dit encore coefficient de dispersion relative, ce coefficient est par définition le rapport, en valeur
absolue, de l’écart type { la moyenne, rapport exprimé en pourcentage.

Notée 𝑽, cette mesure permet de comparer la dispersion entre deux séries de données rattachée à des
caractères qui peuvent être tout à fait différents.

Il permet ainsi de comparer un caractère sur des populations différentes avec des moyennes
différentes ou exprimés avec des unités différentes ; par exemple comparer le prix d’un article vendu
au Maroc en milliers de dirhams avec son prix vendu en Europe en centaines d’euros.

Plus grande est l’homogénéité des données d’une série par rapport { la moyenne, plus faible sera le
coefficient de variation du caractère. Inversement, plus étalées sont les données par rapport à la
moyenne, plus grande sera la valeur du coefficient de variation.
Dans le cas d’une population, on pose donc
𝜎
𝑉= ∗ 100
𝜇
où 𝜎 est l’écart type et 𝜇 la moyenne.
Dans le cas d’un échantillon, on a :
𝑠
𝑉= ∗ 100
𝑥
Puisqu’on évalue la valeur absolue du rapport de l’écart type { la moyenne, le coefficient de variation
est une valeur qui est toujours supérieur ou égale à 0.

Exemple : comparaison de salaires


On considère deux entreprises E1 et E2 qui emploient chacune 150 salariés. Dans l’entreprise E1 le
salaire moyen est égal à 5000 DH avec un écart-type de 1800 DH. Tandis que dans l’entreprise E2 le
salaire moyen est égal à 8500 DH avec un écart-type de 2500 DH. On veut comparer les coefficients de
variation des deux entreprises :
σ1 σ2
Pour E1 ∶ V1 = ∗ 100 = 36% et pour E2 ∶ V2 = ∗ 100 = 29.41%
μ1 μ2
La dispersion des salaires dans l’entreprise E1 est plus élevée que dans l’entreprise E2.

5.3 Mesures de position


Les mesures de position situent les données par rapport { l’ensemble de la série ordonnée selon un
classement ascendant ou descendant. On distingue trois catégories particulières de mesures de
position. Ce sont les quantiles, la cote Z et les rangs. On verra ici seulement les quantiles.

33
FSJES-Oujda
5.3.1 Les quantiles

Les quantiles correspondent aux valeurs numériques qui occupent des positions bien précises dans le
classement ascendant (croissant) des données d’une série.

Définition1 : le quantile d’ordre 𝛼 (alpha), noté 𝑞𝛼 , est la valeur d’un caractère pour laquelle on
retrouve une proportion 𝛼 de données qui lui sont inférieures ou égales dans la série.

Remarque : la médiane correspond au quantile d’ordre 50%, on peut écrire 𝑀𝑒 = 𝑞0.5 = 𝑞50% .

Parmi les quantiles les plus utilisés, on retrouve les quartiles, les déciles et les centiles.

Définition2 : les quartiles sont les 3 valeurs qui divisent une série en quatre parties contenant
chacune, autant que possible, 25% des données. Ces valeurs sont notées 𝑄1 , 𝑄2 et 𝑄3 , ou 𝑞1 4 , 𝑞2 4 et
𝑞3 4 respectivement.

Définition3 : Les déciles sont les 9 valeurs qui divisent une série en 10 parties contenant chacune,
autant que possible, 10% des données. Ces valeurs sont notées 𝐷1 , 𝐷2 , … , 𝐷9 ou 𝑞1 10 , 𝑞2 10 , … , 𝑞9 10

respectivement.

Définition4 : Les centiles sont les 99 valeurs qui divisent une série en 100 parties contenant chacune,
autant que possible, 1% des données. Ces valeurs sont notées 𝐶1 , 𝐶2 , … , 𝐶99 ou 𝑞1 100 , 𝑞2 100 , … , 𝑞99 100

respectivement.

Remarque : de façon pratique, les quantiles prennent vraiment leurs sens quand le nombre de
données d’une série s’avère assez considérable.

5.3.2 Intervalle et écart interquartile

L’intervalle interquartile est l'intervalle entre le premier et le troisième quartile 𝑄1 et 𝑄3 . Il contient


50% des observations. L’écart interquartile est la différence entre 𝑄1 et 𝑄3 .

Exemple : on a calculé les quartiles d’une série de 50 données

𝑄1 = 𝑞1 4 51.79
𝑄2 = 𝑞2 4 59.65
𝑄3 = 𝑞3 4 65.02

L’écart interquartile est égal { : 𝑄3 − 𝑄1 = 65.02 – 51.79 = 13.23

L’intervalle interquartile ]𝑄1 ; 𝑄3 ] = ] 51.79 ; 65.02] contient 50% des observations.

Définition d’une valeur aberrante : une valeur aberrante de la série est toute donnée qui s'écarte
d'une façon remarquable de l'ensemble des données.

34
FSJES-Oujda
On donne une règle pratique et qui est dû à Tukey, pour décider si une donnée est une valeur
aberrante ou non.

Règle de Tukey : une donnée peut être appelé valeur aberrante si elle s'écarte d'une distance d'au
moins 1.5 ∗ (𝑄3 − 𝑄1 ) au-dessus de 𝑄3 ou en-dessous de 𝑄1 .

Calcul d’un quantile pour des données non groupées en classes

Préalablement à tout calcul, il faut réaliser le classement ascendant des 𝑛 données de la série
statistique. Par rapport { ce classement, la position du quantile d’ordre alpha est déterminée par
𝑝 = 𝛼𝑛

Si 𝑝 est un nombre entier, on aura :


𝑥𝑝 + 𝑥𝑝+1
𝑞𝛼 =
2

Dans le cas où 𝑝 n’est pas un nombre entier, on aura


𝑞𝛼 = 𝑥[𝑝]
où [𝑝] est le plus petit entier supérieur à 𝑝.

Exemple : on donne la série des données suivante,


11 2 0 9 12 12 11 14 20 10

On doit classer les données dans un ordre croissant :


0 2 9 10 11 11 12 12 14 20

𝑄1 = 𝑞1/4 = 𝑥3 = 9
𝑥5 + 𝑥6
𝑄2 = 𝑞1/2 = = 11
2
𝑄3 = 𝑞3/4 = 𝑥8 = 12
Y-a-t-il des données aberrantes dans la série ?
On calcule,
1.5 𝑄3 − 𝑄1 = 1.5 12 − 9 = 4.5
Toute valeur au-dessous de 𝑄1 − 1.5 𝑄3 − 𝑄1 = 9 − 4.5 = 4.5 ou au-dessus de 𝑄3 + 1.5 𝑄3 − 𝑄1 =
12 + 4.5 = 16.5 est une valeur aberrante, on décide que les trois valeurs 0, 2 et 20 sont aberrantes.

Si on veut étudier une série de données, il est préférable d’éliminer l’effet des valeurs aberrantes. On
donne l’exemple du calcul de la moyenne et de la variance, avant et après l’élimination des trois
valeurs aberrantes :
Les dix données ont une moyenne de 10.10 avec une variance de 29.09. Si on reprend le calcul avec les
sept valeurs non aberrantes, on aura une moyenne de 11.29 avec une variance de seulement 2.20.
Il y a moins de dispersion dans la série quand on a éliminé les valeurs aberrantes.

35
FSJES-Oujda
Calcul d’un quantile pour des données groupées en classes
Sur la base d’une distribution d’effectifs ou de fréquences, l’approximation du quantile d’ordre alpha
𝑞𝛼 est donnée par la formule
𝛼𝑛 − 𝑁𝑖−1
𝑞𝛼 = 𝐿𝑖 + ∗𝑐
𝑛𝑖
où 𝑛 la taille de l’échantillon,

𝐿𝑖 la limite inférieure de la classe contenant la valeur du quantile cherché,

𝑐 l’amplitude de la même classe,

𝑛𝑖 l’effectif de la même classe,

𝑁𝑖−1 est l’effectif cumulé de la classe précédente la classe contenant la valeur du quantile cherché.

On peut utiliser la formule des fréquences au lieu des effectifs


𝛼 − 𝐹𝑖−1
𝑞𝛼 = 𝐿𝑖 + ∗𝑐
𝑓𝑖
𝑓𝑖 la fréquence de la même classe contenant la valeur du quantile cherché,

𝐹𝑖−1 est la fréquence cumulée de la classe précédente la classe contenant la valeur du quantile

cherché.

Remarque : il est facile de voir que certains quantiles se coïncident. Par exemple :
𝑞1/2 = 𝑄2 = 𝐷5 = 𝐶50 = 𝑀𝑒
𝑞1/10 = 𝐷1 = 𝐶10
ou
𝑞3/4 = 𝑄3 = 𝐶75

Exemple : on reprend l’exemple de la série de notes d’informatique (page 18)


Nombre Effectif Fréquence Fréquence
Note sur 20
d’étudiants 𝑛𝑖 cumulé 𝑁𝑖 𝑓𝑖 cumulée 𝐹𝑖
[00 ; 10[ 135 135 0.625 0.625
[10 ; 12[ 43 178 0.199 0.824
[12 ; 14[ 16 194 0.074 0.898
[14 ; 16[ 13 207 0.060 0.958
[16 ; 20[ 09 216 0.042 1.000
Total 216 1.000

54 − 0
𝑄1 = 𝑞1/4 = 0 + ∗ 10 = 4
135
108 − 0
𝑄2 = 𝑞1/2 = 0 + ∗ 10 = 8
135

36
FSJES-Oujda
162 − 135
𝑄3 = 𝑞3/4 = 10 + ∗ 2 = 11.256
43

1.5 𝑄3 − 𝑄1 = 1.5 11.256 − 4 = 10.884


On cherche des valeurs aberrantes au-dessous de 𝑄1 − 1.5 𝑄3 − 𝑄1 = 4 − 10.88 = −6.88 ou au-
dessus de 𝑄3 + 1.5 𝑄3 − 𝑄1 = 11.256 + 10.88 = 22.136, donc aucune valeur n’est aberrante.

5.3.3 Construction d’un diagramme en boite à moustache (Box plot)

En calculant les trois quartiles d’une série, on peut faire une représentation des données sous une
forme de boite avec deux moustaches (voir diagramme suivant). La représentation est faite sur l’axe
des observations, en rapportant dans l’ordre croissant, la plus petite valeur non aberrante, puis le
premier, le deuxième et le troisième quartile et en dernier on ajoute la plus grande valeur non
aberrante :

Exemple : dans le dernier exemple, on a pas trouvé de valeurs aberrantes, on va tracer une boite à
moustaches des notes d’informatique,
8
0 4 11,25 20

50%

5.4 Mesures de forme

5.4.1 Représentation des données selon une courbe normale

C’est la distribution selon la loi normale 𝑁(𝜇, 𝜎) (on lui donne d’autres noms comme la loi gaussienne
ou la loi de Laplace-gauss), 𝜇 et 𝜎 représentent respectivement la moyenne et l’écart type de la

37
FSJES-Oujda
population, ces deux paramètres sont en général inconnus. La courbe qui représente cette distribution
est donnée par la fonction suivante :
1 −
1 𝑥−𝜇 2
𝑥  𝑓𝑁 𝑥 = 𝑒 2 𝜎
𝜎 2𝜋
avec 𝜋 = 3.14159 …
Cette distribution a la forme d’une cloche symétrique par rapport { l’axe 𝑥 = 𝜇, ses extrémités sont
tangentes { l’axe des abscisses.

Les observations sont groupées autour de la moyenne, et on montre que :


2 2
50% de ces données sont dans l’intervalle 𝜇 − 𝜎; 𝜇 + 𝜎
3 3

68% sont dans l’intervalle 𝜇 − 𝜎; 𝜇 + 𝜎


95% sont dans l’intervalle 𝜇 − 2 𝜎; 𝜇 + 2𝜎
99.7% sont dans l’intervalle 𝜇 − 3 𝜎; 𝜇 + 3𝜎

La quasi-totalité des données sont rassemblées dans un rayon de 3𝜎. Plus l’écart type est grand, plus
les données sont dispersées autour de la moyenne.

La loi normale la plus utilisée en pratique est la loi 𝑁(0,1) dite loi normale standard, toute les autres
lois normales se ramènent à la loi normale standard.

Distribution d'une loi normale standard


0,45
0,4
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
0,0
0,3
0,5
0,8
1,0
1,3
1,5
1,8
2,0
2,3
2,5
2,8
3,0
-3,0
-2,8
-2,5
-2,3
-2,0
-1,8
-1,5
-1,3
-1,0
-0,8
-0,5
-0,3

Le but est de comparer des séries de moyennes et/ou de dispersions différentes :

5.4.2 Coefficients d’asymétrie et d’aplatissement

 Coefficient d’asymétrie de Fisher (ou skewness)


𝑀3∗
𝛾=
𝜎3
1 𝑛
où 𝑀3∗ = 𝑛 𝑖=1 𝑥𝑖 − 𝑥 3
est le moment centré d’ordre 3.

38
FSJES-Oujda
 𝛾 = 0 si la distribution est symétrique par rapport à la moyenne 𝑥 ;
 𝛾 > 0 si la distribution est plus étalée { droite qu’{ gauche de la moyenne ;
 𝛾 < 0 si la distribution est plus étalée { gauche qu’{ droite de la moyenne.

𝛾>0 𝛾<0
Oblique
Etalée
à gauche
à droite

Remarque : si la distribution est totalement symétrique, il faudra remarquer que la médiane n’est
autre que la moyenne.

 Coefficient d’aplatissement de Fisher (ou Kurtosis)


𝑀4∗
𝛤= −3
𝜎4
1 𝑛
Où 𝑀4∗ = 𝑖=1 𝑥𝑖 − 𝑥 4
est le moment centré d’ordre 4.
𝑛

 𝛤 = 0 si l’aplatissement est le même que celui d’une loi normale standard ; on dit que la courbe
est mesokurtique ;
 Γ > 0 si la distribution est moins aplatie ; on dit que la courbe est leptokurtique ;
 −2 ≤ Γ < 0 si la distribution est plus aplatie ; on dit que la courbe est platikurtique .

Exemple : On reprend l’exemple de l’étude de l’ancienneté des cadres ; on a les informations


suivantes : 𝜎 = 2.281 d’où 𝜎 3 = 11.865 et 𝜎 4 = 27.06 . Et les moments d’ordre 3 et 4 calculé
auparavant sont 𝑀3∗ = 3.17 et 𝑀4∗ = 69.43 ; ce qui donne

3.17
𝛾= = 0.26 > 0
11.865

La distribution n’est pas symétrique, elle est plus étalée à droite, on peut bien le remarquer sur le
polygone de fréquences ou l’histogramme.
39
FSJES-Oujda
Le coefficient d’aplatissement
69.43
𝛤= − 3 = −0.43 < 0
27.06
c.à.d. que la courbe est platikurtique : la distribution est plus aplatie que celle de la loi normale
standard.

BIBLIOGRAPHIE
1. D.R. Anderson, D.J. Sweeney, T.A. Williams, (2010) Statistiques pour l’économie et la gestion, De
Boeck.
2. D. Audet, C. Boucher, A. Caumartin, C. Skeene, (1993) Probabilités et statistique, gaëtan morin.
3. J.-M. Martel (1972) Décision et inférence statistique en affaires, Les Presses de l’université Laval.
4. P.-C. Pupion (2008) Statistiques pour la gestion, applications avec Excel et SPSS, Gestion Sup,
Dunod

40
FSJES-Oujda

Vous aimerez peut-être aussi