Ena - Support de Cours - Stat Appliquee
Ena - Support de Cours - Stat Appliquee
- 3 -
-1-
4. LES CARACTERISTIQUES DES DISTRIBUTIONS STATISTIQUES A UN SEUL CARACTERE ........................................................... - 26 -
-2-
1. INTRODUCTION AUX TECHNIQUES STATISTIQUES
La statistique tire son nom de l’Etat (status en latin) qui est le premier à procéder à une collecte d’un grand
nombre de données.
Pour mieux comprendre le sens du mot statistique, il faut réaliser que ce mot est utilisé pour exprimer trois sens
différents :
Aujourd’hui, les champs d’application de la statistique sont très nombreux (macroéconomie ; microéconomie ;
économétrie ; management et gestion ; sciences actuarielles ; etc.) et la statistique est devenue essentielle pour
appuyer une décision, porter un jugement ou encore prévoir le futur.
Par exemple :
Avant de songer à traiter et analyser des données ou des informations numériques concernant un certain
phénomène, il faut d’abord aller chercher ces données.
Cette collecte de données constitue la démarche initiale à toute analyse statistique ; étant ainsi à la base des
travaux ultérieurs du statisticien ou quantitativiste. Cette étape doit être conduite avec beaucoup de soin, de
prudence et de sens critique.
Face à un phénomène que l’on veut analyser, il faut déterminer de quel type d’information ou de données on a
besoin, et préciser de quelle façon ces données seront recueillies.
-3-
Il existe essentiellement deux façons d’obtenir des données statistiques :
Selon la nature du phénomène envisagé, il peut y avoir plus ou moins d’information disponible.
Concernant les données reliées au domaine de la gestion des affaires, on peut les diviser selon leurs origines en
deux catégories : Les données internes et externes.
- Les données internes sont habituellement celles qui sont les plus faciles à obtenir puisqu’on les retrouve à
l’intérieur même de l’entreprise et ses départements (données sur les ventes, les achats, le personnel, la
production, la machinerie, etc.).
La somme d’information disponible à l’intérieur d’une entreprise grâce aux différents registres, peut avoir un
impact direct sur sa bonne marche, en particulier, au moment des prises de décisions.
Les statistiques des entreprises sont très nombreuses mais elles sont souvent confidentielles.
- Les données externes sont les données qui ont été recueillies et possiblement publiées par des organismes
autres que l’entreprise concernée.
Les principales sources de données externes sont les gouvernements et leurs divers ministères, départements
ou organismes, etc.
Relativement à un phénomène étudié, il peut arriver qu’il n’y ait aucune donnée disponible. Pour obtenir de
l’information originale sur une population, on peut observer toute la population ou seulement une partie de cette
dernière.
Selon la nature de la population en cause et de la variable considérée, les principales méthodes de collecte de
données sont : la méthode d’observation scientifique et la méthode du questionnaire.
- La méthode d’observation scientifique consiste à observer certaines unités de la population pour savoir
quelles sont les modalités ou les valeurs prises par une variable statistique. On parle d’observation scientifique
lorsqu’il s’agit d’une expérience planifiée à l’avance dont on contrôle les conditions d’observation et de mesure.
- La méthode du questionnaire qui consiste à demander l’information désirée à quelqu’un (un individu) est la
méthode de collecte de données la plus utilisée en sciences sociales.
Une fois que l’on a en main une masse ou un ensemble de données au sujet d’un problème ou d’un phénomène,
on peut procéder à ce que l’on appelle l’analyse statistique.
La première étape de l’analyse statistique que l’on qualifie de statistique descriptive ou exploratoire consiste en
un traitement des données qui a pour objectif de présenter, de classer, de résumer et / ou décrire les
caractéristiques essentielles d’un ensemble de données numériques pour en faire ressortir toute information
sous-jacente.
L’inférence statistique regroupe l’ensemble des méthodes qui permettent de tirer des conclusions sur une
population à partir d’une information partielle provenant d’un échantillon.
-4-
1.1.4. La décision statistique
Elle regroupe un ensemble de méthodes et de modèles quantitatifs qui permettent d’aider à la prise de décision
dans un contexte d’incertitude.
La décision statistique vient couronner l’analyse statistique dans le sens qu’elle permet de déterminer de quelle
manière les résultats de l’inférence statistique peuvent se traduire dans l’action. Le but ultime d’une analyse
statistique réside généralement dans une prise de décision.
-5-
1.2. Principales lettres de l’alphabet grec utilisées en statistique
-6-
2. L’information statistique en Tunisie1
Beaucoup d’organismes publics et privés s’occupent de la collecte et de la publication des statistiques. Les offices
nationaux de statistiques sont la principale source de données macroéconomiques et des indices statistiques.
En Tunisie, l’Institut National de la Statistique centralise toutes les informations statistiques publiques. Tous les
ministères, les organismes et les offices publics, la Banque Centrale de Tunisie et les banques transmettent les
données chiffrées à l’INS qui se charge de les publier.
Depuis sa création en 1969, l'INS joue un rôle d'information à l'égard des agents économiques tant publics que
privés.
A PROPOS DE L'INS
Statut
L'Institut National de la Statistique (INS) a été créé en 1969, c'est un établissement public à caractère non administratif.
Il constitue en outre l'organisme central du système national de la statistique.
Selon son statut l'INS est administré par un Conseil d'Entreprise présidé par le Directeur Général de l'INS.
Missions Principales
• Assurer en coordination avec les autres structures statistiques publiques la collecte , le traitement, l'analyse et la
diffusion de l'information statistique.
• Mener des recensements, des enquêtes démographiques, sociales et économiques.
• Elaborer les comptes de la nation selon ses différentes dimensions (nationale, trimestrielle)
• Elaborer les indicateurs de conjoncture économique et assurer le suivi et l'analyse de la conjoncture.
• Organiser la documentation statistique nationale en rassemblant les données produites par les structures du système
national de la statistique
• Assurer la coordination technique des activités statistiques publiques.
• Assurer le secrétariat permanent du conseil national statistique.
• Organiser la coopération internationale dans le domaine statistique
.
Au niveau central : l'INS est constitué de 7 directions centrales : 6 directions centrales techniques qui assurent
l'activité de conception et de suivi et de réalisation des travaux de production et de diffusion de l'information statistique,
et une direction centrale regroupant les services communs. En outre deux structures sont rattachées directement à la
Direction générale de l'INS :
• Le Secrétariat Permanent du Conseil National de la Statistique
• L’Observatoire de la Conjoncture Economique.
Les directions centrales :
• D.C des statistiques démographiques et sociales.
• D.C des statistiques d’entreprises.
• D.C de la comptabilité nationale.
• D.C des statistiques de la conjoncture et des études économiques.
• D.C des statistiques régionales.
• D.C de la diffusion, informatique et coordination.
1 (Préparé à partir de l’information disponible sur le site Web de l’INS [Link], Octobre 2017).
-7-
Au niveau régional : l'INS est représenté par six directions régionales (Districts) qui couvrent les grandes régions du
pays.
• Nord-Est:
Adresse : Tunis. Cité Bouchoucha, le Bardo 2000.
Téléphone : (+216) 71 588 697
Fax : (+216) 71 588808
• Nord-Ouest :
Adresse : Béja. Rue de la municipalité, Imm zlaoui , Béja 9000.
Téléphone : (+216) 78 450 755
Fax : (+216) 78 440 359
• Centre-Est :
Adresse : Sousse: Imm. Mallouli Rue Med Ali, Bab Djedid Sousse 4000.
Téléphone : (+216) 73 224 245
Fax : (+216) 73 224 245
• Centre-Ouest :
Adresse : Kasserine: Avenue Habib Bourguiba. Kasserine 1200.
Téléphone : (+216) 77 474 811
Fax : (+216) 77 474 811
• Sud Ouest :
Adresse : Gafsa: Avenue Roman Douali 2100 Gafsa
Téléphone : (+216) 76 224 951
Fax : (+216) 76 224 951
• Sud Est :
Adresse : Médenine. Avenue Habib Bourguiba-2ème étage, Médenine 4080.
Téléphone : (+216) 75 643 864
Fax : (+216) 75 643 864
La mission principale des représentations régionales est de réaliser les opérations de collecte de données, de chiffrement
et de saisie et s'étend à d'autres activités régionales spécifiques ainsi que le développement des statistiques régionales
dans leurs zones géographiques.
Statistiques économiques
Coordination statistique
-8-
3. ELEMENTS DE BASE POUR COMPRENDRE LA STATISTIQUE
DESCRIPTIVE
La statistique étudie de façon quantitative des ensembles nombreux et elle est basée sur deux notions
fondamentales : la population et l’échantillon.
La population est la totalité des éléments qu’on désire étudier. Ainsi, la population est un ensemble composé
d’éléments bien définis, les individus, servant d’objets à l’étude.
La population statistique dépasse largement le cadre strict de la démographie, qui fut le premier domaine
d’application de la statistique et dont elle a hérité la terminologie de base.
En général, la population est trop grande pour permettre l’étude de tous ses individus. C’est de plus impossible
lorsque l’observation elle-même implique la destruction des individus (exemple ; Crash-tests d’automobiles,
étude de la durée de vie des ampoules issues d’une usine). C’est pourquoi les observations sont ramenées à un
sous-ensemble de la population que l’on appelle échantillon. L’étude d’un échantillon (ce sous-ensemble)
permet de tirer des “conclusions” sur la population entière (sondages par exemple).
Chaque population ou échantillon contient des éléments que l’on peut dénombrer (par exemple, habitants,
salariés, automobiles, etc.).
Ces éléments portent le nom d’unités statistiques ou d’individus. En général, une population est composée de 𝑁
unités homogènes, 𝑁 est un ensemble fini (𝑁 ∈ ℕ).
Il faut toujours bien définir la population que l’on étudie, afin de ne pas créer de confusions dans l’interprétation.
L’ordre dans lequel on observe les unités statistiques ou les individus d’une même population ou un échantillon
de la population n’a pas d’importance.
2Pou ce cours de statistiques descriptives, on considère les observations et on essaye de les “faire parler” au mieux, sans beaucoup d’hypothèses
sur leur origine (en particulier on considère que l’échantillon = la population).
-9-
N.B.
On utilise des lettres majuscules pour désigner les variables de la population (X, Y, Z, etc.) et des lettres en
minuscules pour désigner les variables correspondantes de l’échantillon (x, y, z, etc.).
Pour décrire une population, on repère et on classe les individus ou les unités statistiques en sous-ensembles
appelés caractères. Ainsi, pour chaque individu, on peut relever un ou plusieurs caractères. Le caractère est un
aspect observable du phénomène étudié : c’est une dimension du phénomène.
Par exemple, la population de la Tunisie, ou les salariés d’une entreprise, pourront être décrits par des caractères
tels que : sexe, âge, nationalité, nombre d’enfants, etc. La production d’une firme automobile pourra être repérée
par les caractères : modèle, couleur, type, puissance du moteur, puissance fiscale, nombre de places assises, etc.
Une unité peut être observée selon plusieurs caractères mais il est strictement indispensable de ne retenir que
les caractères les plus pertinents pour pouvoir décrire une population convenablement, en agrégeant ainsi les
informations en sous-ensembles cohérents.
Dans certains cas, le choix d’un trop grand nombre de caractères revient à présenter la population en question
dans sa réalité brute, c'est-à-dire, sans aucun effet de synthétisation pratique, presque individu par individu.
Chaque caractère étudié peut présenter deux ou plusieurs valeurs, états ou situations différentes que l’on appelle
modalités.
Il est important de signaler que :
les différentes modalités d’un caractère doivent être : incompatibles, exhaustives et sans
ambiguïté :
▪ incompatibles, de manière à ce qu’un individu ne puisse appartenir à plus d’une modalité
à la fois (un individu ne peut pas être marié et célibataire) ;
▪ exhaustives, afin de prévoir toutes les situations possibles, sans exception ;
▪ sans ambiguïté, pour ne pas faire d’erreur de classement.
les modalités d’un caractère sont hiérarchisées selon le degré de finesse de l’information
disponible ou recherchée.
Par exemple, un individu peut être masculin ou féminin, c'est-à-dire, remplir l’une des deux modalités du
caractère sexe. Il peut satisfaire également à l’une des quatre modalités du caractère état matrimonial : marié,
célibataire, divorcé ou veuf. Une voiture peut être : rouge, blanche, noire, bleue ou autre couleur ; et correspondre
ainsi à l’une des cinq modalités retenues ici pour le caractère couleur.
Selon la précision recherchée lors d’une enquête démographique, on peut étudier la population en quatre
modalités : marié, célibataire, divorcé ou veuf, ou seulement en deux : marié ou non marié.
Un caractère est dit qualitatif lorsque son observation ne peut pas être traduite par une mesure. Ses modalités
sont simplement identifiées, constatées et repérées pas un mot traduisant un état.
Ainsi, par exemple les caractères, groupe sanguin, profession, nationalité, couleur, … ne présentent pas de
modalités mesurables.
Lorsque le caractère qualitatif ne présente que deux modalités, il est dit dichotomique.
Par exemple : Fumeur et non-fumeur.
- 10 -
Si les modalités du caractère qualitatif peuvent être présentées dans certain ordre, le caractère est dit ordinal.
Par exemple : le niveau socioculturel des consommateurs des produits biologiques : éducation primaire,
éducation secondaire, éducation supérieure.
Si l’ordre de présentation des modalités du caractère qualitatif est sans importance, le caractère est dit nominal.
Par exemple : la couleur des chaussures.
Certaines modalités sont ordonnées et hiérarchisées par simple convention, à l’intérieur de tableaux appelés
nomenclatures. Chaque modalité porte le nom de rubrique. Les rubriques doivent être incompatibles,
exhaustives et sans ambiguïté.
A chaque nomenclature est associé un code numérologique, permettant de repérer par un ou plusieurs chiffres
les rubriques et sous-rubriques.
Un caractère est dit quantitatif si ses modalités sont mesurables, c'est-à-dire, traduites par des nombres qui
mesurent leurs valeurs. Le caractère quantitatif prend alors le nom de variable statistique et ses différentes
modalités sont les valeurs possibles de la variable.
Par exemple, le poids, la taille et l’âge sont des caractères ou des variables statistiques, dont les modalités sont
mesurables dans diverses unités spécifiques.
Une variable statistique quantitative est discrète lorsqu’elle prend des valeurs isolées et elle prend ses valeurs
dans un ensemble où deux valeurs voisines sont séparées par un intervalle qui ne comporte aucune valeur. Un
tel ensemble est dit lui aussi discret.
Une variable est discrète si l’ensemble des valeurs qu’elle peut prendre est dénombrable (très souvent des
nombres entiers : 0, 1, 2, 3, 4, etc.), c'est-à-dire si l’on peut énumérer les valeurs possibles de cette variable.
Par exemple, le nombre de voitures ou le nombre d’habitants sont des variables discrètes.
Les modalités du caractère (ou, ce qui revient au même : les valeurs de la variable) seront, soit des valeurs exactes
(0 ; 1 ; 2 ; 3 ;…), soit des regroupements de valeurs en classes (moins de 5 salariés, de 5 à 9 salariés, de 10 à 14
salariés ; etc.).
Une variable statistique est dite continue lorsque l’ensemble des valeurs qu’elle peut prendre est non
dénombrable, c'est-à-dire, elle prend ses valeurs dans un ensemble où, quelles que soient deux valeurs, on peut
toujours en trouver une qui est entre les deux. Un tel ensemble est dit aussi continu.
’il est à priori possible de pousser sa mesure à des décimales (elle existe pour tout nombre réel, c'est-à-dire
lorsque ses valeurs sont en nombre infini).
Par exemple, le poids d’un individu n’est pas exactement de 75 ou 76 kg : il peut être de 75,5 ou même selon la
précision de la mesure de 75,458 kg ou encore le rendement agricole par hectare.
Remarque :
⎯ En général, les variables statistiques issues de comptage sont traitées comme discrètes alors que les variables
statistiques issues de mesures sont traitées comme continues.
⎯ En pratique, une variable est considérée continue si elle peut prendre un si grand nombre de valeurs,
qu’on est obligé de les regrouper en classes.
⎯ Des variables continues sont parfois discrétisées pour en simplifier le traitement.
⎯ Pour un caractère continu, les “valeurs possibles” ne sont plus en quantité dénombrable. Pour des raisons pratiques,
on peut discrétiser ce caractère en effectuant un regroupement en classe. On effectue une partition finie de
- 11 -
l’intervalle des valeurs possibles, chaque élément de la partition étant appelé classe. Ex.: La longueur d’un pied est
un caractère continu. Pour des raisons de production “à la chaîne”, on le discrétise pour obtenir un caractère discret,
la pointure.
En résumé :
Caractère
Quantitatif Qualitatif
Variable Variable
Statistique Statistique Ordinal Nominal
Discrète Continue
L’information statistique collectée sous forme de données individuelles, n’est pas facilement exploitable et sa
manipulation est lourde. Il est donc nécessaire de la synthétiser sous forme de tableaux, par exemple, qui
résume les caractères et leurs évolutions.
Pour présenter un tableau statistique, trois principes simples doivent être respectées :
1. Le titre du tableau
2. Les unités utilisées
3. La source ou l’origine de l’information chiffrée
- 12 -
3.3.2. Les tableaux statistiques et les notions d’effectif et de fréquence
D’habitude, on synthétise et on regroupe les modalités et les effectifs sous forme de tableaux statistiques.
Les tableaux statistiques sont dits à une dimension (unidimensionnels), si l’on ne retient qu’un seul caractère ;
à deux dimensions ou croisés (bidimensionnels), si l’on retient deux caractères.
Un tableau à une dimension se présente généralement sous la forme suivante, où les 𝑛𝑖 individus sont
considérés comme équivalents du point de vue du caractère 𝑥𝑖 .
Modalites Effectifs
(𝑥𝑖 ) (𝑛𝑖 )
𝑥1 𝑛1
𝑥2 𝑛2
𝑥3 𝑛3
⬚ ⬚
⬚ ⬚
⬚ ⬚
𝑥𝑘 𝑛𝑘
⬚ 𝑁
A chaque modalité correspond un nombre d’individus ni appelé effectif de la modalité xi ou fréquence absolue.
La somme des effectifs constitue l’effectif total de la population (ou parfois de l’échantillon) : ∑𝑘𝑖=1 𝑛𝑖 = 𝑁
La fréquence relative (ou simplement fréquence) 𝑓𝑖 est la proportion d’individus présentant la même modalité
𝑛 𝑛
dans la population totale : 𝑓𝑖 = 𝑁𝑖 ou en termes de pourcentage 𝑓𝑖 % = 𝑁𝑖 × 100.
La somme des fréquences est égale à l’unité : ∑𝑘𝑖=1 𝑓𝑖 = 1.
Lorsqu’on est en présence de caractères non mesurables (qualitatifs) on peut les ranger tout simplement selon
la "logique" qui permet au mieux leur interprétation.
Tableau 2 : Structure de la population active occupée par secteur d'activité en 2004 (en milliers)
Modalités Effectifs
01… Agriculture et Pêche 465,3161
02… Industrie, Mines, Energie, Bâtiment et Travaux publics 979,1621
03… Commerce et services 1410,222
Total N =2854,7
Source : INS, 2005 (Recensements de la population et de l'habitat de 2004)
On peut, comme dans une nomenclature détaillée, coder les diverses rubriques (ici, de 01 à 03). L’opération de
codage est une opération de classement qui permet de donner un symbole ou un chiffre à une modalité du
caractère.
L’opération de codage est une simple représentation condensée de l’information. Ce n’est pas une valeur ou une
moyenne, tout calcul sur les codes est absurde et sans signification.
Les graphiques sont souvent utiles pour synthétiser de façon visuelle l’information contenue dans les tableaux
statistiques.
Ils permettent de faire passer une information de manière moins rebutante (et moins ennuyante) à la lecture
que les tableaux. Cependant cette lecture est moins directe et moins précise.
- 13 -
[Link].1 Les diagrammes à secteurs circulaires
Pour le cas des données figurant dans le tableau 2, la distribution pourrait être représentée par un cercle divisé
en k secteurs (chaque modalité sera représentée par un secteur sur le cercle).
La superficie du secteur est proportionnelle à l’effectif de la modalité ou la fréquence de cette modalité.
Figure 1 : Structure de la population active occupée par secteur d'activité en 2004 (en milliers)
34%
50%
16%
Agriculture et Pêche Industrie, Mines, Energie, Bâtiment et Travaux publics Commerce et services
Ce type de graphique fait apparaître des rectangles de base constante donc les hauteurs sont proportionnelles
aux effectifs ou aux fréquences. En abscisses, on ordonne (facultativement) les modalités du caractère. En
ordonnées, sera représenté la valeur de l’effectif ou la fréquence.
Figure 2 : Structure de la population active occupée par secteur d'activité en 2004 (en milliers)
1600
1400
1200
1000
800
600
400
200
0
Agriculture et Pêche Industrie, Mines, Energie, Commerce et services
Bâtiment et Travaux publics
N.B.
On peut ordonner les valeurs des effectifs de la plus grande à la plus faible en partant de l’origine des axes.
Ces graphiques représentent la même réalité que les diagrammes à secteurs circulaires précédents.
Ce ne sont que des dessins suggestifs qui permettent de déduire des informations et des constations de
première importance sans entrer dans les détails quantitatifs.
Pour cela, par exemple, la dimension du dessin (ou figure) doit respecter les proportions de chaque modalité.
- 14 -
Figure 3 : Evolution du pouvoir d'achat du dollar canadien, 1980 à 2000
Cette figure montre comment le dollar canadien a diminué jusqu'à une valeur de 46,17 cents en 20 ans en
raison de l'inflation. Cette information signifie que la valeur du dollar canadien de 2000 est moins de la moitié
de celui de 1980.
- 15 -
𝐹1 ↗= 𝑓1
𝐹2 ↗= 𝑓1 + 𝑓2 = 𝐹1 ↗ +𝑓2
𝐹3 ↗= 𝑓1 + 𝑓2 + 𝑓3 = 𝐹2 ↗ +𝑓3
⋮
𝑘
𝐹𝑘 ↗= 𝑓1 + 𝑓2 + 𝑓3 + ⋯ + 𝑓𝑘 = ∑ 𝑓𝑖 = 𝐹𝑘−1 ↗ +𝑓𝑘 = 1
{ 𝑖=1
N.B.
𝐹𝑖 ↗= 0 pour toutes les valeurs 𝑥𝑖 qui sont strictement inferieures à la plus petite valeur de la modalité.
𝐹𝑖 ↗= 1 pour toutes les valeurs 𝑥𝑖 qui sont supérieure ou égales à la plus grande valeur de la modalité.
𝐹𝑘 ↘= 1 − (𝑓1 + 𝑓2 + 𝑓3 + ⋯ + 𝑓𝑘 ) = 1 − ∑ 𝑓𝑖 = 0
{ 𝑖=1
N.B.
On a 𝐹𝑖 ↘= 1 pour toutes les valeurs 𝑥𝑖 qui sont strictement inferieures à la plus petite valeur de la modalité.
On a 𝐹𝑖 ↘= 0 pour toutes les valeurs 𝑥𝑖 qui sont supérieure ou égales à la plus grande valeur de la modalité.
𝑁𝑘 ↗= 𝑛1 + 𝑛2 + 𝑛3 + ⋯ + 𝑛𝑘 = ∑ 𝑛𝑖 = 𝑁𝑘−1 ↗ +𝑛𝑘 = 𝑁
{ 𝑖=1
𝑁𝑘 ↘= 𝑁 − (𝑛1 + 𝑛2 + 𝑛3 + ⋯ + 𝑛𝑘 ) = 𝑁 − ∑ 𝑛𝑖 = 0
{ 𝑖=1
Exemple
- 16 -
Tableau 3 : Ménages et technologies de communication/ Possession de
téléphones portables
Modalité: ni fi Ni Z Fi Z Ni ] Fi ]
Nombre Nombres de ménages Fréquences Effectifs cumulés Fréquences Effectifs cumulés Fréquences
portables (en milliers) croissants cumulées décroissants cumulées
croissantes décroissantes
0 1 179 53,9% 1 179 53,9% 1 007 46,1%
1 647 29,6% 1 826 83,5% 360 16,5%
2 245 11,2% 2 071 94,8% 115 5,2%
3 74 3,4% 2 145 98,1% 41 1,9%
4&+ 41 1,9% 2 186 100,0% 0 0,0%
k k
Total N = ni = 2186 f i = 100%
i=1 i=1
N.B.
La notion de fréquence cumulée permet de répondre par exemple à la question : « combien de ménages ont
plus de 2 portables » ou « moins de 3 portables », par exemple.
Ce résultat « plus de … » ou « moins de … » peut s’exprimer en nombres (fréquences absolus) ou en proportions
(fréquences relatives).
[Link].1 Diagramme en bâtons des effectifs ou des fréquences des variables discrètes
On peut représenter la série par un diagramme en bâtons (diagramme en bâtons des effectifs ou diagramme en
bâtons des fréquences).
Il s’agit de la figure obtenue sur un repère cartésien en associant à chaque point de cordonnées (𝑥𝑖 , 0) un
segment vertical.
La hauteur des segments tracés est proportionnelle aux effectifs (𝑛𝑖 ) ou aux fréquences (𝑓𝑖 ).
Dans l’exemple suivant, le tableau résume la possession des ménages tunisiens de téléphones portables d’après
les résultats du dernier recensement de la population en 2004:
- 17 -
Total 2185,8
Source : Institut National de la Statistique (RGPH, 2004)
1 300 100,0%
1 200
1 100
1 000 80,0%
900
800 60,0%
700
600
500 40,0%
400
300
20,0%
200
100
0 0,0%
0 1 2 3 4& + 0 1 2 3 4& +
N.B.
- 18 -
▪ de repérer les valeurs aberrantes.
On peut traduire le diagramme en bâtons sous forme d’une courbe polygonale joignant les extrémités des
segments tracés.
On obtient ainsi le polygone des effectifs (ou le polygone des fréquences).
1 300 100,0%
1 200
1 100
1 000 80,0%
900
800 60,0%
700
600
500 40,0%
400
300 20,0%
200
100
0 0,0%
0 1 2 3 4& + 0 1 2 3 4& +
On appelle fonction de répartition d’une variable statistique quantitative toute application définie par :
F: ℜ → [0,1]
𝑥𝑖 ↦ 𝐹(𝑥𝑖 ) = prop(x<x𝑖 )
𝐹(𝑥𝑖 ) est égale à la proportion des individus ayant une valeur du caractère strictement inferieure à 𝑥𝑖 .
D’une manière générale, la fonction de répartition est constante par intervalle.
Sa formulation est la suivante :
- 19 -
0 𝑥 ≤ 𝑥1
𝑓1 𝑥1 < 𝑥 ≤ 𝑥2
𝑓1 + 𝑓2 𝑥2 < 𝑥 ≤ 𝑥3
F: ⬚
⋮
𝑓1 + 𝑓2 + ⋯ + 𝑓𝑝−1 𝑥𝑃−1 < 𝑥 ≤ 𝑥𝑝
{ 1 𝑥 > 𝑥𝑝
Si on revient sur l’ensemble des données antérieures (Ménages et technologies de communication en Tunisie -
Possession de téléphones portables), on peut écrire que :
𝐹(0) = 𝑝𝑟𝑜𝑝(𝑥 < 0) = 0
𝐹(1) = 𝑝𝑟𝑜𝑝(𝑥 < 1)
= 𝑝𝑟𝑜𝑝(𝑥 = 0) = 0,539
𝐹(2) = 𝑝𝑟𝑜𝑝(𝑥 < 2)
= 𝑝𝑟𝑜𝑝(𝑥 = 0) + 𝑝𝑟𝑜𝑝(𝑥 = 1)
= 0,539 + 0,296 = 0,835
𝐹(3) = 𝑝𝑟𝑜𝑝(𝑥 < 3)
= 𝑝𝑟𝑜𝑝(𝑥 = 0) + 𝑝𝑟𝑜𝑝(𝑥 = 1) + 𝑝𝑟𝑜𝑝(𝑥 = 2)
= 0,539 + 0,296 + 0,112
= 0,948
𝐹(4+) = 𝑝𝑟𝑜𝑝(𝑥 < 4+)
= 𝑝𝑟𝑜𝑝(𝑥 = 0) + 𝑝𝑟𝑜𝑝(𝑥 = 1) + 𝑝𝑟𝑜𝑝(𝑥 = 2) + 𝑝𝑟𝑜𝑝(𝑥 = 3)
= 0,539 + 0,296 + 0,112 + 0,034
{= 0,981
En définitive, on peut représenter l’évolution des fréquences cumulées croissantes liées aux valeurs d’une
variable discrète (ou encore les effectifs cumulés croissants, si on le souhaite) par un diagramme en escalier.
- 20 -
3.3.5. Classement et représentation des variables statistiques continues
Dans ce cas, les individus (ou observations) sont nécessairement regroupés en classes, définies par leurs
bornes ou extrémités.
Par exemple, une classe de salaire mensuel en dinars:
▪ de 150 à moins de 250 dinars
ou
▪ [150 ; 250[
ou
▪ [ei-1 ; ei[ avec ei valeur d’une borne.
𝑒 +𝑒 150+250
Le centre de classe sera : 𝑐𝑖 = 𝑖−12 𝑖 = 2
= 200 ⇌ 𝑑𝑖𝑛𝑎𝑟𝑠
L’amplitude de la classe est 𝑎𝑖 = 𝑒𝑖 − 𝑒𝑖−1 = 100 𝑑𝑖𝑛𝑎𝑟𝑠
Les amplitudes peuvent être inégales.
▪ de 150 à moins de 250 dinars: amplitude = 100 dinars
▪ de 250 à moins de 400 dinars : amplitude = 150 dinars
▪ plus de 400 dinars : amplitude indéterminée
Les amplitudes des classes peuvent être constantes ou variables sur l’intervalle de variation.
Pareil, on a :
𝐹1 ↗= 𝑓1
𝐹2 ↗= 𝑓1 + 𝑓2 = 𝐹1 ↗ +𝑓2
𝐹3 ↗= 𝑓1 + 𝑓2 + 𝑓3 = 𝐹2 ↗ +𝑓3
⋮
𝑘
𝐹𝑘 ↗= 𝑓1 + 𝑓2 + 𝑓3 + ⋯ + 𝑓𝑘 = ∑ 𝑓𝑖 = 𝐹𝑘−1 ↗ +𝑓𝑘 = 1
{ 𝑖=1
N.B.
▪ 𝐹𝑖 ↗= 0 pour toutes les valeurs 𝑥𝑖 qui sont strictement inferieures à la plus petite valeur de la modalité.
▪ 𝐹𝑖 ↗= 1 pour toutes les valeurs 𝑥𝑖 qui sont supérieure ou égales à la plus grande valeur de la modalité.
Pareil, on a :
𝐹1 ↘= 1 − 𝑓1 = 1 − 𝐹1 ↗
𝐹2 ↘= 1 − (𝑓1 + 𝑓2 ) = 𝐹1 ↘ −𝑓2
𝐹3 ↘= 1 − (𝑓1 + 𝑓2 + 𝑓3 ) = 𝐹2 ↘ −𝑓3
⋮
𝑘
𝐹𝑘 ↘= 1 − (𝑓1 + 𝑓2 + 𝑓3 + ⋯ + 𝑓𝑘 ) = 1 − ∑ 𝑓𝑖 = 0
{ 𝑖=1
- 21 -
N.B.
▪ 𝐹𝑖 ↘= 1 pour toutes les valeurs 𝑥𝑖 qui sont strictement inferieures à la plus petite valeur de la modalité.
▪ 𝐹𝑖 ↘= 0 pour toutes les valeurs 𝑥𝑖 qui sont supérieure ou égales à la plus grande valeur de la modalité.
[Link]. Les graphiques des variables statistiques continues : Classes d’amplitudes égales
Exemple :
La distribution des accidents de la route selon les heures de la journée en France est résumée dans le tableau
suivant.
Tableau 6 : Accidents de la route selon les heures de la journée en France (Découpage avec des classes d’égales
amplitudes)
Fréquences des Fréquences cumulées Fréquences cumulées
Tranche horaire Nombre d'accidents accidents croissantes décroissantes
[0, 3[ 8 155 5,69% 5,69% 94,31%
[3, 6[ 6 258 4,37% 10,05% 89,95%
[6, 9[ 15 284 10,66% 20,72% 79,28%
[9, 12[ 18 006 12,56% 33,28% 66,72%
[12, 15[ 23 703 16,53% 49,81% 50,19%
[15, 18[ 29 759 20,76% 70,57% 29,43%
[18, 21[ 29 172 20,35% 90,92% 9,08%
[21, 24[ 13 022 9,08% 100,00% 0,00%
Total 143 359 100,00%
Source : INSEE, 1992.
- 22 -
Histogramme des effectifs Histogramme des fréquences
25,00%
Nombre d'accidents
20,76% 20,35%
20,00%
29 759 29 172 16,53%
0,00%
[0, 3[ [3, 6[ [6, 9[ [9, 12[ [12, 15[ [15, 18[ [18, 21[ [21, 24[
[0, 3[ [3, 6[ [6, 9[ [9, 12[ [12, 15[ [15, 18[ [18, 21[ [21, 24[
Fréquences des accidents
N.B.
▪ Il n’est pas nécessaire de tracer un axe vertical pour les effectifs.
▪ Il est convenu de mettre les effectifs sur chaque rectangle ou d’indiquer à quel effectif correspond une
unité d’aire.
▪ Les caractères prennent toutes les valeurs possibles entre 2 valeurs données.
▪ Chaque classe est représentée par un rectangle dont un coté sur l’axe des abscisses est proportionnel à
l’amplitude de la classe et l’autre côté est proportionnel à l’effectif de la classe.
▪ Toutes les classes étant égales, l’aire de chaque rectangle est proportionnelle à l’effectif représenté et
donc l’aire totale de l’histogramme est proportionnelle à l’effectif total.
20,00%
15,00%
10,00%
5,00%
0,00%
[-3, 0[ [0, 3[ [3, 6[ [6, 9[ [9, 12[ [12, 15[ [15, 18[ [18, 21[ [21, 24[ [24, 27[
[-3, 0[ [0, 3[ [3, 6[ [6, 9[ [9, 12[ [12, 15[ [15, 18[ [18, 21[ [21, 24[ [24, 27[
Histogramme des féquences Polygone des fréquences
L’aire sous le polygone des fréquences est proportionnelle à la somme des fréquences : Si on divise cette aire
par l’amplitude commune des classes alors elle est égale à un.
L’aire sous le polygone des effectifs est alors la même que celle de l’histogramme, elle est donc proportionnelle
à l’effectif total : Si on divise cette aire par l’amplitude commune des classes alors elle est égale à l’effectif total.
N.B.
▪ Si les effectifs de la série sont importants et les classes d’amplitude très petite, la ligne polygonale devient
une courbe appelée courbe des effectifs.
- 23 -
Pour obtenir la courbe cumulative croissante ou le polygone des fréquences cumulées
croissantes, il suffit de placer et de relier les différents points (𝑥i+1 ; 𝐹𝑖 ↗).
Ainsi on trace les segments dont les extrémités ont :
pour abscisses les bornes des classes
et
pour ordonnés :
- 0 pour la borne inférieure de la première classe
- La fréquence cumulée croissante de la première classe pour la borne supérieure de la première
classe
- fréquence cumulée croissante de la première classe pour la borne inférieure de la deuxième
classe
- fréquence cumulée croissante de la deuxième classe pour la borne supérieure de la deuxième
classe
- …et ainsi de suite…
Pour notre exemple (Accidents de la route selon les heures de la journée), les points à placer sont :
(0 ; 0) ; (3; 0,057) ; (6; 0,101) ; (9; 0,207) ; (12; 0,333) ; (15; 0,498) ; (18; 0,706) ;
(21; 0,909) et (24; 1,000).
D’une manière analogue, on peut tracer le polygone des fréquences cumulées décroissantes.
Finalement, on peut tracer ces deux courbes cumulatives sur le même graphique :
Fréquences cumulées croissantes Fréquences cumulées décroissantes
100,00%
90,00%
80,00%
70,00%
60,00%
50,00%
40,00%
30,00%
20,00%
10,00%
0,00%
0 3 6 9 12 15 18 21 24
En tout point du polygone des fréquences cumulées croissantes, on peut trouver le pourcentage des accidents
qui ont eu lieu avant x heures.
Exemple :
10% des accidents se produisent avant 6 h (donc 90% se produisent après 6 h).
50% des accidents se produisent avant 15 h (donc 50% se produisent après 15 h).
50% - 10% = 40% des accidents se produisent entre 15 h et 6 h.
En tout point du polygone des fréquences cumulées décroissantes, on peut trouver le pourcentage des
accidents qui ont eu lieu après x heures.
Exemple :
90% des accidents se produisent après 6 h (ainsi 10% se produisent avant 6 h).
50% des accidents se produisent après 15 h (ainsi 50% se produisent avant 15 h).
N.B.
o on peut faire de même pour les effectifs cumulés croissants et décroissants.
- 24 -
[Link]. Les graphiques des variables statistiques continues : Classes d’amplitudes inégales
Dans ce cas, il faut prendre la précaution de ne pas prendre comme hauteur des rectangles les effectifs ou les
fréquences réels mais les effectifs corrigés ou les fréquences corrigées parce que ce sont les aires des
rectangles et non pas les hauteurs qui sont proportionnelles aux effectifs réels ou aux fréquences réelles (les
bases des rectangles n’ont pas la même dimension).
Exemple :
La distribution des accidents de la route selon les heures de la journée en France est résumée dans le tableau
suivant.
Tableau 7 : Accidents de la route selon les heures de la journée en France. Découpage avec des classes d’inégales
amplitudes
Nombre Amplitude de la Effectifs
Tranche horaire Fréquences k Fréquences rectifiées
d'accidents classe rectifiés
[0, 9[ 29 697 0,207 9 3 9 899 0,069
[9, 15[ 41 709 0,291 6 2 20 855 0,145
[15, 18[ 29 759 0,208 3 1 29 759 0,208
[18, 24[ 42 194 0,294 6 2 21 097 0,147
Total 143 359
Source : INSEE, 1992.
On choisit par convention une classe de référence d’amplitude A (en général, la plus petite). Donc une classe
quelconque a pour amplitude k A.
Les effectifs corrigés ou les fréquences corrigées s’obtiennent en divisant par k les effectifs réels ou les
fréquences réelles.
La classe de référence est la classe [15, 18[.
L’amplitude de la classe de référence est A =18-15=3.
De même on peut tracer le polygone des effectifs ou des fréquences mais l’aire sous le polygone devant être
égale à l’aire de l’histogramme, on doit partager chaque rectangle en sous rectangle de base A = amplitude de
la classe de référence et procéder de la même façon que précédemment c'est-à-dire joindre les milieux des
sommets des sous rectangles sans oublier de rajouter une classe fictive à droite et à gauche d’amplitude A.
- 25 -
4. LES CARACTERISTIQUES DES DISTRIBUTIONS
STATISTIQUES A UN SEUL CARACTERE
4.1. Introduction
Une fois les données collectées et ordonnées, le plus souvent sous forme de tableaux et de graphiques qui
permettent une première analyse du phénomène étudié (une dimension), les différentes caractéristiques
calculables à partir de la distribution statistique permettent de résumer l’échantillon au moyen de paramètres
(ou de caractéristiques) facilement compréhensibles et opérationnels :
Les caractéristiques de tendance centrale fournissent des informations sur l’ordre de grandeur de la série
d’observations.
Les caractéristiques de tendance centrale (appelées aussi valeurs centrales ou paramètres de position) sont des
valeurs numériques qui s’expriment dans la même unité que les observations.
La moyenne arithmétique d’une série statistique est égale à la somme des valeurs prises par le caractère, pondéré
par les fréquences.
Les caractères discrets ne peuvent prendre qu’un nombre fini de valeurs. Soit la variable statistique discrète X
qui prend les valeurs (souvent, entières) 𝑥1 , 𝑥2 , . . . , 𝑥𝑘 où k est le nombre de modalités.
1
La moyenne arithmétique qu’on note 𝑋̄, est calculée comme suit : 𝑋̄ = ∑𝑘𝑖=1 𝑛𝑖 𝑥𝑖 = ∑𝑘𝑖=1 𝑓𝑖 𝑥𝑖 .
𝑛
Dans le cas d’une variable statistique continue on dispose d’observations regroupées en classes (ou encore,
données groupées en intervalles).
La convention généralement retenue consiste à adopter, comme valeurs des variables statistiques dans les
𝑥 +𝑥
calculs, les centres des classes définis par : 𝑐𝑖 = 𝑖 2 𝑖+1 avec 𝑖 = 1, 2, . . . , 𝑘.
Cette opération revient à supposer que les observations à l’intérieur de chaque classe sont reparties d’une façon
uniforme. Pour calculer la moyenne arithmétique, il suffit de remplacer dans l’expression précédente, les 𝑥𝑖 par
1
les 𝑐𝑖 avec 𝑖 = 1, 2, . . . , 𝑘 : 𝑋̄ = 𝑁 ∑𝑘𝑖=1 𝑛𝑖 𝑐𝑖 = ∑𝑘𝑖=1 𝑓𝑖 𝑐𝑖
- 26 -
[Link]. Quelques propriétés de la moyenne arithmétique
a) La somme des écarts (déviations) entre les valeurs de la variables et leur moyenne arithmétique,
pondérés par les effectifs (ou par les fréquences), est nulle : ∑𝑘𝑖=1 𝑛𝑖 (𝑥𝑖 − 𝑋̄) = ∑𝑘𝑖=1 𝑓𝑖 (𝑥𝑖 − 𝑋̄) = 0
d) La moyenne de la population est égale à la moyenne des moyennes des sous- populations pondérées par
Population P Taille n Moyenne arithmetique X̄
⇓
⬚ ⬚
1 𝑘 sous-populations
les effectifs correspondants : 𝑋̄ = 𝑛 ∑𝑗=1 𝑛𝑗 𝑋̄𝑗 avec
𝑃1 𝑛1 𝑋̄1
⋮ ⋮ ⋮
𝑃𝑠 𝑛𝑠 ̄
𝑋𝑠
La moyenne arithmétique tient compte de toutes les observations dans la série et elle a l’inconvénient d’être très
sensible aux valeurs extrêmes (outliers).
Exemple :
N.B.
▪ Dans certains cas d’analyse, ces valeurs extrêmes sont traitées ou éliminées.
4.2.2. Le mode
Le mode d’une distribution statistique, qu’on note Mo, est la valeur de la variable qui correspond au plus grand
effectif ou à la plus grande fréquence.
C’est la valeur de la variable la plus fréquente que l’on observe dans une série statistique. Le mode est donc la
valeur dominante dans une série statistique.
Dans ce cas la détermination du mode est immédiate. Le mode est la valeur pour laquelle l’effectif est le plus
élevé.
Remarques :
Exemple
Graphiquement le mode correspond à l’abscisse du bâton le plus élevé. On parlera de classe modale.
- 27 -
[Link]. Cas des séries à caractère quantitatif continu
Pour les séries à caractère quantitatif continu avec un découpage en classes d’amplitudes égales, la classe modale
est la classe qui correspond à l’effectif le plus grand (ou à la fréquence la plus importante).
Aussi, on peut prendre le mode comme le centre de la classe modale.
Pour les séries à caractère quantitatif continu avec un découpage en classes d’amplitudes inégales, la classe
modale est la classe qui correspond à l’effectif corrigé le plus grand (ou à la fréquence corrigée la plus
importante).
Dans ce cas le mode, sera le centre de la classe correspondant à la densité (𝑑𝑖 ) la plus importante.
𝑛𝑖 effectif de la classe
𝑑𝑖 = ↦ 𝑑𝑒𝑛𝑠𝑖𝑡é =
𝑎𝑖 amplitude de cette classe
La médiane (ou médiante), qu’on note Mé, est la valeur (observé ou possible) de la variable statistique dans la
série d’observations rangées (par ordre croissant ou décroissent) qui partage cette série en deux parties, chacune
comportant le même nombre d’observations.
La médiane est en conséquence la valeur de la variable pour laquelle la fréquence cumulée est égale à 0,5
𝑛 𝑛
(𝐹(𝑀é) = 0,5) et l’effectif cumulé est égal à 2 (𝑁(𝑀é) = 2 ).
Une série individualisée est une série dans laquelle chaque modalité est observée une seule fois : 𝑛𝑖 = 1, ∀𝑖=
1, 2, ⋯ , 𝑘.
N.B.
▪ Bien que l’ensemble de données comporte deux observations qui ont pour valeur 46, chaque observation est
traitée séparément lorsqu’on ordonne les données de façon croissante.
2. Si le nombre d’observations est pair (𝑘 = 2𝑚), soit on définit un intervalle médian[𝑛𝑚 , 𝑛𝑚+1 ],
𝑛 +𝑛
soit on choisit par convention la moyenne de deux valeurs centrales. 𝑀é = 𝑚 2 𝑚+1
Exemple :
On calcule la médiane du salaire de 12 directeurs d’entreprises. Tout d’abord, on ordonne de façon croissante les
12 observations :
2210 2255 2350 2380 2380 2390 2420 2440 2450 2550 2630 2825
Le nombre d’observations est pair, la médiane correspond à la moyenne des deux valeurs centrales :
2390+2420
𝑀é = 2
= 2405.
- 28 -
[Link].2 Cas d’une série non individualisée (données groupées)
C’est le cas le plus fréquent rencontré. On a donc un tableau {𝑥𝑖 , 𝑛𝑖 } et la médiane se calcule en utilisant les
fréquences cumulées ou les effectifs cumulés.
Exemple 1 : Répartition de 400 entreprises dans une zone industrielle A selon le nombre d’adresses
électroniques à leurs dispositions
Fréquences cumulées
Modalités Effectifs Fréquences Effectifs cumulés croissants
croissantes
𝑥𝑖 𝑛𝑖 𝑓𝑖 𝑁𝑖 ↑
𝐹𝑖 ↑
0 50 0,125 0,125 50
1 30 0,075 0,200 80
2 120 0,300 0,500 200
3 80 0,200 0,700 280
4 70 0,175 0,875 350
5 50 0,125 1 400
Total 400 1
Pour l’exemple 1, la médiane est égale à 2, c'est-à-dire 50% des entreprises (200 entreprises) ont deux e-mails.
Dans ce cas la médiane est directement déterminée puisque la lecture du tableau donne la valeur de la modalité
pour laquelle la fréquence cumulée est égale à 0,5.
Exemple 2 : Répartition de 400 entreprises dans une zone industrielle B selon le nombre d’adresses
électroniques à leurs dispositions
Fréquences cumulées
Modalités Effectifs Fréquences Effectifs cumulés croissants
croissantes
𝑥𝑖 𝑛𝑖 𝑓𝑖 𝑁𝑖 ↑
𝐹𝑖 ↑
0 60 0,150 0,150 60
1 20 0,050 0,200 80
2 100 0,250 0,450 180
3 120 0,300 0,750 300
4 80 0,200 0,950 380
5 20 0,050 1 400
Total 400 1
𝑛
Pour l’exemple 2, les valeurs 0,5 (et 200=2 ) apparaissent entre deux lignes du tableau (la 3ème et la 4ème).
Par convention, la médiane est la valeur de la variable qui correspond à la 4ème ligne.
Cependant, cette proposition n’est qu’une valeur approchée et approximative de la "médiane exacte" puisqu’il y
à 75% et non pas 50% des entreprises qui ont un nombre d’adresses électroniques inférieur ou égal à 3.
La classe médiane se détermine à partir des colonnes des fréquences cumulées croissantes 𝐹𝑖 ↑ ou à partir des
colonnes des effectifs cumulés croissants 𝑁𝑖 ↑.
𝑛
On repère entre quelles valeurs se situe 0,5 (50%) dans la colonne 𝐹𝑖 ↑ ou 2 dans la colonne des effectifs cumulés
croissants𝑁𝑖 ↑.
- 29 -
Exemple : Répartition des employés d’une entreprise selon le salaire annuel (en dinars)
Modalités Effectifs Fréquences Effectifs cumulés croissants Fréquences cumulées croissantes
Salaires 𝑛𝑖 𝑓𝑖 𝑁𝑖 ↑ 𝐹𝑖 ↑
[3000, 4000[ 25 0,131 25 0,131
[4000, 5000[ 35 0,183 60 0,314
[5000, 6000[ 27 0,141 87 0,455
n/2 0,5
[6000, 7000[ 65 0,340 152 0,796
[7000, 8000[ 20 0,105 172 0,901
[8000, 9000[ 8 0,042 180 0,942
[9000, 10000[ 11 0,058 191 1,000
Total 191 1,000
𝑛
On cherche entre quelles valeurs se situe 0,5 dans la colonne des fréquences cumulées croissantes ou 2 dans la
colonne des effectifs cumulés croissants.
La valeur 0,5 apparaît entre deux lignes du tableau (la 3ème et la 4ème).
En utilisant la même convention que dans le cas discret, la classe médiane est donc :
[𝑥𝑖 , 𝑥𝑖+1 [ = [6000-7000[.
Pour pouvoir passer à l’interpolation linéaire, on suppose une répartition uniforme des individus dans la classe
médiane.
La méthode d’interpolation linéaire dans le calcul de la médiane consiste à assimiler une proportion de courbe à
une droite. La portion de la courbe cumulative qui se situe dans la classe médiane est souvent peu incurvée
(séries unimodales, non excessivement asymétriques), et on peut calculer la médiane par ce principe.
F(x)
F(xi+1) E
C
0,5
F(xi)
A B D
xi Mé xi+1 xi
D’une manière générale, si la classe médiane est la classe [𝑥𝑖 , 𝑥𝑖+1 [, les valeurs de la fonction de répartition
correspondantes aux bornes de cette classe sont 𝐹(𝑥𝑖 ) = 𝐹𝑖−1 et 𝐹(𝑥𝑖+1 ) = 𝐹𝑖 .
𝐴𝐵 𝐴𝐷
L’application du théorème de Thalès (les triangles ABC et ADE sont semblables) permet d’écrire : 𝐵𝐶 = 𝐷𝐸
→ AB représente (Me-x𝑖 ).
→ AD représente (𝑥𝑖+1 -x𝑖 ) = 𝑎𝑖 qui correspond à l’amplitude de la classe médiane.
→ BC représente (𝐹(𝑀é) − 𝐹𝑖−1 ) = (0,5 − 𝐹𝑖−1 ).
→ DE représente (𝐹(𝑥𝑖+1 ) − 𝐹(𝑥𝑖 )) = (𝐹𝑖 − 𝐹𝑖−1 ) = 𝑓𝑖 qui est la fréquence relative associée à la classe i.
Donc :
𝐴𝐵 𝐴𝐷 (Me-x ) (𝑥 -x𝑖 )
𝐵𝐶
= 𝐷𝐸 (𝐹(𝑀é)−𝐹𝑖 ) = (𝐹(𝑥 𝑖+1)−𝐹(𝑥 ))
𝑖−1 𝑖+1 𝑖
- 30 -
(Mé-x𝑖 ) 𝑎 (0,5−𝐹𝑖−1 )
(0,5−𝐹𝑖−1 )
= 𝑓𝑖 Me = 𝑥𝑖 + 𝑎𝑖 𝑓𝑖
𝑖
Numériquement, on obtient :
xi = 6000
xi+1 = 7000
ai = 1000
𝐹(𝑥𝑖 ) = 𝐹𝑖−1 = F(6000) = 0,455
𝐹(𝑥𝑖+1 ) = 𝐹𝑖 = 𝐹(7000) = 0,796
(0,5−𝐹𝑖−1 ) 0,5−0,455
Donc Me = 𝑥𝑖 + 𝑎𝑖 𝑓
= 6000 + 1000 0,796−0,455 ≈ 6132
𝑖
Conclusion :
Le salaire médian de l’entreprise est donc 6132 dinars, c'est-à-dire la moitié des salariés gagnent moins de 6132
dinars et l’autre moitié gagnent plus de 6132 dinars.
Une autre alternative est proposée pour déterminer la médiane à partir de l’histogramme.
La médiane est la valeur du caractère telle que la droite d’équation : x = Mé partage l’histogramme en deux aires
ou surfaces égales.
65
35
27
25
20
Mé 11
8
[3000, 4000[ [4000, 5000[ [5000, 6000[ [6000, 7000[ [7000, 8000[ [8000, 9000[ [9000, 10000[
Numériquement, on aura :
191
251000 + 351000 + 271000 + (Mé−6000)65= ( 2 ) × 1000 donc Me ≈ 6131
N.B.
▪ La détermination de la médiane n’est pas affectée par des classes d’amplitude inégales.
▪ La médiane correspond à l’abscisse du point d’intersection des courbes cumulatives croissante et
décroissante.
▪ La médiane est une mesure de tendance centrale plus robuste que la moyenne arithmétique qui est sensible
aux valeurs extrêmes.
On appelle quantile d’ordre la série statistique {𝑥𝑖 }, 𝑖 = 1,2, ⋯ , 𝑛 et on note 𝑥𝛼 la valeur de la variable X, telle
que % des valeurs observées soient inférieures à 𝑥𝛼 .
Si F représente la fonction de fréquences cumulées croissantes alors 𝐹(𝑥𝛼 ) = 𝛼%.
En d’autres mots, les quantiles correspondent aux valeurs de la variable statistique qui partagent la série
ordonnée en q parties égales.
- 31 -
En statistiques descriptives, trois catégories de quantiles sont généralement utilisées.
Les quartiles sont les trois valeurs x25, x50 et x75 de la variable X qui partagent la série des valeurs rangées par
ordre croissant en 4 parties (q=4) contenant chacune 25% des valeurs observées de la série statistique (le quart
des effectifs).
Il y donc 3 quartiles qui sont notés comme suit : x25=Q1, x50=Q2 et x75=Q3.
Le calcul des quartiles s’effectue de la même façon que la médiane (méthode des triangles semblables ou par
interpolation linéaire).
On peut écrire F(Q1)=0,25 ; F(Q2)=0,50 et F(Q3)=0,75.
Q1 Q2 Q3
x1 Mé xn
Les déciles partagent la série statistique ordonnée par ordre croissant en dix parties contenant chacune 10% des
valeurs observées.
Il y donc 9 déciles qui sont notés comme suit : x10=D1, x20=D2,… et x90=D9.
Ils sont associés respectivement aux fréquences cumulées 10% ; 20% ;… et 90%.
Les centiles partagent la série statistique ordonnée par ordre croissant en cent parties contenant chacune 1%
des valeurs observées.
Il y donc 99 centiles qui sont notés comme suit : x1=C1, x2=C2,… et x99=C99.
Ils sont associés respectivement aux fréquences cumulées 1% ; 2% ;… et 99%.
[Link]. La phi-moyenne
On appelle phi-moyenne d’une variable statistique X, que l’on note 𝑀𝜙 , la quantité : 𝜙(𝑀𝜙 ) = ∑𝑘𝑖=1 𝑓𝑖 𝜙(𝑥𝑖 ) où 𝜙
est une fonction continue monotone et k représente le nombre de modalités de la variable statistique.
On peut alors écrire : 𝑀𝜙 = 𝜙 −1 (∑𝑘𝑖=1 𝑓𝑖 𝜙(𝑥𝑖 ))
- 32 -
Lorsque la fonction 𝜙 est la fonction identité : 𝜙(𝑥) = 𝑥, 𝑀𝜙 représente la moyenne arithmétique.
𝜙(𝑥𝑖 ) = 𝑥𝑖 ∀𝑖 = 1, 2, ⋯ , 𝑘. 𝜙(𝑀𝜙 ) = 𝑀𝜙 = ∑𝑘𝑖=1 𝑓𝑖 𝑥𝑖 = 𝑋̄
Lorsque la fonction 𝜙 est la fonction logarithmique : 𝜙(𝑥) = 𝐿𝑜𝑔 𝑥 , (𝑥 > 0) , 𝑀𝜙 représente la moyenne
géométrique notée G.
𝜙(𝑥𝑖 ) = 𝐿𝑜𝑔𝑥𝑖 ∀𝑖 = 1, 2, ⋯ , 𝑘.
𝜙(𝑀𝜙 ) = 𝐿𝑜𝑔(𝑀𝜙 ) = ∑𝑘𝑖=1 𝑓𝑖 𝐿𝑜𝑔(𝑥𝑖 ) = ∑𝑘𝑖=1 𝐿𝑜𝑔(𝑥𝑖 𝑓𝑖 ) = 𝐿𝑜𝑔(∏𝑘𝑖=1(𝑥𝑖 𝑓𝑖 ))
𝑘
𝑀𝜙 = 𝐺 = ∏(𝑥𝑖 𝑓𝑖 ) = 𝑥1 𝑓1 . 𝑥2 𝑓2 . ⋯ . 𝑥𝑘 𝑓𝑘
𝑖=1
N.B.
▪ La moyenne géométrique du produit de deux variables X et Y est égale au produit des moyennes
géométriques de X et de Y.
▪ La moyenne géométrique réduit l’influence des grandes valeurs et accroît celle des petites. Cette propriété
est liée à l’utilisation de la fonction logarithmique. Ainsi pour une même série, la moyenne géométrique est
inférieure à la moyenne arithmétique.
1
Lorsque la fonction 𝜙 est la fonction inverse : 𝜙(𝑥) = , 𝑀𝜙 représente la moyenne harmonique notée H.
𝑥
1
𝜙(𝑥𝑖 ) = 𝑥𝑖
∀𝑖 = 1, 2, ⋯ , 𝑘.
1 1
𝜙(𝑀𝜙 ) = 𝑀 = ∑𝑘𝑖=1 𝑓𝑖 (𝑥 )
𝜙 𝑖
1 𝑛
𝑀𝜙 = 𝐻 = = 𝑛
𝑓 ∑𝑘𝑖=1 ( 𝑖 )
∑𝑘𝑖=1 ( 𝑖 ) 𝑥𝑖
𝑥𝑖
Les caractéristiques de tendance centrale fournissent des informations sur l’ordre de grandeur de la série mais
elles ne transmettent aucune indication sur la manière dont sont regroupées ces informations. Donc, il faut
disposer d’informations supplémentaires relatives à l’étalement des modalités du caractère autour d’une valeur
centrale.
On peut approcher la notion de dispersion (fluctuations autour d’une valeur centrale, ou plus généralement dans
un intervalle) par la notion d’écarts mesurables.
Les caractéristiques de dispersion mesurent l’intensité du groupement des valeurs autour d’une caractéristique
centrale (généralement la moyenne).
4.3.1. L’étendue
L’étendue, qu’on note E, est la différence entre la plus grande et la plus petite des valeurs observées de la série
statistique.
Si on note 𝑥𝑚𝑖𝑛. la plus petite modalité et 𝑥𝑚𝑎𝑥. la plus grande modalité, l’étendue est 𝐸 = 𝑥𝑚𝑖𝑛.𝑚𝑎𝑥.
N.B.
▪ L’inconvénient majeur de l’étendue est sa dépendance directe des valeurs extrêmes parfois exceptionnelles
(ou accidentelles) et qui entraînent une grande dispersion de la série.
- 33 -
4.3.2. L’intervalle interquartile
Pour pallier l’inconvénient de l’étendue du fait de sa dépendance des valeurs extrêmes, on peut écarter ces
valeurs extrêmes dans le calcul de la dispersion de la série.
L’intervalle interquartile, qu’on note IIQ, est la différence entre le troisième et le premier quartile et on ne
considère ainsi que 50% des observations : IIQ=Q 3 - Q1 .
Il s'agit d'un indicateur de dispersion autour de la médiane Mé.
Intervalle Interquartile
Q1 Q2 Q3
x1 Mé xn
N.B.
▪ L'intervalle entre le neuvième et le premier décile 𝐷9 -D1 est aussi un excellent indicateur de dispersion, sa signification
est très concrète puisqu'il correspond à un intervalle qui regroupe 80% des observations autour de la médiane.
L’écart absolu moyen, qu’on note 𝑒𝑀 , est la moyenne arithmétique des valeurs absolues des écarts par rapport à
1
la moyenne arithmétique : 𝑒𝑀 = 𝑛 ∑𝑘𝑖=1 𝑛𝑖 |𝑥𝑖 − 𝑋̄| = ∑𝑘𝑖=1 𝑓𝑖 |𝑥𝑖 − 𝑋̄|.
L’écart absolu par rapport à la médiane, qu’on note 𝑒𝑀é , est la moyenne arithmétique des valeurs absolues des
1
écarts par rapport à la médiane : 𝑒𝑀é = ∑𝑘𝑖=1 𝑛𝑖 |𝑥𝑖 − 𝑀é| = ∑𝑘𝑖=1 𝑓𝑖 |𝑥𝑖 − 𝑀é|.
𝑛
N.B.
▪ Ces écarts s’expriment dans la même unité que la variable statistique X étudiée.
4.3.5. La variance
La variance d’une variable statistique X, qu’on note Var (X), est la moyenne arithmétique des carrés des écarts
𝑛 (𝑥 −𝑋̄)2
par rapport à la moyenne arithmétique : 𝑉𝑎𝑟(𝑋) = ∑𝑘𝑖=1 𝑖 𝑖 = ∑𝑘𝑖=1 𝑓𝑖 (𝑥𝑖 − 𝑋̄)2 .
𝑛
N.B.
- 34 -
▪ Il est souvent plus pratique d’utiliser une formule alternative pour la variance : 𝑉𝑎𝑟(𝑋) = (∑𝑘𝑖=1 𝑓𝑖 𝑥𝑖 2 ) −
2
𝑘 𝑛𝑖 𝑥𝑖
𝑋̄ 2 = (∑⏟ 𝑖=1 𝑛 ) − 𝑋̄2
⏟ .
carre des moyennes
moyenne des carres
▪ La variance est toujours positive. Elle est nulle uniquement dans le cas particulier où toutes les valeurs de la
série sont identiques.
Extension :
La variance est un paramètre de dispersion plus utilisé que les autres de par ses propriétés algébriques:
1. Pour plusieurs populations d’effectifs (𝑛1 ; 𝑛2 ; ⋯ ; 𝑛𝑘 ) , de moyennes respectives (𝑋̄1 ; 𝑋̄2 ; ⋯ ; 𝑋̄𝑘 ) et de
variances respectives (𝑉𝑎𝑟(𝑋1 ); 𝑉𝑎𝑟(𝑋2 ); ⋯ ; 𝑉𝑎𝑟(𝑋𝑘 )), on peut écrire :
𝑘 𝑘
𝑛𝑖 2 𝑛𝑖
Variance globale = ∑ ( (𝑋̄𝑖 − 𝑋̄) ) + ∑ ( 𝑉𝑎𝑟(𝑋𝑖 ))
𝑁 𝑁
⏟𝑖=1 ⏟
𝑖=1
variance des moyennes moyenne des variances
où 𝑋̄ est la moyenne des moyennes et 𝑁 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑘
2. Changement d’échelle et d’origine :
𝑋: (𝑥𝑖 , 𝑛𝑖 ) → 𝑌: (𝑦𝑖 =ax𝑖 +b , 𝑛𝑖 )
𝑉𝑎𝑟(𝑋) → 𝑉𝑎𝑟(𝑌) = 𝑎2 𝑉𝑎𝑟(𝑋)
L’écart type d’une variable statistique X, qu’on note 𝜎(𝑋), est égal à la racine carrée de la variance :
1
𝜎(𝑋) = √𝑉𝑎𝑟(𝑋) = √𝑛 ∑𝑘𝑖=1 𝑛𝑖 (𝑥𝑖 − 𝑋̄)2 = √∑𝑘𝑖=1 𝑓𝑖 (𝑥𝑖 − 𝑋̄ )2 .
N.B.
▪ Plus l’écart type est grand, plus la dispersion autour de la moyenne arithmétique est grande.
▪ On utilise plus couramment l'écart-type qui est la racine carrée de la variance et qui a l'avantage d'être
un nombre de même dimension que les données (contrairement à la variance qui en est le carré).
L’écart type ainsi que les écarts absolus moyens et les indicateurs de tendance centrale 𝑋̄, Mé et Mo dépendent
de l’unité de mesure de la variable statistique étudiée. Ils dépendent également de l’ordre de grandeur des
valeurs observées.
Pour comparer les dispersions de distributions qui ne sont pas exprimées dans la même unité ou de distributions
dont les moyennes sont différentes, on peut utiliser un indice de dispersion relatif indépendant.
Le coefficient de variation d’une série statistique (exprimé souvent en pourcentage), qu’on note CV(X), défini
𝜎(𝑋)
comme le rapport entre l’écart type et la moyenne CV(𝑋) = 𝑋̄ , donne une mesure relative de la dispersion.
Donc, ce coefficient permet de relativiser l'écart-type en fonction de la taille des valeurs.
N.B.
▪ Ce coefficient n'est pas très facile à utiliser et à interpréter lorsque la moyenne est proche de 0.
- 35 -
Les coefficients ou les caractéristiques de forme cherchent à caractériser ou à mesurer l’allure générale de la
courbe des fréquences d’une série statistique sans la tracer.
On repère généralement deux mesures de la forme d’une série :
▪ La mesure de l’asymétrie renseigne sur la façon régulière ou non de la répartition des observations de
part et d’autre d’une valeur centrale.
▪ La mesure de l’aplatissement sert à faire apparaître si une faible variation de la variable entraîne ou non
une forte variation des fréquences relatives.
- 36 -
4.4.1. La mesure de l’asymétrie
Ayant les valeurs du Mode, de la Médiane et de la Moyenne, on peut deviner l’allure d’une série par la
comparaison de tendances centrales traditionnelles.
- 37 -
N.B.
▪ Les paramètres d’asymétrie, appelés SKEWNESS, permettent de caractériser la forme des courbes
représentatives.
Yule présente une mesure de l’asymétrie en comparant l’étalement vers la gauche et l’étalement vers la droite,
tous deux repérés par la position des quartiles (Q1, Mé =Q2 et Q3).
Le coefficient de Yule, qu’on note s, est défini par :
(𝑄3 − 𝑀é) − (𝑀é − 𝑄1 ) (𝑄3 − 𝑀é) − (𝑀é − 𝑄1 ) (𝑄3 − 𝑄2 ) − (𝑄2 − 𝑄1 )
𝑠= = =
(𝑄3 − 𝑀é) + (𝑀é − 𝑄1 ) 𝑄3 − 𝑄1 𝑄3 − 𝑄1
▪ Si s = 0, la distribution est symétrique et les quartiles sont équivalents.
▪ Si s > 0, la distribution est oblique à gauche : (l’écart entre Médiane et 𝑄1 est relativement petit), donc
Médiane se rapproche plus de 𝑄1 , alors la courbe des fréquences étalée à droite
▪ Si s < 0, la distribution est oblique à droite : (raisonnement inversé).
Le premier analyse la position de deux valeurs centrales (le mode et la moyenne arithmétique) par rapport à la
𝑋̄−𝑀𝑜
dispersion de la série. Il est défini par : 𝑠 =
𝜎
▪ Si s = 0, la distribution est symétrique et les quartiles sont équivalents.
▪ Si s > 0, la distribution est oblique à gauche.
▪ Si s < 0, la distribution est oblique à droite.
N.B.
▪ Ce coefficient n’est valable que pour les distributions faiblement asymétriques.
▪ Ce coefficient d’asymétrie utilise le mode qui n’est pas un paramètre de tendance centrale excellent. En plus,
dans le cas d’une distribution bimodale, le calcul ne peut pas se faire.
Le deuxième coefficient, qu’on note 𝛽1 , repose sur la détermination des moments centrés d’ordre impair. Il est
(𝜇 )2
défini par le rapport du moment centré d’ordre 3 élevé au carré sur la variance élevé au cube : 𝛽1 = (𝜇3 )3
2
1
̄ 2
𝜇2 = ∑ 𝑛𝑖 (𝑥𝑖 − 𝑋) = 𝑉𝑎𝑟(𝑋)
1 𝑛
𝜇𝑝 = ∑ 𝑛𝑖 (𝑥𝑖 − 𝑋̄)𝑝 :c'est le moment centre d'ordre p; donc: {
𝑛 1
𝜇3 = ∑ 𝑛𝑖 (𝑥𝑖 − 𝑋̄)3
𝑛
▪ Si 𝛽1 = 0, la distribution est symétrique
▪ Si 𝛽1 > 0, la distribution est oblique à gauche ou à droite. Le sens de l’asymétrie est donné par le signe de
𝜇3 .
- 38 -
- 39 -
4.4.2. La mesure de l’aplatissement
Une courbe des fréquences est plus au moins aplatie, par référence à la courbe des fréquences (ou densité) de la
Loi Normale (Loi de Gauss-Laplace). Ainsi, on compare si la distribution est plus ou moins aplatie par rapport à
une courbe de Gauss-Laplace de même moyenne et de même écart type.
Donc, une courbe est dite aplatie lorsqu’une variation forte de la variable étudiée ne s’accompagne pas de forte
variation de la fréquence relative 𝑓𝑖 , par référence à la courbe des fréquences de la loi Normale.
Courbe normale
Courbe platicurtique
Courbe leptocurtique
Les paramètres d’aplatissement permettent d’estimer l’aplatissement ou encore d’apprécier l’importance des
queues d’une distribution.
𝜇 𝜇
Le coefficient d’aplatissement de Pearson, qu’on note 𝛽2 , est défini par : 𝛽2 = 𝜎44 = (𝜇 4)2 ¨.
2
▪ Si 𝛽2 = 3, la courbe est normale.
- 40 -
▪ Si 𝛽2 > 3 et d’autant plus grand que la courbe est leptocurtique.
▪ Si 𝛽2 < 3 et d’autant plus proche de 1 que la courbe est platicurtique.
𝜇 𝜇
Le coefficient d’aplatissement de Fisher, qu’on note 𝛾2 , est défini par : 𝛾2 = 𝛽2 − 3 = 𝜎44 − 3 = (𝜇 4)2 − 3
2
▪ Si 𝛾2 = 0, la courbe est normale.
▪ Si 𝛾2 > 0 la courbe est leptocurtique.
▪ Si 𝛾2 < 0 la courbe est platicurtique (𝛾2 reste >-2 puisque 𝜇4 > 𝜎 4 ).
Il est possible aussi de mesurer l’aplatissement en comparant les intervalles interquartile et interdécile. On peut
définir par exemple le coefficient d’aplatissement, qu’on note A :
(𝑄3 − 𝑄1 )
𝐴=
2(𝐷9 − 𝐷1 )
▪ Si 0,15 ≤ 𝐴 ≤ 0,25, la courbe est normale.
▪ Si 𝐴 > 0,25, la courbe est leptocurtique.
▪ Si 𝐴 < 0,15, la courbe est platicurtique.
Jusque-là, on a abordé les formes de la distribution à l’aide de certaines statistiques, les plus importantes d’entre
elles étaient les statistiques de dispersion.
Cependant, les mesures déjà utilisées (écart type, écart absolu moyen, etc.) ne renseignent que sur la dispersion
au sein d’une série.
Mais, peut-on trouver un moyen de comparer une dispersion par rapport à une autre (qui serait une norme) pour
chaque quantile observé ? (comparaison de dispersion entre séries).
Par exemple :
*/ Si on observe une distribution des ménages ainsi qu’une distribution de leurs revenus, on serait tenté de
comparer les deux distributions pour voir si elles évoluent, par quantile, de la même manière :
Si 30% des ménages détiendraient 30% du total des revenues alors les revenus sont équitablement répartis.
A contrario, si 30% des ménages détiennent 80% des revenus alors les revenus ne sont pas répartis d’une
manière équitable (existence d’inégalités).
*/ Ou encore, quand on dit que 10% des entreprises occupent 90% du total du marché (ou encore 90% de part
de marché) dans une économie, c’est que la structure de marché est fortement concentrée également (10% des
entreprises détiennent un quasi-monopole du marché).
Ainsi, comparer la répartition entre deux distributions reviendrait à comparer leurs fréquences cumulées.
La concentration d’une distribution mesure sa répartition ‘observée’ par rapport à une ‘norme’ de répartition (la
répartition à laquelle on s’attend). Donc il s’agit de comparer deux séries de fréquences cumulées. Elle est souvent
utilisée dans l’analyse des parts distributives des salaires, des fortunes, des parts de marché des entreprises,
etc.…C’est aussi une mesure de l’état des inégalités dans la distribution.
Deux conditions sont importantes pour étudier la concentration : l’addition des différentes modalités du
caractère doit avoir un sens et le partage de la masse globale doit être possible.
La concentration peut être déterminée selon deux méthodes :
▪ par le calcul de l’écart entre la médiale et la médiane.
- 41 -
▪ par les graphes.
N.B.
▪ La concentration est une notion très importante en économie (concentration des salaires, chiffres d’affaires,
de la taille des entreprises, des revenus, etc.). Elle ne concerne que les séries dont les modalités du caractère
sont continues et positives. La mesure de la concentration revient à celle de la conséquence de la dispersion.
Une première mesure de la concentration peut être donnée par l’écart entre la médiale, qu’on note 𝑀𝑙, et la
médiane 𝑀é : 𝛥𝑀 = 𝑀𝑙 − 𝑀é.
La médiale, est une médiane que l’on calcule non plus sur les effectifs 𝑛𝑖 de la série {𝑛𝑖 , 𝑥𝑖 }, mais sur le produit
𝑛𝑖 . 𝑥𝑖 (𝑥𝑖 étant le centre de la classe). En conséquence, la médiale est la valeur du caractère 𝑥𝑖 qui partage la série
{𝑛𝑖 . 𝑥𝑖 , 𝑥𝑖 } en deux sous-ensembles égaux : C’est aussi une caractéristique de valeur centrale.
L’écart 𝛥𝑀, est comparé par la suite à l’intervalle de variation de la série qui n’est d’autre que l’étendue 𝐸 =
𝑥𝑚𝑖𝑛.𝑚𝑎𝑥. de la série.
▪ Si 𝛥𝑀 = 𝑀𝑙 − 𝑀é = 0, la médiale est égale à la médiane ce qui implique que 50% des individus (unités
statistiques) se partagent 50% de la masse du caractère. On est dans le cas d’une égalité parfaite ou
d’équi-répartition.
𝛥𝑀
▪ Si 𝛥𝑀 = 𝑀𝑙 − 𝑀é ≠ 0 , la répartition du caractère n’est pas égalitaire et on calcule le rapport 𝐸 =
𝑀𝑙−𝑀é
qui peut être utilisé pour comparer la concentration de plusieurs distributions.
𝑥𝑚𝑖𝑛.𝑚𝑎𝑥.
▪ Dans le cas où 𝛥𝑀 est grand par rapport à l’étendue 𝐸, la concentration est forte. Par contre, si 𝛥𝑀 est
petit par rapport à l’étendue 𝐸, la concentration est faible.
Méthode de calcul
Exemple : Répartition des employés d’une entreprise selon le salaire annuel (en dinars)
Fréquences cumulées
Modalités Effectifs Fréquences Effectifs cumulés croissants
croissantes
Salaires ni 𝑓𝑖 𝑁𝑖 ↑
𝐹𝑖 ↑
[3000, 4000[ 25 0,131 25 0,131
[4000, 5000[ 35 0,183 60 0,314
[5000, 6000[ 27 0,141 87 0,455
n/2 0,5
[6000, 7000[ 65 0,340 152 0,796
[7000, 8000[ 20 0,105 172 0,901
[8000, 9000[ 8 0,042 180 0,942
[9000,
11 0,058 191 1,000
10000[
Total 191 1,000
a/ Détermination de la médiane
Le salaire annuel médian de l’entreprise est de 6132 dinars.
b/ Calcul de la médiale
Centres des Effectifs cumulés Masse
Modalités Effectifs
classes croissants salariale Masse salariale cumulée
Salaires ni
xi 𝑁𝑖 ↑ ni xi
[3000, 4000[ 3500 25 25 87500 87500
[4000, 5000[ 4500 35 60 157500 245000
[5000, 6000[ 5500 27 87 148500 393500 Moitié de la masse
salariale= 569250
[6000, 7000[ 6500 65 152 422500 816000
[7000, 8000[ 7500 20 172 150000 966000
- 42 -
[8000, 9000[ 8500 8 180 68000 1034000
[9000,
9500 11 191 104500 1138500
10000[
Total 191 1138500
c/ L’écart médiale
𝜟𝑴 = 𝑴𝒍 − 𝑴é
𝛥𝑀 = 𝑀𝑙 − 𝑀é = 6416-6132 = 284
d/ L’étendue de la série
𝑬 = 𝒙𝒎𝒊𝒏.𝒎𝒂𝒙.
𝐸 = 𝑥𝑚𝑖𝑛.𝑚𝑎𝑥. =10000-3000=7000
𝛥𝑀 𝑀𝑙−𝑀é
Le rapport 𝐸
= 𝑥𝑚𝑖𝑛. =4,06%.
𝑚𝑎𝑥.
Ce rapport est faible, la série possède donc une faible concentration (donc il n’y a pas de grandes disparités
salariales entre les classes de salaires.
Il existe un moyen visuel de déterminer la concentration sans passer par la comparaison des deux médianes. Il
suffit de confronter les deux fonctions cumulatives sur un graphique.
La courbe de concentration se construit sur un repère orthonormé à partir des fréquences cumulées relatives.
▪ Les valeurs des fréquences cumulées relatives de la série {𝑛𝑖 , 𝑥𝑖 } sont donc celles de F(x). Elles varient de 0 à
1. On les porte en abscisses :
𝑛
o Fréquences cumulées correspondant aux effectifs 𝑛𝑖 :𝐹(𝑥) = ∑𝑖ℕ=1 𝑓ℕ = ∑𝑖1 𝑛𝑖
▪ Les valeurs des fréquences cumulées relatives de la série {𝑛𝑖 . 𝑥𝑖 , 𝑥𝑖 } qui ont permis de calculer la médiale
varient aussi de 0 à 1. On les porte en ordonnées :
𝑛𝑥
o Fréquences cumulées de la totalité du phénomène 𝑛𝑖 . 𝑥𝑖 :𝐹(𝑛𝑥) = ∑𝑖1 𝑖 𝑖
∑𝑖 𝑛𝑖 𝑥𝑖
- 43 -
On reprend l’exemple précédent :
Exemple : Répartition des employés d’une entreprise selon le salaire annuel (en dinars)
Valeurs
globales
Fréquences
Fréquences
salariale Fréquences
Modalités
Effectifs Masse
Salaires
𝑁𝑖 ↑
𝑛𝑖 𝑖 = salariale
𝑓𝑖
𝑛𝑖 𝑥𝑖 𝑛𝑖 𝑥𝑖 la masse
𝐹(𝑥) = ∑ 𝑓ℕ cumulée
= salariale
ℕ=1
𝑛 𝑐 ∑𝑖 𝑛𝑖 𝑥𝑖 (**)
𝑖 𝑖 𝑖
𝑛𝑖 𝐹(𝑛𝑥)
=∑ 𝑖
𝑛 𝑛𝑖 𝑥𝑖
1
=∑
∑𝑖 𝑛𝑖 𝑥𝑖
1
[3000, 4000[ 3500 25 0,131 25 0,131 87500 0,077 87500 0,077
[4000, 5000[ 4500 35 0,183 60 0,314 157500 0,138 245000 0,215
[5000, 6000[ 5500 27 0,141 87 0,455 148500 0,130 393500 0,346
[6000, 7000[ 6500 65 0,340 152 0,796 422500 0,371 816000 0,717
[7000, 8000[ 7500 20 0,105 172 0,901 150000 0,132 966000 0,848
103400
[8000, 9000[ 8500 8 0,042 180 0,942 68000 0,060 0,908
0
[9000, 113850
9500 11 0,058 191 1,000 104500 0,092 1,000
10000[ 0
∑𝒊 𝒏𝒊 𝒙𝒊=
Total 191 1,000
1138500
𝒏𝒊
(*) : 𝑭(𝒙) = ∑𝒊𝒉=𝟏 𝒇𝒉 = ∑𝒊𝟏
𝒏
𝒏𝒊 𝒙𝒊
(**) : 𝑭(𝒏𝒙) = ∑𝒊𝟏 ∑ qui sont les valeurs globales relatives cumulées.
𝒊 𝒏𝒊 𝒙𝒊
L’ensemble des points désignant les combinaisons des valeurs des deux fonctions s’appelle la courbe de Lorentz.
Cette courbe est alors représentée dans un carré avec les extrémités de 0 à 1 : on obtient donc un carré qui porte
le nom de carré de Gini5.
Cette courbe a pour but de décrire les effets de la concentration dans une population.
F(nx)
1 B
Courbe de Lorenz
0,75
Aire de concentration
0,5
Droite d’équi-répartition
0,25
0 A
0 0,25 0,5 0,75 1 F(x)
5 L’italien Corrado Gini est connu pour ses travaux sur les disparités de revenus.
- 44 -
Si la courbe de concentration est confondue avec la droite d’équi-répartition, on est dans une situation de
répartition égalitaire de la masse du caractère entre les individus : Dans ce cas x% des individus se partagent x%
de la masse du caractère.
L’aire comprise entre la droite d’équi-répartition et la courbe de concentration est appelée aire de concentration.
Au plus la courbe de concentration s’écarte de la droite d’équi-répartition, au plus la concentration est forte.
Le coefficient ou l’indice de Gini, qu’on note G, est obtenu en rapportant l’aire située entre la courbe et la diagonale
(aire de concentration) à l’aire du triangle OAB.
aire de concentration
𝐺=
aire de OAB
Puisque l’aire de OAB = 0,5 (d’après le carré de Gini) donc 𝑮 = 𝟐 × aire de concentration et 𝟎 ≤ 𝑮 ≤ 𝟏.
1 B
Courbe de Lorenz
0,75
Aire de concentration
0,5
Droite d’équi-répartition
0,25
0 A
0 0,25 0,5 0,75 1 F(x)
Fi (n.x )
Trapèze j
Fi−1(n.x )
Bj
bj
0 h 1
Fi−1( x ) Fi ( x )
- 45 -
Dans ce cas l’aire de concentration est égale à la surface du triangle OAB moins (-) la somme des aires des
trapèzes.
𝑘
(𝑆𝑖 + 𝑆i-1 )𝑓𝑖
Aire de concentration = 0,5 − ∑
2
𝑖=1
Exemple : Répartition des employés d’une entreprise selon le salaire annuel (en dinars)
Valeurs globales relatives
cumulées
=
Fréquences cumulées Fréquences cumulées de la
Fréquenc
Modalités croissantes masse salariale
es (𝑆i-1 + 𝑆𝑖 ) (𝑆i-1 + 𝑆𝑖 )𝑓𝑖
Salaires 𝑖
𝑛𝑖
𝑖
𝑓𝑖 Si
𝐹(𝑥) = ∑ 𝑓ℕ = ∑
𝑛 𝑖
ℕ=1 1 𝑛𝑖 𝑥𝑖
𝐹(𝑛𝑥) = ∑
∑𝑖 𝑛𝑖 𝑥𝑖
1
[3000, 4000[ 0,131 0,131 0,077 0,077 0,010
[4000, 5000[ 0,183 0,314 0,215 0,292 0,054
[5000, 6000[ 0,141 0,455 0,346 0,561 0,079
[6000, 7000[ 0,340 0,796 0,717 1,062 0,362
[7000, 8000[ 0,105 0,901 0,848 1,565 0,164
[8000, 9000[ 0,042 0,942 0,908 1,757 0,074
[9000, 10000[ 0,058 1,000 1,000 1,908 0,110
Total 1,000 0,852
- 46 -
5. Principales sources bibliographiques
- 47 -