0% ont trouvé ce document utile (0 vote)
47 vues47 pages

Ena - Support de Cours - Stat Appliquee

Le document présente une introduction aux techniques statistiques, en détaillant la nature de la statistique, y compris la collecte de données, la statistique descriptive, l'inférence statistique et la prise de décision. Il aborde également les caractéristiques des distributions statistiques, les mesures de tendance centrale et de dispersion, ainsi que les méthodes de représentation graphique des données. Enfin, il souligne l'importance de la statistique dans divers domaines tels que la finance, le marketing et la gestion.

Transféré par

bouassida hamed
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
47 vues47 pages

Ena - Support de Cours - Stat Appliquee

Le document présente une introduction aux techniques statistiques, en détaillant la nature de la statistique, y compris la collecte de données, la statistique descriptive, l'inférence statistique et la prise de décision. Il aborde également les caractéristiques des distributions statistiques, les mesures de tendance centrale et de dispersion, ainsi que les méthodes de représentation graphique des données. Enfin, il souligne l'importance de la statistique dans divers domaines tels que la finance, le marketing et la gestion.

Transféré par

bouassida hamed
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

1. INTRODUCTION AUX TECHNIQUES STATISTIQUES ............................................................................................................................

- 3 -

1.1. LA NATURE DE LA STATISTIQUE .................................................................................................................................................................... - 3 -


1.1.1. LA COLLECTE DES DONNEES ....................................................................................................................................................................... - 3 -
[Link]. La collecte de données disponibles ................................................................................................................................................ - 4 -
[Link]. La collecte de données originales ................................................................................................................................................... - 4 -
1.1.2. LA STATISTIQUE DESCRIPTIVE .................................................................................................................................................................... - 4 -
1.1.3. L’INFERENCE STATISTIQUE ........................................................................................................................................................................ - 4 -
1.1.4. LA DECISION STATISTIQUE ......................................................................................................................................................................... - 5 -
1.2. PRINCIPALES LETTRES DE L’ALPHABET GREC UTILISEES EN STATISTIQUE.......................................................................................................... - 6 -

2. L’INFORMATION STATISTIQUE EN TUNISIE ........................................................................................................................................ - 7 -

3. ELEMENTS DE BASE POUR COMPRENDRE LA STATISTIQUE DESCRIPTIVE ................................................................................... - 9 -

3.1. CARACTERISATION DES DONNEES STATISTIQUES ............................................................................................................................................ - 9 -


3.1.1. LA POPULATION ET LES UNITES STATISTIQUES .............................................................................................................................................. - 9 -
3.1.2. LES CARACTERES STATISTIQUES .................................................................................................................................................................- 10 -
3.1.3. LES MODALITES .......................................................................................................................................................................................- 10 -
3.2. DIFFERENCIATION DES CARACTERES ET DES VARIABLES .................................................................................................................................- 10 -
3.2.1. LES CARACTERES QUALITATIFS ..................................................................................................................................................................- 10 -
3.2.2. LES CARACTERES QUANTITATIFS ................................................................................................................................................................- 11 -
[Link]. Les variables statistiques discrètes .............................................................................................................................................. - 11 -
[Link]. Les variables statistiques continues ............................................................................................................................................. - 11 -
3.3. CLASSEMENT ET REPRESENTATION DES DISTRIBUTIONS A UN SEUL CARACTERE : LES TABLEAUX STATISTIQUES ET LES GRAPHIQUES .....................- 12 -
3.3.1. EXEMPLE INTRODUCTIF ............................................................................................................................................................................- 12 -
3.3.2. LES TABLEAUX STATISTIQUES ET LES NOTIONS D’EFFECTIF ET DE FREQUENCE ..................................................................................................- 13 -
3.3.3. CLASSEMENT ET REPRESENTATION DES CARACTERES QUALITATIFS .................................................................................................................- 13 -
[Link]. Les tableaux statistiques des caractères qualitatifs .................................................................................................................... - 13 -
[Link]. Les graphiques des caractères qualitatifs .................................................................................................................................... - 13 -
[Link].1 Les diagrammes à secteurs circulaires ...................................................................................................................................... - 14 -
[Link].2 Les graphiques en tuyaux d’orgue ............................................................................................................................................. - 14 -
[Link].3 Les diagrammes figuratifs .......................................................................................................................................................... - 14 -
3.3.4. CLASSEMENT ET REPRESENTATION DES VARIABLES STATISTIQUES DISCRETES ..................................................................................................- 15 -
[Link]. Les tableaux des variables statistiques discrètes ........................................................................................................................ - 15 -
[Link].1 La notion de fréquence cumulée (𝑭𝒊) ........................................................................................................................................ - 15 -
[Link].1.1 Fréquence cumulée croissante ............................................................................................................................................... - 15 -
[Link].1.2 Fréquence cumulée décroissante ........................................................................................................................................... - 16 -
[Link].2 La notion d’effectif cumulé (𝑵𝒊) ................................................................................................................................................. - 16 -
[Link].2.1 Effectif cumulé croissant ......................................................................................................................................................... - 16 -
[Link].2.2 Effectif cumulé décroissant ..................................................................................................................................................... - 16 -
[Link]. Les graphiques des variables statistiques discrètes ................................................................................................................... - 17 -
[Link].1 Diagramme en bâtons des effectifs ou des fréquences des variables discrètes ...................................................................... - 17 -
[Link].2 Polygone des effectifs ou des fréquences des variables discrètes ........................................................................................... - 19 -
[Link].3 Courbe cumulative et fonction de répartition des variables discrètes .................................................................................... - 19 -
3.3.5. CLASSEMENT ET REPRESENTATION DES VARIABLES STATISTIQUES CONTINUES .................................................................................................- 21 -
[Link]. Les tableaux des variables statistiques continues ....................................................................................................................... - 21 -
[Link].1 La notion de fréquence cumulée (𝑭𝒊) ........................................................................................................................................ - 21 -
[Link].1.1 Fréquence cumulée croissante ............................................................................................................................................... - 21 -
[Link].1.2 Fréquence cumulée décroissante ........................................................................................................................................... - 21 -
[Link].2 La notion d’effectif cumulé (𝑵𝒊) ................................................................................................................................................. - 22 -
[Link].2.1 Effectif cumulé croissant ......................................................................................................................................................... - 22 -
[Link].2.2 Effectif cumulé décroissant ..................................................................................................................................................... - 22 -
[Link]. Les graphiques des variables statistiques continues : Classes d’amplitudes égales ................................................................. - 22 -
[Link].1 Histogramme des effectifs ou des fréquences ........................................................................................................................... - 22 -
[Link].2 Polygone des effectifs ou des fréquences .................................................................................................................................. - 23 -
[Link].3 Courbe cumulative et fonction de répartition des variables continues................................................................................... - 23 -
[Link]. Les graphiques des variables statistiques continues : Classes d’amplitudes inégales .............................................................. - 25 -

-1-
4. LES CARACTERISTIQUES DES DISTRIBUTIONS STATISTIQUES A UN SEUL CARACTERE ........................................................... - 26 -

4.1. INTRODUCTION ..........................................................................................................................................................................................- 26 -


4.2. LES CARACTERISTIQUES DE TENDANCE CENTRALE .........................................................................................................................................- 26 -
4.2.1. LA MOYENNE ARITHMETIQUE ....................................................................................................................................................................- 26 -
[Link]. Cas d’une variable discrète ........................................................................................................................................................... - 26 -
[Link]. Cas d’une variable continue .......................................................................................................................................................... - 26 -
[Link]. Quelques propriétés de la moyenne arithmétique ...................................................................................................................... - 27 -
[Link]. Limites de la moyenne arithmétique ............................................................................................................................................ - 27 -
4.2.2. LE MODE ................................................................................................................................................................................................- 27 -
[Link]. Cas des séries à caractère qualitatif (éventuellement) ou quantitatif discret ........................................................................... - 27 -
[Link]. Cas des séries à caractère quantitatif continu ............................................................................................................................. - 28 -
4.2.3. LA MEDIANE OU MEDIANTE .......................................................................................................................................................................- 28 -
[Link]. Cas des séries à caractères discrets .............................................................................................................................................. - 28 -
[Link].1 Cas d’une série individualisée (données non groupées) .......................................................................................................... - 28 -
[Link].2 Cas d’une série non individualisée (données groupées) .......................................................................................................... - 29 -
[Link]. Cas des séries à caractères continus ............................................................................................................................................ - 29 -
[Link].1 Détermination de la médiane par interpolation linéaire .......................................................................................................... - 29 -
[Link].2 Détermination de la médiane par l’histogramme ..................................................................................................................... - 31 -
4.2.4. AUTRES CARACTERISTIQUES DE TENDANCE CENTRALE ..................................................................................................................................- 31 -
[Link]. Généralisation de la médiane : les quantiles................................................................................................................................ - 31 -
[Link].1 Les quartiles ................................................................................................................................................................................ - 32 -
[Link].2 Les déciles.................................................................................................................................................................................... - 32 -
[Link].3 Les centiles .................................................................................................................................................................................. - 32 -
[Link]. La phi-moyenne ............................................................................................................................................................................. - 32 -
[Link].1 La moyenne arithmétique .......................................................................................................................................................... - 32 -
[Link].2 La moyenne géométrique ........................................................................................................................................................... - 33 -
[Link].3 La moyenne harmonique ............................................................................................................................................................ - 33 -
4.3. LES CARACTERISTIQUES DE DISPERSION.......................................................................................................................................................- 33 -
4.3.1. L’ETENDUE .............................................................................................................................................................................................- 33 -
4.3.2. L’INTERVALLE INTERQUARTILE .................................................................................................................................................................- 34 -
4.3.3. L’ECART ABSOLU MOYEN...........................................................................................................................................................................- 34 -
4.3.4. L’ECART ABSOLU PAR RAPPORT A LA MEDIANE .............................................................................................................................................- 34 -
4.3.5. LA VARIANCE ..........................................................................................................................................................................................- 34 -
4.3.6. L’ECART TYPE .........................................................................................................................................................................................- 35 -
4.3.7. LE COEFFICIENT DE VARIATION ..................................................................................................................................................................- 35 -
4.4. LES CARACTERISTIQUES DE FORME ..............................................................................................................................................................- 35 -
4.4.1. LA MESURE DE L’ASYMETRIE .....................................................................................................................................................................- 37 -
[Link]. Positions respectives : mode, médiane et moyenne .................................................................................................................... - 37 -
[Link]. Le coefficient d’asymétrie de Yule ................................................................................................................................................ - 38 -
[Link]. Les coefficients d’asymétrie de Pearson ...................................................................................................................................... - 38 -
[Link]. Le coefficient d’asymétrie de Fisher ............................................................................................................................................. - 38 -
4.4.2. LA MESURE DE L’APLATISSEMENT ..............................................................................................................................................................- 40 -
[Link]. Le coefficient d’aplatissement de Pearson ................................................................................................................................... - 40 -
[Link]. Le coefficient d’aplatissement de Fisher ...................................................................................................................................... - 41 -
[Link]. Autres coefficients d’aplatissement.............................................................................................................................................. - 41 -
4.5. LES CARACTERISTIQUES DE CONCENTRATION ...............................................................................................................................................- 41 -
4.5.1. DEFINITION DE LA CONCENTRATION ...........................................................................................................................................................- 41 -
4.5.2. DETERMINATION DE LA CONCENTRATION PAR LE CALCUL : L’ECART MEDIALE –MEDIANE ..................................................................................- 42 -
4.5.3. DETERMINATION GRAPHIQUE DE LA CONCENTRATION ..................................................................................................................................- 43 -
[Link]. La courbe de concentration de Gini – Lorentz ............................................................................................................................. - 43 -
[Link]. L’indice de Gini............................................................................................................................................................................... - 45 -

5. PRINCIPALES SOURCES BIBLIOGRAPHIQUES .................................................................................................................................... - 47 -

-2-
1. INTRODUCTION AUX TECHNIQUES STATISTIQUES

1.1. La nature de la statistique

La statistique tire son nom de l’Etat (status en latin) qui est le premier à procéder à une collecte d’un grand
nombre de données.

Pour mieux comprendre le sens du mot statistique, il faut réaliser que ce mot est utilisé pour exprimer trois sens
différents :

- C'est un ensemble de données chiffrées contenant des informations sur un phénomène ou un


événement particulier.
- C'est une discipline scientifique dont le but est d'extraire de l'information d'un échantillon en vue
d'une prédiction ou d'une décision.
- C'est une fonction d'un échantillon.

La statistique comme science s’occupe de :

• collecter et de recueillir des données “brutes” ;


• présenter et résumer ces données ;
• analyser, interpréter ces données et tirer des conclusions sur la population étudiée (sa structure,
sa composition) ; et
• aider la prise de décision et faire de la prévision en présence de données dépendant du temps.

La statistique renferme un ensemble très diversifié de méthodes.


Pour mieux comprendre ce qui différencie ces méthodes de même ce qui les relie, il est convenable de diviser
une étude statistique en quatre étapes :

1. La collecte des données


2. La statistique descriptive
3. L’inférence statistique
4. La décision statistique

Aujourd’hui, les champs d’application de la statistique sont très nombreux (macroéconomie ; microéconomie ;
économétrie ; management et gestion ; sciences actuarielles ; etc.) et la statistique est devenue essentielle pour
appuyer une décision, porter un jugement ou encore prévoir le futur.

Par exemple :

▪ en finances, le risque est un écart-type.


▪ en marketing, les enquêtes auprès d’un échantillon de consommateurs, sont très utilisées.
▪ en comptabilité, l’audit procède par sondage.

1.1.1. La collecte des données

Avant de songer à traiter et analyser des données ou des informations numériques concernant un certain
phénomène, il faut d’abord aller chercher ces données.
Cette collecte de données constitue la démarche initiale à toute analyse statistique ; étant ainsi à la base des
travaux ultérieurs du statisticien ou quantitativiste. Cette étape doit être conduite avec beaucoup de soin, de
prudence et de sens critique.
Face à un phénomène que l’on veut analyser, il faut déterminer de quel type d’information ou de données on a
besoin, et préciser de quelle façon ces données seront recueillies.

-3-
Il existe essentiellement deux façons d’obtenir des données statistiques :

• La collecte de données disponibles


• La collecte de données originales

[Link]. La collecte de données disponibles

Selon la nature du phénomène envisagé, il peut y avoir plus ou moins d’information disponible.
Concernant les données reliées au domaine de la gestion des affaires, on peut les diviser selon leurs origines en
deux catégories : Les données internes et externes.

- Les données internes sont habituellement celles qui sont les plus faciles à obtenir puisqu’on les retrouve à
l’intérieur même de l’entreprise et ses départements (données sur les ventes, les achats, le personnel, la
production, la machinerie, etc.).
La somme d’information disponible à l’intérieur d’une entreprise grâce aux différents registres, peut avoir un
impact direct sur sa bonne marche, en particulier, au moment des prises de décisions.
Les statistiques des entreprises sont très nombreuses mais elles sont souvent confidentielles.

- Les données externes sont les données qui ont été recueillies et possiblement publiées par des organismes
autres que l’entreprise concernée.
Les principales sources de données externes sont les gouvernements et leurs divers ministères, départements
ou organismes, etc.

[Link]. La collecte de données originales

Relativement à un phénomène étudié, il peut arriver qu’il n’y ait aucune donnée disponible. Pour obtenir de
l’information originale sur une population, on peut observer toute la population ou seulement une partie de cette
dernière.
Selon la nature de la population en cause et de la variable considérée, les principales méthodes de collecte de
données sont : la méthode d’observation scientifique et la méthode du questionnaire.

- La méthode d’observation scientifique consiste à observer certaines unités de la population pour savoir
quelles sont les modalités ou les valeurs prises par une variable statistique. On parle d’observation scientifique
lorsqu’il s’agit d’une expérience planifiée à l’avance dont on contrôle les conditions d’observation et de mesure.

- La méthode du questionnaire qui consiste à demander l’information désirée à quelqu’un (un individu) est la
méthode de collecte de données la plus utilisée en sciences sociales.

1.1.2. La statistique descriptive

Une fois que l’on a en main une masse ou un ensemble de données au sujet d’un problème ou d’un phénomène,
on peut procéder à ce que l’on appelle l’analyse statistique.
La première étape de l’analyse statistique que l’on qualifie de statistique descriptive ou exploratoire consiste en
un traitement des données qui a pour objectif de présenter, de classer, de résumer et / ou décrire les
caractéristiques essentielles d’un ensemble de données numériques pour en faire ressortir toute information
sous-jacente.

1.1.3. L’inférence statistique

L’inférence statistique regroupe l’ensemble des méthodes qui permettent de tirer des conclusions sur une
population à partir d’une information partielle provenant d’un échantillon.

-4-
1.1.4. La décision statistique

Elle regroupe un ensemble de méthodes et de modèles quantitatifs qui permettent d’aider à la prise de décision
dans un contexte d’incertitude.
La décision statistique vient couronner l’analyse statistique dans le sens qu’elle permet de déterminer de quelle
manière les résultats de l’inférence statistique peuvent se traduire dans l’action. Le but ultime d’une analyse
statistique réside généralement dans une prise de décision.

-5-
1.2. Principales lettres de l’alphabet grec utilisées en statistique

Minuscule Majuscule Prononciation


 Alpha
 Bêta
  Gamma
  Delta
 Epsilon
 Eta
  Thêta
  Lambda
 Mu
 Nu
 Xi
  Pi
 Rhô
  Sigma
 Tau
  Phi
 Khi
 Psi
  Omega

-6-
2. L’information statistique en Tunisie1

Beaucoup d’organismes publics et privés s’occupent de la collecte et de la publication des statistiques. Les offices
nationaux de statistiques sont la principale source de données macroéconomiques et des indices statistiques.
En Tunisie, l’Institut National de la Statistique centralise toutes les informations statistiques publiques. Tous les
ministères, les organismes et les offices publics, la Banque Centrale de Tunisie et les banques transmettent les
données chiffrées à l’INS qui se charge de les publier.
Depuis sa création en 1969, l'INS joue un rôle d'information à l'égard des agents économiques tant publics que
privés.

A PROPOS DE L'INS

Statut

L'Institut National de la Statistique (INS) a été créé en 1969, c'est un établissement public à caractère non administratif.
Il constitue en outre l'organisme central du système national de la statistique.
Selon son statut l'INS est administré par un Conseil d'Entreprise présidé par le Directeur Général de l'INS.

Siège : 70, rue Ech-cham BP 265 CEDEX Tunis, Tunisie


Tél : 71 891002
Fax : 71 792 559
Email : INS@[Link]
Site : http//[Link]

Missions Principales

• Assurer en coordination avec les autres structures statistiques publiques la collecte , le traitement, l'analyse et la
diffusion de l'information statistique.
• Mener des recensements, des enquêtes démographiques, sociales et économiques.
• Elaborer les comptes de la nation selon ses différentes dimensions (nationale, trimestrielle)
• Elaborer les indicateurs de conjoncture économique et assurer le suivi et l'analyse de la conjoncture.
• Organiser la documentation statistique nationale en rassemblant les données produites par les structures du système
national de la statistique
• Assurer la coordination technique des activités statistiques publiques.
• Assurer le secrétariat permanent du conseil national statistique.
• Organiser la coopération internationale dans le domaine statistique
.
Au niveau central : l'INS est constitué de 7 directions centrales : 6 directions centrales techniques qui assurent
l'activité de conception et de suivi et de réalisation des travaux de production et de diffusion de l'information statistique,
et une direction centrale regroupant les services communs. En outre deux structures sont rattachées directement à la
Direction générale de l'INS :
• Le Secrétariat Permanent du Conseil National de la Statistique
• L’Observatoire de la Conjoncture Economique.
Les directions centrales :
• D.C des statistiques démographiques et sociales.
• D.C des statistiques d’entreprises.
• D.C de la comptabilité nationale.
• D.C des statistiques de la conjoncture et des études économiques.
• D.C des statistiques régionales.
• D.C de la diffusion, informatique et coordination.

1 (Préparé à partir de l’information disponible sur le site Web de l’INS [Link], Octobre 2017).

-7-
Au niveau régional : l'INS est représenté par six directions régionales (Districts) qui couvrent les grandes régions du
pays.

• Nord-Est:
Adresse : Tunis. Cité Bouchoucha, le Bardo 2000.
Téléphone : (+216) 71 588 697
Fax : (+216) 71 588808

• Nord-Ouest :
Adresse : Béja. Rue de la municipalité, Imm zlaoui , Béja 9000.
Téléphone : (+216) 78 450 755
Fax : (+216) 78 440 359

• Centre-Est :
Adresse : Sousse: Imm. Mallouli Rue Med Ali, Bab Djedid Sousse 4000.
Téléphone : (+216) 73 224 245
Fax : (+216) 73 224 245

• Centre-Ouest :
Adresse : Kasserine: Avenue Habib Bourguiba. Kasserine 1200.
Téléphone : (+216) 77 474 811
Fax : (+216) 77 474 811

• Sud Ouest :
Adresse : Gafsa: Avenue Roman Douali 2100 Gafsa
Téléphone : (+216) 76 224 951
Fax : (+216) 76 224 951

• Sud Est :
Adresse : Médenine. Avenue Habib Bourguiba-2ème étage, Médenine 4080.
Téléphone : (+216) 75 643 864
Fax : (+216) 75 643 864

La mission principale des représentations régionales est de réaliser les opérations de collecte de données, de chiffrement
et de saisie et s'étend à d'autres activités régionales spécifiques ainsi que le développement des statistiques régionales
dans leurs zones géographiques.

Les Principales Activités de l'INS

Statistiques démographiques et sociales

• Recensement général de la population et de l'habitat.


• Elaboration des statistiques de la population et de l'Etat civil.
• Projection de la population.
• Enquête nationale sur la consommation des ménages
• Effectifs et salaires de la fonction publique.
• Les indicateurs de l'infrastructure.

Statistiques économiques

• Répertoire national des entreprises.


• Enquêtes sur les activités des entreprises.
• Les comptes nationaux annuels/ trimestriels.
• Les indices de conjoncture.
• Statistiques du commerce extérieur.
• Enquête sur les investissements.
• Suivi de la conjoncture économique.

Coordination statistique

• Coordination technique en matière de statistique.


• Secrétariat permanent du conseil national statistique.

-8-
3. ELEMENTS DE BASE POUR COMPRENDRE LA STATISTIQUE
DESCRIPTIVE

3.1. Caractérisation des données statistiques

3.1.1. La population et les unités statistiques

La statistique étudie de façon quantitative des ensembles nombreux et elle est basée sur deux notions
fondamentales : la population et l’échantillon.

La population est la totalité des éléments qu’on désire étudier. Ainsi, la population est un ensemble composé
d’éléments bien définis, les individus, servant d’objets à l’étude.
La population statistique dépasse largement le cadre strict de la démographie, qui fut le premier domaine
d’application de la statistique et dont elle a hérité la terminologie de base.

Par exemple, sont considérés comme population, les ensembles suivants :


 Ensembles d’êtres humains :
▪ La population de la Tunisie à la date du recensement de 2004.
▪ Le personnel d’une entreprise donnée au 31 décembre 2008
 Stocks d’objets concrets :
▪ Le parc automobile tunisien au 31 décembre 2008.
 Flux :
▪ Les demandes d’emploi déposées à au cours du mois de janvier 2008.
 Ensembles de biens immatériels :
▪ Les consultations annuelles d’un médecin.
 Ensembles non concrets :
▪ Les accidents de la route causés par la vitesse.

En général, la population est trop grande pour permettre l’étude de tous ses individus. C’est de plus impossible
lorsque l’observation elle-même implique la destruction des individus (exemple ; Crash-tests d’automobiles,
étude de la durée de vie des ampoules issues d’une usine). C’est pourquoi les observations sont ramenées à un
sous-ensemble de la population que l’on appelle échantillon. L’étude d’un échantillon (ce sous-ensemble)
permet de tirer des “conclusions” sur la population entière (sondages par exemple).

Le choix de cet échantillon peut se faire de deux façons :


 soit on le construit d’une manière représentative de la population entière, ce qui suppose une
connaissance parfaite de celle-ci;
 soit on le construit en piochant aléatoirement dans la population. Après cette introduction du
hasard dans la procédure, les statisticiens s’appuient sur la théorie mathématique qui décrit le
hasard (la théorie des probabilités) pour élaborer des outils plus performants2.

Chaque population ou échantillon contient des éléments que l’on peut dénombrer (par exemple, habitants,
salariés, automobiles, etc.).
Ces éléments portent le nom d’unités statistiques ou d’individus. En général, une population est composée de 𝑁
unités homogènes, 𝑁 est un ensemble fini (𝑁 ∈ ℕ).

Il faut toujours bien définir la population que l’on étudie, afin de ne pas créer de confusions dans l’interprétation.

L’ordre dans lequel on observe les unités statistiques ou les individus d’une même population ou un échantillon
de la population n’a pas d’importance.

2Pou ce cours de statistiques descriptives, on considère les observations et on essaye de les “faire parler” au mieux, sans beaucoup d’hypothèses
sur leur origine (en particulier on considère que l’échantillon = la population).

-9-
N.B.
On utilise des lettres majuscules pour désigner les variables de la population (X, Y, Z, etc.) et des lettres en
minuscules pour désigner les variables correspondantes de l’échantillon (x, y, z, etc.).

3.1.2. Les caractères statistiques

Pour décrire une population, on repère et on classe les individus ou les unités statistiques en sous-ensembles
appelés caractères. Ainsi, pour chaque individu, on peut relever un ou plusieurs caractères. Le caractère est un
aspect observable du phénomène étudié : c’est une dimension du phénomène.

Par exemple, la population de la Tunisie, ou les salariés d’une entreprise, pourront être décrits par des caractères
tels que : sexe, âge, nationalité, nombre d’enfants, etc. La production d’une firme automobile pourra être repérée
par les caractères : modèle, couleur, type, puissance du moteur, puissance fiscale, nombre de places assises, etc.

Une unité peut être observée selon plusieurs caractères mais il est strictement indispensable de ne retenir que
les caractères les plus pertinents pour pouvoir décrire une population convenablement, en agrégeant ainsi les
informations en sous-ensembles cohérents.

Dans certains cas, le choix d’un trop grand nombre de caractères revient à présenter la population en question
dans sa réalité brute, c'est-à-dire, sans aucun effet de synthétisation pratique, presque individu par individu.

3.1.3. Les modalités

Chaque caractère étudié peut présenter deux ou plusieurs valeurs, états ou situations différentes que l’on appelle
modalités.
Il est important de signaler que :
 les différentes modalités d’un caractère doivent être : incompatibles, exhaustives et sans
ambiguïté :
▪ incompatibles, de manière à ce qu’un individu ne puisse appartenir à plus d’une modalité
à la fois (un individu ne peut pas être marié et célibataire) ;
▪ exhaustives, afin de prévoir toutes les situations possibles, sans exception ;
▪ sans ambiguïté, pour ne pas faire d’erreur de classement.
 les modalités d’un caractère sont hiérarchisées selon le degré de finesse de l’information
disponible ou recherchée.

Par exemple, un individu peut être masculin ou féminin, c'est-à-dire, remplir l’une des deux modalités du
caractère sexe. Il peut satisfaire également à l’une des quatre modalités du caractère état matrimonial : marié,
célibataire, divorcé ou veuf. Une voiture peut être : rouge, blanche, noire, bleue ou autre couleur ; et correspondre
ainsi à l’une des cinq modalités retenues ici pour le caractère couleur.
Selon la précision recherchée lors d’une enquête démographique, on peut étudier la population en quatre
modalités : marié, célibataire, divorcé ou veuf, ou seulement en deux : marié ou non marié.

3.2. Différenciation des caractères et des variables

3.2.1. Les caractères qualitatifs

Un caractère est dit qualitatif lorsque son observation ne peut pas être traduite par une mesure. Ses modalités
sont simplement identifiées, constatées et repérées pas un mot traduisant un état.
Ainsi, par exemple les caractères, groupe sanguin, profession, nationalité, couleur, … ne présentent pas de
modalités mesurables.

Lorsque le caractère qualitatif ne présente que deux modalités, il est dit dichotomique.
Par exemple : Fumeur et non-fumeur.

- 10 -
Si les modalités du caractère qualitatif peuvent être présentées dans certain ordre, le caractère est dit ordinal.
Par exemple : le niveau socioculturel des consommateurs des produits biologiques : éducation primaire,
éducation secondaire, éducation supérieure.

Si l’ordre de présentation des modalités du caractère qualitatif est sans importance, le caractère est dit nominal.
Par exemple : la couleur des chaussures.

Certaines modalités sont ordonnées et hiérarchisées par simple convention, à l’intérieur de tableaux appelés
nomenclatures. Chaque modalité porte le nom de rubrique. Les rubriques doivent être incompatibles,
exhaustives et sans ambiguïté.
A chaque nomenclature est associé un code numérologique, permettant de repérer par un ou plusieurs chiffres
les rubriques et sous-rubriques.

3.2.2. Les caractères quantitatifs

Un caractère est dit quantitatif si ses modalités sont mesurables, c'est-à-dire, traduites par des nombres qui
mesurent leurs valeurs. Le caractère quantitatif prend alors le nom de variable statistique et ses différentes
modalités sont les valeurs possibles de la variable.
Par exemple, le poids, la taille et l’âge sont des caractères ou des variables statistiques, dont les modalités sont
mesurables dans diverses unités spécifiques.

Les variables statistiques sont de deux types différents : discrètes et continues.

[Link]. Les variables statistiques discrètes

Une variable statistique quantitative est discrète lorsqu’elle prend des valeurs isolées et elle prend ses valeurs
dans un ensemble où deux valeurs voisines sont séparées par un intervalle qui ne comporte aucune valeur. Un
tel ensemble est dit lui aussi discret.
Une variable est discrète si l’ensemble des valeurs qu’elle peut prendre est dénombrable (très souvent des
nombres entiers : 0, 1, 2, 3, 4, etc.), c'est-à-dire si l’on peut énumérer les valeurs possibles de cette variable.
Par exemple, le nombre de voitures ou le nombre d’habitants sont des variables discrètes.
Les modalités du caractère (ou, ce qui revient au même : les valeurs de la variable) seront, soit des valeurs exactes
(0 ; 1 ; 2 ; 3 ;…), soit des regroupements de valeurs en classes (moins de 5 salariés, de 5 à 9 salariés, de 10 à 14
salariés ; etc.).

[Link]. Les variables statistiques continues

Une variable statistique est dite continue lorsque l’ensemble des valeurs qu’elle peut prendre est non
dénombrable, c'est-à-dire, elle prend ses valeurs dans un ensemble où, quelles que soient deux valeurs, on peut
toujours en trouver une qui est entre les deux. Un tel ensemble est dit aussi continu.

’il est à priori possible de pousser sa mesure à des décimales (elle existe pour tout nombre réel, c'est-à-dire
lorsque ses valeurs sont en nombre infini).
Par exemple, le poids d’un individu n’est pas exactement de 75 ou 76 kg : il peut être de 75,5 ou même selon la
précision de la mesure de 75,458 kg ou encore le rendement agricole par hectare.

Remarque :
⎯ En général, les variables statistiques issues de comptage sont traitées comme discrètes alors que les variables
statistiques issues de mesures sont traitées comme continues.
⎯ En pratique, une variable est considérée continue si elle peut prendre un si grand nombre de valeurs,
qu’on est obligé de les regrouper en classes.
⎯ Des variables continues sont parfois discrétisées pour en simplifier le traitement.
⎯ Pour un caractère continu, les “valeurs possibles” ne sont plus en quantité dénombrable. Pour des raisons pratiques,
on peut discrétiser ce caractère en effectuant un regroupement en classe. On effectue une partition finie de

- 11 -
l’intervalle des valeurs possibles, chaque élément de la partition étant appelé classe. Ex.: La longueur d’un pied est
un caractère continu. Pour des raisons de production “à la chaîne”, on le discrétise pour obtenir un caractère discret,
la pointure.

En résumé :

Caractère

Quantitatif Qualitatif

Variable Variable
Statistique Statistique Ordinal Nominal
Discrète Continue

3.3. Classement et représentation des distributions à un seul caractère : les


tableaux statistiques et les graphiques

3.3.1. Exemple introductif

L’information statistique collectée sous forme de données individuelles, n’est pas facilement exploitable et sa
manipulation est lourde. Il est donc nécessaire de la synthétiser sous forme de tableaux, par exemple, qui
résume les caractères et leurs évolutions.

Pour présenter un tableau statistique, trois principes simples doivent être respectées :
1. Le titre du tableau
2. Les unités utilisées
3. La source ou l’origine de l’information chiffrée

Tableau 1 : Etat du logement en Tunisie


1966 1984 1999
Structure des logements selon le type
Logements modernes (villa, appartement, …)* 265 246 848 656
Logements traditionnels (dar arbi, borj, houch,…) 490 000 932 301 1 329 193
Logements rudimentaires 385 000 115 553 26 452
Parc logement 875 000 1 313 100 2 204 300
Structure des logements selon le type (en %)
Logements modernes 20,2 38,5
Logements traditionnels 56,0 71,0 60,3
Logements rudimentaires 44,0 8,8 1,2
Note : * En 1966 les logements modernes sont incorporés avec les logements traditionnels.
Source : INS, 2004. Recensements de la population et de l'habitat (1966, 1984) et Enquête Nationale Population – Emploi
(1999).

- 12 -
3.3.2. Les tableaux statistiques et les notions d’effectif et de fréquence

D’habitude, on synthétise et on regroupe les modalités et les effectifs sous forme de tableaux statistiques.
Les tableaux statistiques sont dits à une dimension (unidimensionnels), si l’on ne retient qu’un seul caractère ;
à deux dimensions ou croisés (bidimensionnels), si l’on retient deux caractères.

Un tableau à une dimension se présente généralement sous la forme suivante, où les 𝑛𝑖 individus sont
considérés comme équivalents du point de vue du caractère 𝑥𝑖 .

Modalites Effectifs
(𝑥𝑖 ) (𝑛𝑖 )
𝑥1 𝑛1
𝑥2 𝑛2
𝑥3 𝑛3
⬚ ⬚
⬚ ⬚
⬚ ⬚
𝑥𝑘 𝑛𝑘
⬚ 𝑁

A chaque modalité correspond un nombre d’individus ni appelé effectif de la modalité xi ou fréquence absolue.
La somme des effectifs constitue l’effectif total de la population (ou parfois de l’échantillon) : ∑𝑘𝑖=1 𝑛𝑖 = 𝑁

La fréquence relative (ou simplement fréquence) 𝑓𝑖 est la proportion d’individus présentant la même modalité
𝑛 𝑛
dans la population totale : 𝑓𝑖 = 𝑁𝑖 ou en termes de pourcentage 𝑓𝑖 % = 𝑁𝑖 × 100.
La somme des fréquences est égale à l’unité : ∑𝑘𝑖=1 𝑓𝑖 = 1.

3.3.3. Classement et représentation des caractères qualitatifs

[Link]. Les tableaux statistiques des caractères qualitatifs

Lorsqu’on est en présence de caractères non mesurables (qualitatifs) on peut les ranger tout simplement selon
la "logique" qui permet au mieux leur interprétation.

Tableau 2 : Structure de la population active occupée par secteur d'activité en 2004 (en milliers)
Modalités Effectifs
01… Agriculture et Pêche 465,3161
02… Industrie, Mines, Energie, Bâtiment et Travaux publics 979,1621
03… Commerce et services 1410,222
Total N =2854,7
Source : INS, 2005 (Recensements de la population et de l'habitat de 2004)

On peut, comme dans une nomenclature détaillée, coder les diverses rubriques (ici, de 01 à 03). L’opération de
codage est une opération de classement qui permet de donner un symbole ou un chiffre à une modalité du
caractère.
L’opération de codage est une simple représentation condensée de l’information. Ce n’est pas une valeur ou une
moyenne, tout calcul sur les codes est absurde et sans signification.

[Link]. Les graphiques des caractères qualitatifs

Les graphiques sont souvent utiles pour synthétiser de façon visuelle l’information contenue dans les tableaux
statistiques.
Ils permettent de faire passer une information de manière moins rebutante (et moins ennuyante) à la lecture
que les tableaux. Cependant cette lecture est moins directe et moins précise.

- 13 -
[Link].1 Les diagrammes à secteurs circulaires

Pour le cas des données figurant dans le tableau 2, la distribution pourrait être représentée par un cercle divisé
en k secteurs (chaque modalité sera représentée par un secteur sur le cercle).
La superficie du secteur est proportionnelle à l’effectif de la modalité ou la fréquence de cette modalité.

L’angle au centre : 𝜶𝒊 = (𝒇𝒊 × 𝟑𝟔𝟎°).

Figure 1 : Structure de la population active occupée par secteur d'activité en 2004 (en milliers)

34%

50%

16%

Agriculture et Pêche Industrie, Mines, Energie, Bâtiment et Travaux publics Commerce et services

Source : INS, 2005 (Recensements de la population et de l'habitat de 2004)

[Link].2 Les graphiques en tuyaux d’orgue

Ce type de graphique fait apparaître des rectangles de base constante donc les hauteurs sont proportionnelles
aux effectifs ou aux fréquences. En abscisses, on ordonne (facultativement) les modalités du caractère. En
ordonnées, sera représenté la valeur de l’effectif ou la fréquence.

Figure 2 : Structure de la population active occupée par secteur d'activité en 2004 (en milliers)
1600
1400
1200
1000

800
600
400

200
0
Agriculture et Pêche Industrie, Mines, Energie, Commerce et services
Bâtiment et Travaux publics

Source : INS, 2005 (Recensements de la population et de l'habitat de 2004)

N.B.
On peut ordonner les valeurs des effectifs de la plus grande à la plus faible en partant de l’origine des axes.
Ces graphiques représentent la même réalité que les diagrammes à secteurs circulaires précédents.

[Link].3 Les diagrammes figuratifs

Ce ne sont que des dessins suggestifs qui permettent de déduire des informations et des constations de
première importance sans entrer dans les détails quantitatifs.
Pour cela, par exemple, la dimension du dessin (ou figure) doit respecter les proportions de chaque modalité.

- 14 -
Figure 3 : Evolution du pouvoir d'achat du dollar canadien, 1980 à 2000

Source : Statistique CANADA, 2007 ([Link]/francais/edu/power/ch9/pictograph/picto_f.htm)

Cette figure montre comment le dollar canadien a diminué jusqu'à une valeur de 46,17 cents en 20 ans en
raison de l'inflation. Cette information signifie que la valeur du dollar canadien de 2000 est moins de la moitié
de celui de 1980.

3.3.4. Classement et représentation des variables statistiques discrètes

[Link]. Les tableaux des variables statistiques discrètes

Le tableau est du type :


Nombre d'enfants par menage Effectifs
(𝑥𝑖 ) (𝑛𝑖 )
0 2
1 5
2 1
3 0
4 2
5 0
6 0
⬚ 𝑁 = 10

Les valeurs sont discrètes : 0, 1, 2, 3, 4, 5 et 6.

[Link].1 La notion de fréquence cumulée (𝑭𝒊 )

[Link].1.1 Fréquence cumulée croissante


La fréquence cumulée croissante, qu’on note 𝐹𝑖 ↗ est la somme des fréquences correspondantes aux valeurs de
la variable statistique inférieures ou égales à 𝑥𝑖 .
Ainsi, la 𝐹𝑖 ↗ indique la proportion des individus pour lesquels la variable statistique est inférieure ou égale à
𝑥𝑖 ou encore la proportion des individus pour lesquels la variable statistique est strictement inférieure à 𝑥𝑖+1).

- 15 -
𝐹1 ↗= 𝑓1
𝐹2 ↗= 𝑓1 + 𝑓2 = 𝐹1 ↗ +𝑓2
𝐹3 ↗= 𝑓1 + 𝑓2 + 𝑓3 = 𝐹2 ↗ +𝑓3

𝑘

𝐹𝑘 ↗= 𝑓1 + 𝑓2 + 𝑓3 + ⋯ + 𝑓𝑘 = ∑ 𝑓𝑖 = 𝐹𝑘−1 ↗ +𝑓𝑘 = 1
{ 𝑖=1

N.B.
𝐹𝑖 ↗= 0 pour toutes les valeurs 𝑥𝑖 qui sont strictement inferieures à la plus petite valeur de la modalité.
𝐹𝑖 ↗= 1 pour toutes les valeurs 𝑥𝑖 qui sont supérieure ou égales à la plus grande valeur de la modalité.

[Link].1.2 Fréquence cumulée décroissante


La fréquence cumulée décroissante, qu’on note 𝐹𝑖 ↘ indique la proportion des individus pour lesquels la
variable statistique est strictement supérieure à 𝑥𝑖 ou encore la proportion des individus pour lesquels la
variable statistique est supérieure ou égale à 𝑥𝑖+1 ).
𝐹1 ↘= 1 − 𝑓1 = 1 − 𝐹1 ↗
𝐹2 ↘= 1 − (𝑓1 + 𝑓2 ) = 𝐹1 ↘ −𝑓2
𝐹3 ↘= 1 − (𝑓1 + 𝑓2 + 𝑓3 ) = 𝐹2 ↘ −𝑓3

𝑘

𝐹𝑘 ↘= 1 − (𝑓1 + 𝑓2 + 𝑓3 + ⋯ + 𝑓𝑘 ) = 1 − ∑ 𝑓𝑖 = 0
{ 𝑖=1

N.B.
On a 𝐹𝑖 ↘= 1 pour toutes les valeurs 𝑥𝑖 qui sont strictement inferieures à la plus petite valeur de la modalité.
On a 𝐹𝑖 ↘= 0 pour toutes les valeurs 𝑥𝑖 qui sont supérieure ou égales à la plus grande valeur de la modalité.

[Link].2 La notion d’effectif cumulé (𝑵𝒊 )

[Link].2.1 Effectif cumulé croissant


L’effectif cumulé croissant, qu’on note 𝑁𝑖 ↗ est la somme des effectifs correspondants aux valeurs de la variable
statistique inférieures ou égales à 𝑥𝑖 ou encore le nombre des individus pour lesquels la variable statistique est
strictement inférieure à 𝑥𝑖+1 .
𝑁1 ↗= 𝑛1
𝑁2 ↗= 𝑛1 + 𝑛2 = 𝑁1 ↗ +𝑛2
𝑁3 ↗= 𝑛1 + 𝑛2 + 𝑛3 = 𝑁2 ↗ +𝑛3

𝑘

𝑁𝑘 ↗= 𝑛1 + 𝑛2 + 𝑛3 + ⋯ + 𝑛𝑘 = ∑ 𝑛𝑖 = 𝑁𝑘−1 ↗ +𝑛𝑘 = 𝑁
{ 𝑖=1

[Link].2.2 Effectif cumulé décroissant


L’effectif cumulé décroissant, qu’on note 𝑁𝑖 ↘ indique le nombre des individus pour lesquels la variable
statistique est strictement supérieure à 𝑥𝑖 ou encore le nombre des individus pour lesquels la variable
statistique est supérieure ou égale à 𝑥𝑖+1 .
𝑁1 ↘= 𝑁 − 𝑛1 = 1 − 𝑛1 ↗
𝑁2 ↘= 𝑁 − (𝑛1 + 𝑛2 ) = 𝑁1 ↘ −𝑛2
𝑁3 ↘= 𝑁 − (𝑛1 + 𝑛2 + 𝑛3 ) = 𝑁2 ↘ −𝑛3

𝑘

𝑁𝑘 ↘= 𝑁 − (𝑛1 + 𝑛2 + 𝑛3 + ⋯ + 𝑛𝑘 ) = 𝑁 − ∑ 𝑛𝑖 = 0
{ 𝑖=1

Exemple

- 16 -
Tableau 3 : Ménages et technologies de communication/ Possession de
téléphones portables
Modalité: ni fi Ni Z Fi Z Ni ] Fi ]
Nombre Nombres de ménages Fréquences Effectifs cumulés Fréquences Effectifs cumulés Fréquences
portables (en milliers) croissants cumulées décroissants cumulées
croissantes décroissantes
0 1 179 53,9% 1 179 53,9% 1 007 46,1%
1 647 29,6% 1 826 83,5% 360 16,5%
2 245 11,2% 2 071 94,8% 115 5,2%
3 74 3,4% 2 145 98,1% 41 1,9%
4&+ 41 1,9% 2 186 100,0% 0 0,0%
k k
Total N =  ni = 2186 f i = 100%
i=1 i=1

Source: INS (RGPH, 2004)

A la lecture, les valeurs croissent de haut en bas. Les fréquences


cumulées sont dites ascendantes (croissantes). Elles correspondent à
la notion de « moins de ou moins que… »

A la lecture, les valeurs croissent de bas en haut. Les fréquences


cumulées sont dites descendantes (décroissantes). Elles correspondent
à la notion de « plus de ou plus que… »

N.B.
La notion de fréquence cumulée permet de répondre par exemple à la question : « combien de ménages ont
plus de 2 portables » ou « moins de 3 portables », par exemple.
Ce résultat « plus de … » ou « moins de … » peut s’exprimer en nombres (fréquences absolus) ou en proportions
(fréquences relatives).

[Link]. Les graphiques des variables statistiques discrètes

[Link].1 Diagramme en bâtons des effectifs ou des fréquences des variables discrètes

On peut représenter la série par un diagramme en bâtons (diagramme en bâtons des effectifs ou diagramme en
bâtons des fréquences).
Il s’agit de la figure obtenue sur un repère cartésien en associant à chaque point de cordonnées (𝑥𝑖 , 0) un
segment vertical.
La hauteur des segments tracés est proportionnelle aux effectifs (𝑛𝑖 ) ou aux fréquences (𝑓𝑖 ).

Dans l’exemple suivant, le tableau résume la possession des ménages tunisiens de téléphones portables d’après
les résultats du dernier recensement de la population en 2004:

Tableau 4 : Ménages et technologies de communication en Tunisie - Possession de téléphones portables


Nombre de téléphones portables Nombre de ménages
(en milliers)
Sans téléphone portable 1178,7
1 téléphone portable 647,1
2 téléphones portables 245,3
3 téléphones portables 73,6
4 téléphones portables ou plus 41,1

- 17 -
Total 2185,8
Source : Institut National de la Statistique (RGPH, 2004)

Pour cet exemple, on obtient :

Tableau 5 : Ménages et technologies de communication en Tunisie - Possession de téléphones portables


Nombre de Nombres de Fréquences Effectifs cumulés Effectifs cumulés Fréquences Fréquences
téléphones ménages croissants décroissants cumulées cumulées
portables (en milliers) croissantes décroissantes
0 1 178,7 0,539 1 179 2 186 0,539 0,461
1 647,1 0,296 1 826 1 007 0,835 0,165
2 245,3 0,112 2 071 360 0,948 0,052
3 73,6 0,034 2 145 115 0,981 0,019
4&+ 41,1 0,019 2 186 41 1,000 0,000
Total 2 185,8 1,000
Source : Institut National de la Statistique (RGPH, 2004)

Diagramme en bâtons des effectifs Diagramme en bâtons des fréquences


Nombres de ménages (en milliers) Fréquence de ménages

1 300 100,0%
1 200
1 100
1 000 80,0%
900
800 60,0%
700
600
500 40,0%
400
300
20,0%
200
100
0 0,0%
0 1 2 3 4& + 0 1 2 3 4& +

N.B.

Cette représentation (diagramme en bâtons) permet de :


▪ donner une idée générale sur la forme de la distribution étudiée.
Distribution symétrique Distribution asymétrique Distribution uniforme

- 18 -
▪ de repérer les valeurs aberrantes.

Possible valeur aberrante

[Link].2 Polygone des effectifs ou des fréquences des variables discrètes

On peut traduire le diagramme en bâtons sous forme d’une courbe polygonale joignant les extrémités des
segments tracés.
On obtient ainsi le polygone des effectifs (ou le polygone des fréquences).

Polygone des effectifs Polygone des fréquences


Nombres de ménages (en milliers) Fréquence de ménages

1 300 100,0%
1 200
1 100
1 000 80,0%
900
800 60,0%
700
600
500 40,0%
400
300 20,0%
200
100
0 0,0%
0 1 2 3 4& + 0 1 2 3 4& +

[Link].3 Courbe cumulative et fonction de répartition des variables discrètes

On appelle fonction de répartition d’une variable statistique quantitative toute application définie par :
F: ℜ → [0,1]
𝑥𝑖 ↦ 𝐹(𝑥𝑖 ) = prop(x<x𝑖 )
𝐹(𝑥𝑖 ) est égale à la proportion des individus ayant une valeur du caractère strictement inferieure à 𝑥𝑖 .
D’une manière générale, la fonction de répartition est constante par intervalle.
Sa formulation est la suivante :

- 19 -
0 𝑥 ≤ 𝑥1
𝑓1 𝑥1 < 𝑥 ≤ 𝑥2
𝑓1 + 𝑓2 𝑥2 < 𝑥 ≤ 𝑥3
F: ⬚

𝑓1 + 𝑓2 + ⋯ + 𝑓𝑝−1 𝑥𝑃−1 < 𝑥 ≤ 𝑥𝑝
{ 1 𝑥 > 𝑥𝑝
Si on revient sur l’ensemble des données antérieures (Ménages et technologies de communication en Tunisie -
Possession de téléphones portables), on peut écrire que :
𝐹(0) = 𝑝𝑟𝑜𝑝(𝑥 < 0) = 0
𝐹(1) = 𝑝𝑟𝑜𝑝(𝑥 < 1)
= 𝑝𝑟𝑜𝑝(𝑥 = 0) = 0,539
𝐹(2) = 𝑝𝑟𝑜𝑝(𝑥 < 2)
= 𝑝𝑟𝑜𝑝(𝑥 = 0) + 𝑝𝑟𝑜𝑝(𝑥 = 1)
= 0,539 + 0,296 = 0,835
𝐹(3) = 𝑝𝑟𝑜𝑝(𝑥 < 3)
= 𝑝𝑟𝑜𝑝(𝑥 = 0) + 𝑝𝑟𝑜𝑝(𝑥 = 1) + 𝑝𝑟𝑜𝑝(𝑥 = 2)
= 0,539 + 0,296 + 0,112
= 0,948
𝐹(4+) = 𝑝𝑟𝑜𝑝(𝑥 < 4+)
= 𝑝𝑟𝑜𝑝(𝑥 = 0) + 𝑝𝑟𝑜𝑝(𝑥 = 1) + 𝑝𝑟𝑜𝑝(𝑥 = 2) + 𝑝𝑟𝑜𝑝(𝑥 = 3)
= 0,539 + 0,296 + 0,112 + 0,034
{= 0,981

La formulation de la fonction de répartition de cette distribution statistique sera la suivante :


0 𝑥≤0
0,54 0<𝑥≤1
0,84 1<𝑥≤2
F:
0,95 2<𝑥≤3
0,98 3 < 𝑥 ≤ 4& +
{ 1 𝑥 > 4& +

La représentation graphique de la fonction de répartition (appelée également diagramme cumulatif ou


diagramme intégral) est la suivante :

En définitive, on peut représenter l’évolution des fréquences cumulées croissantes liées aux valeurs d’une
variable discrète (ou encore les effectifs cumulés croissants, si on le souhaite) par un diagramme en escalier.

- 20 -
3.3.5. Classement et représentation des variables statistiques continues

Dans ce cas, les individus (ou observations) sont nécessairement regroupés en classes, définies par leurs
bornes ou extrémités.
Par exemple, une classe de salaire mensuel en dinars:
▪ de 150 à moins de 250 dinars
ou
▪ [150 ; 250[
ou
▪ [ei-1 ; ei[ avec ei valeur d’une borne.

𝑒 +𝑒 150+250
Le centre de classe sera : 𝑐𝑖 = 𝑖−12 𝑖 = 2
= 200 ⇌ 𝑑𝑖𝑛𝑎𝑟𝑠
L’amplitude de la classe est 𝑎𝑖 = 𝑒𝑖 − 𝑒𝑖−1 = 100 𝑑𝑖𝑛𝑎𝑟𝑠
Les amplitudes peuvent être inégales.
▪ de 150 à moins de 250 dinars: amplitude = 100 dinars
▪ de 250 à moins de 400 dinars : amplitude = 150 dinars
▪ plus de 400 dinars : amplitude indéterminée

Les amplitudes des classes peuvent être constantes ou variables sur l’intervalle de variation.

[Link]. Les tableaux des variables statistiques continues

[Link].1 La notion de fréquence cumulée (𝑭𝒊 )

[Link].1.1 Fréquence cumulée croissante


La fréquence cumulée croissante, qu’on note également 𝐹𝑖 ↗ indique la proportion des individus pour lesquels
la variable statistique est inférieure ou égale à 𝑥𝑖 ou encore la proportion des individus pour lesquels la variable
statistique est strictement inférieure à 𝑥𝑖+1.

Pareil, on a :
𝐹1 ↗= 𝑓1
𝐹2 ↗= 𝑓1 + 𝑓2 = 𝐹1 ↗ +𝑓2
𝐹3 ↗= 𝑓1 + 𝑓2 + 𝑓3 = 𝐹2 ↗ +𝑓3

𝑘

𝐹𝑘 ↗= 𝑓1 + 𝑓2 + 𝑓3 + ⋯ + 𝑓𝑘 = ∑ 𝑓𝑖 = 𝐹𝑘−1 ↗ +𝑓𝑘 = 1
{ 𝑖=1

N.B.
▪ 𝐹𝑖 ↗= 0 pour toutes les valeurs 𝑥𝑖 qui sont strictement inferieures à la plus petite valeur de la modalité.
▪ 𝐹𝑖 ↗= 1 pour toutes les valeurs 𝑥𝑖 qui sont supérieure ou égales à la plus grande valeur de la modalité.

[Link].1.2 Fréquence cumulée décroissante


La fréquence cumulée décroissante, qu’on note 𝐹𝑖 ↘ indique la proportion des individus pour lesquels la
variable statistique est strictement supérieure à 𝑥𝑖 ou encore la proportion des individus pour lesquels la
variable statistique est supérieure ou égale à 𝑥𝑖+1 .

Pareil, on a :
𝐹1 ↘= 1 − 𝑓1 = 1 − 𝐹1 ↗
𝐹2 ↘= 1 − (𝑓1 + 𝑓2 ) = 𝐹1 ↘ −𝑓2
𝐹3 ↘= 1 − (𝑓1 + 𝑓2 + 𝑓3 ) = 𝐹2 ↘ −𝑓3

𝑘

𝐹𝑘 ↘= 1 − (𝑓1 + 𝑓2 + 𝑓3 + ⋯ + 𝑓𝑘 ) = 1 − ∑ 𝑓𝑖 = 0
{ 𝑖=1

- 21 -
N.B.
▪ 𝐹𝑖 ↘= 1 pour toutes les valeurs 𝑥𝑖 qui sont strictement inferieures à la plus petite valeur de la modalité.
▪ 𝐹𝑖 ↘= 0 pour toutes les valeurs 𝑥𝑖 qui sont supérieure ou égales à la plus grande valeur de la modalité.

[Link].2 La notion d’effectif cumulé (𝑵𝒊 )

[Link].2.1 Effectif cumulé croissant


L’effectif cumulé croissant, qu’on note 𝑁𝑖 ↗ est la somme des effectifs correspondants aux valeurs de la variable
statistique inférieures ou égales à 𝑥𝑖 . Le 𝑁𝑖 ↗ indique le nombre des individus pour lesquels la variable
statistique est strictement inférieure à 𝑥𝑖+1.

[Link].2.2 Effectif cumulé décroissant


L’effectif cumulé décroissant, qu’on note 𝑁𝑖 ↘ indique le nombre des individus pour lesquels la variable
statistique est strictement supérieure à 𝑥𝑖 ou encore le nombre des individus pour lesquels la variable
statistique est supérieure ou égale à 𝑥𝑖+1 .

[Link]. Les graphiques des variables statistiques continues : Classes d’amplitudes égales

[Link].1 Histogramme des effectifs ou des fréquences

On peut représenter une série statistique continue par un histogramme.


Il s’agit d’une figure obtenue sur un repère cartésien en représentant pour chaque classe un rectangle de
surface (𝑆𝑖 ) proportionnelle à l’effectif (𝑛𝑖 ) ou la fréquence (𝑓𝑖 ).
Les rectangles de l’histogramme sont contigus.

Exemple :
La distribution des accidents de la route selon les heures de la journée en France est résumée dans le tableau
suivant.

Tableau 6 : Accidents de la route selon les heures de la journée en France (Découpage avec des classes d’égales
amplitudes)
Fréquences des Fréquences cumulées Fréquences cumulées
Tranche horaire Nombre d'accidents accidents croissantes décroissantes
[0, 3[ 8 155 5,69% 5,69% 94,31%
[3, 6[ 6 258 4,37% 10,05% 89,95%
[6, 9[ 15 284 10,66% 20,72% 79,28%
[9, 12[ 18 006 12,56% 33,28% 66,72%
[12, 15[ 23 703 16,53% 49,81% 50,19%
[15, 18[ 29 759 20,76% 70,57% 29,43%
[18, 21[ 29 172 20,35% 90,92% 9,08%
[21, 24[ 13 022 9,08% 100,00% 0,00%
Total 143 359 100,00%
Source : INSEE, 1992.

- 22 -
Histogramme des effectifs Histogramme des fréquences
25,00%
Nombre d'accidents
20,76% 20,35%
20,00%
29 759 29 172 16,53%

23 703 15,00% 12,56%


10,66%
18 006 9,08%
15 284 10,00%
13 022
5,69%
4,37%
8 155 5,00%
6 258

0,00%
[0, 3[ [3, 6[ [6, 9[ [9, 12[ [12, 15[ [15, 18[ [18, 21[ [21, 24[
[0, 3[ [3, 6[ [6, 9[ [9, 12[ [12, 15[ [15, 18[ [18, 21[ [21, 24[
Fréquences des accidents

N.B.
▪ Il n’est pas nécessaire de tracer un axe vertical pour les effectifs.
▪ Il est convenu de mettre les effectifs sur chaque rectangle ou d’indiquer à quel effectif correspond une
unité d’aire.
▪ Les caractères prennent toutes les valeurs possibles entre 2 valeurs données.
▪ Chaque classe est représentée par un rectangle dont un coté sur l’axe des abscisses est proportionnel à
l’amplitude de la classe et l’autre côté est proportionnel à l’effectif de la classe.
▪ Toutes les classes étant égales, l’aire de chaque rectangle est proportionnelle à l’effectif représenté et
donc l’aire totale de l’histogramme est proportionnelle à l’effectif total.

[Link].2 Polygone des effectifs ou des fréquences

A partir de l’histogramme on peut en déduire le polygone des effectifs ou des fréquences.


Pour cela on relie les milieux des sommets des rectangles de l’histogramme en ajoutant deux classes fictives
(une première et une dernière) de même amplitude que les autres et dont les effectifs ou les fréquences sont
nuls. A chaque fois on gagne et on perd simultanément 2 triangles égaux.

Cas des effectifs Cas des fréquences


Histogramme des effectifs Polygone des effectifs 25,00%

20,00%

15,00%

10,00%

5,00%

0,00%
[-3, 0[ [0, 3[ [3, 6[ [6, 9[ [9, 12[ [12, 15[ [15, 18[ [18, 21[ [21, 24[ [24, 27[
[-3, 0[ [0, 3[ [3, 6[ [6, 9[ [9, 12[ [12, 15[ [15, 18[ [18, 21[ [21, 24[ [24, 27[
Histogramme des féquences Polygone des fréquences

L’aire sous le polygone des fréquences est proportionnelle à la somme des fréquences : Si on divise cette aire
par l’amplitude commune des classes alors elle est égale à un.

L’aire sous le polygone des effectifs est alors la même que celle de l’histogramme, elle est donc proportionnelle
à l’effectif total : Si on divise cette aire par l’amplitude commune des classes alors elle est égale à l’effectif total.

N.B.
▪ Si les effectifs de la série sont importants et les classes d’amplitude très petite, la ligne polygonale devient
une courbe appelée courbe des effectifs.

[Link].3 Courbe cumulative et fonction de répartition des variables continues

- 23 -
Pour obtenir la courbe cumulative croissante ou le polygone des fréquences cumulées
croissantes, il suffit de placer et de relier les différents points (𝑥i+1 ; 𝐹𝑖 ↗).
Ainsi on trace les segments dont les extrémités ont :
pour abscisses les bornes des classes
et
pour ordonnés :
- 0 pour la borne inférieure de la première classe
- La fréquence cumulée croissante de la première classe pour la borne supérieure de la première
classe
- fréquence cumulée croissante de la première classe pour la borne inférieure de la deuxième
classe
- fréquence cumulée croissante de la deuxième classe pour la borne supérieure de la deuxième
classe
- …et ainsi de suite…

Pour notre exemple (Accidents de la route selon les heures de la journée), les points à placer sont :
(0 ; 0) ; (3; 0,057) ; (6; 0,101) ; (9; 0,207) ; (12; 0,333) ; (15; 0,498) ; (18; 0,706) ;
(21; 0,909) et (24; 1,000).

D’une manière analogue, on peut tracer le polygone des fréquences cumulées décroissantes.

Finalement, on peut tracer ces deux courbes cumulatives sur le même graphique :
Fréquences cumulées croissantes Fréquences cumulées décroissantes
100,00%
90,00%
80,00%
70,00%
60,00%
50,00%
40,00%
30,00%
20,00%
10,00%
0,00%
0 3 6 9 12 15 18 21 24

En tout point du polygone des fréquences cumulées croissantes, on peut trouver le pourcentage des accidents
qui ont eu lieu avant x heures.

Exemple :
10% des accidents se produisent avant 6 h (donc 90% se produisent après 6 h).
50% des accidents se produisent avant 15 h (donc 50% se produisent après 15 h).
50% - 10% = 40% des accidents se produisent entre 15 h et 6 h.

En tout point du polygone des fréquences cumulées décroissantes, on peut trouver le pourcentage des
accidents qui ont eu lieu après x heures.

Exemple :
90% des accidents se produisent après 6 h (ainsi 10% se produisent avant 6 h).
50% des accidents se produisent après 15 h (ainsi 50% se produisent avant 15 h).

N.B.
o on peut faire de même pour les effectifs cumulés croissants et décroissants.

- 24 -
[Link]. Les graphiques des variables statistiques continues : Classes d’amplitudes inégales

Dans ce cas, il faut prendre la précaution de ne pas prendre comme hauteur des rectangles les effectifs ou les
fréquences réels mais les effectifs corrigés ou les fréquences corrigées parce que ce sont les aires des
rectangles et non pas les hauteurs qui sont proportionnelles aux effectifs réels ou aux fréquences réelles (les
bases des rectangles n’ont pas la même dimension).

Exemple :
La distribution des accidents de la route selon les heures de la journée en France est résumée dans le tableau
suivant.

Tableau 7 : Accidents de la route selon les heures de la journée en France. Découpage avec des classes d’inégales
amplitudes
Nombre Amplitude de la Effectifs
Tranche horaire Fréquences k Fréquences rectifiées
d'accidents classe rectifiés
[0, 9[ 29 697 0,207 9 3 9 899 0,069
[9, 15[ 41 709 0,291 6 2 20 855 0,145
[15, 18[ 29 759 0,208 3 1 29 759 0,208
[18, 24[ 42 194 0,294 6 2 21 097 0,147
Total 143 359
Source : INSEE, 1992.

On choisit par convention une classe de référence d’amplitude A (en général, la plus petite). Donc une classe
quelconque a pour amplitude k  A.
Les effectifs corrigés ou les fréquences corrigées s’obtiennent en divisant par k les effectifs réels ou les
fréquences réelles.
La classe de référence est la classe [15, 18[.
L’amplitude de la classe de référence est A =18-15=3.

De même on peut tracer le polygone des effectifs ou des fréquences mais l’aire sous le polygone devant être
égale à l’aire de l’histogramme, on doit partager chaque rectangle en sous rectangle de base A = amplitude de
la classe de référence et procéder de la même façon que précédemment c'est-à-dire joindre les milieux des
sommets des sous rectangles sans oublier de rajouter une classe fictive à droite et à gauche d’amplitude A.

Cas des effectifs corrigés Cas des fréquences corrigées


Histogramme des effectifs Polygone des effectifs 0,45
0,4
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
[-3, 0[ [0, 3[ [3, 6[ [6, 9[ [9, 12[ [12, 15[ [15, 18[ [18, 21[ [21, 24[ [24, 27[
classe classe
[-3, 0[ [0, 3[ [3, 6[ [6, 9[ [9, 12[ [12, 15[ [15, 18[ [18, 21[ [21, 24[ [24, 27[
virtuelle Histogramme des fréquences Polygone des fréquences virtuelle

- 25 -
4. LES CARACTERISTIQUES DES DISTRIBUTIONS
STATISTIQUES A UN SEUL CARACTERE

4.1. Introduction

Une fois les données collectées et ordonnées, le plus souvent sous forme de tableaux et de graphiques qui
permettent une première analyse du phénomène étudié (une dimension), les différentes caractéristiques
calculables à partir de la distribution statistique permettent de résumer l’échantillon au moyen de paramètres
(ou de caractéristiques) facilement compréhensibles et opérationnels :

1. les caractéristiques de tendance centrale


2. les caractéristiques de dispersion
3. les caractéristiques de forme
4. les caractéristiques de concentration

4.2. Les caractéristiques de tendance centrale

Les caractéristiques de tendance centrale fournissent des informations sur l’ordre de grandeur de la série
d’observations.
Les caractéristiques de tendance centrale (appelées aussi valeurs centrales ou paramètres de position) sont des
valeurs numériques qui s’expriment dans la même unité que les observations.

4.2.1. La moyenne arithmétique

La moyenne arithmétique d’une série statistique est égale à la somme des valeurs prises par le caractère, pondéré
par les fréquences.

[Link]. Cas d’une variable discrète

Les caractères discrets ne peuvent prendre qu’un nombre fini de valeurs. Soit la variable statistique discrète X
qui prend les valeurs (souvent, entières) 𝑥1 , 𝑥2 , . . . , 𝑥𝑘 où k est le nombre de modalités.
1
La moyenne arithmétique qu’on note 𝑋̄, est calculée comme suit : 𝑋̄ = ∑𝑘𝑖=1 𝑛𝑖 𝑥𝑖 = ∑𝑘𝑖=1 𝑓𝑖 𝑥𝑖 .
𝑛

[Link]. Cas d’une variable continue

Dans le cas d’une variable statistique continue on dispose d’observations regroupées en classes (ou encore,
données groupées en intervalles).
La convention généralement retenue consiste à adopter, comme valeurs des variables statistiques dans les
𝑥 +𝑥
calculs, les centres des classes définis par : 𝑐𝑖 = 𝑖 2 𝑖+1 avec 𝑖 = 1, 2, . . . , 𝑘.
Cette opération revient à supposer que les observations à l’intérieur de chaque classe sont reparties d’une façon
uniforme. Pour calculer la moyenne arithmétique, il suffit de remplacer dans l’expression précédente, les 𝑥𝑖 par
1
les 𝑐𝑖 avec 𝑖 = 1, 2, . . . , 𝑘 : 𝑋̄ = 𝑁 ∑𝑘𝑖=1 𝑛𝑖 𝑐𝑖 = ∑𝑘𝑖=1 𝑓𝑖 𝑐𝑖

- 26 -
[Link]. Quelques propriétés de la moyenne arithmétique

a) La somme des écarts (déviations) entre les valeurs de la variables et leur moyenne arithmétique,
pondérés par les effectifs (ou par les fréquences), est nulle : ∑𝑘𝑖=1 𝑛𝑖 (𝑥𝑖 − 𝑋̄) = ∑𝑘𝑖=1 𝑓𝑖 (𝑥𝑖 − 𝑋̄) = 0

b) La moyenne arithmétique est invariante par changement d’échelle :


si chaque valeur de la serie x𝑖 est multipliee par une meme constante a, alors la moyenne arithmetique
𝑋̄ → 𝑎𝑋̄

c) La moyenne arithmétique est invariante par changement d’origine :


si a chaque valeur de la serie 𝑥𝑖 on ajoute ou on retranche une constante b, alors la moyenne arithmetique
𝑋̄ → 𝑋̄ ± 𝑏

d) La moyenne de la population est égale à la moyenne des moyennes des sous- populations pondérées par
Population P Taille n Moyenne arithmetique X̄

⬚ ⬚
1 𝑘 sous-populations
les effectifs correspondants : 𝑋̄ = 𝑛 ∑𝑗=1 𝑛𝑗 𝑋̄𝑗 avec
𝑃1 𝑛1 𝑋̄1
⋮ ⋮ ⋮
𝑃𝑠 𝑛𝑠 ̄
𝑋𝑠

[Link]. Limites de la moyenne arithmétique

La moyenne arithmétique tient compte de toutes les observations dans la série et elle a l’inconvénient d’être très
sensible aux valeurs extrêmes (outliers).

Exemple :

On dispose de 2 séries sur la consommation d’eau potable pour 2 groupes de 7 personnes :


Série 1 : 20 24 25 26 27 28 30 𝑋̄1 = 25,7
Série 2 : 20 24 25 26 27 28 95 𝑋̄2 = 35,0
La moyenne peut constituer une bonne mesure de la tendance centrale dans le cas de la 1ère série. Toutefois, pour
la 2ème série, on constate que la moyenne est plus grande que toutes les valeurs de la série à l’exception de la
valeur extrême (95, la valeur la plus élevée) et elle ne représente pas assez bien la tendance centrale. Dans ce cas
la moyenne arithmétique est contaminée par la présence de cette valeur extrême.

N.B.
▪ Dans certains cas d’analyse, ces valeurs extrêmes sont traitées ou éliminées.

4.2.2. Le mode

Le mode d’une distribution statistique, qu’on note Mo, est la valeur de la variable qui correspond au plus grand
effectif ou à la plus grande fréquence.
C’est la valeur de la variable la plus fréquente que l’on observe dans une série statistique. Le mode est donc la
valeur dominante dans une série statistique.

[Link]. Cas des séries à caractère qualitatif (éventuellement) ou quantitatif discret

Dans ce cas la détermination du mode est immédiate. Le mode est la valeur pour laquelle l’effectif est le plus
élevé.

Remarques :
Exemple
Graphiquement le mode correspond à l’abscisse du bâton le plus élevé. On parlera de classe modale.

- 27 -
[Link]. Cas des séries à caractère quantitatif continu

Pour les séries à caractère quantitatif continu avec un découpage en classes d’amplitudes égales, la classe modale
est la classe qui correspond à l’effectif le plus grand (ou à la fréquence la plus importante).
Aussi, on peut prendre le mode comme le centre de la classe modale.
Pour les séries à caractère quantitatif continu avec un découpage en classes d’amplitudes inégales, la classe
modale est la classe qui correspond à l’effectif corrigé le plus grand (ou à la fréquence corrigée la plus
importante).
Dans ce cas le mode, sera le centre de la classe correspondant à la densité (𝑑𝑖 ) la plus importante.
𝑛𝑖 effectif de la classe
𝑑𝑖 = ↦ 𝑑𝑒𝑛𝑠𝑖𝑡é =
𝑎𝑖 amplitude de cette classe

4.2.3. La médiane ou médiante

La médiane (ou médiante), qu’on note Mé, est la valeur (observé ou possible) de la variable statistique dans la
série d’observations rangées (par ordre croissant ou décroissent) qui partage cette série en deux parties, chacune
comportant le même nombre d’observations.
La médiane est en conséquence la valeur de la variable pour laquelle la fréquence cumulée est égale à 0,5
𝑛 𝑛
(𝐹(𝑀é) = 0,5) et l’effectif cumulé est égal à 2 (𝑁(𝑀é) = 2 ).

[Link]. Cas des séries à caractères discrets

[Link].1 Cas d’une série individualisée (données non groupées)

Une série individualisée est une série dans laquelle chaque modalité est observée une seule fois : 𝑛𝑖 = 1, ∀𝑖=
1, 2, ⋯ , 𝑘.

Deux situations se présentent :


1. Si le nombre d’observations est impair (𝑘 = 2𝑚 + 1) , la médiane est alors parfaitement
déterminée et correspond à l’observation de rang égal à (m+1) dans la série ordonnée. Il y a donc
m observations de chaque côté de la médiane : 𝑀é = 𝑛𝑚+1
Exemple :
On calcule la médiane de la taille des classes d’un échantillon comportant 5 classes de lycée. Si on ordonne de
façon croissante les 5 observations, on obtient la liste suivante :
32 42 46 46 54
Le nombre d’observations est impair, la médiane correspond à la valeur centrale. Ainsi la médiane de la taille des
classes correspond à 46 élèves.

N.B.
▪ Bien que l’ensemble de données comporte deux observations qui ont pour valeur 46, chaque observation est
traitée séparément lorsqu’on ordonne les données de façon croissante.

2. Si le nombre d’observations est pair (𝑘 = 2𝑚), soit on définit un intervalle médian[𝑛𝑚 , 𝑛𝑚+1 ],
𝑛 +𝑛
soit on choisit par convention la moyenne de deux valeurs centrales. 𝑀é = 𝑚 2 𝑚+1

Exemple :
On calcule la médiane du salaire de 12 directeurs d’entreprises. Tout d’abord, on ordonne de façon croissante les
12 observations :
2210 2255 2350 2380 2380 2390 2420 2440 2450 2550 2630 2825

Le nombre d’observations est pair, la médiane correspond à la moyenne des deux valeurs centrales :
2390+2420
𝑀é = 2
= 2405.

- 28 -
[Link].2 Cas d’une série non individualisée (données groupées)

C’est le cas le plus fréquent rencontré. On a donc un tableau {𝑥𝑖 , 𝑛𝑖 } et la médiane se calcule en utilisant les
fréquences cumulées ou les effectifs cumulés.

Exemple 1 : Répartition de 400 entreprises dans une zone industrielle A selon le nombre d’adresses
électroniques à leurs dispositions
Fréquences cumulées
Modalités Effectifs Fréquences Effectifs cumulés croissants
croissantes
𝑥𝑖 𝑛𝑖 𝑓𝑖 𝑁𝑖 ↑
𝐹𝑖 ↑
0 50 0,125 0,125 50
1 30 0,075 0,200 80
2 120 0,300 0,500 200
3 80 0,200 0,700 280
4 70 0,175 0,875 350
5 50 0,125 1 400
Total 400 1
Pour l’exemple 1, la médiane est égale à 2, c'est-à-dire 50% des entreprises (200 entreprises) ont deux e-mails.
Dans ce cas la médiane est directement déterminée puisque la lecture du tableau donne la valeur de la modalité
pour laquelle la fréquence cumulée est égale à 0,5.

Exemple 2 : Répartition de 400 entreprises dans une zone industrielle B selon le nombre d’adresses
électroniques à leurs dispositions
Fréquences cumulées
Modalités Effectifs Fréquences Effectifs cumulés croissants
croissantes
𝑥𝑖 𝑛𝑖 𝑓𝑖 𝑁𝑖 ↑
𝐹𝑖 ↑
0 60 0,150 0,150 60
1 20 0,050 0,200 80
2 100 0,250 0,450 180
3 120 0,300 0,750 300
4 80 0,200 0,950 380
5 20 0,050 1 400
Total 400 1
𝑛
Pour l’exemple 2, les valeurs 0,5 (et 200=2 ) apparaissent entre deux lignes du tableau (la 3ème et la 4ème).
Par convention, la médiane est la valeur de la variable qui correspond à la 4ème ligne.
Cependant, cette proposition n’est qu’une valeur approchée et approximative de la "médiane exacte" puisqu’il y
à 75% et non pas 50% des entreprises qui ont un nombre d’adresses électroniques inférieur ou égal à 3.

[Link]. Cas des séries à caractères continus

[Link].1 Détermination de la médiane par interpolation linéaire

Dans le cas d’une variable continue, la médiane est parfaitement déterminée.


A l’équation 𝐹(𝑀é) = 0,5 correspond une seule racine.
En raison du groupement des observations par classe, il est nécessaire de déterminer en premier lieu la classe
médiane, puis déterminer en second lieu la médiane par interpolation linéaire (méthode des triangles
semblables)

La classe médiane se détermine à partir des colonnes des fréquences cumulées croissantes 𝐹𝑖 ↑ ou à partir des
colonnes des effectifs cumulés croissants 𝑁𝑖 ↑.
𝑛
On repère entre quelles valeurs se situe 0,5 (50%) dans la colonne 𝐹𝑖 ↑ ou 2 dans la colonne des effectifs cumulés
croissants𝑁𝑖 ↑.

- 29 -
Exemple : Répartition des employés d’une entreprise selon le salaire annuel (en dinars)
Modalités Effectifs Fréquences Effectifs cumulés croissants Fréquences cumulées croissantes
Salaires 𝑛𝑖 𝑓𝑖 𝑁𝑖 ↑ 𝐹𝑖 ↑
[3000, 4000[ 25 0,131 25 0,131
[4000, 5000[ 35 0,183 60 0,314
[5000, 6000[ 27 0,141 87 0,455
n/2 0,5
[6000, 7000[ 65 0,340 152 0,796
[7000, 8000[ 20 0,105 172 0,901
[8000, 9000[ 8 0,042 180 0,942
[9000, 10000[ 11 0,058 191 1,000
Total 191 1,000

𝑛
On cherche entre quelles valeurs se situe 0,5 dans la colonne des fréquences cumulées croissantes ou 2 dans la
colonne des effectifs cumulés croissants.
La valeur 0,5 apparaît entre deux lignes du tableau (la 3ème et la 4ème).
En utilisant la même convention que dans le cas discret, la classe médiane est donc :
[𝑥𝑖 , 𝑥𝑖+1 [ = [6000-7000[.

Pour pouvoir passer à l’interpolation linéaire, on suppose une répartition uniforme des individus dans la classe
médiane.
La méthode d’interpolation linéaire dans le calcul de la médiane consiste à assimiler une proportion de courbe à
une droite. La portion de la courbe cumulative qui se situe dans la classe médiane est souvent peu incurvée
(séries unimodales, non excessivement asymétriques), et on peut calculer la médiane par ce principe.

F(x)

F(xi+1) E

C
0,5
F(xi)
A B D

xi Mé xi+1 xi

D’une manière générale, si la classe médiane est la classe [𝑥𝑖 , 𝑥𝑖+1 [, les valeurs de la fonction de répartition
correspondantes aux bornes de cette classe sont 𝐹(𝑥𝑖 ) = 𝐹𝑖−1 et 𝐹(𝑥𝑖+1 ) = 𝐹𝑖 .
𝐴𝐵 𝐴𝐷
L’application du théorème de Thalès (les triangles ABC et ADE sont semblables) permet d’écrire : 𝐵𝐶 = 𝐷𝐸
→ AB représente (Me-x𝑖 ).
→ AD représente (𝑥𝑖+1 -x𝑖 ) = 𝑎𝑖 qui correspond à l’amplitude de la classe médiane.
→ BC représente (𝐹(𝑀é) − 𝐹𝑖−1 ) = (0,5 − 𝐹𝑖−1 ).
→ DE représente (𝐹(𝑥𝑖+1 ) − 𝐹(𝑥𝑖 )) = (𝐹𝑖 − 𝐹𝑖−1 ) = 𝑓𝑖 qui est la fréquence relative associée à la classe i.
Donc :
𝐴𝐵 𝐴𝐷 (Me-x ) (𝑥 -x𝑖 )
𝐵𝐶
= 𝐷𝐸  (𝐹(𝑀é)−𝐹𝑖 ) = (𝐹(𝑥 𝑖+1)−𝐹(𝑥 ))
𝑖−1 𝑖+1 𝑖

- 30 -
(Mé-x𝑖 ) 𝑎 (0,5−𝐹𝑖−1 )
(0,5−𝐹𝑖−1 )
= 𝑓𝑖  Me = 𝑥𝑖 + 𝑎𝑖 𝑓𝑖
𝑖

Numériquement, on obtient :
xi = 6000
xi+1 = 7000
ai = 1000
𝐹(𝑥𝑖 ) = 𝐹𝑖−1 = F(6000) = 0,455
𝐹(𝑥𝑖+1 ) = 𝐹𝑖 = 𝐹(7000) = 0,796
(0,5−𝐹𝑖−1 ) 0,5−0,455
Donc Me = 𝑥𝑖 + 𝑎𝑖 𝑓
= 6000 + 1000 0,796−0,455 ≈ 6132
𝑖
Conclusion :
Le salaire médian de l’entreprise est donc 6132 dinars, c'est-à-dire la moitié des salariés gagnent moins de 6132
dinars et l’autre moitié gagnent plus de 6132 dinars.

[Link].2 Détermination de la médiane par l’histogramme

Une autre alternative est proposée pour déterminer la médiane à partir de l’histogramme.
La médiane est la valeur du caractère telle que la droite d’équation : x = Mé partage l’histogramme en deux aires
ou surfaces égales.
65

35

27
25
20

Mé 11
8

[3000, 4000[ [4000, 5000[ [5000, 6000[ [6000, 7000[ [7000, 8000[ [8000, 9000[ [9000, 10000[

Numériquement, on aura :
191
251000 + 351000 + 271000 + (Mé−6000)65= ( 2 ) × 1000 donc Me ≈ 6131

N.B.
▪ La détermination de la médiane n’est pas affectée par des classes d’amplitude inégales.
▪ La médiane correspond à l’abscisse du point d’intersection des courbes cumulatives croissante et
décroissante.
▪ La médiane est une mesure de tendance centrale plus robuste que la moyenne arithmétique qui est sensible
aux valeurs extrêmes.

4.2.4. Autres caractéristiques de tendance centrale

[Link]. Généralisation de la médiane : les quantiles

On appelle quantile d’ordre  la série statistique {𝑥𝑖 }, 𝑖 = 1,2, ⋯ , 𝑛 et on note 𝑥𝛼 la valeur de la variable X, telle
que % des valeurs observées soient inférieures à 𝑥𝛼 .
Si F représente la fonction de fréquences cumulées croissantes alors 𝐹(𝑥𝛼 ) = 𝛼%.
En d’autres mots, les quantiles correspondent aux valeurs de la variable statistique qui partagent la série
ordonnée en q parties égales.

- 31 -
En statistiques descriptives, trois catégories de quantiles sont généralement utilisées.

[Link].1 Les quartiles

Les quartiles sont les trois valeurs x25, x50 et x75 de la variable X qui partagent la série des valeurs rangées par
ordre croissant en 4 parties (q=4) contenant chacune 25% des valeurs observées de la série statistique (le quart
des effectifs).
Il y donc 3 quartiles qui sont notés comme suit : x25=Q1, x50=Q2 et x75=Q3.
Le calcul des quartiles s’effectue de la même façon que la médiane (méthode des triangles semblables ou par
interpolation linéaire).
On peut écrire F(Q1)=0,25 ; F(Q2)=0,50 et F(Q3)=0,75.

Q1 Q2 Q3

x1 Mé xn

25% 25% 25% 25%

[Link].2 Les déciles

Les déciles partagent la série statistique ordonnée par ordre croissant en dix parties contenant chacune 10% des
valeurs observées.
Il y donc 9 déciles qui sont notés comme suit : x10=D1, x20=D2,… et x90=D9.
Ils sont associés respectivement aux fréquences cumulées 10% ; 20% ;… et 90%.

[Link].3 Les centiles

Les centiles partagent la série statistique ordonnée par ordre croissant en cent parties contenant chacune 1%
des valeurs observées.
Il y donc 99 centiles qui sont notés comme suit : x1=C1, x2=C2,… et x99=C99.
Ils sont associés respectivement aux fréquences cumulées 1% ; 2% ;… et 99%.

[Link]. La phi-moyenne

On appelle phi-moyenne d’une variable statistique X, que l’on note 𝑀𝜙 , la quantité : 𝜙(𝑀𝜙 ) = ∑𝑘𝑖=1 𝑓𝑖 𝜙(𝑥𝑖 ) où 𝜙
est une fonction continue monotone et k représente le nombre de modalités de la variable statistique.
On peut alors écrire : 𝑀𝜙 = 𝜙 −1 (∑𝑘𝑖=1 𝑓𝑖 𝜙(𝑥𝑖 ))

[Link].1 La moyenne arithmétique

- 32 -
Lorsque la fonction 𝜙 est la fonction identité : 𝜙(𝑥) = 𝑥, 𝑀𝜙 représente la moyenne arithmétique.
𝜙(𝑥𝑖 ) = 𝑥𝑖 ∀𝑖 = 1, 2, ⋯ , 𝑘.  𝜙(𝑀𝜙 ) = 𝑀𝜙 = ∑𝑘𝑖=1 𝑓𝑖 𝑥𝑖 = 𝑋̄

[Link].2 La moyenne géométrique

Lorsque la fonction 𝜙 est la fonction logarithmique : 𝜙(𝑥) = 𝐿𝑜𝑔 𝑥 , (𝑥 > 0) , 𝑀𝜙 représente la moyenne
géométrique notée G.
𝜙(𝑥𝑖 ) = 𝐿𝑜𝑔𝑥𝑖 ∀𝑖 = 1, 2, ⋯ , 𝑘. 
𝜙(𝑀𝜙 ) = 𝐿𝑜𝑔(𝑀𝜙 ) = ∑𝑘𝑖=1 𝑓𝑖 𝐿𝑜𝑔(𝑥𝑖 ) = ∑𝑘𝑖=1 𝐿𝑜𝑔(𝑥𝑖 𝑓𝑖 ) = 𝐿𝑜𝑔(∏𝑘𝑖=1(𝑥𝑖 𝑓𝑖 )) 
𝑘

𝑀𝜙 = 𝐺 = ∏(𝑥𝑖 𝑓𝑖 ) = 𝑥1 𝑓1 . 𝑥2 𝑓2 . ⋯ . 𝑥𝑘 𝑓𝑘
𝑖=1

N.B.
▪ La moyenne géométrique du produit de deux variables X et Y est égale au produit des moyennes
géométriques de X et de Y.
▪ La moyenne géométrique réduit l’influence des grandes valeurs et accroît celle des petites. Cette propriété
est liée à l’utilisation de la fonction logarithmique. Ainsi pour une même série, la moyenne géométrique est
inférieure à la moyenne arithmétique.

[Link].3 La moyenne harmonique

1
Lorsque la fonction 𝜙 est la fonction inverse : 𝜙(𝑥) = , 𝑀𝜙 représente la moyenne harmonique notée H.
𝑥
1
𝜙(𝑥𝑖 ) = 𝑥𝑖
∀𝑖 = 1, 2, ⋯ , 𝑘. 
1 1
𝜙(𝑀𝜙 ) = 𝑀 = ∑𝑘𝑖=1 𝑓𝑖 (𝑥 ) 
𝜙 𝑖
1 𝑛
𝑀𝜙 = 𝐻 = = 𝑛
𝑓 ∑𝑘𝑖=1 ( 𝑖 )
∑𝑘𝑖=1 ( 𝑖 ) 𝑥𝑖
𝑥𝑖

4.3. Les caractéristiques de Dispersion

Les caractéristiques de tendance centrale fournissent des informations sur l’ordre de grandeur de la série mais
elles ne transmettent aucune indication sur la manière dont sont regroupées ces informations. Donc, il faut
disposer d’informations supplémentaires relatives à l’étalement des modalités du caractère autour d’une valeur
centrale.
On peut approcher la notion de dispersion (fluctuations autour d’une valeur centrale, ou plus généralement dans
un intervalle) par la notion d’écarts mesurables.
Les caractéristiques de dispersion mesurent l’intensité du groupement des valeurs autour d’une caractéristique
centrale (généralement la moyenne).

4.3.1. L’étendue

L’étendue, qu’on note E, est la différence entre la plus grande et la plus petite des valeurs observées de la série
statistique.
Si on note 𝑥𝑚𝑖𝑛. la plus petite modalité et 𝑥𝑚𝑎𝑥. la plus grande modalité, l’étendue est 𝐸 = 𝑥𝑚𝑖𝑛.𝑚𝑎𝑥.

N.B.
▪ L’inconvénient majeur de l’étendue est sa dépendance directe des valeurs extrêmes parfois exceptionnelles
(ou accidentelles) et qui entraînent une grande dispersion de la série.

- 33 -
4.3.2. L’intervalle interquartile

Pour pallier l’inconvénient de l’étendue du fait de sa dépendance des valeurs extrêmes, on peut écarter ces
valeurs extrêmes dans le calcul de la dispersion de la série.
L’intervalle interquartile, qu’on note IIQ, est la différence entre le troisième et le premier quartile et on ne
considère ainsi que 50% des observations : IIQ=Q 3 - Q1 .
Il s'agit d'un indicateur de dispersion autour de la médiane Mé.

Intervalle Interquartile

Q1 Q2 Q3

x1 Mé xn

25% 25% 25% 25%

N.B.

▪ L'intervalle entre le neuvième et le premier décile 𝐷9 -D1 est aussi un excellent indicateur de dispersion, sa signification
est très concrète puisqu'il correspond à un intervalle qui regroupe 80% des observations autour de la médiane.

4.3.3. L’écart absolu moyen

L’écart absolu moyen, qu’on note 𝑒𝑀 , est la moyenne arithmétique des valeurs absolues des écarts par rapport à
1
la moyenne arithmétique : 𝑒𝑀 = 𝑛 ∑𝑘𝑖=1 𝑛𝑖 |𝑥𝑖 − 𝑋̄| = ∑𝑘𝑖=1 𝑓𝑖 |𝑥𝑖 − 𝑋̄|.

4.3.4. L’écart absolu par rapport à la médiane

L’écart absolu par rapport à la médiane, qu’on note 𝑒𝑀é , est la moyenne arithmétique des valeurs absolues des
1
écarts par rapport à la médiane : 𝑒𝑀é = ∑𝑘𝑖=1 𝑛𝑖 |𝑥𝑖 − 𝑀é| = ∑𝑘𝑖=1 𝑓𝑖 |𝑥𝑖 − 𝑀é|.
𝑛
N.B.
▪ Ces écarts s’expriment dans la même unité que la variable statistique X étudiée.

4.3.5. La variance

La variance d’une variable statistique X, qu’on note Var (X), est la moyenne arithmétique des carrés des écarts
𝑛 (𝑥 −𝑋̄)2
par rapport à la moyenne arithmétique : 𝑉𝑎𝑟(𝑋) = ∑𝑘𝑖=1 𝑖 𝑖 = ∑𝑘𝑖=1 𝑓𝑖 (𝑥𝑖 − 𝑋̄)2 .
𝑛

N.B.

- 34 -
▪ Il est souvent plus pratique d’utiliser une formule alternative pour la variance : 𝑉𝑎𝑟(𝑋) = (∑𝑘𝑖=1 𝑓𝑖 𝑥𝑖 2 ) −
2
𝑘 𝑛𝑖 𝑥𝑖
𝑋̄ 2 = (∑⏟ 𝑖=1 𝑛 ) − 𝑋̄2
⏟ .
carre des moyennes
moyenne des carres
▪ La variance est toujours positive. Elle est nulle uniquement dans le cas particulier où toutes les valeurs de la
série sont identiques.

Extension :
La variance est un paramètre de dispersion plus utilisé que les autres de par ses propriétés algébriques:
1. Pour plusieurs populations d’effectifs (𝑛1 ; 𝑛2 ; ⋯ ; 𝑛𝑘 ) , de moyennes respectives (𝑋̄1 ; 𝑋̄2 ; ⋯ ; 𝑋̄𝑘 ) et de
variances respectives (𝑉𝑎𝑟(𝑋1 ); 𝑉𝑎𝑟(𝑋2 ); ⋯ ; 𝑉𝑎𝑟(𝑋𝑘 )), on peut écrire :
𝑘 𝑘
𝑛𝑖 2 𝑛𝑖
Variance globale = ∑ ( (𝑋̄𝑖 − 𝑋̄) ) + ∑ ( 𝑉𝑎𝑟(𝑋𝑖 ))
𝑁 𝑁
⏟𝑖=1 ⏟
𝑖=1
variance des moyennes moyenne des variances
où 𝑋̄ est la moyenne des moyennes et 𝑁 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑘
2. Changement d’échelle et d’origine :
𝑋: (𝑥𝑖 , 𝑛𝑖 ) → 𝑌: (𝑦𝑖 =ax𝑖 +b , 𝑛𝑖 )
𝑉𝑎𝑟(𝑋) → 𝑉𝑎𝑟(𝑌) = 𝑎2 𝑉𝑎𝑟(𝑋)

4.3.6. L’écart type

L’écart type d’une variable statistique X, qu’on note 𝜎(𝑋), est égal à la racine carrée de la variance :
1
𝜎(𝑋) = √𝑉𝑎𝑟(𝑋) = √𝑛 ∑𝑘𝑖=1 𝑛𝑖 (𝑥𝑖 − 𝑋̄)2 = √∑𝑘𝑖=1 𝑓𝑖 (𝑥𝑖 − 𝑋̄ )2 .

N.B.
▪ Plus l’écart type est grand, plus la dispersion autour de la moyenne arithmétique est grande.
▪ On utilise plus couramment l'écart-type qui est la racine carrée de la variance et qui a l'avantage d'être
un nombre de même dimension que les données (contrairement à la variance qui en est le carré).

4.3.7. Le coefficient de variation

L’écart type ainsi que les écarts absolus moyens et les indicateurs de tendance centrale 𝑋̄, Mé et Mo dépendent
de l’unité de mesure de la variable statistique étudiée. Ils dépendent également de l’ordre de grandeur des
valeurs observées.
Pour comparer les dispersions de distributions qui ne sont pas exprimées dans la même unité ou de distributions
dont les moyennes sont différentes, on peut utiliser un indice de dispersion relatif indépendant.
Le coefficient de variation d’une série statistique (exprimé souvent en pourcentage), qu’on note CV(X), défini
𝜎(𝑋)
comme le rapport entre l’écart type et la moyenne CV(𝑋) = 𝑋̄ , donne une mesure relative de la dispersion.
Donc, ce coefficient permet de relativiser l'écart-type en fonction de la taille des valeurs.

N.B.
▪ Ce coefficient n'est pas très facile à utiliser et à interpréter lorsque la moyenne est proche de 0.

4.4. Les caractéristiques de forme

Pour décrire les séries statistiques, on a arboré jusqu’à maintenant :


 les caractéristiques de tendance centrale, qui donnent un ordre de grandeur de la série.
 les caractéristiques de dispersion qui mesurent l’intensité du groupement des valeurs autour
d’une caractéristique centrale (généralement la moyenne).

- 35 -
Les coefficients ou les caractéristiques de forme cherchent à caractériser ou à mesurer l’allure générale de la
courbe des fréquences d’une série statistique sans la tracer.
On repère généralement deux mesures de la forme d’une série :
▪ La mesure de l’asymétrie renseigne sur la façon régulière ou non de la répartition des observations de
part et d’autre d’une valeur centrale.
▪ La mesure de l’aplatissement sert à faire apparaître si une faible variation de la variable entraîne ou non
une forte variation des fréquences relatives.

- 36 -
4.4.1. La mesure de l’asymétrie

[Link]. Positions respectives : mode, médiane et moyenne

Ayant les valeurs du Mode, de la Médiane et de la Moyenne, on peut deviner l’allure d’une série par la
comparaison de tendances centrales traditionnelles.

Distribution parfaitement symétrique


Une distribution statistique est symétrique si les
observations sont également dispersées de part et
d’autre de la moyenne arithmétique.
Dans une distribution parfaitement symétrique, la
moyenne arithmétique, le mode et la médiane sont
confondus : 𝑀𝑜 = 𝑀é = 𝑋̄.

Une distribution non symétrique est dite oblique.


L’obliquité se repère du côté de la décroissance la plus forte de la courbe des fréquences.

Distribution oblique à droite


Une distribution est oblique à droite (ou asymétrique à
droite) si les valeurs de la variable statistique sont
étalées à gauche.
Dans ce cas on a : 𝑀𝑜 > 𝑀é > 𝑋̄

Distribution oblique à gauche


Une distribution est oblique à gauche (ou asymétrique à
gauche) si les valeurs de la variable statistique sont
étalées à droite.
Dans ce cas on a : 𝑀𝑜 < 𝑀é < 𝑋̄

- 37 -
N.B.
▪ Les paramètres d’asymétrie, appelés SKEWNESS, permettent de caractériser la forme des courbes
représentatives.

[Link]. Le coefficient d’asymétrie de Yule

Yule présente une mesure de l’asymétrie en comparant l’étalement vers la gauche et l’étalement vers la droite,
tous deux repérés par la position des quartiles (Q1, Mé =Q2 et Q3).
Le coefficient de Yule, qu’on note s, est défini par :
(𝑄3 − 𝑀é) − (𝑀é − 𝑄1 ) (𝑄3 − 𝑀é) − (𝑀é − 𝑄1 ) (𝑄3 − 𝑄2 ) − (𝑄2 − 𝑄1 )
𝑠= = =
(𝑄3 − 𝑀é) + (𝑀é − 𝑄1 ) 𝑄3 − 𝑄1 𝑄3 − 𝑄1
▪ Si s = 0, la distribution est symétrique et les quartiles sont équivalents.
▪ Si s > 0, la distribution est oblique à gauche : (l’écart entre Médiane et 𝑄1 est relativement petit), donc
Médiane se rapproche plus de 𝑄1 , alors la courbe des fréquences étalée à droite
▪ Si s < 0, la distribution est oblique à droite : (raisonnement inversé).

[Link]. Les coefficients d’asymétrie de Pearson

Pearson3 propose deux coefficients pour mesurer l’asymétrie :

Le premier analyse la position de deux valeurs centrales (le mode et la moyenne arithmétique) par rapport à la
𝑋̄−𝑀𝑜
dispersion de la série. Il est défini par : 𝑠 =
𝜎
▪ Si s = 0, la distribution est symétrique et les quartiles sont équivalents.
▪ Si s > 0, la distribution est oblique à gauche.
▪ Si s < 0, la distribution est oblique à droite.

N.B.
▪ Ce coefficient n’est valable que pour les distributions faiblement asymétriques.
▪ Ce coefficient d’asymétrie utilise le mode qui n’est pas un paramètre de tendance centrale excellent. En plus,
dans le cas d’une distribution bimodale, le calcul ne peut pas se faire.

Le deuxième coefficient, qu’on note 𝛽1 , repose sur la détermination des moments centrés d’ordre impair. Il est
(𝜇 )2
défini par le rapport du moment centré d’ordre 3 élevé au carré sur la variance élevé au cube : 𝛽1 = (𝜇3 )3
2
1
̄ 2
𝜇2 = ∑ 𝑛𝑖 (𝑥𝑖 − 𝑋) = 𝑉𝑎𝑟(𝑋)
1 𝑛
𝜇𝑝 = ∑ 𝑛𝑖 (𝑥𝑖 − 𝑋̄)𝑝 :c'est le moment centre d'ordre p; donc: {
𝑛 1
𝜇3 = ∑ 𝑛𝑖 (𝑥𝑖 − 𝑋̄)3
𝑛
▪ Si 𝛽1 = 0, la distribution est symétrique
▪ Si 𝛽1 > 0, la distribution est oblique à gauche ou à droite. Le sens de l’asymétrie est donné par le signe de
𝜇3 .

[Link]. Le coefficient d’asymétrie de Fisher

Le coefficient d’asymétrie de Fisher4, qu’on note 𝛾1 , se base sur le coefficient de Pearson.


Il est défini par :
𝜇 𝜇3
𝛾1 = (𝜎)33 ou encore 𝛾1 = 3 √(𝜇2 )
1
On rappelle que 𝜇𝑝 = − 𝑋̄)𝑝 est le moment centré d’ordre p.
𝑛
∑ 𝑛𝑖 (𝑥𝑖
▪ Si 𝛾1 = 0, la distribution est symétrique
▪ Si 𝛾1 > 0, la distribution est oblique à gauche
▪ Si 𝛾1 < 0, la distribution est oblique à droite.

3 Karl Pearson, statisticien britannique du début du XX siècle.


4 Ronald Fisher biologiste statisticien britannique.

- 38 -
- 39 -
4.4.2. La mesure de l’aplatissement

Une courbe des fréquences est plus au moins aplatie, par référence à la courbe des fréquences (ou densité) de la
Loi Normale (Loi de Gauss-Laplace). Ainsi, on compare si la distribution est plus ou moins aplatie par rapport à
une courbe de Gauss-Laplace de même moyenne et de même écart type.
Donc, une courbe est dite aplatie lorsqu’une variation forte de la variable étudiée ne s’accompagne pas de forte
variation de la fréquence relative 𝑓𝑖 , par référence à la courbe des fréquences de la loi Normale.

Courbe normale

Courbe platicurtique

Une courbe platicurtique est moins aiguë et plus


plate que celle de la loi normale.
Dans ce cas les observations sont éloignées par
rapport à la moyenne.

Courbe leptocurtique

Une courbe leptocurtique est plus aiguë et moins


plate que celle de la loi normale.
Dans ce cas les observations sont plutôt
concentrées autour de la moyenne.

Les paramètres d’aplatissement permettent d’estimer l’aplatissement ou encore d’apprécier l’importance des
queues d’une distribution.

[Link]. Le coefficient d’aplatissement de Pearson

𝜇 𝜇
Le coefficient d’aplatissement de Pearson, qu’on note 𝛽2 , est défini par : 𝛽2 = 𝜎44 = (𝜇 4)2 ¨.
2
▪ Si 𝛽2 = 3, la courbe est normale.
- 40 -
▪ Si 𝛽2 > 3 et d’autant plus grand que la courbe est leptocurtique.
▪ Si 𝛽2 < 3 et d’autant plus proche de 1 que la courbe est platicurtique.

[Link]. Le coefficient d’aplatissement de Fisher

𝜇 𝜇
Le coefficient d’aplatissement de Fisher, qu’on note 𝛾2 , est défini par : 𝛾2 = 𝛽2 − 3 = 𝜎44 − 3 = (𝜇 4)2 − 3
2
▪ Si 𝛾2 = 0, la courbe est normale.
▪ Si 𝛾2 > 0 la courbe est leptocurtique.
▪ Si 𝛾2 < 0 la courbe est platicurtique (𝛾2 reste >-2 puisque 𝜇4 > 𝜎 4 ).

[Link]. Autres coefficients d’aplatissement

Il est possible aussi de mesurer l’aplatissement en comparant les intervalles interquartile et interdécile. On peut
définir par exemple le coefficient d’aplatissement, qu’on note A :
(𝑄3 − 𝑄1 )
𝐴=
2(𝐷9 − 𝐷1 )
▪ Si 0,15 ≤ 𝐴 ≤ 0,25, la courbe est normale.
▪ Si 𝐴 > 0,25, la courbe est leptocurtique.
▪ Si 𝐴 < 0,15, la courbe est platicurtique.

4.5. Les caractéristiques de Concentration

Jusque-là, on a abordé les formes de la distribution à l’aide de certaines statistiques, les plus importantes d’entre
elles étaient les statistiques de dispersion.
Cependant, les mesures déjà utilisées (écart type, écart absolu moyen, etc.) ne renseignent que sur la dispersion
au sein d’une série.
Mais, peut-on trouver un moyen de comparer une dispersion par rapport à une autre (qui serait une norme) pour
chaque quantile observé ? (comparaison de dispersion entre séries).

Par exemple :
*/ Si on observe une distribution des ménages ainsi qu’une distribution de leurs revenus, on serait tenté de
comparer les deux distributions pour voir si elles évoluent, par quantile, de la même manière :
Si 30% des ménages détiendraient 30% du total des revenues alors les revenus sont équitablement répartis.
A contrario, si 30% des ménages détiennent 80% des revenus alors les revenus ne sont pas répartis d’une
manière équitable (existence d’inégalités).

*/ Ou encore, quand on dit que 10% des entreprises occupent 90% du total du marché (ou encore 90% de part
de marché) dans une économie, c’est que la structure de marché est fortement concentrée également (10% des
entreprises détiennent un quasi-monopole du marché).

Ainsi, comparer la répartition entre deux distributions reviendrait à comparer leurs fréquences cumulées.

4.5.1. Définition de la concentration

La concentration d’une distribution mesure sa répartition ‘observée’ par rapport à une ‘norme’ de répartition (la
répartition à laquelle on s’attend). Donc il s’agit de comparer deux séries de fréquences cumulées. Elle est souvent
utilisée dans l’analyse des parts distributives des salaires, des fortunes, des parts de marché des entreprises,
etc.…C’est aussi une mesure de l’état des inégalités dans la distribution.
Deux conditions sont importantes pour étudier la concentration : l’addition des différentes modalités du
caractère doit avoir un sens et le partage de la masse globale doit être possible.
La concentration peut être déterminée selon deux méthodes :
▪ par le calcul de l’écart entre la médiale et la médiane.
- 41 -
▪ par les graphes.

N.B.
▪ La concentration est une notion très importante en économie (concentration des salaires, chiffres d’affaires,
de la taille des entreprises, des revenus, etc.). Elle ne concerne que les séries dont les modalités du caractère
sont continues et positives. La mesure de la concentration revient à celle de la conséquence de la dispersion.

4.5.2. Détermination de la concentration par le calcul : l’écart médiale –


médiane

Une première mesure de la concentration peut être donnée par l’écart entre la médiale, qu’on note 𝑀𝑙, et la
médiane 𝑀é : 𝛥𝑀 = 𝑀𝑙 − 𝑀é.
La médiale, est une médiane que l’on calcule non plus sur les effectifs 𝑛𝑖 de la série {𝑛𝑖 , 𝑥𝑖 }, mais sur le produit
𝑛𝑖 . 𝑥𝑖 (𝑥𝑖 étant le centre de la classe). En conséquence, la médiale est la valeur du caractère 𝑥𝑖 qui partage la série
{𝑛𝑖 . 𝑥𝑖 , 𝑥𝑖 } en deux sous-ensembles égaux : C’est aussi une caractéristique de valeur centrale.
L’écart 𝛥𝑀, est comparé par la suite à l’intervalle de variation de la série qui n’est d’autre que l’étendue 𝐸 =
𝑥𝑚𝑖𝑛.𝑚𝑎𝑥. de la série.

▪ Si 𝛥𝑀 = 𝑀𝑙 − 𝑀é = 0, la médiale est égale à la médiane ce qui implique que 50% des individus (unités
statistiques) se partagent 50% de la masse du caractère. On est dans le cas d’une égalité parfaite ou
d’équi-répartition.
𝛥𝑀
▪ Si 𝛥𝑀 = 𝑀𝑙 − 𝑀é ≠ 0 , la répartition du caractère n’est pas égalitaire et on calcule le rapport 𝐸 =
𝑀𝑙−𝑀é
qui peut être utilisé pour comparer la concentration de plusieurs distributions.
𝑥𝑚𝑖𝑛.𝑚𝑎𝑥.
▪ Dans le cas où 𝛥𝑀 est grand par rapport à l’étendue 𝐸, la concentration est forte. Par contre, si 𝛥𝑀 est
petit par rapport à l’étendue 𝐸, la concentration est faible.

Méthode de calcul

Exemple : Répartition des employés d’une entreprise selon le salaire annuel (en dinars)
Fréquences cumulées
Modalités Effectifs Fréquences Effectifs cumulés croissants
croissantes
Salaires ni 𝑓𝑖 𝑁𝑖 ↑
𝐹𝑖 ↑
[3000, 4000[ 25 0,131 25 0,131
[4000, 5000[ 35 0,183 60 0,314
[5000, 6000[ 27 0,141 87 0,455
n/2 0,5
[6000, 7000[ 65 0,340 152 0,796
[7000, 8000[ 20 0,105 172 0,901
[8000, 9000[ 8 0,042 180 0,942
[9000,
11 0,058 191 1,000
10000[
Total 191 1,000

Généralement, on procède selon les étapes suivantes :

a/ Détermination de la médiane
Le salaire annuel médian de l’entreprise est de 6132 dinars.

b/ Calcul de la médiale
Centres des Effectifs cumulés Masse
Modalités Effectifs
classes croissants salariale Masse salariale cumulée
Salaires ni
xi 𝑁𝑖 ↑ ni xi
[3000, 4000[ 3500 25 25 87500 87500
[4000, 5000[ 4500 35 60 157500 245000
[5000, 6000[ 5500 27 87 148500 393500 Moitié de la masse
salariale= 569250
[6000, 7000[ 6500 65 152 422500 816000
[7000, 8000[ 7500 20 172 150000 966000

- 42 -
[8000, 9000[ 8500 8 180 68000 1034000
[9000,
9500 11 191 104500 1138500
10000[
Total 191 1138500

La classe médiale est [6000, 7000[


Pour calculer la médiale Ml, on procède par interpolation linéaire comme pour le cas de la médiane.
𝑀𝑙−6000 7000−6000
On a donc : 569250−393500 = 816000−393500
Ainsi : Ml ≃ 6416
La totalité des salaires inférieurs à Ml ≃ 6416 est égale à la totalité des salaires supérieurs à Ml ≃ 6416.

c/ L’écart médiale
𝜟𝑴 = 𝑴𝒍 − 𝑴é
𝛥𝑀 = 𝑀𝑙 − 𝑀é = 6416-6132 = 284

d/ L’étendue de la série
𝑬 = 𝒙𝒎𝒊𝒏.𝒎𝒂𝒙.
𝐸 = 𝑥𝑚𝑖𝑛.𝑚𝑎𝑥. =10000-3000=7000

𝛥𝑀 𝑀𝑙−𝑀é
Le rapport 𝐸
= 𝑥𝑚𝑖𝑛. =4,06%.
𝑚𝑎𝑥.
Ce rapport est faible, la série possède donc une faible concentration (donc il n’y a pas de grandes disparités
salariales entre les classes de salaires.

4.5.3. Détermination graphique de la concentration

[Link]. La courbe de concentration de Gini – Lorentz

Il existe un moyen visuel de déterminer la concentration sans passer par la comparaison des deux médianes. Il
suffit de confronter les deux fonctions cumulatives sur un graphique.
La courbe de concentration se construit sur un repère orthonormé à partir des fréquences cumulées relatives.
▪ Les valeurs des fréquences cumulées relatives de la série {𝑛𝑖 , 𝑥𝑖 } sont donc celles de F(x). Elles varient de 0 à
1. On les porte en abscisses :
𝑛
o Fréquences cumulées correspondant aux effectifs 𝑛𝑖 :𝐹(𝑥) = ∑𝑖ℕ=1 𝑓ℕ = ∑𝑖1 𝑛𝑖
▪ Les valeurs des fréquences cumulées relatives de la série {𝑛𝑖 . 𝑥𝑖 , 𝑥𝑖 } qui ont permis de calculer la médiale
varient aussi de 0 à 1. On les porte en ordonnées :
𝑛𝑥
o Fréquences cumulées de la totalité du phénomène 𝑛𝑖 . 𝑥𝑖 :𝐹(𝑛𝑥) = ∑𝑖1 𝑖 𝑖
∑𝑖 𝑛𝑖 𝑥𝑖

- 43 -
On reprend l’exemple précédent :

Exemple : Répartition des employés d’une entreprise selon le salaire annuel (en dinars)
Valeurs
globales
Fréquences

Effectifs cumulés croissants


relatives
cumulées
Centres des classes cumulées
croissantes Masse
Masse salariale =

Fréquences
salariale Fréquences
Modalités

Effectifs Masse
Salaires

(*) = Total de la masse slariale


cumulées de

𝑁𝑖 ↑
𝑛𝑖 𝑖 = salariale

𝑓𝑖
𝑛𝑖 𝑥𝑖 𝑛𝑖 𝑥𝑖 la masse
𝐹(𝑥) = ∑ 𝑓ℕ cumulée
= salariale
ℕ=1
𝑛 𝑐 ∑𝑖 𝑛𝑖 𝑥𝑖 (**)
𝑖 𝑖 𝑖
𝑛𝑖 𝐹(𝑛𝑥)
=∑ 𝑖
𝑛 𝑛𝑖 𝑥𝑖
1
=∑
∑𝑖 𝑛𝑖 𝑥𝑖
1
[3000, 4000[ 3500 25 0,131 25 0,131 87500 0,077 87500 0,077
[4000, 5000[ 4500 35 0,183 60 0,314 157500 0,138 245000 0,215
[5000, 6000[ 5500 27 0,141 87 0,455 148500 0,130 393500 0,346
[6000, 7000[ 6500 65 0,340 152 0,796 422500 0,371 816000 0,717
[7000, 8000[ 7500 20 0,105 172 0,901 150000 0,132 966000 0,848
103400
[8000, 9000[ 8500 8 0,042 180 0,942 68000 0,060 0,908
0
[9000, 113850
9500 11 0,058 191 1,000 104500 0,092 1,000
10000[ 0
∑𝒊 𝒏𝒊 𝒙𝒊=
Total 191 1,000
1138500
𝒏𝒊
(*) : 𝑭(𝒙) = ∑𝒊𝒉=𝟏 𝒇𝒉 = ∑𝒊𝟏
𝒏
𝒏𝒊 𝒙𝒊
(**) : 𝑭(𝒏𝒙) = ∑𝒊𝟏 ∑ qui sont les valeurs globales relatives cumulées.
𝒊 𝒏𝒊 𝒙𝒊

L’ensemble des points désignant les combinaisons des valeurs des deux fonctions s’appelle la courbe de Lorentz.
Cette courbe est alors représentée dans un carré avec les extrémités de 0 à 1 : on obtient donc un carré qui porte
le nom de carré de Gini5.
Cette courbe a pour but de décrire les effets de la concentration dans une population.
F(nx)

1 B

Courbe de Lorenz

0,75

Aire de concentration
0,5

Droite d’équi-répartition
0,25

0 A
0 0,25 0,5 0,75 1 F(x)

5 L’italien Corrado Gini est connu pour ses travaux sur les disparités de revenus.

- 44 -
Si la courbe de concentration est confondue avec la droite d’équi-répartition, on est dans une situation de
répartition égalitaire de la masse du caractère entre les individus : Dans ce cas x% des individus se partagent x%
de la masse du caractère.
L’aire comprise entre la droite d’équi-répartition et la courbe de concentration est appelée aire de concentration.
Au plus la courbe de concentration s’écarte de la droite d’équi-répartition, au plus la concentration est forte.

[Link]. L’indice de Gini

Le coefficient ou l’indice de Gini, qu’on note G, est obtenu en rapportant l’aire située entre la courbe et la diagonale
(aire de concentration) à l’aire du triangle OAB.
aire de concentration
𝐺=
aire de OAB
Puisque l’aire de OAB = 0,5 (d’après le carré de Gini) donc 𝑮 = 𝟐 × aire de concentration et 𝟎 ≤ 𝑮 ≤ 𝟏.

▪ Si G = 0, la concentration est nulle (inexistante) et la répartition est parfaitement égalitaire (équi-


répartition).
▪ Si G = 1, la concentration est maximale (forte) et la répartition est totalement inégalitaire (inégalité
maximale).

La mesure pratique de G se fait en mesurant les surfaces des trapèzes.

On suppose l’existence d’autant de trapèzes que de classes.


F(nx)

1 B

Courbe de Lorenz
0,75

Aire de concentration
0,5
Droite d’équi-répartition

0,25

0 A
0 0,25 0,5 0,75 1 F(x)

Fi (n.x )

Trapèze j

Fi−1(n.x )

Bj
bj

0 h 1
Fi−1( x ) Fi ( x )

- 45 -
Dans ce cas l’aire de concentration est égale à la surface du triangle OAB moins (-) la somme des aires des
trapèzes.

𝑘
(𝑆𝑖 + 𝑆i-1 )𝑓𝑖
Aire de concentration = 0,5 − ∑
2
𝑖=1

L’indice de Gini est : 𝐺 = 1- ∑𝑘𝑖=1[(𝑆i-1 + 𝑆𝑖 )𝑓𝑖 ].

Exemple : Répartition des employés d’une entreprise selon le salaire annuel (en dinars)
Valeurs globales relatives
cumulées
=
Fréquences cumulées Fréquences cumulées de la
Fréquenc
Modalités croissantes masse salariale
es (𝑆i-1 + 𝑆𝑖 ) (𝑆i-1 + 𝑆𝑖 )𝑓𝑖
Salaires 𝑖
𝑛𝑖
𝑖
𝑓𝑖 Si
𝐹(𝑥) = ∑ 𝑓ℕ = ∑
𝑛 𝑖
ℕ=1 1 𝑛𝑖 𝑥𝑖
𝐹(𝑛𝑥) = ∑
∑𝑖 𝑛𝑖 𝑥𝑖
1
[3000, 4000[ 0,131 0,131 0,077 0,077 0,010
[4000, 5000[ 0,183 0,314 0,215 0,292 0,054
[5000, 6000[ 0,141 0,455 0,346 0,561 0,079
[6000, 7000[ 0,340 0,796 0,717 1,062 0,362
[7000, 8000[ 0,105 0,901 0,848 1,565 0,164
[8000, 9000[ 0,042 0,942 0,908 1,757 0,074
[9000, 10000[ 0,058 1,000 1,000 1,908 0,110
Total 1,000 0,852

Dans ce cas 𝐺 = 1- ∑𝑘𝑖=1(𝑆𝑖 + 𝑆i-1 )𝑓𝑖 = 1- 0,852 = 0,148


 La concentration est faible  la répartition est proche d’être égalitaire.

- 46 -
5. Principales sources bibliographiques

• STATISTIQUE DESCRIPTIVE. BERNARD PY. 4e EDITION. ECONOMICA.


• STATISTIQUES POUR L'ECONOMIE ET LA GESTION. DAVID R. ANDERSON ; DENNIS J. SWEENEY & THOMAS
A. WILLIAMS. TRADUCTION DE LA 2e EDITION ANGLAISE PAR CLAIRE BORSENBERGER. 1e EDITION. 3e
TIRAGE 2005. EDITIONS DE BOECK UNIVERSITE.
• PROBABILITES POUR SCIENTIFIQUES ET INGENIEURS : INTRODUCTION AU CALCUL DES PROBABILITES.
PATRICK BOGAERT. 2006. EDITIONS DE BOECK UNIVERSITE.
• PROBABILITES, STATISTIQUES ET PROCESSUS STOCHASTIQUES. PATRICK ROGER. COLLECTION SYNTEX.
2004. PEARSON EDUCATION FRANCE.
• STATISTIQUE EN GESTION ET EN ECONOMIE. EDITION REVUE ET CORRIGEE. JEAN-M. MARTEL &
RAYMOND NADEAU. 1988. GAËTAN MORIN EDITEUR, CANADA.
• INITIATION AUX STATISTIQUES DESCRIPTIVES AVEC EXCEL. ANDRE MASSONI. 2002. VUIBERT.
• OUTILS STATISTIQUES. MARIE-PIERRE GRANDJACQUOT. COLLECTION THEORIE ET PRATIQUE DU
MANAGEMENT.1999. EDITIONS ESKA.
• COURS DE STATISTIQUE DESCRIPTIVE DU PROFESSEUR HASSAN MZALI. (MIMEO).

- 47 -

Vous aimerez peut-être aussi