0% ont trouvé ce document utile (0 vote)
34 vues44 pages

Eco 104

Le document présente une introduction à la statistique, son histoire, ses définitions et ses applications dans divers domaines. Il distingue les méthodes descriptives et inférentielles, en se concentrant principalement sur la statistique descriptive. Le texte aborde également les différentes phases de la démarche statistique et les outils logiciels utilisés pour le traitement des données.

Transféré par

faridessoazina937
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
34 vues44 pages

Eco 104

Le document présente une introduction à la statistique, son histoire, ses définitions et ses applications dans divers domaines. Il distingue les méthodes descriptives et inférentielles, en se concentrant principalement sur la statistique descriptive. Le texte aborde également les différentes phases de la démarche statistique et les outils logiciels utilisés pour le traitement des données.

Transféré par

faridessoazina937
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

CHAPITRE 1 : GENERALITES

1.1-Introduction
1.1.1- Définition et historique
L’origine du mot « statistique » remonte au latin classique status (état) qui, par une série
d’évolutions successives, aboutit au français statistique, attesté pour la première fois en 1771.
On peut distinguer trois phases essentielles dans l’évolution de la statistique dans le temps.
1. Depuis l’antiquité et jusqu’à la fin du 19ième siècle, la statistique est restée
principalement un ensemble de techniques de dénombrement.
2. Entre la fin du 19ème siècle et les années 1960, s’est construit, notamment à la suite de
l’école anglaise (K. Pearson, W. Gosset (Student), R. Fisher, J. Neyman.. .), la
statistique mathématique (ou statistique inférentielle).
3. Depuis les années 1960, avec le développement des outils informatiques et graphiques,
la statistique, et surtout la statistique descriptive multidimensionnelle, a connu une
expansion considérable.
La statistique est définie aujourd’hui comme étant un ensemble de méthodes visant à
collecter les données, à les traiter et à les analyser en vue de prendre des décisions.
Les méthodes en question relèvent le plus souvent des mathématiques et font largement appel
à l’outil informatique pour leur mise en œuvre.
Exemple : Si à la suite d’une analyse statistique, le Directeur d’une société constate que le
retard de ses employés est dû au manque de moyens de déplacement, il peut par exemple
augmenter les salaires ou leur accorder des prêts afin que chacun puisse disposer d’un moyen
de déplacement.
Le terme « statistique » peut aussi désigner un ensemble de données numériques concernant
une catégorie de faits.
Exemple : Les statistiques sur le chômage, les statistiques sur la réussite des étudiants de la
FaSEG, les statistiques sur la santé, les statistique du commerce extérieur, ….
En général, on classe les méthodes statistiques en deux groupes :
✓ Les méthodes descriptives (statistique descriptive)
✓ Les méthodes inférentielles (statistique mathématique ou inférentielle).
a. La statistique descriptive. On regroupe sous ce terme les méthodes dont l’objectif principal
est la description des informations ou des données étudiées ; cette description des données se
fait à travers leur présentation (la plus synthétique possible), leur représentation graphique, et
le calcul de résumés numériques. Elle donne un aperçu rapide ou une synthèse de la situation
et permet de prendre rapidement des décisions. C’est essentiellement à ces méthodes qu’est
consacré ce cours.
b. La statistique mathématique ou inférentielle. Ce terme regroupe les méthodes dont
l’objectif principal est de préciser un phénomène sur une population globale, à partir de son
observation sur une partie restreinte de cette population (échantillon) d’une certaine manière, il
s’agit donc d’induire (ou encore d’inférer) du particulier au général. Le plus souvent, ce passage
ne pourra se faire que moyennant des hypothèses de type probabiliste.
D’un point de vue méthodologique, la statistique descriptive précède en général la statistique
inférentielle dans une démarche de traitement de données : les deux aspects de la statistique se
complètent bien plus qu’ils ne s’opposent.
NB : le cours de statistique dont il s’agit ici se limitera à la statistique descriptive.

1.1.2- Domaines d’application


Le champ d'application de la statistique est très large et intéresse aussi bien les acteurs
économiques des administrations publiques et privées que les chercheurs, enseignants, etc…
La production des données statistiques et leur utilisation, souvent à la base de décisions
importantes, accentuent le caractère à la fois rigoureux et fascinant du métier de statisticien.
Posséder une compétence reconnue en statistique permet de travailler dans la plupart des
secteurs et des domaines d’activités et de recherche. Il peut s’agir des domaines comme: les
sciences sociales, la politique, le commerce, la démographie, l’environnement, la santé, le
marketing, la finance, la télécommunication, l’informatique…

1.1.3- Rôle de la statistique


La statistique est directement liée à l’action ou à la préparation de l’action. Elle joue aussi un
rôle de calmant puisqu’elle donne l’impression de comprendre la réalité complexe ou de prévoir
le futur. C’est aussi un outil de publicité ou d’intoxication. Enfin, elle reste une arme puissante
pour impressionner ou dissuader ses adversaires

1.2- vocabulaire de la statistique


Etant une discipline, la statistique possède aussi un vocabulaire que tout apprenant doit
maitriser. Il s’agit des termes ou « mot » que l’on finit par maitriser facilement à force de les
utiliser.
 Population Ω (ou population statistique ou population cible): ensemble (au sens
mathématique du terme) concerné par une étude statistique. On parle parfois de champ
de l’étude. Exemple 1.3 :
1. Une étude, dans un village, portant sur le nombre d'enfants à charge par ménage aura pour
population statistique l’ensemble des ménages de ce village.
2. Si on veut connaître le régime matrimonial (séparation de biens, communauté universelle,
communauté d'acquêts) préféré par les couples au Togo, la population statistique ou population
cible sera les actes de mariage.
 Individu w ε Ω (ou unité statistique) : tout élément de la population. Exemple : pour
notre étude sur le nombre d’enfants à charge par faille, l’individu ou l’unité statistique
est la famille.
 Échantillon : sous ensemble de la population sur lequel sont effectivement réalisées les
observations.
Exemple 1.4 :
Supposons que l’étude portant sur le nombre d'enfants à charge par ménage, est faite dans une
ville importante, il serait impossible d’interviewer tous les ménages. Dans ce cas, seulement
une partie de l’ensemble des ménages sera interviewée.
 Taille de l’échantillon n : cardinal du sous-ensemble correspondant. Exemple :
Toujours dans le cas de l’étude portant sur le nombre d’enfants à charge par ménage. Si
on suppose qu’on a interrogé seulement 25 ménages, alors la taille de l’échantillon est
25.
 Enquête (statistique) : opération consistant à observer (ou mesurer, ou questionner)
l’ensemble des individus de la population ou d’un échantillon.
 Recensement : enquête dans laquelle l’échantillon observé est la population toute
entière (enquête exhaustive).
 Sondage : enquête dans laquelle l’échantillon observé est un sous ensemble strict de la
population (enquête non exhaustive).
 Caractère ou variable est la grandeur que l'on observe sur les individus d'une
population dans une étude statistique. Exemple 1.5 : Chiffre d’affaire, le revenu, l’âge,
la catégorie socioprofessionnelle, le sexe, niveau d’instruction, milieu de résidence, …
 Modalité d’un caractère désigne les différentes valeurs que prend le caractère.
L’ensemble des modalités d’un caractère doit être exhaustif ; c'est-à-dire qu’il faut
disposer d’une liste complète. Tous les cas de figure doivent être prévus et
incompatibles et chaque individu doit se placer dans une seule modalité.
 Type ou nature d’un caractère ou variable. Les caractères sont classés en deux grands
types : caractères qualitatifs et caractères quantitatifs.
 Un caractère est dit qualitatif si ses modalités ne sont pas mesurables. Les modalités,
dans ce cas, peuvent être constaté ou repérées par un nom ou un code. Ce type de
caractère est subdivisé en deux catégories dont :
- une variable est dite qualitative nominale quand ses modalités ne peuvent pas
être ordonnées. Exemple 1.6 : sexe, la nationalité, le milieu de résidence.
- une variable est dite qualitative ordinale quand les modalités peuvent être
ordonnées. Caractères quantitatifs. Exemple 1.7 : Niveau d’instruction,
appréciation de la performance d’un individu, …
 Une variable est dite quantitative si toutes ses valeurs possibles sont numériques.
- Une variable est dite discrète, si l’ensemble des valeurs possibles est dénombrable.
Exemple 1.8 : Nombre d’enfant à charge de ménage,
- Une variable est dite continue, si l’ensemble des valeurs possibles est continu.
Exemple 1.9 : temps de réalisation d’une tâche, la taille, le poids ; la vitesse, le
revenu, le chiffre d’affaire.

1.3- différentes phases de la démarche statistique.


La démarche statistique pour aboutir à un résultat comporte, de façon sommaire :
✓ la phase de conception (définir la population statistique, faire l’échantillonnage,
répertorier les différents caractères, concevoir un questionnaire)
✓ la collecte des données (collecter les données auprès des individus)
✓ Saisir les données
✓ l’apurement (Vérifier les contrôles et traiter les cas particuliers)
✓ le traitement des données (faire le dépouillement pour produire des tableaux et des
graphiques)
✓ l’analyse des résultats
✓ la modélisation (Recherche de relations mathématiques entre les caractères ou
variables).
1.4- Quelques logiciels statistiques
Les études statistiques sont souvent complexes. C’est pour cela que l’on fait recourt à des
logiciels pour faciliter le dépouillement des données. De nos jours, il existe une panoplie de
logiciels qui permettent de faciliter la saisie et le traitement des données statistiques. Les plus
répandus sont : Excel, Access, EpiInfo, EpiData, SPSS, STATA, Eviews, STATISTICA,
SPAD,…
CHAPITRE 2 : TABLEAUX STATISTIQUES ET
REPRESENTATION GRAPHIQUE DES DONNEES
Après la collecte et la saisie des données, l’étape suivante est le dépouillement qui consiste à
élaborer à partir des différentes variables, des tableaux de répartition ou de distribution et des
graphiques. Ces tableaux et graphiques sont des outils de base pour l’analyse des informations
collectées. Dans cette procédure, le plus important est d’identifier les variables et leurs
modalités et de déterminer pour chaque modalité, le nombre d’individus.

2.1- Observations individuelles ou données non agrégées


ou une série statistique.
Soit un échantillon constitué de n individus et étudiée selon une seule variable X. On numérote
les individus de cet échantillon de 1 à n. L’individu numéro i, i = 1,2, …, n a la valeur ou
modalité xi de la variable X. Ainsi la collecte de données sur cet échantillon nous permet de
disposer de n valeursx1 , x2 , x3 , . . . , xn . Ces n valeurs sont appelées observations individuelles
de l’échantillon selon la variable X. C’est la suite des valeurs prises par la variable X sur les
individus de l’échantillon. Dans le cas de variable qualitative, ces valeurs sont des modalités
qui peuvent être représentées par des nombres (codes) sans que les opérations algébriques
usuelles aient un quelconque sens.

NB : dans la suite la série x1 , x2 , x3 , . . . , xn sera considérée comme les observations


individuelles non ordonnée et x(1) , x(2) , x(3) , . . . , x(n) sera considérée comme une série
ordonnée des observations individuelles.

Exemple 2.1 :Dans le cas d’une étude portant sur le nombre d’enfants à charge réalisée dans
un village sur 25 ménages on obtient la série suivante.

2 3 0 1 0 1 4 2 2 0 1 6 2 3 0 4 3 2 2 6 1 1 0 2 1

Les observations individuelles sont souvent présentées sous forme de série.

2.2- Présentation usuelle des tableaux statistiques


Les tableaux statistiques sont une forme courante de présentation condensée de données et sont
des produits dont l’usage est répandu dans les publications de toutes sortes. Ce sont surtout les
services statistiques de certains organismes publics et privés qui élaborent ces tableaux lors de
leurs travaux statistiques courants et/ou à l’occasion d’études et recherches.

La présentation et l’usage des tableaux statistiques obéissent à des règles usuelles qui indiquent
leur précision, facilitent leur utilisation et assurent la confiance en l’information qu’ils
contiennent. Pour cela les indications suivantes sont toujours recommandées et doivent
accompagnées un tableau statistique :

 le titre du tableau qui indique la population et la variable étudiée ;


 l’unité de mesure de variable ;
 la source : c’est-à-dire la personne physique ou morale qui a façonné le tableau ou a
donné l’information nécessaire pour l’établir ;
 les observations, remarques ou compléments permettant d’éviter de fausses
interprétations ou une mauvaise utilisation.
2.2.1- Tableaux unidimensionnelles.
Soit X une variable présentant k modalités notées : A1 , A 2 , A3 ,..., A k k≥2. Dans ce cas la
valeur X i de la variable pour l’individu numéro i est égale à l’une des modalités
A1 , A 2 , A3 ,..., A k . Notons n i le nombre d’individus de la population présentant la modalité A i .

Définition de fréquence

On appelle fréquence de la modalité A i , noté f i , le nombre : h

n
f = ni i = 1, 2, , k.
i

Le nombre fi est par définition une proportion d’individus. On a : 0  f i  1. . Puisque nous


considérons seulement les modalités effectivement présentent dans la population, le cas limite
où f i =0 n’a pas de signification. De même le cas où il n’ya qu’une seule modalité (f i =1) n’est
pas intéressant. D’où 0  f i < 1. 0.

Définition de l’effectif cumulé.

L’effectif cumulé, noté Ni, est le nombre d’individus de la population ayant soit la modalité
A1 ou la modalité A 2 , ou la modalité A3 , ou la modalité....., ou la modalité Ai

N1 = n1; N 2 = n1 + n 2 ; N i = n1 + n 2 +  + n i .

Définition de la fréquence cumulée.

La fréquence cumulée, noté Fi , est la proportion de la population ayant

soit la modalité A1 ou la modalité A 2 , ou la modalité A3 , ou la modalité....., ou la modalité A i


Fi = N i / n Ce qui donne : Fi = f1 + f 2 +  + f i .

[Link]- Tableau statistique pour une variable qualitative.

En considérant les définitions précédentes, on peut alors résumer les données d’une variable
qualitative dans un tableau de la façon suivante :

Tableau 2.1: Répartition des individus enquêtés selon la variable X.


X effectif fréquence Fréquence cumulé
A1 n1 f1 =n1/n F1 = N1 / n
A2 n2 f 2 =n 2 /n F2 = N 2 / n
.
Ai ni fi =n i /n Fi = N i / n
.
Ak nk f k =n k /n 1
Total n 1

Exemple 2.1 : Une enquête faite auprès d’un groupe d’étudiant a donné les résultats consignés
dans le tableau 2.1 en annexe. Donner la répartition de ce groupe d’étudiant selon la région
d’obtention du BAC.

Tableau 2.2 : Tableau de comptage


Fréquence Fréquence
Région d’obtention du BAC Comptage Effectif
(%) cumulée(%)
Lomé IIIIIIIII 9 18 18
Maritime IIIIIIII 8 16 34
Plateaux IIIIIIIIIII 11 22 56
Centrale IIIIIII 7 14 70
Kara IIIIIII 7 14 84
Savanes IIIIIIII 8 16 100
Total 50 100

Avec les logiciels, la colonne comptage n’apparait pas. En réalité cette colonne n’intervient pas
dans l’interprétation des résultats. Elle permet seulement de ne pas faire d’erreur lors de
dépouillement manuel. D’ou

Tableau 2.3 : répartition étudiants enquêtés selon la région d’obtention du BAC


Région d’obtention du BAC Effectif Fréquence(%) Fréquence cumulée(%)
Lomé 9 18 18
Maritime 8 16 34
Plateaux 11 22 56
Centrale 7 14 70
Kara 7 14 84
Savanes 8 16 100
Total 50 100

Exemple 2.2 : interprétation

Sur les 50 étudiants enquêtés, 22% ont obtenu leur BAC dans la région des Plateaux.

[Link]- Tableau statistique pour une variable quantitative discrète.

Le tableau statistique pour une variable quantitative discrète est le même que pour celui d’une
variable qualitative. La seule différence est qu’au niveau de la variable discrète on parle de
valeur au lieu de modalité pour la variable qualitative. Ainsi le tableau formalisé résumant les
données d’une variable quantitative discrète se présente comme suit.
Tableau 2.4 : Répartition des individus enquêtés selon la variable X.
X effectif fréquence Effectif cumulé Fréquence cumulé
x(1) n1 f1 =n1/n N1 F1 = N1 / n
x(2) n2 f 2 =n 2 /n N2 F2 = N 2 / n
.
x(i) ni fi =n i /n Ni Fi = N i / n
.
x(k) nk f k =n k /n Nk=n 1
Total n

NB: x(1) , x(2) , x(3) , . . . , x(K) sont les différentes valeurs (modalités) observées et classées par
ordre croissant c’est-à-dire x(1) est la plus petite valeur observée et x(k) est la plus grande
valeur.

Exemple 2.3:
Tableau 2.5 : répartition étudiants enquêtés selon le nombre d’années passé au Lycée
Nombre d’années passé au Lycée Effectif Fréquence(%) Fréquence cumulée(%)
3 31 62 62
4 15 30 92
5 4 8 100
Total 50 100

Exemple 2.4 : interprétation :


La plupart (62%) des étudiants du groupé qui a été enquêté ont affirmé qu’ils ont passé 3 ans
au Lycée. Ce tableau indique également que 92% de ces étudiants ont passé au plus 4 ans au
Lycée.

[Link]- Tableau statistique pour une variable quantitative continue.

La répartition des individus dans le cas des variables quantitatives continues se fait sous forme
d’intervalles à amplitudes égales ou inégales. Il est donc important de connaître les amplitudes
de ces intervalles ou classes. Le nombre de classes est généralement inférieur à10.
➢ Détermination des classes.
• amplitudes conventionnelles.
Il existe des cas naturels de variables continues où l’amplitude est intuitivement connue ou
imposée par l’étude. On peut citer le cas de la distribution d’individus par âge où l’on retient
traditionnellement des amplitudes de 5 ans ou 10 ans.
Dans ce cas, si on désigne par X la variable quantitative étudiée et E l’amplitude imposée, on
formera les intervalles comme suit :
 L1, L2  ;  L2 , L3  ;  L3 , L4  ;  L4 , L5  ; ...;  Lk −1, Lk 
Avec
L1 = X min et L2 = L1 + E ; L3 = L2 + E ; L4 = L3 + E; L5 = L4 + E ; ...; Lk = Lk −1 + E

• cas où le nombre de classes est connu.


Ici on connait le nombre de classes que l’on désire repartir les individus selon la variable
étudiée. Si on suppose que ce nombre de classe est m, alors l’amplitude E est déterminé comme
𝑋max −𝑋min
suit : 𝐸= 𝑚

Où X min est la valeur minimale observée et X max la valeur maximale observée.


Les classes sont alors déterminées comme suit :
L1 = X min et L2 = L1 + E ; L3 = L2 + E ; L4 = L3 + E; L5 = L4 + E ; ...; Lk = Lk −1 + E

• cas où le nombre de classe n’est pas connu


Dans ce cas l’amplitude E est déterminée par :
𝑋 −𝑋
• max
la formule de STURGE : 𝐸 = 1+3,3 min
où n est le nombre total d’individus.
log (𝑛) 10

𝑋max −𝑋min
• La formule de YULE : 𝐸 = 4 où n est le nombre total d’individus.
2,5 √𝑛

Dans ce cas le dénominateur de cette formule est interprété comme étant le nombre de classe
Le tableau statistique pour une variable continue se présente alors comme suit.
Tableau 2.5 : Répartition des individus enquêtés selon la variable X.
X Effectif Fréquence Fréquence cumulé
 L1 , L2  n1 f1 =n1/n F1 = N1 / n
 L2 , L3  n2 f 2 =n 2 /n F2 = N 2 / n
.
 Li , Li +1 ni fi =n i /n Fi = N i / n
.
 Lk , Lk +1 nk f k =n k /n 1
Total n

Exemple 2.5:
Tableau 2.6 : répartition étudiants enquêtés selon les dépenses de déplacement journalier
Effectif Fréquence (%) Fréquence cumulée (%)
300 - 500 10 20 20
500 - 700 12 24 44
700 - 900 9 18 62
900 - 1100 8 16 78
1100-1300 7 14 92
1300-1500 4 8 100
Total 50 100

Exemple 2.6 : interprétation

Le tableau indique que la majorité (24%) des étudiants interviewés déboursent un montant de
500 à 700 francs CFA pour leurs déplacements journaliers. Ce tableau indique également que
plus de 62% des étudiants de ce groupe dépensent moins de 900 FCFA pour leurs déplacements
quotidiens.
SEANCE N° 3
Objectif : A la fin de cette séance les apprenants doivent être en mesure de résumer les données
statistiques sous forme de tableaux bidimensionnels
Consignes : les données pour les exemples et les activités sont tirées du tableau 2.20 se
trouvant à la fin du document.

2.2.2- Tableaux bidimensionnelles ou Tableaux croisés.


Le plus souvent dans les études statistiques, on est amené à étudier la population selon plusieurs
variables. Les tableaux croisés permettent de voir comment la population étudiée se répartit
selon les variables.

Les tableaux croisés sont appelés ainsi car ils « croisent » deux distributions au sein d’un même
tableau. Ils sont appelés aussi tableaux à double entrée.

[Link]- Présentation formalisée d’un tableau croisé.

On considère une population constituée de n individus que l’on veut étudier selon deux
variables X et Y. Ces variables peuvent être qualitatives, quantitatives discrètes ou quantitatives
continues.
Notations.
➢ E X = {A1 , A 2 , , A I  L’ensemble de modalités, de valeurs, ou d’intervalles de la
variable X selon que la variable X soit qualitative, quantitative discrète, ou quantitative
continue.
➢ EY = B1 , B2 ,, BJ  EY = {B1, B2, …, BJ} l’ensemble de modalités, de valeurs, ou
d’intervalles du critère Y selon que le critère Y soit qualitatif, quantitatif discret, ou quantitatif
continu.
➢ ni j appelé l’effectif de la case (i, j), est le nombre d’individus ayant simultanément les
modalités (ou valeurs) Ai et Bj.
J
➢ Le total des effectif de la ligne n° i est donné par n i . = n i1 + n i2 +  + n iJ = nij
j=1

I
➢ Le total des effectif de la colonne n° j est donné par n. j = n1j + n 2j + + n Ij = nij
i=1

Après avoir précisé ces notations on peut à présent donner une présentation formalisée d’un
tableau croisé à deux dimensions ou tableau à double entrée.
❖ Tableau des effectifs.
Tableau 2.7: Tableau formalisé de la répartition d'une population selon deux critères
Y B1 B2 . . . Bj . . . B J Total
X
A1 n 11 n 12 . . . n1 j . . . n1J n1.
A2 n 21 n 22 . . . n2 j . . . n 2J n 2.
. . . . . .
. . . . . .
Ai ni1 ni2 nij niJ n i.
. . . . . .
. . . . . .
AI n I1 n I2 . . . nIj . . . n IJ n I.
Total n.1 n.2 . . . n.j . . . n.J n ..

Exemple 2.7:
Répartition des employés d’une banque selon le salaire (en millier de francs CFA) et le nombre
d’enfants de l’employé.
Tableau 2.8: répartition des employés d’une banque selon le salaire (en millier de francs
CFA) et le nombre d’enfants de l’employé
Y 0 1 2 3 total
X
[80,100[ 3 4 11 19 37
[100,120[ 5 0 9 5 19
[120,140[ 4 1 7 4 16
[140,160[ 10 0 6 2 18
[160,180[ 6 2 37 0 45
Total 28 7 70 30 135

❖ Le tableau des fréquences simples ou profil total

Dans la pratique les tableaux des effectifs sont peu utilisés par rapport aux tableaux des
fréquences. L’interprétation devient encore plus intéressante lorsqu’elle est faite en termes de
proportion ou fréquence.

Définition : fréquence f ij

n ij
On appelle fréquence f i j , de la case (i, j), la proportion : f i j = . C’est la proportion des
n
individus de la case (i, j).

Exemple 2.8: En reprenant l’exemple 2.7, on obtient le tableau des fréquences ci-après.

Tableau 2.9: répartition des employés d’une banque selon le salaire (en millier de francs
CFA) et le nombre d’enfants de l’employé

Nb d’enfants
0 1 2 3 total
salaire
[80 , 100[ 2,22 2,96 8,15 14,07 27,41
[100,120[ 3,70 0,00 6,67 3,7 14,07
[120,140[ 2,96 0,74 5,19 2,96 11,85
[140,160[ 7,41 0,00 4,44 1,48 13,33
[160,180[ 4,44 1,48 27,41 0 33,33
Total 20,74 5,19 51,85 22,22 100
Exemple 2.9 : interprétation

Le tableau indique que 4,44% des salariés n’ont pas d’enfant et ont un salaire compris entre
160 000 et 180 000.

❖ Distribution marginale

Définition de fréquences marginales


J
Fréquence marginale de la ligne n° i : f i . = fij
j=1

I
Fréquence marginale de la colonne n° j : f . j = fij
i=1

ni. n. j
Il est facile de savoir que f i. = et f. j = .
n n

Des effectifs n ij et des fréquences f i j d’une distribution selon deux variable X et Y, on peut
établir les deux distributions selon chacune des variables. Ainsi, n i . et f i . sont l’effectif et la
fréquence des individus de la modalité A i . Ces deux séries de nombres définissent ce qu’on
appelle la distribution marginale selon la variable X et permettent de dresser le tableau
correspondant. De même, n et f définissent la distribution marginale selon la variable Y.
.j .j

Tableau 2.10 : Distribution marginale Tableau 2.11 : Distribution marginale


selon la variable X selon la variable Y
X Effectif Fréq. Y Effectif Fréq.
A1 n1 . f1 . B1 n.1 f. 1
A2 n2 . f2 . B2 n. 2 f. 2
. . . .
. . . .
Ai ni . fi . Bj n. j f. j
. . . .
. . . .
AI nI . fI . BJ n. J f. J
Total n 100 Total n 100

Exemple 2.10: En utilisant les effectifs marginaux de l’exemple 2.7 et les fréquences
marginales de l’exemple 2.8, on obtient les distributions marginales comme suit :

Tableau 2.11 : Distribution marginale des Tableau 2.12 : Distribution marginale des
employés d’une banque selon le salaire employés d’une banque selon le nombre
X Effectif Fréq. d’enfants de l’employé
[80 , 100[ 37 27,41 Y Effectif Fréq.
[100,120[ 19 14,07 0 28 20,74
[120,140[ 16 11,85 1 7 5,19
[140,160[ 18 13,33 2 70 51,85
[160,180[ 45 33,33 3 30 22,2
Total 135 100 Total 135 100
❖ distributions conditionnelles.
Alors que les distributions marginales ne sont que les répartitions des individus selon l’une des
deux variables, indépendamment de la liaison qui peut exister entre X et Y, les distributions
conditionnelles constituent une première approche de l’étude de la liaison entre les deux
variables.
A partir d’un tableau à double entrée, on peut construire deux tableaux de distributions
conditionnelles :
✓ distributions conditionnelles des lignes ou profils lignes ;
✓ distributions conditionnelles des colonnes ou profils colonnes.

Définitions.
ni j
La proposition f j / i = est appelé fréquence conditionnelle de la modalité B j de la seconde
ni .
variable sachant que la première variable a la modalité Ai .
n ij
La proportion f i / j = est la fréquence conditionnelle de la modalité Ai de la première
n. j
variable sachant que la seconde variable a la modalité B j .
Exemple 2.11
A partir du tableau 2. 8, on peut construire les tableaux 2.13 et tableaux 2.14.
Tableau 2.13: Distribution conditionnelles des lignes(%) ou profils lignes
Nb d’enf.
0 1 2 3 total
salaire
[80,100[ 8,11 10,81 29,73 51,35 100
[100,120[ 26,32 0,00 47,37 26,32 100
[120,140[ 25,00 6,25 43,75 25,00 100
[140,160[ 55,56 0,00 33,33 11,11 100
[160,180[ 13,33 4,44 82,22 0,00 100
Total 20,74 5,19 51,85 22,22 100

Exemple 2.12 : interprétation

La lecture du tableau 2.13 indique que plus de la moitié (51,35%) des employés ayant un salaire
compris entre 80 et 100 mille ont 3 enfants alors qu’aucun employé parmi ceux qui ont un
salaire supérieur ou égal à 160 mille n’a pas plus de 2 enfants.

Tableau 2.14: Distribution conditionnelles des colonnes (%) ou profils colonnes


Nb d’enf.
0 1 2 3 total
salaire
[80,100[ 10,71 57,14 15,71 63,33 27,41
[100,120[ 17,86 0,00 12,86 16,67 14,07
[120,140[ 14,29 14,29 10,00 13,33 11,85
[140,160[ 35,71 0,00 8,57 6,67 13,33
[160,180[ 21,43 28,57 52,86 0,00 33,33
Total 100 100 100 100 100
Exemple 2.13 : interprétation

Selon le tableau 2.14, la proportion des employés ayant 3 enfants diminue au fur à mesure que
le salaire augmente. En effet, parmi les employés ayant 3 enfants, 63,33% ont un salaire
inférieur à 100 mille, 16, 67% ont un salaire compris entre 100 et 120 mille, 13,33% dispose
d’un salaire compris entre 120 et 140 mille.
CHAPITRE 2 : TABLEAUX STATISTIQUES ET
REPRESENTATION GRAPHIQUE (SUITE)

SEANCE N° 4
Objectif : A la fin de cette séance les apprenants doivent être en mesure de résumer les données
statistiques à travers les graphiques : cas de variables qualitatives et quantitatives discrètes

2 .3- Représentation graphique des distributions à un


caractère.
Bien qu’un tableau renferme toutes les informations, il est parfois plus judicieux de les traduire
par des graphiques. Le but est de synthétiser l’information de façon à faire ressortir d’un seul
coup d’œil les principales caractéristiques. Le graphique est un moyen de découverte, de
contrôle et de comparaison.

Un graphique doit être clair et simple. Il doit avoir un titre, une source, une légende et une unité.

2.2.1- Représentation graphique d’un caractère qualitatif


Pour un caractère qualitatif, on a deux types de graphiques : les diagrammes à secteurs, les
tuyaux d’orgues et les barres.

[Link]- Diagramme circulaire ou diagramme à secteur ou le


camembert

Sur le diagramme circulaire, chaque modalité est représentée par un secteur circulaire dont
l’angle est proportionnel à son effectif ou sa fréquence. Chaque secteur doit être différentié des
autres par un type de hachure ou par une couleur. L’angle de chaque secteur est obtenu par la
formule

360.n
i = 360. fi = i
n

Exemple 2.14 : L’évaluation des candidats présents à l’épreuve de statistique descriptive du


semestre harmattan 2012 se présente comme suit :

Tableau 2.15: répartition des candidats présents à l’épreuve de statistique descriptive du


semestre harmattan 2012 selon le résultat
Résultat Effectif Fréquence (%)
Insuffisant 2155 55,10
Passable 592 15,14
Assez bien 575 14,70
Bien 420 10,74
très bien 169 4,32
Total 3911 100

Présentation de cette répartition sous forme de diagramme circulaire

Graphique 2.1: répartition des candidats présents à l’épreuve de statistique descriptive du


semestre harmattan 2012 selon le résultat

Insuffisant Passable
55% 15%

Assez bien
15%

très bien Bien


4% 11%

[Link]- Diagramme en Tuyaux d’orgues

Pour construire le diagramme en tuyaux d’orgues, on représente chaque modalité par un tuyau
dont la hauteur est proportionnelle à l’effectif correspondant ou à la fréquence correspondante.
L’ordre des tuyaux n’a pas de sens.

Exemple 2. 15

Graphique 2.2: répartition des candidats présents à l’épreuve de statistique descriptive du


semestre harmattan 2012 selon le résultat
055%

015% 015%
011%
004%

Insuffisant Passable Assez bien Bien très bien

NB : Evidemment, il n’est pas toujours utile de donner deux représentations graphiques en


même temps pour une variable. Il faut choisir le graphique le mieux adapté. Si le nombre de
modalités de la variable étudiée est faible (moins d’une dizaine) il est souvent préférable
d’utiliser le diagramme circulaire.

2.2.2- Représentation graphique d’une variable quantitative discrète


Pour illustrer une variable quantitative discrète, le diagramme en bâtons et la courbe cumulative
sont utilisés. Ces deux graphiques sont construits dans un système d’axes cartésien, ce que l’on
ne peut pas faire dans le cas d’une variable qualitative.

[Link]- diagramme en bâtons

C’est une représentation dans un système d’axes cartésien où l’axe des abscisses porte les
différentes valeurs possibles (x1 , x2 , x3 , . . . , xk) de la variable étudiée et les effectifs (
n1 , n 2 , n 3 ,..., n k ) ou les fréquences ( f1 , f 2 , f 3 ,..., f k ) sont portés par l’axe des ordonnées. Le point
( xi , 0) et le point correspondant ( xi , n i ) sont joints par un segment vertical gras appelé « bâton »

Exemple 2. 16 : En reprenant le tableau 2.5, on peut établir la répartition de ces étudiants selon
le nombre d’années passés au Lycée en utilisant le diagramme en bâtons comme l’indique le
graphique 2.3 ci-après.

Graphique 2.3: répartition du groupe d’étudiants enquêtés selon le nombre d’années passé
au Lycée
35
30
25
20
15
10
5
0
0 1 2 3 4 5 6 7

[Link]- courbe cumulative

C’est la représentation graphique de ce qu’on appelle la fonction cumulative ou fonction de


répartition de la population selon la variable étudiée.

La fonction cumulative, notée F, d’une population étudiée selon une variable quantitative X,
est une fonction réelle qui à toute valeur x, fait correspondre la proportion F(x) des individus
de la population dont la valeur de la variable est inférieure ou égale à x

Cette fonction est définie comme suit :

𝟎 x<x(1) Où
F(x)= {Fi x(i) ≤ x<x(i+1)
- les x(1) , x(2) , x(3) , . . . , x(k) sont des
1 x(k) ≤ x valeurs différentes de la variable
étudiée ;
- les F1 , F2 , F3 ,..., Fk-1 sont des fréquences
cumulées.

Exemple 2. 17: En reprenant le tableau 2.5, on peut présenter la répartition de ce groupe


d’étudiants selon le nombre d’années passé au Lycée en utilisant la courbe cumulative comme
l’indique le graphique 2.4 ci-après.
Tableau 2.16: répartition étudiants enquêtés selon le nombre d’années passé au Lycée
Nombre d’années passé au Fréquence
Lycée Effectif Fréquence(%) cumulée(%)
3 31 62 62
4 15 30 92
5 4 8 100
Total 50 100

Graphique 2.4: répartition étudiants enquêtés selon le nombre d’années passé au Lycée
1,2

0,8

0,6

0,4

0,2

0
0 1 2 3 4 5 6 7 8
CHAPITRE 2 : TABLEAUX STATISTIQUES ET
REPRESENTATION GRAPHIQUE (SUITE)
SEANCE N° 5
Objectif : A la fin de cette séance les apprenants doivent être en mesure de résumer les données
statistiques à travers les graphiques : cas de variables quantitatives continues

2.2.3- Représentation graphique d’une variable quantitative


continue
Pour la variable quantitative continue, on suppose qu’on dispose d’un tableau statistique où les
individus ont été regroupés par classe. Pour illustrer graphiquement une variable quantitative
continue, on utilise souvent l’histogramme et la courbe cumulative.

[Link]- Histogramme

L’histogramme consiste à représenter les effectifs (resp. les fréquences) des classes par des
rectangles contigus dont la surface représente effectif (resp. la fréquence).

 Pour un histogramme des effectifs la hauteur du rectangle correspondant à la classe j est


𝑛
donc donnée par : ℎ𝑗 = 𝑗 où 𝑎𝑗 est l’amplitude de la classe j et 𝑛𝑗 est l’effectif de cette
𝑎𝑗
classe. ℎ𝑗 est la densité d’effectif.

 Pour un histogramme des fréquences la hauteur du rectangle correspondant à la classe j


𝑓
est donc donnée par : 𝑑𝑗 = 𝑎𝑗 où 𝑎𝑗 est l’amplitude de la classe j et 𝑓𝑗 est la fréquence
𝑗
de cette classe. 𝑑𝑗 est la densité de fréquence.

L’aire de l’histogramme est égale à 1

Exemple 2. 18: Illustrer les données du tableau 2.8 par un histogramme.


Tableau 2.18: répartition de 250 étudiants selon la dépense moyenne journalière
Effectif Fréquences
200-1000 39 15,6
1000-1500 75 30
1500-2000 46 18,4
2000-2500 40 16
2500-3000 10 4
3000-6000 40 16
Total 250

Comme les classes n’ont pas la même amplitude, il faudrait déterminer les fréquences corrigées.

Tableau 2.19: répartition de 250 étudiants selon la dépense moyenne journalière


Amplitude Fréquences
ai Effectif Fréquences corrigées
200-1000 800 39 15,6 0,020
1000-1500 500 75 30 0,060
1500-2000 500 46 18,4 0,037
2000-2500 500 40 16 0,032
2500-3000 500 10 4 0,008
3000-6000 3000 40 16 0,005
Total 250

Graphique 2.7: Histogramme avec correction de fréquences.

0,07
0,06
0,05
0,04
0,03
0,02
0,01
0
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000

Remarque 2.1 : Dans le cas de classes de même amplitude certains auteurs et logiciels
représentent l’histogramme avec les effectifs (resp. les fréquences) reportés en ordonnée, l’aire
de chaque rectangle étant proportionnelle à l’effectif (resp. la fréquence) de la classe.

[Link] Polygone des fréquences

Le polygone des fréquences généralement associé à l’histogramme est la ligne brisée qui joint
les points (c1 -a1 ;0), (c1;f1 ), (c 2 ;f 2 ),..., (c k ;f k ), (c k +a k ;0) .

On remplace ainsi la frontière de l’histogramme constituée par des lignes horizontales et


verticales par une ligne brisée qui entoure approximativement la même aire que l’aire totale de
l’histogramme. Le polygone des fréquences est intéressant quand le nombre de classes est grand
et on obtient un polygone des fréquences se rapprochant d’une courbe qui caractérise la
distribution de la population.

Exemple 2. 19:

En reprenant les données du tableau 2.7, le polygone de fréquence se présente comme suit :

Graphique 2.8: Histogramme et polygone de fréquence.


0,3
0,25
0,2
0,15
0,1
0,05
0
0 500 1000 1500 2000 2500 3000 3500 4000 4500

Ordonnées Polygône

[Link]- Courbe cumulative

La courbe cumulative est la représentation graphique de la fonction de répartition F qui a la


même définition dans le cas d’une variable discrète à savoir F(x) est la proportion des individus
de la population ayant la valeur de la variable inférieure ou égale à x. Cependant, quoique la
fonction F est bien définie, les observations groupées ne permettent pas de disposer que des
fréquences cumulées F1 , F2 ,..., Fk et donc on ne connait que les valeurs de F aux extrémités des
intervalles ]𝒙(i-1) , 𝒙(i) ] avec

F(𝒙(𝒊) ) = Fi ; F(𝒙) = 𝟎, 𝒔𝒊 𝒙 ≤ 𝒙(𝟏) ; F(𝒙) = 𝟏, 𝒔𝒊 𝒙(𝒌) ≤ 𝒙

Ainsi, les valeurs de F, pour des observations groupées, sont inconnues à l’intérieur des
intervalles ouverts ]𝒙(i-1) , 𝒙(i) [i = 1, 2, …, k.

Par convention, ces valeurs sont alors approximées par interpolation linéaire comme suit :

0 x < x0
x - x(i-1)
F(x)= Fi-1 + x - x .(Fi -Fi-1 ) x(i-1) <x ≤ x(i)
(i) (i-1)
{ 1 x(k) ≤ x

Exemple 2. 20: Illustrons les données du tableau 2.17 par la courbe cumulative.

Graphique 2.9: courbe cumulative croissante


1,2

0,8

0,6

0,4

0,2

0
0 500 1000 1500 2000 2500 3000 3500 4000 4500
-0,2

[Link] Courbe cumulative décroissante

Quelque fois, il est plus expressif de parler de la proportion des individus de la population dont
la valeur de la variable étudiée est supérieure à une limite donnée. Par exemple, quelle est la
proportion des étudiants dont la moyenne dépasse 15 sur 20 ou bien quelle est la proportion des
ménages ayant plus de 6 enfants. Cela conduit à définir les fréquences cumulées décroissantes
et la courbe cumulative décroissante.

Définition

Soit une population étudiée selon une variable quantitative X, la fonction cumulative
décroissante, notée G, fait correspondre à tout nombre réel x, la proportion G(x) des individus
de la population dot la valeur de la variable est strictement supérieure à x.

Par définition on :

G( x ) + F( x) = 1 Pour tout x.

x - x(i-1)
D’où 𝑮(𝒙) = 𝑮i-1 − .(Gi-1 -Gi ) x(i-1) <x ≤ x(i)
x(i) - x(i-1)

Graphique 2.10: courbe cumulative décroissante


1,2

0,8

0,6

0,4

0,2

0
0 500 1000 1500 2000 2500 3000 3500 4000 4500

Graphique 2.11: les deux courbes cumulatives dans un repère cartésien décroissante

1,2

0,8

0,6

0,4

0,2

0
0 500 1000 1500 2000 2500 3000 3500 4000 4500
-0,2

[Link] Le diagramme de Tuckey

Ce graphique permet de résumer les caractéristiques. Il a été inventé par le statisticien Tukey
en 1977. Il s’agit d’un diagramme qui est très facile de construction manuelle et qui permet une
visualisation très rapide et très aisée des données décrivant une variable quantitative. En
anglais, cette représentation graphique est dénommée « Stem and leaf display » ce qui,
littéralement veut dire la représentation en «tige et feuilles». Tout comme plusieurs feuilles
viennent se coller à une même tige et que l’arbre comporte plusieurs tiges, les valeurs
numériques d’une variable peuvent être scindées en tiges et feuilles. On peut donc organiser les
données de manière à regrouper les feuilles par tige. L’avantage de cette représentation est
qu’elle permet une lecture simultanée et de manière assez pratique, des données initiales et du
graphique.

Activité 2.8 :

Le tableau qui suit indique la consommation journalière en litre en carburant de 20


automobilistes dans la ville de Lomé.

15,9 10,3 15,5 15,8 18,5 18,2 12,2 12,6 15,6 12,7
12,8 10,6 12,9 12,5 10,6 18,3 18,7 18 12,4 10
Faire la représentation graphique de Tuckey.
Solution :
Il faut définir les tiges et les feuilles. Les données varient entre 10 et 18,7. Dans cet exemple,
on peut prendre les valeurs entières comme tiges et les décimales comme feuilles.
Les tiges sont donc 10 ; 12 ; 15 et 18.
Les valeurs 12,2 ; 12.6 ; 12,7 ; 12,8 ; 12,9 ; 12,5 ; 12,4 ont la même tige qui est 12.
La feuille associée à 12,2 est 2 et celle de 12.9 est 9
La tige de 10 est 10 et sa feuille est 0.
Le diagramme se présente alors sous la forme :
Tige Feuille
10 3660
12 2678954
15 9586
18 52370
En rangeant les feuilles dans l’ordre croissant, on obtient le diagramme suivant :
Tige Feuille
10 0366
12 2456789
15 5689
18 02357
SEANCE N° 6
Objectif : A la fin de cette séance les apprenants doivent être en mesure de reconnaître les
différentes formules de la moyenne.

CHAPITRE 3 : DESCRIPTION NUMERIQUE


D’UNE VARIABLE STATISTIQUE
Les informations collectées et disponibles doivent être synthétisées au maximum de manière à
avoir une vue globale sur la population ou l’échantillon étudié. Cela permet aussi de pouvoir
comparer cette population ou échantillon à d’autres. Un premier résumé de cette information
est la construction des tableaux et les graphiques statistiques. Mais ce résumé reste insuffisant
et ces tableaux et graphiques contiennent beaucoup de chiffres.

Il s’agit dans ce chapitre de définir un nombre ou une caractéristique qui résume toute
l’information et qui est précisément, une fonction des observations individuelles, au sens
mathématique. Ces nombres ou caractéristiques qui résument les observations individuelles se
classent plusieurs types dont :

✓ les caractéristiques de tendance centrale ou de position


✓ les caractéristiques de dispersions ou de variation
✓ les caractéristiques de forme
✓ les caractéristiques de concentration

3.1- Caractéristiques de tendance centrale ou de position


La caractéristique de la tendance centrale d’une variable statistique est une valeur qui permet
de résumer globalement toutes les valeurs prises par cette variable. Comme tout, la valeur de la
tendance centrale doit être proche des observations individuelles qui sont une description
détaillée de l’échantillon ou de la population. Elle doit satisfaire également les conditions
suivantes, appelées conditions de YULE :

1. être bien définie en fonction des observations ;


2. tenir compte de toutes les observations ;
3. être simple à calculer ;
4. avoir une signification concrète ;
5. se prêter au calcul algébrique ;
6. être peu sensible aux fluctuations d’échantillonnage.
Les valeurs de la tendance centrale sont la moyenne, la médiane, le mode et les quantiles.

3.1.1- Moyenne
C’est l’une des caractéristiques les plus utilisées en statistique. Elle peut remplacer chaque
valeur de la variable étudiée. Il existe deux types de moyennes : la moyenne simple et la
moyenne pondérée. La moyenne simple est calculée à partir des données non regroupées et la
moyenne pondérée est obtenue à l’aide d’un regroupement. Pour chaque type, on calcule
généralement la moyenne arithmétique, la moyenne géométrique, la moyenne harmonique et la
moyenne quadratique.

[Link]- Définition

Soit un échantillon de taille n étudié selon la variable X. Après la collecte des données sur cet
échantillon on disposera alors de n observations individuelles x1 , x2 , . . . , xn et la moyenne
s’obtient à partir de la formule suivante :

n 𝐾
1 a a
Ma =√ ∑ xai = √∑ w𝑘 xa𝑘
n
i=1 k=1

Généralement on calcule la moyenne harmonique, géométrique, arithmétique et quadratique


qui correspondent aux valeurs de a comme l’indique le tableaux 3.1 et 3.2 suivants :

Tableau 3.1:

a -1 0 1 2
moyenne harmonique Géométrique arithmétique quadratique
Tableau 3.2:
Moyenne simple Moyenne pondérée
n 𝐾 𝐾
Moyenne 1 1
𝑋̅ = ∑ xi 𝑋̅ = ∑ n𝑘 x(𝑘) = ∑ 𝑓𝑘 x(𝑘)
arithmétique n n
i=1 k=1 i=1

Moyenne G= n√x1 x2 . . . . . . xn =(x1 x2 . . . . . . xn )1/n G= √x(1)


n
1 n
x(2)
2 n
. . . . . . x(k)
𝑘 n 1
= (x(1)
n
x(2)
2 n
. . . . . . x(k)
𝑘
)
n 1/n

géométrique
n n 1
H= n H= =
Moyenne 1 𝐾 𝐾
∑ x n𝑘 𝑓𝑘
harmonique i=1 i ∑ ∑
x(𝑘) x(𝑘)
k=1 k=1

n 𝐾 𝐾
Moyenne 1 1
Q=√ ∑ x2i Q=√ ∑ n𝑘 x2(𝑘) = √∑ 𝑓𝑘 x2(𝑘)
quadratique n n
i=1 k=1 i=1

K est le nombre de valeurs différentes de la variable dans le cas d’une variable discrète ou le
nombre de classes s’il s’agit d’une variable continue et 𝑛𝑘 le nombre de fois que 𝑥𝑘 a été
K
observé. On a n =  nk
k =1

NB : La moyenne est très sensible aux valeurs extrêmes, et cela d'autant plus que ces
valeurs extrêmes se distinguent des autres observations et que l'effectif est petit.
[Link]- Moyenne arithmétique

C’est la formule la plus utilisée. Si aucune précision n’est faite alors pour déterminer la
moyenne d’un caractère, on utilise en général, la formule de la moyenne arithmétique.

Exemple 3.1 :

Un responsable du ministère de l’éducation a interviewé 20 étudiants sur le nombre d’années


passé au Lycée. Les réponses de chacun des 20 étudiants sont les suivantes :

4 3 5 3 5 4 3 4 4 5 5 4 4 3 3 4 3 4 5 5

Déterminer le nombre moyen d’année passé au Lycée pour les 20 étudiants interviewés.

Solution
1
• Moyenne simple 𝑋̅ = n ∑ni=1 xi

4+3+5+3+5+4+3+4+4+5+5+4+4+3+3+4+3+4+5+5
X= =4
20
K
1
• Moyenne simple 𝑋̅ = n ∑ nk x(k)
k=1

6x3+8x4+6x5
X= =4
20

Exemple 3.2

Calculer la moyenne arithmétique pour les ouvriers d’une usine dont le salaire (en millier de
francs CFA) est réparti comme suit :

Tableau 3.5:

Salaire en millier Effectif


80-100 22
100-120 30
120-140 45
140-160 18
160-180 10
Total 125

Solution

Ici la formule adaptée est la formule de la moyenne pondérée car les données sont déjà
regroupées.
K
1
𝑋̅ = ∑ nk X(k)
n
k=1
On constate que les xi (salaires individuel) ne sont pas donnés. Seuls les intervalles de salaire
sont donnés. Par exemple selon le tableau 3.5, on sait 22 ouvriers de cette usine ont un salaire
compris entre 80 et 100 mille.

Dans ce cas on remplace les xi par les C i (centres des classes). D’où le tableau 3.6 suivant :

Tableau 3.6:

Classes Effectif (ni) Centre (Ci) : Xi ni*Ci


80-100 22 90 1980
100-120 30 110 3300
120-140 45 130 5850
140-160 18 150 2700
160-180 10 170 1700
Total 125 - 124,24
𝐾
1
𝑋̅ = 𝑛 ∑ 𝑛𝑘 𝑋(𝑘) =124,24. Ceci signifie qu’en moyenne chaque ouvrier gagne 124240.
𝑘=1

Propriétés de la moyenne arithmétique

La moyenne arithmétique possède des propriétés suivantes :

P1 : La somme des écarts des valeurs de la variable par rapport à la moyenne arithmétique est
n
nulle. Cette propriété se traduit par la formule suivante : ∑ (xi - 𝑋̅ ) =0
i=1

P2 : Si on effectue le changement de variable X ' =αX+β , la moyenne subit le même


changement, c'est-à-dire X ' =  X +  .

P3 : Si X et Y sont deux variables statistiques alors : X+Y=X+Y

P4 : La somme des carrés des écarts par rapport à un nombre quelconque u est égale à la somme
des carrés des écarts par rapport à la moyenne ajouté à n fois le carré de l’écart entre la moyenne
n n
et le nombre u. ∑ (xi -u)2 = ∑ ̅ )2 + n(X
(xi -X ̅ -u)2
i=1 i=1

P5 : La moyenne arithmétique rend minimale la somme des carrés des écarts par rapport à u (u
n n
un réel quelconque): s(u)= ∑ (xi -u)2 .C'est-à-dire que pour tout nombre réel, s(u)> ∑ (xi -
i=1 i=1
2
𝑋̅) .Cette propriété signifie que si on prend comme distance totale entre le nombre u et les
valeursx1 , x2 , . . . , xn , la sommes des carrés des écarts s(u) , la moyenne est la plus proche avec
cette distance.

P6 : La moyenne d’un mélange de deux populations étudiées selon le même caractère X, est
égale à la moyenne pondérée par leurs tailles de leurs moyennes. C'est-à-dire

n1 X1 +n 2 X 2
X=
n
[Link]- Moyenne géométrique

La moyenne géométrique est la formule utilisée pour le calcul du taux d’accroissement moyen
d’une grandeur entre deux instants. Pour le voir, supposons donnée une série d’observations
temporelles : y0 , y1, y 2 ,..., y t ,...., yT où t désigne le temps. Pour des séries économiques, t
désigne par exemple le mois, le trimestre, le semestre, l’année, etc. La grandeur subit une
variation entre deux instants t et t’ ( t  t ' ), pouvant être mesurée par son accroissement relatif
ou taux d’accroissement r égal à :
t ,t '

y −y
r = t' t
t ,t ' yt

De cette formule, on peut écrire : y = (1+ r ) yt (3.1)


t' t,t '

Si la grandeur y varie entre t = 0 et t = T, on aura d’après la formule (3.1):

y = (1 + r ) y
1 0,1 0
y = (1 + r ) y
2 1,2 1
: y
 (1 + r0,1)(1 + r1,2 )...(1 + rt −1,t )...(1 + rT −1,T ) = T ( 3.2)
yt = (1 + rt −1,t ) yt −1 y0
:
yT = (1 + rT −1,T ) yT −1

Le taux d’accroissement moyen de la grandeur y entre les instants t = 0 et t = T, noté r, est le


taux constant qui aurait donné la même variation de y entre ces deux instants.

Calcul de r

y1 = (1 + r ) y0
y2 = (1 + r ) y1
: y
 (1 + r )T = T ( 3.3 )
yt = (1 + r ) yt −1 y0
:
yT = (1 + r ) yT −1

D’après les formules (3.2) et (3.3), on a :

(1 + r )T = (1 + r0,1)(1 + r1,2 )...(1 + rt −1,t )...(1 + rT −1,T )


En posant

1 + rt −1,t = qt t =1, 2,..., T

On aura

r = T q q ...q −1 t =1, 2,..., T


1 2 T

Les développements ci-dessus sont surtout destinés à faire éviter aux étudiants une erreur
souvent commise, due à l’ignorance que le taux d’accroissement moyen n’est pas la moyenne
arithmétique des taux d’accroissement relatifs. Cependant, quand les taux d’accroissement
relatifs sont faibles par rapport à l’unité, le taux d’accroissement moyen peut être approximé
valablement par la moyenne arithmétique des taux d’accroissement relatifs.

[Link]- Moyenne harmonique

Exemple 3.4 :

Quatre cyclistes parcourent chacun 100km. Les vitesses respectives pour ces 4 cyclistes sont de
10 km/h, 30 km/h, 40 km/h, 20 km/h. Quelle a été sa vitesse moyenne ?

Solution

On sait que

Distance totale parcourue


Vitesse moyenne =
nombre d'heures de parcours

 La distance totale parcourue est de 400 Km

 Le nombre d’heures de parcours est le temps total mis par les 4 cyclistes pour parcourir
les 400 Km.

Le premier a fait 10 heures, me deuxième a fait 3heures 20 minutes, le troisième a fait


2heures 30 minutes et le quatrième a mis 5 heures. Donc les 4 cycles ont mis 20 heures
50 minutes soit 20,8333 heures pour parcourir les 400 Km.

400
Vitesse moyenne = = 19,2
20,8333
4
Vitesse moyenne harmonique = = 19,2
1 1 1 1
10 + 30 + 40 + 20
CHAPITRE 3 : DESCRIPTION NUMERIQUE
D’UNE VARIABLE STATISTIQUE
Calcul du mode
SEANCE N° 8
Objectif : A la fin de cette séance les apprenants doivent être en mesure de calculer et interpréter
le mode d’une variable statistique

3.1.2- mode ( M 0 )

Le mode d’une variable correspond à la modalité ayant l’effectif le plus élevé. Sa détermination
varie selon que la variable soit discrète ou continue.

Cas des variables discrètes.

Exemple 3. 5: Le tableau ci-dessous a été obtenu après un dépouillement de la variable Age


de 50 étudiants de la FASEG1. Déterminer le mode.

Tableau 3.8:
Age 16 18 19 20 21
ni 5 8 10 22 5

Le mode est 20 ans. C'est-à-dire que la plupart des étudiants ont 20 ans.

Cas des variables continue.

Dans ce cas, on détermine d’abord la classe modale ; c'est-à-dire la classe dont l’effectif est le
plus élevé. Ensuite on détermine le mode à l’aide de la formule

(n0 − n1 )
M 0 = L1 + K
(n0 − n1 ) + (n0 − n2 )


✓ L1 est la borne inférieure de la classe modale ;
✓ K est l’amplitude de la classe modale ;
✓ n0 est l’effectif de la classe modale ;
✓ n1 est l’effectif de la classe qui précède la classe modale ;
✓ n2 est l’effectif de la classe qui suit la classe modale.
d1
Si nous posons d1 = n0 − n1 et d 2 = n0 − n2 , la formule devient M 0 = L1 + K
d1 + d2

Exemple 3. 6: Déterminer le mode de la variable résumée dans le tableau ci-dessous.

Tableau 3.9:
Salaire en Fréquence
millier Effectif (%)
80-100 22 17,60
100-120 30 24,00
120-140 45 36,00
140-160 18 14,40
160-180 10 8,00
Total 125

La classe modale est [120-140[ ; L1=120 ; K=20 ; n0 = 45; n1 = 30; n2 = 18 . On d1= 15 et


d2=27

15
M 0 = 120 + 20. =127,14286. Ce qui veut dire que la majorité des ouvriers de l’usine
15 + 27
gagne environ 127143.

d2
Le mode peut aussi se déterminer par le formule : M 0 = L2 − K . Il suffit de remarquer
d1 + d 2
dans la formule précédente que L2 = L1 + K .

Détermination graphique du mode.

Lorsque la variable étudiée est continue, on peut utiliser son histogramme pour déterminer le
mode.

Graphique 3.1

NB : le mode n’est pas sensible aux variations des valeurs extrèmes


CHAPITRE 3 : DESCRIPTION NUMERIQUE
D’UNE VARIABLE STATISTIQUE
Calcul de la médiane
SEANCE N° 9
Objectif : A la fin de cette séance les apprenants doivent être en mesure de calculer et interpréter
les quantiles de façon générale et en particulier la médiane

3.1.3- médiane Me
La médiane d’une variable est la valeur de cette variable qui partage l’échantillon en en deux
parties égales. Lorsqu’on dispose d’une série, la médiane est la valeur qui partage cette série,
préalablement classée, en deux séries aux effectifs égaux. Dans la première série, on trouve les
valeurs inférieures à la médiane. Dans la seconde série on trouve les valeurs supérieures à la
médiane.

Cas des données non regroupées par classes

Exemple 3.7 :

Les séries suivantes renferment le nombre d’heures de cours suivies par respectivement 5 et 6
étudiants. Déterminer les médianes.

4 10 0 3 7 10 0 7 3 4 9

Pour déterminer la médiane d’une série x1 , x2 , x3 , . . . , xn il faut d’abord classer cette série
par ordre croissant. On obtient alors une nouvelle série x(1) , x(2) , x(3) , . . . , x(n) où x(1) est la
valeur minimale et x(n) est la valeur maximale. Une fois la série classée, la Médiane est :

𝑥(𝑛+1) 𝑠𝑖 𝑛 𝑒𝑠𝑡 𝑖𝑚𝑝𝑎𝑖𝑟


2
−1 (0,5)
𝑴𝒆 = 𝐹 = {1
(𝑥(𝑛) + 𝑥(𝑛+1) ) 𝑠𝑖 𝑛 𝑒𝑠𝑡 𝑖𝑚𝑝𝑎𝑖𝑟
2 2 2

Cas d’une variable discrète regroupée


Exemple 3.8 :
Déterminer la médiane du tableau 3.10 suivant :
Le procédé est basé sur les effectifs cumulés Ni ou les fréquences cumulés Fi.
Tableau 3.10:
Age ni fi Fi
16 5 10 10
18 8 16 26
19 10 20 46
20 22 44 90
21 5 10 100
Total 50

La médiane est alors la première modalité pour la laquelle la fréquence cumulée est supérieure
ou égale à 50%. Dans ce cas Me=20 ans.

Si l’on a plutôt utilisé les effectifs cumulés alors la médiane est la première modalité pour
laquelle l’effectif cumulé est ou égal à la moitié de la taille de l’échantillon.

Cas d’une variable continue

Dans ce cas, à l’aide d’un regroupement par classes, on peut déterminer la classe médiane puis
la médiane en utilisant la formule suivante :

(50−𝐹1 )
𝑀𝑒 = 𝐿1 + 𝐾 où
𝑓𝑒

✓ L1 est la borne inférieure de la classe médiane


✓ K est l’amplitude de la classe
✓ F1 est la fréquence cumulée de la classe qui précède la classe médiane
✓ fe est la fréquence de la classe médiane.
On peut également déterminer la médiane par la formule :
𝑛
( −𝑁1 )
2
𝑀𝑒 = 𝐿1 + 𝐾 où
𝑛𝑒

✓ n est la taille de l’échantillon ;


✓ N1 est l’effectif cumulé de la classe qui précède la classe médiane

✓ ne l’effectif de la classe médiane

Exemple 3.9 :

Déterminer la médiane du tableau 3.11 suivant :

Tableau 3.11:
Salaire en millier Effectif fi Fi
80-100 22 17,6 17,6
100-120 30 24,0 41,6
120-140 45 36,0 77,6
140-160 18 14,4 92,0
160-180 10 8,0 100
Total 125 100 -

La classe médiane est [120-140[ donc L1=120 ; F1=41,6 ; fe=36 et K=20. D’où
50−41,6
𝑀𝑒 = 120+20. =124,667 ; ce qui veut dire que 50% des ouvriers ont un salaire inférieur
36
à 124667.

On peut également déterminer graphiquement la médiane en utilisant le graphique des


fréquences cumulées.
Graphique 3.2

X1/2

3.1.4- quantiles
Tout comme la médiane qui divise l’échantillon en deux parties égales, on peut aussi déterminer
trois valeurs qui divisent l’échantillon en quatre parties égales ; 9 valeurs qui divisent l’effectif
en 10 parties égales ou 99 valeurs qui divisent l’effectif en 100 parties égales et ainsi de suite.

Il est possible d’obtenir une formule analogue à celle de la médiane. En effet, si nous voulons
diviser notre effectif en p parties égales, il nous suffit de trouver p-1 valeurs correspondant
respectivement aux fréquences cumulées suivantes :

1 2 3 p −1
100% ; 100% ; 100% ; ......; 100% . Ce qui peut être généralisé sous la forme
p p p p
j
100% ; j = 1; 2;..... ; p − 1 . Par analogie à la formule de la médiane, ceci revient à déterminer
p
 j 
100 p − F1 
les valeurs de la forme : L1 + K  
fe

Ainsi si nous voulons partager l’effectif total en 4 parties, on calculera les 3 valeurs pour p=4 et j=1 ; 2 ;
4. Ces valeurs sont appelées les quartiles et notées Q1, Q2 et Q3 ; respectivement appelées 1er quartile,
2ème quartile et 3ème quartile.

Q1 = L1 + K
( 25 − F1 ) ; Q2 = L1 + K
(50 − F1 ) ; Q = L1 + K
( 75 − F1 )
3
fe fe fe

 100 j 
 − F1 
Pour p=10, on parle des déciles notés Dj. Il en existe 9 valeurs. D j = L1 + K   ,
10
fe
j=1, …, 9.
Pour p=100, on parle des percentiles notés Pj. Il en existe 99 valeurs.
 100 j 
 − F1 
Pj = L1 + K 
100  = L + K ( j − F1 ) , j=1, …, 99.
1
fe fe
Remarque : Les quantiles peuvent être obtenus à l’aide d’un raisonnement avec les effectifs
 j 
 n p − N1 
cumulés. Dans ce cas, la formule générale devient : L1 + K   .
ne
Les étapes du calcul des quantiles.
1- Déterminer p
2- Déterminer la valeur de j
3- Identifier la classe qui contient le quantile. Cette classe est la 1ère pour laquelle la
j
fréquence cumulée est supérieure à 100%
p
4- L1 est la borne inférieure de la classe qui contient le quantile.
5- K est l’amplitude de la classe qui contient le quantile
6- F1 est la fréquence cumulée de la classe qui précède celle qui contient le quantile
7- fe est la fréquence de la classe qui contient le quantile.
Remarque : Me = Q2 = D5 = P50
CHAPITRE 3 : DESCRIPTION NUMERIQUE
D’UNE VARIABLE STATISTIQUE
Calcul des caractéristiques de dispersion
SEANCE N° 10
Objectif : A la fin de cette séance les apprenants doivent être en mesure de calculer et interpréter
les caractéristiques de dispersion

3.2- caractéristiques de dispersions ou de variation


Les caractéristiques de dispersion mesurent le degré de variabilité des données statistiques.

3.2.1- étendue
L’étendue d’une variable X est donnée par 𝑒 = Xmax − 𝑋min . Elle donne une indication sur le
domaine de variation de la distribution mais ne tient pas compte de la répartition des individus
sur le domaine.

3.2.2- L’intervalle interquartile


L’intervalle interquartile est une mesure de la variation qui n’est pas influencée par les valeurs
extrêmes, contrairement à l’intervalle de variation.

Sa définition est simple : l’intervalle interquartile noté IQ, mesure l’étendue des 50% de valeurs
situées au milieu d’une série de données classées. Il est déterminé par la formule :

𝐼𝑄 = 𝑄3 − 𝑄1

3.2.3- écart absolu moyen.


1
On appelle écart absolu moyen par rapport à un réel a, la quantité𝐸𝑥 = 𝑛 ∑𝑛𝑖=1|𝑥𝑖 − 𝑥|. C’est la
moyenne des écarts des valeurs de la variable en valeur absolue par rapport au réel a.
Si les données sont regroupées alors on parle d’écart absolu moyen pondéré (𝐸𝑥 =
1 𝑙
∑𝑖=1 𝑛𝑖 |𝑥𝑖 − 𝑥|).
𝑛

Dans la pratique le réel x est une caractéristique de tendance centrale. On choisi généralement
1 𝑛
le mode, la moyenne ou la médiane. On note alors 𝐸𝑋̅ = 𝑛 ∑𝑖=1|𝑥𝑖 − 𝑋̅| ; 𝐸𝑀0 =
1 1
∑𝑛𝑖=1|𝑥𝑖 − 𝑀0 | ; 𝐸𝑀𝑒 = ∑𝑛𝑖=1|𝑥𝑖 − 𝑀𝑒 |. Le plus utilisé est E X
𝑛 𝑛

L’écart absolu moyen a pour intérêt de prendre en compte la répartition des individus. Plus la
population est concentrée autour de x, plus E x est faible. Dans le cas contraire, E x est élevé.

3.2. 4- variance, l’écart type et le coefficient de variation.


3.2. 4.1- variance
1 𝑛 2
La variance d’une variable statistique X est définie par 𝜎𝑋2 = 𝑛 ∑𝑖=1(𝑋𝑖 − 𝑋̅) . Si les données
1 𝐾 2 𝐾 2
sont regroupées alors la formule devient 𝜎𝑋2 = 𝑛 ∑𝑘=1 𝑛𝑘 (𝑥𝑘 − 𝑋̅) = ∑𝑘=1 𝑓𝑘 (𝑥𝑘 − 𝑋̅) . La
variance de X est aussi notée Var(X).
On montre aisément que la variance peut encore se mettre sous la forme :

Var ( X ) =  X2 = X 2 − ( X )
2 1 𝑛 1 𝐾 𝐾
où ̅̅̅
𝑋 2̅ = 𝑛 ∑𝑖=1 𝑥𝑖2 = 𝑛 ∑𝑘=1 𝑛𝑘 𝑥𝑘2 = ∑𝑘=1 𝑓𝑘 𝑥𝑘2 .

Propriété de la variance
Soit X une variable statistique, a et b deux réels. On a:
Var(X+b) = Var(X) ; Var(aX) = a 2Var ( X ) ; Var(aX+b) = a 2Var ( X )
Var(X+Y) = Var(X) + Var(Y) si les variable X et Y sont indépendant
Var(X-Y) = Var(X) + Var(Y) si les variable X et Y sont indépendant

3.2. 4.2- Ecart-type

L’écart type est défini par  X = Var ( X )


Propriété de l’écart type
Des propriétés de la variance, on déduit facilement les propriétés suivantes pour l’écart type.
 ( X +b ) =  X  ( aX ) = a  X  ( aX +b ) = a  X

3.2. 4.3- coefficient de variation


X
Le coefficient de variation est la quantité définie par CV = 100% . Il donne le degré
X
d’homogénéité des données.
Lorsque le CV est inférieur à 33%, on conclut que les données sont homogènes.
CHAPITRE 3 : DESCRIPTION NUMERIQUE
D’UNE VARIABLE STATISTIQUE
Détermination des formes de distribution
SEANCE N° 11
Objectif : A la fin de cette séance les apprenants doivent être en mesure être en mesure
d’apprécier la forme de la distribution d’une série de données

3.3- caractéristiques de forme


En statistique, on compare généralement les distributions à la distribution normale centrée et
réduite qui possède de très bonnes propriétés à savoir : X = M e = M 0 = 0 et  X = 1 .

Graphique 3.3

Cette distribution vous sera mieux exposée dans l’UE de Probabilité ou statistique3

Une distribution peut donc être soit étalée à gauche ou à droite de la distribution normale centrée
et réduite ou soit plus aplatie ou moins aplatie que la distribution normale centrée et réduite.

Graphique 3.4
Pour faire ces comparaisons, on utilise 2 types de caractéristiques de forme :

- les coefficients de symétrie et

- les coefficients d’aplatissement.

Pour déterminer ces quantités, on utilise les moments.

3.3.1-Notion de moment

Définition : On appelle moment non centré d’ordre r d’une variable X, la quantité


1 n 1 l
m(r ) =  X ir . Les moments pondérés non centré sont de la forme m(r ) =  ni X ir
n i =1 n i =1
Définition : On appelle moment centré d’ordre r par rapport à x d’une variable X, la quantité
r r
1 n 1 l
 (r ) =  ( X i − x ) . Les moments pondérés centrés sont de la forme  (r ) =  ni ( X i − x )
n i =1 n i =1
Dans la pratique x est la moyenne.

Remarque : m(0) =  (0) = 1 ; m(1) = X ;  (1) = 0 ;  (2) =  X2 ; m(2) =  X2 + ( X )


2

3.3.1- Coefficient de symétrie (SKEWNESS)


Le coefficient de symétrie de FISHER informe sur le degré de symétrie de la distribution. Il
 (3)
est définit par :  1 = 3

✓ Si  1 =0 alors la distribution est normale

✓ Si  1 >0 alors la distribution est étalée vers la droite

✓ Si  1 <0 alors la distribution est étalée vers la gauche

3.3.2- coefficient de d’aplatissement (KURTOSIS)


Le coefficient d’aplatissement de FISHER informe sur le degré d’aplatissement de la
distribution. Il est définit par :

 (4)
2 = −3
4

✓ Si  2 =0 alors la distribution est normale

✓ Si  2 >0 alors la distribution est moins aplatie que la normale

✓ Si  2 <0 alors la distribution est plus aplatie que la normale


CHAPITRE 3 : DESCRIPTION NUMERIQUE
D’UNE VARIABLE STATISTIQUE (SUITE)
Calcul des indices de concentration
SEANCE N° 12
Objectif : A la fin de cette séance les apprenants doivent être en mesure de calculer et interpréter
les caractéristiques de concentration

3.4- Les caractéristiques de concentration


3.4.1 La médiale
Nous avons précédemment vu que la médiane est la valeur qui divise le nombre d’observation
en deux parties égales. Par analogie, on définit la médiale qui est une valeur qui divise la masse
totale des valeurs en deux parties égales.

La formule de la médiale est :

M 
 2 − M1 
Mle = L1 + k   où
 me 
 

✓ L1 est la borne inférieure de la classe qui contient la médiale


✓ M est la masse totale M =  ni X i
✓ M1 est la masse cumulée de la classe précédent celle qui contient la médiale
✓ me est la masse de la classe qui contient la médiale ( me = ne X e )
✓ k est l’amplitude

Remarque

On peut aussi définir la médiale à l’aide des fréquences des masses.

3.4.2- indice élémentaire de concentration.


Elle est définie par

Mle − M e Mle − M e
ie = =
e X max − X min

3.4.3- Indice de concentration de GINI : la courbe de Lorentz

1
L’indice de concentration est une mesure de la dispersion relative utilisée pour la description
de certaines distributions statistiques : distribution de salaires ou de revenus d’entreprises
suivants leur taille (nombre de salariés, chiffre d’affaire, population d’un pays).Cette
caractéristique ne s’applique qu’aux variables statistiques continues et à valeurs positives. Son
calcul exige la connaissance pour chaque classe du nombre d’observations (nombre
d’individus, nombre d’entreprises, ….).

A l’origine, l’indice de GINI, noté iG , est déterminé à l’aide de la courbe de Lorentz.

La courbe de Lorentz est obtenue en prenant en abscisse les fréquences cumulées (Fi) et en
ordonnée les masses relatives cumulées (Qi).

Activité 3.6 :

Représenter la courbe de Lorentz et déterminer l’indice de GINI pour la répartition des salaires
des ouvriers dont le tableau est donné à l’Activité2.

Pour tracer la courbe de Lorentz et calculer l’indice de GINI, on rempli soigneusement le


tableau suivant.

Li + Li +1
; mi = ni ci ; M =  mi ; qi = i ; Si = Qi −1 + Qi
m
ci =
2 M

Tableau 3.12:
Classes ni Centre (ci) fi Fi mi qi Qi Si fi*Si
80-100 22 90 17,6 17,6 1980 12,7 12,7 12,7 224,4
100-120 30 110 24,0 41,6 3300 21,2 34,0 46,7 1122,0
120-140 45 130 36,0 77,6 5850 37,7 71,7 105,7 3804,0
140-160 18 150 14,4 92,0 2700 17,4 89,1 160,7 2314,4
160-180 10 170 8,0 100 1700 10,9 100 189,1 1512,4
Total 125 - - - 15530 8977

L’indice de GINI est le double de l’aire A délimitée par la courbe de Lorentz et la première
1
bissectrice. En utilisant la méthode des trapèzes, on montre que iG = 1 −
10000
 fi Si ; les
fréquences étant exprimées en pourcentage.

2
L’application numérique donne iG =0,10228=10,23%.

L'indice de Gini est très utilisé en économie comme mesure des inégalités dans une population.
Supposons par exemple que la variable X corresponde aux revenus dans une population. Si
l'indice de Gini est proche de 0, ceci signifie que les différences relatives sont en moyenne
faibles par rapport à la moyenne des revenus : les inégalités dans la population sont faibles. Si
l'indice de Gini est proche de 1, alors au contraire il y a de fortes différences relatives en
moyenne : les inégalités sont fortes!

Dans notre exemple, nous avons trouvé une valeur estimée à 9,96% pour l’indice de Gini. Cette
valeur relativement faible signifie que les différences relatives des salaires mensuels dans cette
société par rapport à la moyenne sont faibles. On parle donc d’une distribution plus égalitaire.
Sur le plan social, cela peut signifier que dans cette société, à court ou moyen terme, il n’y a
pas de risque de mouvement de réclamation d’une certaine couche d’employés pour des hausses
de salaires.

L'indice de Gini fait partie des données récoltées par l'Organisation des Nations Unies lorsqu'elle dresse tous
les ans un tableau du "développement humain" à travers le monde. Voici la définition donnée en annexe de ce
document (année 2005) : "Indice de Gini : Indique dans quelle mesure la répartition du revenu (ou de la
consommation) entre les individus ou les ménages d’un pays s’écarte de l’égalité parfaite. On construit pour
cela une courbe de Lorenz qui met en regard les pourcentages cumulés du revenu total et les nombres cumulés
de personnes percevant ce revenu, en commençant par les individus ou les ménages les plus pauvres. L’indice
de Gini mesure la zone située entre cette courbe de Lorenz et une droite hypothétique représentant l’égalité
absolue. La superficie de cette zone est exprimée en pourcentage de l’espace maximal situé sous cette ligne. Le
chiffre 0 représente cette égalité parfaite (hypothétique), et le chiffre 100 une situation d’inégalité absolue." A
titre indicatif, dans ce document, l'indice de Gini de la Norvège est 25,8%, celui de la France est 32,7%, celui
des Etats-Unis 40,8%, celui du Brésil 59,3% et celui de la Namibie 70,7%...

Vous aimerez peut-être aussi