Eco 104
Eco 104
1.1-Introduction
1.1.1- Définition et historique
L’origine du mot « statistique » remonte au latin classique status (état) qui, par une série
d’évolutions successives, aboutit au français statistique, attesté pour la première fois en 1771.
On peut distinguer trois phases essentielles dans l’évolution de la statistique dans le temps.
1. Depuis l’antiquité et jusqu’à la fin du 19ième siècle, la statistique est restée
principalement un ensemble de techniques de dénombrement.
2. Entre la fin du 19ème siècle et les années 1960, s’est construit, notamment à la suite de
l’école anglaise (K. Pearson, W. Gosset (Student), R. Fisher, J. Neyman.. .), la
statistique mathématique (ou statistique inférentielle).
3. Depuis les années 1960, avec le développement des outils informatiques et graphiques,
la statistique, et surtout la statistique descriptive multidimensionnelle, a connu une
expansion considérable.
La statistique est définie aujourd’hui comme étant un ensemble de méthodes visant à
collecter les données, à les traiter et à les analyser en vue de prendre des décisions.
Les méthodes en question relèvent le plus souvent des mathématiques et font largement appel
à l’outil informatique pour leur mise en œuvre.
Exemple : Si à la suite d’une analyse statistique, le Directeur d’une société constate que le
retard de ses employés est dû au manque de moyens de déplacement, il peut par exemple
augmenter les salaires ou leur accorder des prêts afin que chacun puisse disposer d’un moyen
de déplacement.
Le terme « statistique » peut aussi désigner un ensemble de données numériques concernant
une catégorie de faits.
Exemple : Les statistiques sur le chômage, les statistiques sur la réussite des étudiants de la
FaSEG, les statistiques sur la santé, les statistique du commerce extérieur, ….
En général, on classe les méthodes statistiques en deux groupes :
✓ Les méthodes descriptives (statistique descriptive)
✓ Les méthodes inférentielles (statistique mathématique ou inférentielle).
a. La statistique descriptive. On regroupe sous ce terme les méthodes dont l’objectif principal
est la description des informations ou des données étudiées ; cette description des données se
fait à travers leur présentation (la plus synthétique possible), leur représentation graphique, et
le calcul de résumés numériques. Elle donne un aperçu rapide ou une synthèse de la situation
et permet de prendre rapidement des décisions. C’est essentiellement à ces méthodes qu’est
consacré ce cours.
b. La statistique mathématique ou inférentielle. Ce terme regroupe les méthodes dont
l’objectif principal est de préciser un phénomène sur une population globale, à partir de son
observation sur une partie restreinte de cette population (échantillon) d’une certaine manière, il
s’agit donc d’induire (ou encore d’inférer) du particulier au général. Le plus souvent, ce passage
ne pourra se faire que moyennant des hypothèses de type probabiliste.
D’un point de vue méthodologique, la statistique descriptive précède en général la statistique
inférentielle dans une démarche de traitement de données : les deux aspects de la statistique se
complètent bien plus qu’ils ne s’opposent.
NB : le cours de statistique dont il s’agit ici se limitera à la statistique descriptive.
Exemple 2.1 :Dans le cas d’une étude portant sur le nombre d’enfants à charge réalisée dans
un village sur 25 ménages on obtient la série suivante.
2 3 0 1 0 1 4 2 2 0 1 6 2 3 0 4 3 2 2 6 1 1 0 2 1
La présentation et l’usage des tableaux statistiques obéissent à des règles usuelles qui indiquent
leur précision, facilitent leur utilisation et assurent la confiance en l’information qu’ils
contiennent. Pour cela les indications suivantes sont toujours recommandées et doivent
accompagnées un tableau statistique :
Définition de fréquence
n
f = ni i = 1, 2, , k.
i
L’effectif cumulé, noté Ni, est le nombre d’individus de la population ayant soit la modalité
A1 ou la modalité A 2 , ou la modalité A3 , ou la modalité....., ou la modalité Ai
N1 = n1; N 2 = n1 + n 2 ; N i = n1 + n 2 + + n i .
En considérant les définitions précédentes, on peut alors résumer les données d’une variable
qualitative dans un tableau de la façon suivante :
Exemple 2.1 : Une enquête faite auprès d’un groupe d’étudiant a donné les résultats consignés
dans le tableau 2.1 en annexe. Donner la répartition de ce groupe d’étudiant selon la région
d’obtention du BAC.
Avec les logiciels, la colonne comptage n’apparait pas. En réalité cette colonne n’intervient pas
dans l’interprétation des résultats. Elle permet seulement de ne pas faire d’erreur lors de
dépouillement manuel. D’ou
Sur les 50 étudiants enquêtés, 22% ont obtenu leur BAC dans la région des Plateaux.
Le tableau statistique pour une variable quantitative discrète est le même que pour celui d’une
variable qualitative. La seule différence est qu’au niveau de la variable discrète on parle de
valeur au lieu de modalité pour la variable qualitative. Ainsi le tableau formalisé résumant les
données d’une variable quantitative discrète se présente comme suit.
Tableau 2.4 : Répartition des individus enquêtés selon la variable X.
X effectif fréquence Effectif cumulé Fréquence cumulé
x(1) n1 f1 =n1/n N1 F1 = N1 / n
x(2) n2 f 2 =n 2 /n N2 F2 = N 2 / n
.
x(i) ni fi =n i /n Ni Fi = N i / n
.
x(k) nk f k =n k /n Nk=n 1
Total n
NB: x(1) , x(2) , x(3) , . . . , x(K) sont les différentes valeurs (modalités) observées et classées par
ordre croissant c’est-à-dire x(1) est la plus petite valeur observée et x(k) est la plus grande
valeur.
Exemple 2.3:
Tableau 2.5 : répartition étudiants enquêtés selon le nombre d’années passé au Lycée
Nombre d’années passé au Lycée Effectif Fréquence(%) Fréquence cumulée(%)
3 31 62 62
4 15 30 92
5 4 8 100
Total 50 100
La répartition des individus dans le cas des variables quantitatives continues se fait sous forme
d’intervalles à amplitudes égales ou inégales. Il est donc important de connaître les amplitudes
de ces intervalles ou classes. Le nombre de classes est généralement inférieur à10.
➢ Détermination des classes.
• amplitudes conventionnelles.
Il existe des cas naturels de variables continues où l’amplitude est intuitivement connue ou
imposée par l’étude. On peut citer le cas de la distribution d’individus par âge où l’on retient
traditionnellement des amplitudes de 5 ans ou 10 ans.
Dans ce cas, si on désigne par X la variable quantitative étudiée et E l’amplitude imposée, on
formera les intervalles comme suit :
L1, L2 ; L2 , L3 ; L3 , L4 ; L4 , L5 ; ...; Lk −1, Lk
Avec
L1 = X min et L2 = L1 + E ; L3 = L2 + E ; L4 = L3 + E; L5 = L4 + E ; ...; Lk = Lk −1 + E
𝑋max −𝑋min
• La formule de YULE : 𝐸 = 4 où n est le nombre total d’individus.
2,5 √𝑛
Dans ce cas le dénominateur de cette formule est interprété comme étant le nombre de classe
Le tableau statistique pour une variable continue se présente alors comme suit.
Tableau 2.5 : Répartition des individus enquêtés selon la variable X.
X Effectif Fréquence Fréquence cumulé
L1 , L2 n1 f1 =n1/n F1 = N1 / n
L2 , L3 n2 f 2 =n 2 /n F2 = N 2 / n
.
Li , Li +1 ni fi =n i /n Fi = N i / n
.
Lk , Lk +1 nk f k =n k /n 1
Total n
Exemple 2.5:
Tableau 2.6 : répartition étudiants enquêtés selon les dépenses de déplacement journalier
Effectif Fréquence (%) Fréquence cumulée (%)
300 - 500 10 20 20
500 - 700 12 24 44
700 - 900 9 18 62
900 - 1100 8 16 78
1100-1300 7 14 92
1300-1500 4 8 100
Total 50 100
Le tableau indique que la majorité (24%) des étudiants interviewés déboursent un montant de
500 à 700 francs CFA pour leurs déplacements journaliers. Ce tableau indique également que
plus de 62% des étudiants de ce groupe dépensent moins de 900 FCFA pour leurs déplacements
quotidiens.
SEANCE N° 3
Objectif : A la fin de cette séance les apprenants doivent être en mesure de résumer les données
statistiques sous forme de tableaux bidimensionnels
Consignes : les données pour les exemples et les activités sont tirées du tableau 2.20 se
trouvant à la fin du document.
Les tableaux croisés sont appelés ainsi car ils « croisent » deux distributions au sein d’un même
tableau. Ils sont appelés aussi tableaux à double entrée.
On considère une population constituée de n individus que l’on veut étudier selon deux
variables X et Y. Ces variables peuvent être qualitatives, quantitatives discrètes ou quantitatives
continues.
Notations.
➢ E X = {A1 , A 2 , , A I L’ensemble de modalités, de valeurs, ou d’intervalles de la
variable X selon que la variable X soit qualitative, quantitative discrète, ou quantitative
continue.
➢ EY = B1 , B2 ,, BJ EY = {B1, B2, …, BJ} l’ensemble de modalités, de valeurs, ou
d’intervalles du critère Y selon que le critère Y soit qualitatif, quantitatif discret, ou quantitatif
continu.
➢ ni j appelé l’effectif de la case (i, j), est le nombre d’individus ayant simultanément les
modalités (ou valeurs) Ai et Bj.
J
➢ Le total des effectif de la ligne n° i est donné par n i . = n i1 + n i2 + + n iJ = nij
j=1
I
➢ Le total des effectif de la colonne n° j est donné par n. j = n1j + n 2j + + n Ij = nij
i=1
Après avoir précisé ces notations on peut à présent donner une présentation formalisée d’un
tableau croisé à deux dimensions ou tableau à double entrée.
❖ Tableau des effectifs.
Tableau 2.7: Tableau formalisé de la répartition d'une population selon deux critères
Y B1 B2 . . . Bj . . . B J Total
X
A1 n 11 n 12 . . . n1 j . . . n1J n1.
A2 n 21 n 22 . . . n2 j . . . n 2J n 2.
. . . . . .
. . . . . .
Ai ni1 ni2 nij niJ n i.
. . . . . .
. . . . . .
AI n I1 n I2 . . . nIj . . . n IJ n I.
Total n.1 n.2 . . . n.j . . . n.J n ..
Exemple 2.7:
Répartition des employés d’une banque selon le salaire (en millier de francs CFA) et le nombre
d’enfants de l’employé.
Tableau 2.8: répartition des employés d’une banque selon le salaire (en millier de francs
CFA) et le nombre d’enfants de l’employé
Y 0 1 2 3 total
X
[80,100[ 3 4 11 19 37
[100,120[ 5 0 9 5 19
[120,140[ 4 1 7 4 16
[140,160[ 10 0 6 2 18
[160,180[ 6 2 37 0 45
Total 28 7 70 30 135
Dans la pratique les tableaux des effectifs sont peu utilisés par rapport aux tableaux des
fréquences. L’interprétation devient encore plus intéressante lorsqu’elle est faite en termes de
proportion ou fréquence.
Définition : fréquence f ij
n ij
On appelle fréquence f i j , de la case (i, j), la proportion : f i j = . C’est la proportion des
n
individus de la case (i, j).
Exemple 2.8: En reprenant l’exemple 2.7, on obtient le tableau des fréquences ci-après.
Tableau 2.9: répartition des employés d’une banque selon le salaire (en millier de francs
CFA) et le nombre d’enfants de l’employé
Nb d’enfants
0 1 2 3 total
salaire
[80 , 100[ 2,22 2,96 8,15 14,07 27,41
[100,120[ 3,70 0,00 6,67 3,7 14,07
[120,140[ 2,96 0,74 5,19 2,96 11,85
[140,160[ 7,41 0,00 4,44 1,48 13,33
[160,180[ 4,44 1,48 27,41 0 33,33
Total 20,74 5,19 51,85 22,22 100
Exemple 2.9 : interprétation
Le tableau indique que 4,44% des salariés n’ont pas d’enfant et ont un salaire compris entre
160 000 et 180 000.
❖ Distribution marginale
I
Fréquence marginale de la colonne n° j : f . j = fij
i=1
ni. n. j
Il est facile de savoir que f i. = et f. j = .
n n
Des effectifs n ij et des fréquences f i j d’une distribution selon deux variable X et Y, on peut
établir les deux distributions selon chacune des variables. Ainsi, n i . et f i . sont l’effectif et la
fréquence des individus de la modalité A i . Ces deux séries de nombres définissent ce qu’on
appelle la distribution marginale selon la variable X et permettent de dresser le tableau
correspondant. De même, n et f définissent la distribution marginale selon la variable Y.
.j .j
Exemple 2.10: En utilisant les effectifs marginaux de l’exemple 2.7 et les fréquences
marginales de l’exemple 2.8, on obtient les distributions marginales comme suit :
Tableau 2.11 : Distribution marginale des Tableau 2.12 : Distribution marginale des
employés d’une banque selon le salaire employés d’une banque selon le nombre
X Effectif Fréq. d’enfants de l’employé
[80 , 100[ 37 27,41 Y Effectif Fréq.
[100,120[ 19 14,07 0 28 20,74
[120,140[ 16 11,85 1 7 5,19
[140,160[ 18 13,33 2 70 51,85
[160,180[ 45 33,33 3 30 22,2
Total 135 100 Total 135 100
❖ distributions conditionnelles.
Alors que les distributions marginales ne sont que les répartitions des individus selon l’une des
deux variables, indépendamment de la liaison qui peut exister entre X et Y, les distributions
conditionnelles constituent une première approche de l’étude de la liaison entre les deux
variables.
A partir d’un tableau à double entrée, on peut construire deux tableaux de distributions
conditionnelles :
✓ distributions conditionnelles des lignes ou profils lignes ;
✓ distributions conditionnelles des colonnes ou profils colonnes.
Définitions.
ni j
La proposition f j / i = est appelé fréquence conditionnelle de la modalité B j de la seconde
ni .
variable sachant que la première variable a la modalité Ai .
n ij
La proportion f i / j = est la fréquence conditionnelle de la modalité Ai de la première
n. j
variable sachant que la seconde variable a la modalité B j .
Exemple 2.11
A partir du tableau 2. 8, on peut construire les tableaux 2.13 et tableaux 2.14.
Tableau 2.13: Distribution conditionnelles des lignes(%) ou profils lignes
Nb d’enf.
0 1 2 3 total
salaire
[80,100[ 8,11 10,81 29,73 51,35 100
[100,120[ 26,32 0,00 47,37 26,32 100
[120,140[ 25,00 6,25 43,75 25,00 100
[140,160[ 55,56 0,00 33,33 11,11 100
[160,180[ 13,33 4,44 82,22 0,00 100
Total 20,74 5,19 51,85 22,22 100
La lecture du tableau 2.13 indique que plus de la moitié (51,35%) des employés ayant un salaire
compris entre 80 et 100 mille ont 3 enfants alors qu’aucun employé parmi ceux qui ont un
salaire supérieur ou égal à 160 mille n’a pas plus de 2 enfants.
Selon le tableau 2.14, la proportion des employés ayant 3 enfants diminue au fur à mesure que
le salaire augmente. En effet, parmi les employés ayant 3 enfants, 63,33% ont un salaire
inférieur à 100 mille, 16, 67% ont un salaire compris entre 100 et 120 mille, 13,33% dispose
d’un salaire compris entre 120 et 140 mille.
CHAPITRE 2 : TABLEAUX STATISTIQUES ET
REPRESENTATION GRAPHIQUE (SUITE)
SEANCE N° 4
Objectif : A la fin de cette séance les apprenants doivent être en mesure de résumer les données
statistiques à travers les graphiques : cas de variables qualitatives et quantitatives discrètes
Un graphique doit être clair et simple. Il doit avoir un titre, une source, une légende et une unité.
Sur le diagramme circulaire, chaque modalité est représentée par un secteur circulaire dont
l’angle est proportionnel à son effectif ou sa fréquence. Chaque secteur doit être différentié des
autres par un type de hachure ou par une couleur. L’angle de chaque secteur est obtenu par la
formule
360.n
i = 360. fi = i
n
Insuffisant Passable
55% 15%
Assez bien
15%
Pour construire le diagramme en tuyaux d’orgues, on représente chaque modalité par un tuyau
dont la hauteur est proportionnelle à l’effectif correspondant ou à la fréquence correspondante.
L’ordre des tuyaux n’a pas de sens.
Exemple 2. 15
015% 015%
011%
004%
C’est une représentation dans un système d’axes cartésien où l’axe des abscisses porte les
différentes valeurs possibles (x1 , x2 , x3 , . . . , xk) de la variable étudiée et les effectifs (
n1 , n 2 , n 3 ,..., n k ) ou les fréquences ( f1 , f 2 , f 3 ,..., f k ) sont portés par l’axe des ordonnées. Le point
( xi , 0) et le point correspondant ( xi , n i ) sont joints par un segment vertical gras appelé « bâton »
Exemple 2. 16 : En reprenant le tableau 2.5, on peut établir la répartition de ces étudiants selon
le nombre d’années passés au Lycée en utilisant le diagramme en bâtons comme l’indique le
graphique 2.3 ci-après.
Graphique 2.3: répartition du groupe d’étudiants enquêtés selon le nombre d’années passé
au Lycée
35
30
25
20
15
10
5
0
0 1 2 3 4 5 6 7
La fonction cumulative, notée F, d’une population étudiée selon une variable quantitative X,
est une fonction réelle qui à toute valeur x, fait correspondre la proportion F(x) des individus
de la population dont la valeur de la variable est inférieure ou égale à x
𝟎 x<x(1) Où
F(x)= {Fi x(i) ≤ x<x(i+1)
- les x(1) , x(2) , x(3) , . . . , x(k) sont des
1 x(k) ≤ x valeurs différentes de la variable
étudiée ;
- les F1 , F2 , F3 ,..., Fk-1 sont des fréquences
cumulées.
Graphique 2.4: répartition étudiants enquêtés selon le nombre d’années passé au Lycée
1,2
0,8
0,6
0,4
0,2
0
0 1 2 3 4 5 6 7 8
CHAPITRE 2 : TABLEAUX STATISTIQUES ET
REPRESENTATION GRAPHIQUE (SUITE)
SEANCE N° 5
Objectif : A la fin de cette séance les apprenants doivent être en mesure de résumer les données
statistiques à travers les graphiques : cas de variables quantitatives continues
[Link]- Histogramme
L’histogramme consiste à représenter les effectifs (resp. les fréquences) des classes par des
rectangles contigus dont la surface représente effectif (resp. la fréquence).
Comme les classes n’ont pas la même amplitude, il faudrait déterminer les fréquences corrigées.
0,07
0,06
0,05
0,04
0,03
0,02
0,01
0
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000
Remarque 2.1 : Dans le cas de classes de même amplitude certains auteurs et logiciels
représentent l’histogramme avec les effectifs (resp. les fréquences) reportés en ordonnée, l’aire
de chaque rectangle étant proportionnelle à l’effectif (resp. la fréquence) de la classe.
Le polygone des fréquences généralement associé à l’histogramme est la ligne brisée qui joint
les points (c1 -a1 ;0), (c1;f1 ), (c 2 ;f 2 ),..., (c k ;f k ), (c k +a k ;0) .
Exemple 2. 19:
En reprenant les données du tableau 2.7, le polygone de fréquence se présente comme suit :
Ordonnées Polygône
Ainsi, les valeurs de F, pour des observations groupées, sont inconnues à l’intérieur des
intervalles ouverts ]𝒙(i-1) , 𝒙(i) [i = 1, 2, …, k.
Par convention, ces valeurs sont alors approximées par interpolation linéaire comme suit :
0 x < x0
x - x(i-1)
F(x)= Fi-1 + x - x .(Fi -Fi-1 ) x(i-1) <x ≤ x(i)
(i) (i-1)
{ 1 x(k) ≤ x
Exemple 2. 20: Illustrons les données du tableau 2.17 par la courbe cumulative.
0,8
0,6
0,4
0,2
0
0 500 1000 1500 2000 2500 3000 3500 4000 4500
-0,2
Quelque fois, il est plus expressif de parler de la proportion des individus de la population dont
la valeur de la variable étudiée est supérieure à une limite donnée. Par exemple, quelle est la
proportion des étudiants dont la moyenne dépasse 15 sur 20 ou bien quelle est la proportion des
ménages ayant plus de 6 enfants. Cela conduit à définir les fréquences cumulées décroissantes
et la courbe cumulative décroissante.
Définition
Soit une population étudiée selon une variable quantitative X, la fonction cumulative
décroissante, notée G, fait correspondre à tout nombre réel x, la proportion G(x) des individus
de la population dot la valeur de la variable est strictement supérieure à x.
Par définition on :
G( x ) + F( x) = 1 Pour tout x.
x - x(i-1)
D’où 𝑮(𝒙) = 𝑮i-1 − .(Gi-1 -Gi ) x(i-1) <x ≤ x(i)
x(i) - x(i-1)
0,8
0,6
0,4
0,2
0
0 500 1000 1500 2000 2500 3000 3500 4000 4500
Graphique 2.11: les deux courbes cumulatives dans un repère cartésien décroissante
1,2
0,8
0,6
0,4
0,2
0
0 500 1000 1500 2000 2500 3000 3500 4000 4500
-0,2
Ce graphique permet de résumer les caractéristiques. Il a été inventé par le statisticien Tukey
en 1977. Il s’agit d’un diagramme qui est très facile de construction manuelle et qui permet une
visualisation très rapide et très aisée des données décrivant une variable quantitative. En
anglais, cette représentation graphique est dénommée « Stem and leaf display » ce qui,
littéralement veut dire la représentation en «tige et feuilles». Tout comme plusieurs feuilles
viennent se coller à une même tige et que l’arbre comporte plusieurs tiges, les valeurs
numériques d’une variable peuvent être scindées en tiges et feuilles. On peut donc organiser les
données de manière à regrouper les feuilles par tige. L’avantage de cette représentation est
qu’elle permet une lecture simultanée et de manière assez pratique, des données initiales et du
graphique.
Activité 2.8 :
15,9 10,3 15,5 15,8 18,5 18,2 12,2 12,6 15,6 12,7
12,8 10,6 12,9 12,5 10,6 18,3 18,7 18 12,4 10
Faire la représentation graphique de Tuckey.
Solution :
Il faut définir les tiges et les feuilles. Les données varient entre 10 et 18,7. Dans cet exemple,
on peut prendre les valeurs entières comme tiges et les décimales comme feuilles.
Les tiges sont donc 10 ; 12 ; 15 et 18.
Les valeurs 12,2 ; 12.6 ; 12,7 ; 12,8 ; 12,9 ; 12,5 ; 12,4 ont la même tige qui est 12.
La feuille associée à 12,2 est 2 et celle de 12.9 est 9
La tige de 10 est 10 et sa feuille est 0.
Le diagramme se présente alors sous la forme :
Tige Feuille
10 3660
12 2678954
15 9586
18 52370
En rangeant les feuilles dans l’ordre croissant, on obtient le diagramme suivant :
Tige Feuille
10 0366
12 2456789
15 5689
18 02357
SEANCE N° 6
Objectif : A la fin de cette séance les apprenants doivent être en mesure de reconnaître les
différentes formules de la moyenne.
Il s’agit dans ce chapitre de définir un nombre ou une caractéristique qui résume toute
l’information et qui est précisément, une fonction des observations individuelles, au sens
mathématique. Ces nombres ou caractéristiques qui résument les observations individuelles se
classent plusieurs types dont :
3.1.1- Moyenne
C’est l’une des caractéristiques les plus utilisées en statistique. Elle peut remplacer chaque
valeur de la variable étudiée. Il existe deux types de moyennes : la moyenne simple et la
moyenne pondérée. La moyenne simple est calculée à partir des données non regroupées et la
moyenne pondérée est obtenue à l’aide d’un regroupement. Pour chaque type, on calcule
généralement la moyenne arithmétique, la moyenne géométrique, la moyenne harmonique et la
moyenne quadratique.
[Link]- Définition
Soit un échantillon de taille n étudié selon la variable X. Après la collecte des données sur cet
échantillon on disposera alors de n observations individuelles x1 , x2 , . . . , xn et la moyenne
s’obtient à partir de la formule suivante :
n 𝐾
1 a a
Ma =√ ∑ xai = √∑ w𝑘 xa𝑘
n
i=1 k=1
Tableau 3.1:
a -1 0 1 2
moyenne harmonique Géométrique arithmétique quadratique
Tableau 3.2:
Moyenne simple Moyenne pondérée
n 𝐾 𝐾
Moyenne 1 1
𝑋̅ = ∑ xi 𝑋̅ = ∑ n𝑘 x(𝑘) = ∑ 𝑓𝑘 x(𝑘)
arithmétique n n
i=1 k=1 i=1
géométrique
n n 1
H= n H= =
Moyenne 1 𝐾 𝐾
∑ x n𝑘 𝑓𝑘
harmonique i=1 i ∑ ∑
x(𝑘) x(𝑘)
k=1 k=1
n 𝐾 𝐾
Moyenne 1 1
Q=√ ∑ x2i Q=√ ∑ n𝑘 x2(𝑘) = √∑ 𝑓𝑘 x2(𝑘)
quadratique n n
i=1 k=1 i=1
K est le nombre de valeurs différentes de la variable dans le cas d’une variable discrète ou le
nombre de classes s’il s’agit d’une variable continue et 𝑛𝑘 le nombre de fois que 𝑥𝑘 a été
K
observé. On a n = nk
k =1
NB : La moyenne est très sensible aux valeurs extrêmes, et cela d'autant plus que ces
valeurs extrêmes se distinguent des autres observations et que l'effectif est petit.
[Link]- Moyenne arithmétique
C’est la formule la plus utilisée. Si aucune précision n’est faite alors pour déterminer la
moyenne d’un caractère, on utilise en général, la formule de la moyenne arithmétique.
Exemple 3.1 :
4 3 5 3 5 4 3 4 4 5 5 4 4 3 3 4 3 4 5 5
Déterminer le nombre moyen d’année passé au Lycée pour les 20 étudiants interviewés.
Solution
1
• Moyenne simple 𝑋̅ = n ∑ni=1 xi
4+3+5+3+5+4+3+4+4+5+5+4+4+3+3+4+3+4+5+5
X= =4
20
K
1
• Moyenne simple 𝑋̅ = n ∑ nk x(k)
k=1
6x3+8x4+6x5
X= =4
20
Exemple 3.2
Calculer la moyenne arithmétique pour les ouvriers d’une usine dont le salaire (en millier de
francs CFA) est réparti comme suit :
Tableau 3.5:
Solution
Ici la formule adaptée est la formule de la moyenne pondérée car les données sont déjà
regroupées.
K
1
𝑋̅ = ∑ nk X(k)
n
k=1
On constate que les xi (salaires individuel) ne sont pas donnés. Seuls les intervalles de salaire
sont donnés. Par exemple selon le tableau 3.5, on sait 22 ouvriers de cette usine ont un salaire
compris entre 80 et 100 mille.
Dans ce cas on remplace les xi par les C i (centres des classes). D’où le tableau 3.6 suivant :
Tableau 3.6:
P1 : La somme des écarts des valeurs de la variable par rapport à la moyenne arithmétique est
n
nulle. Cette propriété se traduit par la formule suivante : ∑ (xi - 𝑋̅ ) =0
i=1
P4 : La somme des carrés des écarts par rapport à un nombre quelconque u est égale à la somme
des carrés des écarts par rapport à la moyenne ajouté à n fois le carré de l’écart entre la moyenne
n n
et le nombre u. ∑ (xi -u)2 = ∑ ̅ )2 + n(X
(xi -X ̅ -u)2
i=1 i=1
P5 : La moyenne arithmétique rend minimale la somme des carrés des écarts par rapport à u (u
n n
un réel quelconque): s(u)= ∑ (xi -u)2 .C'est-à-dire que pour tout nombre réel, s(u)> ∑ (xi -
i=1 i=1
2
𝑋̅) .Cette propriété signifie que si on prend comme distance totale entre le nombre u et les
valeursx1 , x2 , . . . , xn , la sommes des carrés des écarts s(u) , la moyenne est la plus proche avec
cette distance.
P6 : La moyenne d’un mélange de deux populations étudiées selon le même caractère X, est
égale à la moyenne pondérée par leurs tailles de leurs moyennes. C'est-à-dire
n1 X1 +n 2 X 2
X=
n
[Link]- Moyenne géométrique
La moyenne géométrique est la formule utilisée pour le calcul du taux d’accroissement moyen
d’une grandeur entre deux instants. Pour le voir, supposons donnée une série d’observations
temporelles : y0 , y1, y 2 ,..., y t ,...., yT où t désigne le temps. Pour des séries économiques, t
désigne par exemple le mois, le trimestre, le semestre, l’année, etc. La grandeur subit une
variation entre deux instants t et t’ ( t t ' ), pouvant être mesurée par son accroissement relatif
ou taux d’accroissement r égal à :
t ,t '
y −y
r = t' t
t ,t ' yt
y = (1 + r ) y
1 0,1 0
y = (1 + r ) y
2 1,2 1
: y
(1 + r0,1)(1 + r1,2 )...(1 + rt −1,t )...(1 + rT −1,T ) = T ( 3.2)
yt = (1 + rt −1,t ) yt −1 y0
:
yT = (1 + rT −1,T ) yT −1
Calcul de r
y1 = (1 + r ) y0
y2 = (1 + r ) y1
: y
(1 + r )T = T ( 3.3 )
yt = (1 + r ) yt −1 y0
:
yT = (1 + r ) yT −1
On aura
Les développements ci-dessus sont surtout destinés à faire éviter aux étudiants une erreur
souvent commise, due à l’ignorance que le taux d’accroissement moyen n’est pas la moyenne
arithmétique des taux d’accroissement relatifs. Cependant, quand les taux d’accroissement
relatifs sont faibles par rapport à l’unité, le taux d’accroissement moyen peut être approximé
valablement par la moyenne arithmétique des taux d’accroissement relatifs.
Exemple 3.4 :
Quatre cyclistes parcourent chacun 100km. Les vitesses respectives pour ces 4 cyclistes sont de
10 km/h, 30 km/h, 40 km/h, 20 km/h. Quelle a été sa vitesse moyenne ?
Solution
On sait que
Le nombre d’heures de parcours est le temps total mis par les 4 cyclistes pour parcourir
les 400 Km.
400
Vitesse moyenne = = 19,2
20,8333
4
Vitesse moyenne harmonique = = 19,2
1 1 1 1
10 + 30 + 40 + 20
CHAPITRE 3 : DESCRIPTION NUMERIQUE
D’UNE VARIABLE STATISTIQUE
Calcul du mode
SEANCE N° 8
Objectif : A la fin de cette séance les apprenants doivent être en mesure de calculer et interpréter
le mode d’une variable statistique
3.1.2- mode ( M 0 )
Le mode d’une variable correspond à la modalité ayant l’effectif le plus élevé. Sa détermination
varie selon que la variable soit discrète ou continue.
Tableau 3.8:
Age 16 18 19 20 21
ni 5 8 10 22 5
Le mode est 20 ans. C'est-à-dire que la plupart des étudiants ont 20 ans.
Dans ce cas, on détermine d’abord la classe modale ; c'est-à-dire la classe dont l’effectif est le
plus élevé. Ensuite on détermine le mode à l’aide de la formule
(n0 − n1 )
M 0 = L1 + K
(n0 − n1 ) + (n0 − n2 )
où
✓ L1 est la borne inférieure de la classe modale ;
✓ K est l’amplitude de la classe modale ;
✓ n0 est l’effectif de la classe modale ;
✓ n1 est l’effectif de la classe qui précède la classe modale ;
✓ n2 est l’effectif de la classe qui suit la classe modale.
d1
Si nous posons d1 = n0 − n1 et d 2 = n0 − n2 , la formule devient M 0 = L1 + K
d1 + d2
Tableau 3.9:
Salaire en Fréquence
millier Effectif (%)
80-100 22 17,60
100-120 30 24,00
120-140 45 36,00
140-160 18 14,40
160-180 10 8,00
Total 125
15
M 0 = 120 + 20. =127,14286. Ce qui veut dire que la majorité des ouvriers de l’usine
15 + 27
gagne environ 127143.
d2
Le mode peut aussi se déterminer par le formule : M 0 = L2 − K . Il suffit de remarquer
d1 + d 2
dans la formule précédente que L2 = L1 + K .
Lorsque la variable étudiée est continue, on peut utiliser son histogramme pour déterminer le
mode.
Graphique 3.1
3.1.3- médiane Me
La médiane d’une variable est la valeur de cette variable qui partage l’échantillon en en deux
parties égales. Lorsqu’on dispose d’une série, la médiane est la valeur qui partage cette série,
préalablement classée, en deux séries aux effectifs égaux. Dans la première série, on trouve les
valeurs inférieures à la médiane. Dans la seconde série on trouve les valeurs supérieures à la
médiane.
Exemple 3.7 :
Les séries suivantes renferment le nombre d’heures de cours suivies par respectivement 5 et 6
étudiants. Déterminer les médianes.
4 10 0 3 7 10 0 7 3 4 9
Pour déterminer la médiane d’une série x1 , x2 , x3 , . . . , xn il faut d’abord classer cette série
par ordre croissant. On obtient alors une nouvelle série x(1) , x(2) , x(3) , . . . , x(n) où x(1) est la
valeur minimale et x(n) est la valeur maximale. Une fois la série classée, la Médiane est :
La médiane est alors la première modalité pour la laquelle la fréquence cumulée est supérieure
ou égale à 50%. Dans ce cas Me=20 ans.
Si l’on a plutôt utilisé les effectifs cumulés alors la médiane est la première modalité pour
laquelle l’effectif cumulé est ou égal à la moitié de la taille de l’échantillon.
Dans ce cas, à l’aide d’un regroupement par classes, on peut déterminer la classe médiane puis
la médiane en utilisant la formule suivante :
(50−𝐹1 )
𝑀𝑒 = 𝐿1 + 𝐾 où
𝑓𝑒
Exemple 3.9 :
Tableau 3.11:
Salaire en millier Effectif fi Fi
80-100 22 17,6 17,6
100-120 30 24,0 41,6
120-140 45 36,0 77,6
140-160 18 14,4 92,0
160-180 10 8,0 100
Total 125 100 -
La classe médiane est [120-140[ donc L1=120 ; F1=41,6 ; fe=36 et K=20. D’où
50−41,6
𝑀𝑒 = 120+20. =124,667 ; ce qui veut dire que 50% des ouvriers ont un salaire inférieur
36
à 124667.
X1/2
3.1.4- quantiles
Tout comme la médiane qui divise l’échantillon en deux parties égales, on peut aussi déterminer
trois valeurs qui divisent l’échantillon en quatre parties égales ; 9 valeurs qui divisent l’effectif
en 10 parties égales ou 99 valeurs qui divisent l’effectif en 100 parties égales et ainsi de suite.
Il est possible d’obtenir une formule analogue à celle de la médiane. En effet, si nous voulons
diviser notre effectif en p parties égales, il nous suffit de trouver p-1 valeurs correspondant
respectivement aux fréquences cumulées suivantes :
1 2 3 p −1
100% ; 100% ; 100% ; ......; 100% . Ce qui peut être généralisé sous la forme
p p p p
j
100% ; j = 1; 2;..... ; p − 1 . Par analogie à la formule de la médiane, ceci revient à déterminer
p
j
100 p − F1
les valeurs de la forme : L1 + K
fe
Ainsi si nous voulons partager l’effectif total en 4 parties, on calculera les 3 valeurs pour p=4 et j=1 ; 2 ;
4. Ces valeurs sont appelées les quartiles et notées Q1, Q2 et Q3 ; respectivement appelées 1er quartile,
2ème quartile et 3ème quartile.
Q1 = L1 + K
( 25 − F1 ) ; Q2 = L1 + K
(50 − F1 ) ; Q = L1 + K
( 75 − F1 )
3
fe fe fe
100 j
− F1
Pour p=10, on parle des déciles notés Dj. Il en existe 9 valeurs. D j = L1 + K ,
10
fe
j=1, …, 9.
Pour p=100, on parle des percentiles notés Pj. Il en existe 99 valeurs.
100 j
− F1
Pj = L1 + K
100 = L + K ( j − F1 ) , j=1, …, 99.
1
fe fe
Remarque : Les quantiles peuvent être obtenus à l’aide d’un raisonnement avec les effectifs
j
n p − N1
cumulés. Dans ce cas, la formule générale devient : L1 + K .
ne
Les étapes du calcul des quantiles.
1- Déterminer p
2- Déterminer la valeur de j
3- Identifier la classe qui contient le quantile. Cette classe est la 1ère pour laquelle la
j
fréquence cumulée est supérieure à 100%
p
4- L1 est la borne inférieure de la classe qui contient le quantile.
5- K est l’amplitude de la classe qui contient le quantile
6- F1 est la fréquence cumulée de la classe qui précède celle qui contient le quantile
7- fe est la fréquence de la classe qui contient le quantile.
Remarque : Me = Q2 = D5 = P50
CHAPITRE 3 : DESCRIPTION NUMERIQUE
D’UNE VARIABLE STATISTIQUE
Calcul des caractéristiques de dispersion
SEANCE N° 10
Objectif : A la fin de cette séance les apprenants doivent être en mesure de calculer et interpréter
les caractéristiques de dispersion
3.2.1- étendue
L’étendue d’une variable X est donnée par 𝑒 = Xmax − 𝑋min . Elle donne une indication sur le
domaine de variation de la distribution mais ne tient pas compte de la répartition des individus
sur le domaine.
Sa définition est simple : l’intervalle interquartile noté IQ, mesure l’étendue des 50% de valeurs
situées au milieu d’une série de données classées. Il est déterminé par la formule :
𝐼𝑄 = 𝑄3 − 𝑄1
Dans la pratique le réel x est une caractéristique de tendance centrale. On choisi généralement
1 𝑛
le mode, la moyenne ou la médiane. On note alors 𝐸𝑋̅ = 𝑛 ∑𝑖=1|𝑥𝑖 − 𝑋̅| ; 𝐸𝑀0 =
1 1
∑𝑛𝑖=1|𝑥𝑖 − 𝑀0 | ; 𝐸𝑀𝑒 = ∑𝑛𝑖=1|𝑥𝑖 − 𝑀𝑒 |. Le plus utilisé est E X
𝑛 𝑛
L’écart absolu moyen a pour intérêt de prendre en compte la répartition des individus. Plus la
population est concentrée autour de x, plus E x est faible. Dans le cas contraire, E x est élevé.
Var ( X ) = X2 = X 2 − ( X )
2 1 𝑛 1 𝐾 𝐾
où ̅̅̅
𝑋 2̅ = 𝑛 ∑𝑖=1 𝑥𝑖2 = 𝑛 ∑𝑘=1 𝑛𝑘 𝑥𝑘2 = ∑𝑘=1 𝑓𝑘 𝑥𝑘2 .
Propriété de la variance
Soit X une variable statistique, a et b deux réels. On a:
Var(X+b) = Var(X) ; Var(aX) = a 2Var ( X ) ; Var(aX+b) = a 2Var ( X )
Var(X+Y) = Var(X) + Var(Y) si les variable X et Y sont indépendant
Var(X-Y) = Var(X) + Var(Y) si les variable X et Y sont indépendant
Graphique 3.3
Cette distribution vous sera mieux exposée dans l’UE de Probabilité ou statistique3
Une distribution peut donc être soit étalée à gauche ou à droite de la distribution normale centrée
et réduite ou soit plus aplatie ou moins aplatie que la distribution normale centrée et réduite.
Graphique 3.4
Pour faire ces comparaisons, on utilise 2 types de caractéristiques de forme :
3.3.1-Notion de moment
(4)
2 = −3
4
M
2 − M1
Mle = L1 + k où
me
Remarque
Mle − M e Mle − M e
ie = =
e X max − X min
1
L’indice de concentration est une mesure de la dispersion relative utilisée pour la description
de certaines distributions statistiques : distribution de salaires ou de revenus d’entreprises
suivants leur taille (nombre de salariés, chiffre d’affaire, population d’un pays).Cette
caractéristique ne s’applique qu’aux variables statistiques continues et à valeurs positives. Son
calcul exige la connaissance pour chaque classe du nombre d’observations (nombre
d’individus, nombre d’entreprises, ….).
La courbe de Lorentz est obtenue en prenant en abscisse les fréquences cumulées (Fi) et en
ordonnée les masses relatives cumulées (Qi).
Activité 3.6 :
Représenter la courbe de Lorentz et déterminer l’indice de GINI pour la répartition des salaires
des ouvriers dont le tableau est donné à l’Activité2.
Li + Li +1
; mi = ni ci ; M = mi ; qi = i ; Si = Qi −1 + Qi
m
ci =
2 M
Tableau 3.12:
Classes ni Centre (ci) fi Fi mi qi Qi Si fi*Si
80-100 22 90 17,6 17,6 1980 12,7 12,7 12,7 224,4
100-120 30 110 24,0 41,6 3300 21,2 34,0 46,7 1122,0
120-140 45 130 36,0 77,6 5850 37,7 71,7 105,7 3804,0
140-160 18 150 14,4 92,0 2700 17,4 89,1 160,7 2314,4
160-180 10 170 8,0 100 1700 10,9 100 189,1 1512,4
Total 125 - - - 15530 8977
L’indice de GINI est le double de l’aire A délimitée par la courbe de Lorentz et la première
1
bissectrice. En utilisant la méthode des trapèzes, on montre que iG = 1 −
10000
fi Si ; les
fréquences étant exprimées en pourcentage.
2
L’application numérique donne iG =0,10228=10,23%.
L'indice de Gini est très utilisé en économie comme mesure des inégalités dans une population.
Supposons par exemple que la variable X corresponde aux revenus dans une population. Si
l'indice de Gini est proche de 0, ceci signifie que les différences relatives sont en moyenne
faibles par rapport à la moyenne des revenus : les inégalités dans la population sont faibles. Si
l'indice de Gini est proche de 1, alors au contraire il y a de fortes différences relatives en
moyenne : les inégalités sont fortes!
Dans notre exemple, nous avons trouvé une valeur estimée à 9,96% pour l’indice de Gini. Cette
valeur relativement faible signifie que les différences relatives des salaires mensuels dans cette
société par rapport à la moyenne sont faibles. On parle donc d’une distribution plus égalitaire.
Sur le plan social, cela peut signifier que dans cette société, à court ou moyen terme, il n’y a
pas de risque de mouvement de réclamation d’une certaine couche d’employés pour des hausses
de salaires.
L'indice de Gini fait partie des données récoltées par l'Organisation des Nations Unies lorsqu'elle dresse tous
les ans un tableau du "développement humain" à travers le monde. Voici la définition donnée en annexe de ce
document (année 2005) : "Indice de Gini : Indique dans quelle mesure la répartition du revenu (ou de la
consommation) entre les individus ou les ménages d’un pays s’écarte de l’égalité parfaite. On construit pour
cela une courbe de Lorenz qui met en regard les pourcentages cumulés du revenu total et les nombres cumulés
de personnes percevant ce revenu, en commençant par les individus ou les ménages les plus pauvres. L’indice
de Gini mesure la zone située entre cette courbe de Lorenz et une droite hypothétique représentant l’égalité
absolue. La superficie de cette zone est exprimée en pourcentage de l’espace maximal situé sous cette ligne. Le
chiffre 0 représente cette égalité parfaite (hypothétique), et le chiffre 100 une situation d’inégalité absolue." A
titre indicatif, dans ce document, l'indice de Gini de la Norvège est 25,8%, celui de la France est 32,7%, celui
des Etats-Unis 40,8%, celui du Brésil 59,3% et celui de la Namibie 70,7%...