0% ont trouvé ce document utile (0 vote)
22 vues57 pages

Statistique Descriptive Nutrition

Ce document est un cours sur la statistique descriptive destiné aux nutritionnistes non statisticiens, abordant des concepts clés tels que les types de variables, la collecte et l'analyse de données. Les apprenants apprendront à produire et interpréter des tableaux et des indicateurs statistiques à l'aide d'outils comme Excel. Le cours inclut des définitions, des méthodes de collecte de données et des critiques sur l'utilisation de la statistique.

Transféré par

jeancyngovula53
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
22 vues57 pages

Statistique Descriptive Nutrition

Ce document est un cours sur la statistique descriptive destiné aux nutritionnistes non statisticiens, abordant des concepts clés tels que les types de variables, la collecte et l'analyse de données. Les apprenants apprendront à produire et interpréter des tableaux et des indicateurs statistiques à l'aide d'outils comme Excel. Le cours inclut des définitions, des méthodes de collecte de données et des critiques sur l'utilisation de la statistique.

Transféré par

jeancyngovula53
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

République Démocratique du Congo

Enseignement Supérieur et
Universitaire
INSTITUT SUPERIEUR DES TECHNIQUES
MEDICALES DE KIKWIT « ISTM KKT»

STATISTIQUE DESCRIPTIVE
LMD2
NUTRITION

Ir. Ryaz Jeancy NGOVULA MBISI


Assistant

NEW EDITION
Introduction

Ce cours est élaboré dans le cadre des programmes


continus des nutritionnistes Ryaz Jeancy NGOVULA. Elle
s’adresse principalement à des nutritionnistes non statisticiens
exerçant dans le ministère de la santé et impliqués dans la
production ou l’exploitation des données statistiques dans le
cadre de leurs activités professionnelles.
A l’issue de la formation, les apprenant doivent maîtriser les
principales notions de la statistique descriptive, être capables
de produire et interprétés des tableaux et des indicateurs de
synthèse statistique d’une ou plusieurs série de données. En
particulier, le cours aborde les questions suivantes :
Concepts de base ;
Typologie des variables ;
Étude d’une variable qualitative ;
Étude d’une variable quantitative discrète ;
Étude d’une variable quantitative continue ;
Caractéristiques de tendance centrale et utilité ;
Caractéristiques de dispersion et utilité ;
Étude d’une série statistique bivariée quantitative ;
Étude d’une série statistique bivariée qualitative ;
Notions générales sur les indices et les séries temporelles.
Pour chacune des notions, des exemples concrets seront
abordés avec des travaux pratiques sur Excel. Par conséquent,
les apprenants doivent être munis chacun d’un ordinateur et
avoir au moins des capacités de base à l’utilisation des logiciels
bureautiques Excel et Word.

2
Chapitre 1 : Concepts de base

1. Définition
La statistique est la science qui a pour objet de recueillir,
organiser, classer, présenter et interpréter les données.
La statistique (science) est à distinguer d’une statistique
(généralement employée au pluriel) qui désigne un chiffre ou
une collection de chiffres se rapportant à un sujet quelconque et
élaborés grâce à des outils et des méthodes statistiques.
2. Objet et utilité de la statistique
L’objet de la statistique est l’étude des faits pour prendre des
décisions. Elle utilise des outils mathématiques pour étudier les
propriétés numériques des ensembles de faits nombreux. Elle
permet de :
Décrire les caractéristiques d’une population ainsi que les
relations entre les critères qui caractérisent la population.
Exemple : décrire le lien entre l’ancienneté des employés
et leur salaire ; estimer des paramètres et prendre des
décisions ; prévoir et éventuellement expliquer.
Pour un pays, par exemple, la statistique permet de mesurer
des agrégats afin de connaître la situation actuelle d’un
phénomène (conjoncture économique), son évolution dans le
temps, de prévoir son état futur (prévision des recettes de
l’Etat), de comparer des entités, de décider de l’action à mener.
L’enseignement de la statistique présente essentiellement deux
grandes branches :
Les méthodes descriptives : elles comprennent les
statistiques descriptives et l’analyse des données (analyses
factorielles et classification). Elles servent à simplifier un
ensemble de données (généralement vaste) sans trop
perdre d’information par le biais de graphes, de tableaux et
de nombres qui résument les données ;
La statistique mathématique dont l’objet et de formuler les
lois à partir d’échantillons et de sous-ensembles d’une
population statistique.

3
3. Définition des concepts usuels de la statistique
3.1. Population et individu
L’ensemble sur lequel porte une étude statistique est appelé «
population ». Chaque élément de cet ensemble est appelé «
individu » ou « unité statistique ».
Remarque :
On emploiera les termes population et individu aussi bien
lorsqu’il s’agit d’un ensemble d’êtres humains (les salariés
d’une entreprise) ou d’objets inanimés ou bien d’un
ensemble plus ou moins abstrait comme l’ensemble des
accidents de la route au cours d’une période donnée.
La population étudiée doit être définie de façon précise pour
que tous les intervenants qui concourent à l’observation,
au traitement, à l’analyse ou à l’utilisation de l’information
statistique en aient la même compréhension.

Exemples :
La population du Burkina Faso au 1er janvier 2015
Préciser si les burkinabé de l’étranger et les étrangers
vivant au BF en font partie.

Les salariés de l’entreprise X au 31 décembre 2006


Les étudiants inscrits pour la 1 ère fois à l’Université de
Ouagadougou en 2014.

3.2. Echantillon/Population mère


Il est souvent difficile voire impossible de mener une étude
statistique sur une population toute entière. On choisit alors de
travailler sur une partie de cette population. La sous-population
choisie est appelée échantillon. La population initiale d’où est
tiré l’échantillon est la population mère.
La taille d’un échantillon (ou d’une population) est le nombre
d’unités statistiques qui le composent.

3.3. Variable statistique ou caractère

4
C’est le critère ou la propriété suivant lequel on étudie la
population statistique.
Exemple :
L’âge des étudiants d’une université
L’ancienneté des travailleurs d’une société
La couleur des motocyclettes dans la ville de Kikwit
Le degré d’appréciation d’une mesure gouvernementale par
les populations.
La variable statistique prend des valeurs différentes pour les
individus de la population. Les valeurs possibles d’une variable
statistique sont ses modalités.
Exemple : Couleur des yeux : noir, bleu, marron ou vert
La variable statistique peut être qualitative ou quantitative.
3.4. Types de variables
statistiques

Discrète
Quantitative
Continue
Variable
statistique
Nominale
Qualitative
Ordinale

Variable mesurable ou
quantitative : repérable
Exemples : âge, poids, ancienneté, température, taille, nombre
d’enfants en charge.
Variable quantitative discrète : variable dont les modalités
sont des valeurs isolées (par exemple des valeurs entières).
Exemple : nombre d’enfants à charge, taille des entreprises (en
nombre d’employés), nombre de pièces des logements des
ménages.
Variable quantitative continue : variable pouvant prendre
toute valeur dans un intervalle donné. En général, ses modalités
sont des nombres à virgule.

5
Exemple : âge, poids (en kilogrammes), taille (en mètres), PIB
par tête des pays, salaire des employés.
En pratique, on considère qu’une variable quantitative est
continue lorsqu’elle prend un très grand nombre de valeurs
possibles.
Exemple : le revenu, le salaire des employés d’une entreprise.
Variable qualitative : les modalités sont non mesurables. Elles
sont généralement représentées par des noms qui traduisent des
états.
Exemple :
Couleurs des yeux : Bleu/Noir/Vert/Marron

Situation matrimoniale : Marié/Nonmarié

Marié/Célibataire/Divorcé/Veuf

Appréciation d’un cours par les étudiants : Mauvais/Bon/Très Bon


Remarque
Les modalités peuvent être représentées par des chiffres qui
représentent des codes (codage) et non une mesure.
Exemple
Situation matrimoniale :

Variable qualitative nominale : les modalités ne présentent


aucun ordre, aucune hiérarchie entre elles.
Exemple : situation matrimoniale, couleur des yeux
Variable qualitative ordinale : les modalités respectent un

certain ordre Exemple :

Appréciation d’un cours : < < è


Catégorie socio professionnelle dans une entreprise :

6
; !"; #é
4. Elaboration de statistiques
L’étude statistique des phénomènes suppose d’abord une
collecte des données de base. Cette collecte se fait à partir
d’enquêtes (collecte auprès de personnes morales ou
physiques), de résultats d’expériences ou d’exploitation de
fichiers administratifs.
L’observation des faits peut se faire de façon instantanée
(enquêtes par sondages et recensements) ou de façon continue
(enregistrement des naissances à l’état civil, comptabilité d’une
entreprise).

4.1. Recensement

C’est une méthode exhaustive, c'est-à-dire que toute la


population fait l’objet d’observation suivant le ou les caractères
étudiés.
Exemple : recensement de la population du Burkina Faso en
décembre 2006 suivant des caractères démographiques (âge,
sexe, etc.), économiques (activités économiques), sociaux (niveau
d’éducation, alphabétisation, etc.), géographiques (lieu de
résidence).

4.2. Enquête par sondage :

Elle porte sur un échantillon.


Exemples :
Enquête sur les conditions de vie des ménages
Enquête démographique et de santé
Sondages d’opinion (CGD)
Etudes de marché (par sondage)

4.3. Les grandes étapes d’une enquête statistique

Le déroulement d’une enquête statistique peut être résumé en


quatre (4) grandes étapes :
1. La conception : Elle consiste à définir les objectifs
de l’étude, définir l’ensemble de l’étude ainsi que

7
les critères à étudier, à concevoir les outils
nécessaires à la collecte des informations
(questionnaires, guide d’entretien, manuels des
agents, etc.). Elle doit également définir les
résultats attendus, notamment les indicateurs
essentiels à calculer.
2. La phase de collecte : Elle comprend la formation
des acteurs, la sensibilisation des personnes cibles,
l’observation et l’enregistrement de l’information à
l’aide de questionnaires. La collecte peut se faire
par interview directe, par courrier (poste, e-mail),
par téléphone, etc.
3. La phase de traitement : Elle consiste à la
validation des questionnaires, la codification des
réponses, le dépouillement (manuel ou
automatique) et le traitement éventuel des données
manquantes, des erreurs de saisie, etc.
4. La phase d’analyse et de diffusion : Calcul des
indicateurs, critique et interprétation des résultats,
présentation des résultats obtenus.

5. Critiques de la statistique
A tort ou à raison, plusieurs griefs sont souvent faits à la
statistique :
« La statistique porte sur des faits passés et apporte trop tard
ses enseignements »
Pas toujours vrai puisqu’il existe des méthodes
d’observation continue et des méthodes de prévision.
« Les statistiques sont fausses »
Bien sûr si les bases ont été faussées ou si les
méthodes utilisées ne sont pas scientifiquement
correctes. C’est pour cela il est nécessaire de
comprendre les statistiques pour les interpréter.
« Les statistiques aboutissent à des conclusions relatives au
comportement d’ensemble et non à celui de l’individu. »
C’est précisément l’objet de la statistique
« Une des formes les plus raffinées du mensonge. »
Nécessité de connaître clairement de quoi il s’agit, les
concepts et les méthodes utilisées afin de mieux porter
son jugement.

8
Chapitre 2 : Présentation des données

A l’issue de la collecte des données (lors d’une enquête


par exemple), les informations recueillies ne sont pas
immédiatement exploitables. Il est alors nécessaire de les
organiser, les ordonner et les présenter de façon lisible et
facilement compréhensible. Pour cela la statistique descriptive
offre des techniques pour la représentation des données sous
forme de tableaux ou de graphes.
1. Série statistique à une dimension
1.1. Définition

Une série statistique est la liste des valeurs de la variable


statistique observées sur les individus d’un échantillon d’une
population donnée. Lorsque plusieurs variables sont
simultanément observées sur le même échantillon, la série
obtenue sera à 2, 3, ou n dimensions.
1.2. Exemples :
Série statistique du nombre d’enfants à charge de 20
employés d’une entreprise : 1 ; 0 ; 1 ; 2 ; 2 ; 5 ; 4 ; 4 ; 3 ;
1 ; 0 ; 1 ; 0 ; 0 ; 0 ; 6 ; 10 ; 7 ; 1 ; 7
Langue maternelle des élèves d’une classe de 15 élèves :
Mooré ; Mooré ; Dioula ; Mooré ; Français ; Dafing ;
Gourmatché, Foulfouldé ; Foulfouldé ; Mooré ; Dioula ;
Dioula ; Mooré ; Mooré ; Mooré.
Salaire mensuel (en milliers de FCFA) des travailleurs d’une
entreprise de 10 personnes : 112,0 ; 100,0 ; 215,2 ; 156,0 ;
100,2 ; 115,0 ; 50,1 ; 62,5 ; 150,0 ; 127,7.
situation matrimoniale de 40 détenus d’une prison (Marié =
1, Célibataire = 2, Divorcé = 3, veuf = 4 ) : 1 ; 1 ; 3 ; 1 ; 2 ;
1;2;2;4;3;1;2;2;2;1;2;2;2;2;1;3;1;1;
1 ; 4 ; 3 ; 1 ; 1 ; 2 ; 1 ; 2 ; 2 ; 3 ; 1 ; 1 ; 2 ; 4 ; 3 ; 2 ; 2.

2. Tableau de dénombrement
2.1. Définition :

La façon la plus simple de présenter de façon synthétique une


série statistique est un tableau présentant en face de chaque

9
modalité le nombre d’individus de l’échantillon qui portent cette
modalité. Un tel tableau est appelé tableau de dénombrement.
Effectif : On appelle effectif ou encore fréquence absolue d’une
modalité M, le nombre d’individus de l’échantillon qui possèdent
cette modalité.
La constitution d’un tableau de dénombrement est immédiate
dans le cas des variables qualitatives et des variables
quantitatives discrètes. Par contre, dans le cas des variables
continues, il existe une infinité (ou un très grand nombre) de
modalités. Il est donc nécessaire dans ce cas de transformer les
données en les regroupant dans des classes de valeurs
(intervalles).
2.2. Exemples

Cas de variable quantitative discrète


Tableau 1 : Nombre d’enfants à charge des employés d’une
entreprise
Nombre d’enfants Effectif
0 5
1 5
2 2
3 1
4 2
6 1
6 1
7 2
10 1
Total 20
Cas d’une variable qualitative
Tableau 2 : Situation matrimoniale des détenus
Situation matrimoniale Code Effectif
Marié 1 14
Célibataire 2 17
Divorcé 3 6
Veuf 4 3
Total 40

10
Cas d’une variable continue
Tableau 3 : Salaire mensuel des employés de l’entreprise X

Salaire mensuel (en millier de franc Effectif


cfa)
[50 ; 100 [ 2
[100 ; 150 [ 5
[150 ; 200 [ 2
[200 ; 250 [ 1
Total 10

Remarques :
Ce tableau indique par exemple que deux employés ont un
salaire au moins égal à 50 mille mais inférieur à 100 mille.
La largeur des classes (ou encore amplitude) est constante et
égale à 50.
La borne inférieure de la distribution (50) et la borne
supérieure (250) ont été choisies de sorte que toutes les
valeurs observées soient dans l’intervalle [50 ; 250 [
Les classes sont disjointes (une valeur ne peut être à la fois
dans deux classes différentes) et continues (il n’y a pas
d’espace entre deux classes successives).

2.3. Choix des classes dans le cas continu


Le choix du nombre de classes et de leur amplitude dépend du
domaine de variation de la variable étudiée et de la statistique à
établir ; un trop faible nombre de classes peut conduire à des
regroupements dans une même classe des mesures observées
de la variable qui présenteraient entre elles des écarts
sensibles, et en conséquence peut nuire à la précision des
résultats obtenus. Inversement un trop grand nombre de classes
conduirait sans doute à des résultats précis, mais entraînerait
un grand nombre de calculs.
Il est conseillé d’avoir des classes d’amplitudes égales.
Cependant, on pourrait être amené à regrouper plusieurs
classes lorsqu’elles présentent des effectifs trop faibles ou nuls.

11
Il existe quelques règles empiriques pour le choix optimal du
nombre de classes :
Règle de Sturge :
$! = 1 + (3,3 × ) $)
Règle de Yule :

N est la taille de l’échantillon.

L’amplitude de chaque classe (dans le cas où elle est constante)


est alors calculée de la manière suivante :

Où ./01 et ./34 sont respectivement la valeur maximale et la valeur


minimale de la série.

3. Tableaux des fréquences


On considère une série statistique sur un échantillon de taille N.
les modalités (ou les classes) de la variable étudiée sont notées
. et leurs effectifs sont notés $3. On suppose qu’il existe K
modalités (ou classes). On a

C’est-à-dire que la somme des effectifs des modalités (ou des


classes) est égale à la taille de l’échantillon.
Le tableau de dénombrement d’une telle série à la forme suivante
:
Modalités Effectifs
. $8
. $9
.. ..
. .
.
.. ...

. $6

12
Total :

3.1. Définitions

Fréquence :

La fréquence ou fréquence relative d’une modalité . est la


proportion d’individus de la population qui présentent cette
modalité. On la note .

Remarque
On a la relation suivante :

La fréquence peut être exprimée en pourcentage


3(%) = 100 × 3
L’emploi des fréquences s’avère utile pour comparer deux
distributions de fréquences établies à partir d’échantillons
de tailles différentes.
Fréquence cumulée : la fréquence cumulée ou fréquence
cumulée croissante à la modalité . est le nombre ?3 tel que Fi =∑K
fi
i=1
Remarque :
'
On calcule aussi la fréquence cumulée décroissante par Fi =∑K f p
p=i
Les fréquences cumulées (croissantes ou décroissantes)
permettent de répondre aux questions du type :
Quelle est la proportion d’individus qui possèdent une valeur
inférieure à X i pour la variable X ?
Quelle est la proportion d’individus qui possèdent une valeur
supérieure à X i pour la variable X ?

3.2. Tableau des fréquences d’une distribution

13
Avec les notations ci-dessus, la forme générale d’un tableau de
fréquences est la suivante :
Modali Effectifs Fréquenc Fréquenc Fréquences
tés du (Ni) e es cumulées
caract s cumulées décroissantes
ère fi = NNi croissante
(X i ) s
.8 $8 $9 f1 F1 = f1 F1' = f1 + f2 +...
. + fK =1
. f 2 F2 = f1 +
. f2 F f f
.. .
. fK
$3 . .
.
. . .
. .
.. fi .
.
. . Fi = f1 +
$6 f2 + fi Fi' = fi + fi+1
. .. +...+ fK
. .
. .
. fK
. .
.
.
FK = f1
+ fK =1 FK = fK
Total i=1

∑ K Ni K ∑ fi
=N =1i=1

3.3. Exemples :
Tableau 4 : Distribution de la langue maternelle des élèves (voir
paragraphe 1)
Langue Effectifs Fréquence Fréquence
maternelle (%)
YANSI 7 0,47 46,7
MBALA 3 0,20 20,0
BUNDA 1 0,07 6,7
NGONGO 1 0,07 6,7
PENDE 1 0,07 6,7

14
WUNGANI 2 0,13 13,3
Total 15 1,00 100,0

Tableau 5 : Répartition du nombre d’enfants des salariés d’une


entreprise
Nombre Effectifs Fréquenc Fréquenc Fréquence
d’enfants e e cumulée
cumulée décroissant
croissant e
e
0 5 0,25 0,25 1,00
1 5 0,25 0,50 0,75
2 2 0,10 0,60 0,50
3 1 0,05 0,65 0,40
4 2 0,10 0,75 0,35
5 1 0,05 0,80 0,25
6 1 0,05 0,85 0,20
7 2 0,01 0,95 0,15
10 1 0,05 1,00 0,05
Total 20 1,00

Tableau 6 : Distribution du salaire mensuel des employés de


l’entreprise X
Salaire Fréquences Fréquences
Effectifs
mensuel (%) cumulées (%)
[50 ; 100[ 2 20,0 20,0
[100 ; 150[ 5 50,0 70,0
[150 ; 200[ 2 20,0 90,0
[5200 ; 250[ 1 10,0 100,0
Total 10 100,0

3.4. Quelques règles de présentation d’un tableau

statistique La présentation d’un tableau statistique doit

comporter les éléments suivants :

15
le titre du tableau : renseigne sur le contenu du tableau. Il
doit être précis et se place au-dessus du tableau ;
les titres des lignes et des colonnes : doivent être aussi courts
que possible pour ne pas encombrer le tableau ;
les unités de mesure des variables ;
la source : placée en bas du tableau, elle indique le ou les
services qui publient les statistiques contenues dans le
tableau.
Quelques règles usuelles de présentation des données à
l’intérieur d’un tableau qui facilitent la lecture :
Utiliser une police de caractères lisible pour les chiffres
(exemple Arial) ;
Aligner les chiffres à droite sans coller à la bordure du tableau
;
Centrer verticalement les chiffres ;
Utiliser les séparateurs de milliers pour les chiffres pour les
valeurs dépassant 1 000 ;
Harmoniser le nombre de chiffres après la virgule à l’intérieur
de chaque colonne ;
Limiter le nombre de chiffres après la virgule en fonction du
degré de précision requis (en général un ou deux chiffres
après la virgule) ;
Utiliser de préférence un chiffre après la virgule pour les
valeurs en pourcentage.
Les tableaux doivent être en pleine page s’ils ont suffisamment
de colonnes ou sur la moitié de la page s’ils n’ont que quelques
colonnes.
Les colonnes, hors celle de l’intitulé divent avoir une largeur
identique.
4. Représentation graphique
La représentation graphique permet de renseigner
immédiatement sur l’allure générale de la distribution. Elle facilite
l’interprétation des données.
Le type de graphique à utiliser pour représenter une série
statistique dépend de la nature discrète ou continue de la
variable.

16
4.1. Le diagramme en bâtons et le diagramme
circulaire.
Ils servent à représenter les variables qualitatives et les variables
quantitatives discrètes.
Dans le cas du diagramme en bâtons, les modalités de la
variable sont représentées par des bâtonnets ou des rectangles
(tuyaux d’orgue) dont les hauteurs sont proportionnelles aux
effectifs des modalités.
Exemple : Graphique en bâtonnets de la distribution du nombre
d’enfants à charge des employés d’une entreprise.

0,3

0,25
Fréquences
0,2

0,15

0,1

0,05

0
0 1 2 3 4 5 6 7 10
Nombre d'enfants

Dans le cas du diagramme circulaire ou par secteurs, chaque


modalité est représentée par une portion de disque
proportionnelle à l’effectif de la modalité (secteur). Par
conséquent chaque secteur a un angle au centre proportionnel à
l’effectif de la modalité qu’il représente.
Exemple : Etat matrimonial des détenus d’une prison

Etat matrimonial Code Fréquences Angle


(déférés)
Marié 1 0,35 126,0
Célibataire 2 0,43 153,0
Divorcé 3 0,15 54,0
Veuf 4 0,08 27,0
Total 1,00 360,0

17
Graphique : Représentation par le diagramme circulaire de
l’état matrimonial des détenus d’une prison

Veuf

Divorcé
Marié

Célibataire

Remarque
L’angle Ai de chaque modalité se calcule de la façon suivante

Ai = 360× fi
Et
∑Ai =∑360× f i = 360×∑ f i = 360×1= 360

Remarque :
Le diagramme en secteurs circulaires permet mieux que le
diagramme en bâtons de visualiser la part relative de chaque
modalité dans l’ensemble de la population.
Pour des comparaisons dans l’espace et dans le temps, la
représentation par secteurs permet de rendre sensible à la fois
les différences en valeurs absolues et en valeurs relatives.

Exercice :
Comparer les structures de l’emploi par grands secteurs d’activité
en France et aux Etats-Unis.

18
Tableau 7 : Structure de l’emploi civil par grands secteurs
d’activités en RDC et en ANGOLA(1985)
ANGOLA RDC
Secteurs d’activités
Ni fi Ni fi
Agriculture 3 338 3,1 1 583 7,6
Industrie 30 28,0 6 681 32,0
048
Transport, commerce, 73 68,6 12 60,4
service 764 626
TOTAL 107 150 100,0 20 890 100,0
Source : OCDE
Tableau de calculs
ANGOLA RDC
Secteurs
fi Ai fi Ai
Agriculture 3,1 11,21 7,6 27,36
Industrie 28,0 100,95 32,0 115,20
Transport 68,8 247,83 60,4 217,44
TOTAL 100,0 360,00 100,0 360,00
Pour comparer la structure de l’emploi dans les deux pays la
situation de chaque pays sera représentée par un diagramme
circulaire. Le principe de proportionnalité des superficies des
secteurs représentatifs des modalités implique que les
superficies des cercles soit également proportionnelles aux
valeurs respectives de l’emploi dans les deux pays.
Ainsi, on a :

⇒ RUS = RFr
πRUS2 πRFr2 107150
= = 2,26RFr

107150 20890 20890

19
Où RUS et RFr désignent respectivement les rayons des cercles
représentant les structures de l’emploi aux Etats-Unis et en
France.

Graphique 1 : Structures comparatives de l’emploi civil par


grands secteurs d’activités en RDC et en ANGOLA (1985)

Le graphique ci-dessus fait ressortir à lastructures


fois les internes de l’emploi en
France et aux Etats-Unis et permet de comparer les deux
structures. On constate : dans les deux cas une forte
prédominance du secteur des services suivi de l’industrie et de
l’agriculture. Cependant, le secteur de l’agriculture regroupe
une plus forte proportion de population en France qu’aux Etats-
Unis.
4.2. Histogramme et polygone de fréquences
Ils sont utilisés dans le cas des variables continus.

a. Histogramme

C’est la représentation graphique de la distribution des effectifs


ou des fréquences d’une variable statistique continue. A chaque
classe de valeurs de la variable portée en abscisse, on fait
correspondre un rectangle basé sur cette classe.

Exemple 1 : Graphique 2 : Histogramme de la


distribution du salaire mensuel des Nutritionnistes.
Salaire mensuel (en Fréquences (%)
Effectif
milliers de FCFA)
[50; 100[ 2 20,0
[100; 150[ 5 50,0
[150; 200[ 220 20,0
[200; 250[ 1 10,0
Total 10 100,0
Tableau 8 : Salaire mensuel des Nutritionnistes de la zone
de santé de……………………… en janvier 2025

Remarque : Les rectangles de l’histogramme ont des surfaces


proportionnelles aux effectifs des classes qu’elles représentent.
Dans l’exemple précédent, les classes sont de même amplitude
égale à 50. De ce fait, les hauteurs des rectangles sont
proportionnelles aux effectifs des classes.
Dans le cas où les classes ne sont pas de même amplitude, les
hauteurs des rectangles de l’histogramme ne sont pas
proportionnelles aux fréquences des classes mais aux
fréquences corrigées fic calculées de la façon suivante : fic = fi où ai
est ai l’amplitude de la classe.

Exemple 2 : Niveau de salaire dans une entreprise

Tableau 9 : Salaires mensuels

21
des employés de l’entreprise Y au 31 déce

Classe de salaire ni fi fic


[800, 1000 [ 26 18,57 9,29
[1000, 1100 33 23,57 23,57 Il y a
[1100, 1200 64 45,71 45,71 des
[1200, 1300 7 5,00 5,00
[1300, 1500 10 7,14 3,57
TOTAL 140 100,00
amplitudes de 100 et de 200. Deux effectifs (ou fréquences) de deux
classes ne sont comparables directement que si les classes
concernées sont de même amplitude. Il faudra donc en tenir compte
dans la représentation graphique.

Graphe 3 : Histogramme de la distribution des salaires mensuels des


l’entreprise Y au 31 décembre 2007

employés de
b. Courbe de fréquence

Elle provient de l’idée suivante :


Si la population étudiée est très nombreuse, l’histogramme ne
donne qu’une représentation imparfaite de celle-ci du fait du
regroupement des observations en un nombre relativement
petit de classes.
Si l’on divise une première fois, l’amplitude de chaque classe par
deux (02), on obtiendrait une représentation plus satisfaisante
22
de la distribution. On peut recommencer l’opération une
deuxième, troisième fois, etc. , c'est-à-dire à la limite,
l’amplitude des classes tend vers 0 et l’histogramme tend vers
une courbe continue appelée courbe de fréquences ou
polygone des fréquences.

De façon pratique on construit le polygone des fréquences en


joignant les milieux des segments des rectangles de l’histogramme.

Exemple

Graphique 4 : Polygone de fréquences de la distribution du salaire


mensuel des travailleurs de
l’entreprise X en janvier 2008

NB : La surface délimitée par la courbe des fréquences (en rouge sur


le graphique) est égale à celle de l’histogramme de la série (surface
en bleu).

4.3. Courbe des fréquences cumulées (ou courbe cumulative)


C’est la représentation graphique de la fonction de répartition de la
variable statistique. Elle est utilisée dans le cas des variables
qualitatives (discrètes et continues).
Soit X une variable statistique. La fonction de répartition de X est
l’application
F : IR →[0;1]

23
x a F(x) = P(X < x)
Tel que P(X < x) est la proportion d’individus dont la valeur observée
de X est inférieure à x.
La courbe cumulative se construit à partir des fréquences cumulées
croissantes.
a. Courbe cumulative d’une variable discrète.
Dans le cas d’une variable discrète, la courbe cumulative se présente
comme une courbe en escalier puisque la fonction de répartition F
est dans ce cas une fonction constante par intervalles.

Exemple :
Tableau 10 : Répartition des familles des travailleurs d’un groupe
industriel selon le nombre d’enfants.

Nombre Nombre de Fréquences Fréquences


d’enfants familles cumulées
0 1 390 19,81 19,81
1 2 654 37,82 57,63
2 1 571 22,39 80,02
3 713 10,16 90,18
4 334 4,76 94,94
5 et + 355 5,06 100,00
Total 7 017 100,00

Graphe 5 :Diagramme cumulatif du nombre d’enfants pas famille


120,00

100,00

80,00

60,00

40,00

20,00

0,00
0 1 2 3 4 5 6 7

b. Courbe cumulative d’une variable continue


Dans le cas de la variable continue, la courbe des fréquences
cumulées est une courbe continue joignant les points de
24
coordonnées (ei ;Fi ) dans un repère orthogonal où ei est la borne
supérieure de la classe i et Fi est la fréquence cumulée à la classe i.
Remarques :
La courbe cumulative est représentée pour des valeurs de la
variable allant de -∞ à +∞ .
Pour les valeurs x ≤ emin (borne inférieure de la 1 ère classe) on a
F(x) = 0, donc la courbe présente une partie constante
d’ordonnée = 0
Pour les valeurs x ≥ emax (borne supérieure de la dernière classe)
on a F(x) = 1 (ou 100 %). Donc la courbe présente une partie
constante d’ordonnée = 1.

Exemple : Distribution des salaires mensuels des employés de


l’entreprise X en janvier 2008.
Salaire mensuel Fréquences (%) Fréquences
(en milliers de cumulées
FCFA) croissantes
[50; 100[ 20,0 20,0
[100; 150[ 50,0 70,0
[150; 200[ 20,0 90,0
[200; 250[ 10,0 100,0
Total 100,0

Graphique 6 : Courbe cumulative de la distribution des salaires


mensuels des
120
Fréquences cumulées

100

80

60
F(x)
40

20

0
50 100 x 150 200 250

Salaires en milliers

employés

Remarque :

25
Le tracé de la courbe cumulative de la variable continue fait
l’hypothèse d’une répartition uniforme des individus à l’intérieur
des classes.
La courbe cumulative permet de déterminer graphiquement,
pour tout nombre réel x, la proportion d’individus dont la valeur
pour la variable X est inférieure à x, (voir graphe ci-dessus).
4.3. Autres types de représentation graphique
Les cartogrammes
La pyramide des âges

Chapitre 3 : Caractéristiques de tendance centrale

L’objectif est de résumer à travers quelques indicateurs


numériques ou paramètres caractéristiques la distribution d’une
variable statistique. On les appelle des indicateurs de synthèse d’une
distribution statistique. On utilise des indicateurs de position (ou de
tendance centrale), des indicateurs de dispersion et des indicateurs
de forme (voir chapitres suivants).
L’analyse numérique et l’analyse graphique d’une distribution sont
complémentaires et non exclusives.
Les caractéristiques de tendance centrale sont des valeurs
numériques, calculées à partir d’une série (ou d’une distribution)
statistique et qui permettent de déterminer la valeur typique ou
l’ordre de grandeur de la distribution. Les principales caractéristiques
de tendance centrale sont : le mode, la médiane et la moyenne.
1. Le mode
1.1. Définition

Le mode est la valeur la plus fréquente dans une série


d’observations. On le note M o

Dans le cas d’une variable quantitative continue on appelle « classe


modale » la classe qui présente l’effectif le plus élevé.
Remarque :
Le mode d’une série n’est pas nécessairement unique. Il peut ne pas
exister
Exemple 1 : la série {1;7;2;4;5;3} n’a pas de mode

26
Exemple 2 : la série {2;1;2;2;3;1;5;4;4;5;4} a deux modes à savoir 2
et 4.
1.2. Cas des variables à modalités isolées
(qualitatives et quantitatives discrètes)
Le mode est facile à déterminer dans ce cas à partir d’un tableau des
fréquences ou d’un graphique de distribution. C’est la modalité qui
présente l’effectif le plus élevé (ou la fréquence la plus élevée).
Exemple 1 : Langue maternelle (Exemple 1.2 du chapitre 2). Dans
ce cas, le mode est Mooré.
Exemple 2 : Nombre d’enfants des travailleurs d’une entreprise
(Exemple 1.2 du chapitre 2) : Il y a deux modes : 0 et 1.

1.3. Cas des données groupées (variables continues)

Lorsque les données sont groupées en classes, on détermine d’abord


la classe modale.

Exemple : Salaires mensuels des employés de l’entreprise Y au 31


décembre 2007 (Voir Chap2 ; Paragraphe 4.2 – Exemple2)

Ici, la classe modale est la classe 1100-1200. Sa fréquence est égale


à 45,7%.
1.4. Avantages et inconvénients du mode La
détermination du mode est aisée (graphiquement)
Son intérêt est évident puisqu’il désigne la valeur de la variable
qui est la plus observée sur l’échantillon.

27
Le mode n’a de signification véritable que si l’effectif
correspondant est nettement supérieur aux effectifs des autres
modalités. Le mode n’est intéressant que lorsqu’il est unique.

2. La médiane
2.1. Définition

C’est la valeur qui sépare une série d’observations ordonnées en


ordre croissant ou décroissant, en deux parties comportant le même
nombre d’observations. On la désigne par la notation Me.
2.2. Méthode de calcul – cas général
Présenter les données sous forme de série. Lorsque les données
sont présentées sous forme de tableau de distribution, les
convertir en série.
Ordonner la série par ordre croissant ou décroissant.
Déterminer si la série comprend un nombre pair ou impair
d’unités statistiques.
Soit N le nombre d’observations :
Cas où N est impair : Dans ce cas la médiane est la valeur qui
occupe le rang
N +1
dans la série ordonnée.

2
Exemple : Série S = 2 ; 4 ; 4 ; 6 ; 7 ; 8 ; 10 ; 10 ; 12 Ici, la médiane
est égale à 7. Cas où N est pair : Dans ce cas la médiane est la
N
moyenne des valeurs de rangs

2
et N +1 2

Exemple : S = 0 ; 1 ; 1 ; 2 ; 2 ; 3 ; 3 ; 3 ; 4 ; 5

M e= = 2,5

28
2.3. Méthode de calcul – cas des données groupées.
Si les données sont groupées par classes (cas des variables
continues) il faut :
localiser la classe médiane, c’est-à-dire celle qui contient la
médiane. calculer par extrapolation linéaire la valeur de la
médiane ;
ou déterminer la médiane par projection à partir du diagramme
des fréquences cumulées.
NB : La classe médiane est celle dont la fréquence cumulée est ≥ 50
% et dont la classe précédente à une fréquence cumulée < 50 %.
Si on note M e la médiane, e1 la borne inférieure de la classe médiane,
F la fonction de répartition de la variable, et fMe la fréquence de la
classe médiane, on a alors
F(e1) est la fréquence cumulée à la classe précédant la classe
médiane, F(e2 ) la fréquence cumulée à la classe médiane et :

0,5− F(e1)
Me = e1 + ×(e2 −e1) F(e2) − F(e1)

Remarque :
Si les fréquences sont exprimées en % on a :

50− F(e1)
Me = e1 + ×(e2 −e1)

F(e2) − F(e1)
On peut remplacer les fréquences par les effectifs cumulés. Dans
ce cas
N
−N(e1)
Me =e1 + 2 ×(e2 −e1)
NMe

Avec N Me = effectif de la classe médiane et N(e1)= effectif cumulé à la


classe précédant la classe médiane.

29
2.4. Avantages et inconvénients de la médiane Son calcul est
facile.
Donne une idée satisfaisante de la tendance centrale de la
distribution.
N’est pas influencée par les valeurs extrêmes de la distribution
(valeurs aberrantes).
La médiane Me possède la propriété suivante : ∑xi −M
e ≤ ∑ xi − xo Pour
i i toute valeur xo
de la série différente de la médiane.
Elle ne tient pas compte des valeurs prises par la variable mais
seulement de leurs ordres de grandeur.
Elle concerne uniquement les variables quantitatives.

3. Généralisation de la notion de médiane – Les quantiles.


La médiane est la valeur qui divise la population en deux sous-
populations de tailles égales. De la même façon on peut définir des
valeurs qui divisent la population en quatre, dix, cent, ... sous-
populations de tailles égales. On définit ainsi :
3.1. Les quartiles :

Ce sont les valeurs du caractère qui partagent la série en quatre


sous-ensembles de tailles égales. Ils sont au nombre de 3 : Q1, Q2 et
Q3
Q1 : 25 % de valeurs inférieures et 75 % de valeurs supérieures.
Q2 : 50 % de valeurs inférieures et 50 % de valeurs supérieures, Q2
est la médiane.
Q3 : 75% des valeurs inférieures et 25% des valeurs supérieures.

25% 50% 75%

Q1 Q2 Q3

3.2. Les quintiles :

Ils divisent la série en cinq sous-ensembles de tailles égales, soit 20


%. Ils sont au nombre de quatre.

30
3.3. Les déciles :

Ils divisent la série en dix sous-ensembles de tailles égales, soit 10


%.
3.4. Les centiles :

Ils divisent la série en cent sous-ensembles de 1 % de la population.


3.5. Détermination des quantiles.

Les quantiles sont déterminés de la même manière que la médiane


par méthode graphique à partir de la courbe des fréquences
cumulées ou par extrapolation linéaire (voir cas de la médiane).
Les quartiles sont les valeurs dont les fréquences cumulées sont
respectivement :

; C'est-à-dire que :
De même :

i
F(Di ) = , pour i = 1, 2,..., 9

10 i
F(Ci ) = , pour i=1,2,..., 99

100

4. La moyenne arithmétique
4.1. Définition :
La moyenne arithmétique d’un ensemble de données est la somme
des valeurs obtenues divisée par le nombre d’observations. Elle est
notée X pour une variable notée X.

Il existe deux façons courantes de calculer la moyenne arithmétique.


4.2. Moyenne arithmétique simple :

31
∑x i N
i=1 1
Sa formule est : X = = ∑xi (1)
N N i=1
où les xi sont les valeurs observées et N est le nombre d’observations
ou la taille de la population.
Cette formule est utilisée dans le cas où les données sont présentées
sous forme de série.
Exemple : série du nombre d’enfants des employés (voir

chapitre 2) Le nombre moyen d’enfants par employé est

X= = 2,75
4.3. La moyenne arithmétique pondérée
K
∑Ni x i K
Sa formule est : X = i=1K = 1 ∑Ni xi (2)
∑Ni N i=1
i=1

où les xi sont les modalités (différentes valeurs) de la variable et N i les


effectifs de ces modalités et K le nombre de modalités de la variable.
Remarque :
Cette formule est intéressante dans le cas où les données sont
présentées sous forme d’un tableau de distribution des effectifs
(ou des fréquences). La formule peut aussi s’écrire de la façon
suivante :
X =∑K N i xi =∑K fi x
i=1 N i=1 où les fi sont les
fréquences des modalités.

La formule (2) diffère de la formule (1) par le fait que le calcul se


fait dans le cas (2) sur les K valeurs distinctes de la variable et
non sur les N individus. Les valeurs sont alors pondérées par les
effectifs.

32
Exemple : Série du nombre d’enfants à charge avec tableau des
fréquences.

Nombre Effectif Fréquenc


i d'enfant s ( N i) es ( N i / Ni
s (xi ) N) × xi fi × xi
1 0 5 0,25 0 0
2 1 5 0,25 5 0,2
5
3 2 2 0,10 4 0,2
0
4 3 1 0,05 3 0,1
5
5 4 2 0,10 8 0,4
0
6 5 1 0,05 5 0,2
5
7 6 1 0,05 6 0,3
0
8 7 2 0,10 14 0,7
0
9 10 1 0,05 10 0,5
0
Total 20 1,00 55 2,7
5

1 9
X = ∑Ni × xifi × xi = 2 , 75
20
On a bien donc : =1 i=1
4.4. Calcul de la moyenne dans le cas des données groupées
(variables continues)
Dans le cas où les données sont groupées par classes, on fait
l’hypothèse que chaque observation à l’intérieur d’une classe a une
valeur égale au centre de la classe. Ce qui constitue bien sûr une
approximation.
Soit ai et bi respectivement les bornes inférieures et supérieures de la
classe N°i , le

33
ai + bi
centre ci de la classe est ci =

K
∑Ni ×c i K
i=1
Dans ce cas on a : X = K = 1 ∑Ni ×ci
∑Ni N i=1
i=1

Où K est le nombre de classes et Ni les effectifs des classes.

Remarque :
La moyenne calculée sur les données groupées est généralement
différente de la moyenne calculée sur la série initiale non groupée.
Exemple : Soit la série 4 ;0 ;1 ;1 ;2 ;2 ;2 ;3 ;3 ;4 ;2 ;3 ;4 ;5 ;2 ;1 ;3 ;3
;4 ;5
Le tableau de distribution de la variable étudiée est comme suit :

Valeurs (xi) 0 1 2 3 4 5 Total


Effectifs (Ni) 1 3 5 5 4 2 20

Sa moyenne est X = = 2,7

Si on regroupe les données en classes d’amplitudes égales à 2, on


obtient le tableau de distribution suivant :
Valeurs (xi) [0 ; 2[ [2 ; 4[ [4 ; 6[ Total
Centre (Ci) 1 3 5
Effectifs (Ni) 4 10 6 20
La moyenne de cette nouvelle distribution est :

∑Ni ×Ci

34
X
Remarque :
Les données groupées ne doivent être utilisées pour les calculs que
lorsque les données initiales ne sont pas disponibles.
4.5. Avantages et inconvénients de la moyenne arithmétique
Du fait qu’elle utilise pour son calcul toutes les valeurs prises par
la variable, la moyenne arithmétique est la meilleure des
caractéristiques de position.
La moyenne possède la propriété suivante :
∑N (xi − X)2 ≤∑N (xi −xo )2 ,

i=1 i=1 pour toute valeur xo de la


série différente de la moyenne. La moyenne n’a de
sens que pour des variables quantitatives.

La moyenne arithmétique présente l’inconvénient d’être sensible


aux valeurs extrêmes (valeurs aberrantes).

Exemple : soit la série S = {1 ; 1 ; 2 ; 1 ; 1000}

La moyenne de cette série est X = = 201

Cette valeur est très éloignée de la majorité des observations qui se


situent entre 1 et 2.

5. Généralisation de la notion de moyenne


On obtient d’autres types de moyenne en remplaçant dans la formule
de la moyenne arithmétique, la variable X par f(X). La formule
générale de la moyenne devient :

f (X) = 1 ∑K Ni × f (xi )

N i=1

35
5.1. Moyenne géométrique
Elle est utilisée dans le cas d’une variable positive (strictement >0).
Sa formule est :
N
x1 ×x2 ×...×xn G= : Moyenne
géométrique simple ou
G = x ×x ×... ×x
N N1 N2 NK
1 2 K
: Moyenne géométrique pondérée

Si l’on considère la fonction f = ln, on a :

ln(G) = ln (x1 ×x2 ×...×xN )N1 = N1 ∑iK= 1 ln(xi )

Ainsi, la moyenne géométrique d’une série à valeurs strictement


positives est le nombre dont le logarithme est égal à la moyenne
arithmétique des logarithmes des valeurs de la série.
Remarque :
La moyenne géométrique est utilisée dans le cas des variables
positives présentant une évolution géométrique telle que par
exemple la population. Elle permet le calcul du taux de croissance
moyen, du coefficient multiplicateur moyen. Par exemple, si une
variable X croît au cours de N périodes à des taux 8; 9; … ; 4, alors le
taux de croissance moyen annuel est :

Exemple :
Une banque propose à ses clients des taux d’intérêt sur épargne de
la façon suivante : 3 % à la 1 ère année ; 3,5 % les 2 ème et 3ème années
et 4 % au-delà de la 3ème année.
Quel est le taux d’intérêt moyen annuel d’un placement au bout de la
6ème année ?

Résolution :
Soit le montant initial placé et .le montant de la somme épargnée
au bout de la è/J année et M le montant au bout des 6 ans. Soit 8; 9; …
; K, les taux d’intérêt
annuels et le taux moyen annuel.
On a :
36
au bout de la 1ère année : 8 = (1 + 8) I
ème
au bout de la 2 année ; 9 = (1 + 9) 8 = (1 + 9)(1 +
ème
8)I au bout de la 6 année : = (1 + 8)(1 + 9) … (1 + K)I
K
Or = (1 + /) I
Donc

5.2. Moyenne harmonique

: Moyenne arithmétique simple


Ou encore

: Moyenne arithmétique pondérée

Si on considère la fonction alors la moyenne harmonique d’une


série est l’inverse de la moyenne des inverses des valeurs de la
série.

Remarque :
La moyenne harmonique ne peut être calculée que lorsque la
série a des valeurs non nulles.
Elle est utilisée pour le calcul des durées moyennes, des
distances moyennes, et de certains ratios.
Exemple 1:
Un cycliste parcourt une distance de 100 km avec les vitesses
horaires suivantes : 40km/h les 1ers 25 km puis 30 km/h, 25km/h et
20km/h les 2ème, 3ème et 4ème 25 km suivants.
Quelle est la vitesse moyenne horaire du cycliste ?
Résolution :
Soit T la durée totale de la course, et la vitesse moyenne horaire
3 et sont les durées et les vitesses respectives sur le tronçon N°i.

d’où

37
-
Exemple 2 : Les statistiques suivantes ont été observées sur 6
régions :
Population (milliers 1
250 450 800 150 600
d’habitants) 200
Nombre d’habitants pour
1 000 1 500 2 000 1 250 2 500 900
un médecin
Quel est pour l’ensemble des six villes le nombre moyen de médecin
par habitant ?
5.3. Moyenne quadratique

: Moyenne quadratique simple


Ou encore

: Moyenne quadratique pondérée

Remarque :
On utilise la moyenne quadratique pour le calcul des écarts
quadratiques moyens

où m est une mesure de tendance centrale. Si m est


la
moyenne, Q est l’écart-type de la série.
5.4. Comparaison des moyennes
On démontre que : N ≤ _ ≤ .‘ ≤ A pour une série à valeurs positives
non nulles.

Chapitre 4 : Les caractéristiques de dispersion

38
Elles servent à mesurer la variabilité de la variable statistique
et de juger de la pertinence (représentativité) de la caractéristique
de tendance centrale.
1. L’étendue
1.1. Définition :

C’est la différence entre la plus grande et la plus petite valeur


observée.
Exemple : Dans la série des salaires des travailleurs de l’entreprise

(chap2), on a : a = 215 000 − 50 100 = 165 100 ??b

1.2. Interprétation, avantages et inconvénients

La signification de l’étendue est claire et sa détermination facile.


Cependant, elle présente des inconvénients sérieux. En effet, ne
dépendant que des valeurs extrêmes qui sont souvent
exceptionnelles voire aberrantes et non pas de tous les termes, elle
est sujette à des fluctuations considérables d’un échantillon à un
autre.

2. Intervalle interquartile
2.1. Définition

C’est la différence entre le 3ème et le 1er quartile. cd = AC − A8


On définit de la même façon l’intervalle inter-décile (I D=D9-D1) et
l’intervalle intercentile (IC=C99-C1).
2.2. Interprétation, avantages et inconvénients

L’utilisation de ces intervalles permet d’éliminer l’influence des


valeurs extrêmes qui sont des valeurs rares ou aberrantes.
La perte de l’information du fait de la diminution des observations
qu’elle entraîne est compensée par l’homogénéité des données dans
l’intervalle interquartile.

3. Ecart absolu moyen


3.1. Définition

39
C’est la moyenne des écarts absolus entre chaque observation et la
moyenne.

: Cas simple
Ou encore

: Cas pondéré
Remarque :
On peut aussi calculer l’écart absolu moyen à partir de la
médiane

3.2. Interprétation, avantages et inconvénients

L’écart absolu moyen mesure la dispersion des valeurs observées


d’une variable statistique autour d’une valeur centrale. Une valeur
faible de l’écart absolu moyen traduit une faible dispersion des
valeurs autour de la valeur centrale. Cependant la comparaison de
cette caractéristique pour deux séries est difficile car sa valeur
dépend de l’ordre de grandeur (échelle ou unité de mesure) des
observations.

4. Variance et écart-type
4.1. Définition :

La variance est la moyenne des écarts (élevés au carré) des valeurs


observées par rapport à la moyenne arithmétique de la série. On la
note (.) pour une variable notée X.

: Cas simple Ou

encore

: Cas avec pondération


L’écart-type est la racine carrée de la variance. On le note f(.) ou fg
Sa formule est :

40
4.2. Interprétation, avantages et inconvénients
L’écart-type et la variance mesurent la dispersion de la variable
autour de la moyenne. Ainsi, des valeurs élevées
(respectivement faibles) de ces caractéristiques traduisent une
grande (respectivement faible) dispersion des valeurs autour de
la moyenne.
La variance est calculée à partir des valeurs de la série élevées
au carré. Ainsi l’unité (de mesure) de la variance est le carré de
celle de la variable. Par exemple, si la variable est mesurée en
francs, en kg ou en mètre, la variance sera mesurée en francs
au carré, en kg au carré ou en mètres au carré. Par contre
l’écart-type a la même unité de mesure que la variable.

4.3. Méthode de calcul


On calcule d’abord la moyenne arithmétique, puis les écarts
entre chaque observation et la moyenne arithmétique.
On élève les écarts au carré et on somme pour obtenir la
variance. On extrait la racine carrée de la variance pour
obtenir l’écart-type.
Dans le cas où les données sont groupées par classes, on calcule les
écarts des centres de classes par rapport à la moyenne.
4.4. Autre méthode de calcul :

On utilise la formule suivante dite théorème de Kœnigs.

En d’autres termes, la variance est égale à la différence entre la


moyenne arithmétique des carrés et le carré de la moyenne
arithmétique.
Dans ce cas, on calcule:
la moyenne arithmétique des observations ; la
moyenne arithmétique des carrés des

41
observations et ; la variance en utilisant la
formule de Kœnigs.

4.5. Exercice
Soit le tableau suivant représentant la distribution de la mesure du
poids en kg de 100 personnes :
1.
Déterminer la moyenne et la médiane de cette
distribution.
2.
Calculer l’écart absolu moyen respectivement par
rapport à la moyenne et à la médiane.
3.
Déterminer l’écart interquartile.
4.
Calculer la variance et l’écart-type de la distribution.

Poids en kg Effectifs
[58,5 ; 62 ,5[ 5
[62,5 ; 65,5[ 18
[65,5 ; 68,5[ 42
[68,5 ; 74,5[ 27
[74,5 ; 80,5[ 8
Total 100

5. Les coefficients de variation


5.1. Définition :

Le coefficient de variation de l’écart-type est le rapport entre l’écart-


type et la moyenne de la distribution. On le note

De façon analogue, on définit le coefficient de variation de l’intervalle


interquartile par :

42
5.2. Interprétation, avantages et inconvénients
Contrairement aux autres indicateurs de dispersion, le coefficient
de variation est sans unité de mesure. On l’exprime souvent en
pourcentage.
Du fait qu’elle est sans unité, le coefficient de variation présente
l’avantage de ne pas être sensible à l’ordre de grandeur (ou à
l’unité de mesure) de la variable mais seulement à la dispersion
des valeurs autour de la moyenne. Ainsi on peut l’utiliser pour
comparer la dispersion de deux séries dont les ordres de
grandeur (ou les unités de mesure) sont différents.
Un coefficient de variation élevé (respectivement faible) traduit
une grande (respectivement faible) dispersion de la variable
autour de la moyenne.
L’appréciation du niveau (faible ou élevé) du coefficient de
variation est laissée aux soins de l’utilisateur. Cependant une
valeur du CV supérieure à 10 % doit susciter des questions
quant à la représentativité de la moyenne comme
caractéristique de tendance centrale.

43
Chapitre 5 : Les séries statistiques à deux dimensions

1. Introduction
Pour l’étude de certains phénomènes complexes, il s’avère
insuffisant de prendre en compte un seul caractère. Il faut en
considérer simultanément deux ou même davantage. Naturellement,
l’analyse des tableaux correspondants et leur représentation
graphique deviennent plus difficiles. La statistique descriptive à deux
dimensions a essentiellement pour but de mettre en évidence les
relations qui existent entre deux séries d’observations considérées
simultanément. Ces données peuvent être de nature qualitative ou
quantitative.
Il sera envisagé dans ce chapitre :
l’élaboration de tableaux statistiques permettant de condenser
les données sous forme de distributions de fréquences à deux
dimensions ou distributions conjointes ;
la représentation graphique des
observations ; la mesure de la liaison
entre deux variables.

2. Présentation générale des tableaux statistiques à double


entrée (tableaux croisés)
Les observations relatives à deux variables sur N individus se
présentent le plus simplement sous la forme d’une série statistique
double, à savoir une suite de N couples de valeurs observées (T3, "3).

Exemple :
Individu (i) 1 2 3 4 5 6 7 8
Sexe (jk) 1 1 2 2 1 2 1 2
Etat matrimonial (lk) 2 3 1 1 1 2 1 4


• Sexe : 1=Homme ; 2 = Femme

44
• Etat matrimonial : 1 = Marié ; 2= Célibataire ; 3= Divorcé ; 4 =
Veuf
Comme dans le cas des séries à une dimension, il peut être utile,
lorsque N est grand de condenser les données en une distribution
d’effectifs (ou de fréquences). Celle-ci se présente sous la forme d’un
tableau où les modalités T3 de la variable . sont croisées avec les
modalités "3 de la variable et dont chaque cellule présente l’effectif
$3n des individus correspondants à la fois au couple (T3, "n).
Exemple :

Sit.
Matrimoniale
Marié Célibatair Divorcé Veuf Total
Sexe
e
Homme 2 1 1 4
Femme 2 1 0 1 4
Total 4 2 1 1 8
Ce tableau indique par exemple que la population étudiée
comprend :
4 hommes dont 2 sont mariés, 1 est célibataire et 1 est
divorcé 4 femmes dont 2 sont mariées, 1 est célibataire et 1
est veuve.

2.1. Définition : distribution conjointe

De façon générale, si on étudie simultanément deux caractères . et


sur une population de taille N et si . et ont respectivement les
modalités T8, T9, … , To et "8, "9, … , "p alors le tableau de la
distribution conjointe (ou tableau croisé) des deux variables se
présente de la façon suivante :

Y
X "9 … "n … "p Total

45
x8 $88 $89 $8n $8p $8
.
$98 $99 $9n $9p $9.
. .
… …
. .
. .
$38 $39 $3n $3p $3.
.
. . . . .
. . . .
. . .
. . . . .
xs $o8 $o $on $op $o.
Total $.8 $.9 … $.n … $.p
$3n représente l’effectif des individus de la population qui possèdent
à la fois la valeur T3 de la variable X et la valeur "n de la variable Y.
2.2. Notations
p
$3. = $38 + $39 + ⋯ + $3p = 5 $3n
n78
C’est le total des effectifs de la ligne i ; c'est-à-dire l’effectif total des
individus qui possèdent la valeur T3 de la variable X
(indépendamment de la valeur de la variable Y).

C’est le total des effectifs de la colonne j ; c'est-à-dire l’effectif total


des individus qui possèdent la valeur "n de la variable Y
(indépendamment de la valeur de la variable X).
Remarque : On a :

2.3. Fréquences (ou pourcentages)

La fréquence du couple (T3, "n) est

C’est la fréquence du couple (T3, "n) observée sur l’ensemble de la


population. Elle peut être exprimée en pourcentage.

46
En adoptant la notation ci-dessus on a :
Fréquence conjointe

Total des fréquences conjointes de la ligne i

3.

Total des fréquences conjointes de la colonne j

.n

3. Distributions marginales et distributions conditionnelles


3.1. Distributions marginales
Les sommes des effectifs ou des fréquences en lignes définissent la
distribution marginale (d’effectifs ou de fréquences) de la variable X.
C’est la distribution définie par la colonne « Total » du tableau de
distribution conjointe. C’est une distribution à une dimension puisque
la variable Y n’intervient pas.
On définit de même la distribution marginale de la variable Y par les
sommes des effectifs ou des fréquences par colonne. C’est la
distribution définie par la ligne « Total » du tableau de distribution
conjointe.
On a donc les distributions marginales suivantes :

Distribution marginale de X Distribution marginale de Y


Valeu Effectifs Fréquenc Valeu Effectifs Fréquenc

47
rs de margina es rs de margina es
X (jk) ux marginal Y (lk) ux marginal
es es
.8
8 8. 8 .8
9 9. . .9 .
9. . 9 .9 .
. . .
. . .
. . .
. . .
. 3. . .n .
3. . . .n .
. . .
. .
. . .
. . .
. . . .p .p
.

Total : 1 Total : 1

On peut ainsi calculer des caractéristiques de tendance centrale


(moyenne, médiane, etc.) ou de dispersion (variance, écart-type,
etc.) pour chacune des variables à partir des distributions
marginales.

3.2. Distributions conditionnelles

Lorsqu’on ne considère qu’une colonne (colonne j) du tableau de


distribution conjointe de X et Y, on obtient une distribution à une
dimension appelée distribution conditionnelle ou liée à X sous la
condition m = "n ou encore distribution de X sachant m = "n.
On définit la fréquence conditionnelle de T3 sachant "n par :

Tableau : Distribution conditionnelle de X sachant "n

48
De même on définit la distribution conditionnelle de Y liée à T3 (ou
distribution conditionnelle de Y sachant T3) en considérant la ligne i
du tableau de distribution conjointe :
La fréquence
Valeur Effectifs Fréquences conditionnelle
de s de Y conditionnelle conditionnelle "n sachant T3
est : ( ) s s
"8 Valeurs $38 Effectifs 8/3 Fréquences
de X (xi) conditionnels 9/3conditionnelles
.
"9 $39 . 8/n
. T8 . $8n
.
. . 9/n .
$9n n/3 .
. . .
" . . .
$3n
. . . p/3
. 3/n .
. 9 . .
.
. . . $ 3n
. o/n
. 3p .
. .
Total $3. 1
3. .
. $on
.
To
Total $.n 1

Tableau : Distribution conditionnelle de Y sachant n

3.3. Propriétés des fréquences marginales et conditionnelles

3n = .n × xT3⁄"ny = n. 3/n

3n = 3. × x"n⁄T3y = 3. n/3
Cette propriété découle immédiatement des formules qui définissent
les fréquences conditionnelles de X et de Y.

49
3.4. Exemple
Le tableau ci-dessous représente un échantillon de 1000 personnes
étudiées suivant les caractères « Sexe » et « Situation matrimoniale
».
Sit.
matrimoniale
Marié Célibatair Divorcé Veuf Total
Sexe
e
Homme 250 200 100 50 600
Femme 150 150 75 25 400
Total 400 350 175 75 1000
Calculons les fréquences conjointes des deux variables.
Tableau 11 : Répartition (en pourcentage) de la population étudiée
selon le sexe et la situation matrimoniale
Sit.
Célibatair
matrimoniale Marié Divorcé Veuf Total
e
Sexe
Homme 25,0 20,0 10,0 5,0 60,0
Femme 15,0 15,0 7,5 2,5 40,0
Total 40,0 35,0 17,5 7,5 100,0
Ce tableau de fréquences permet de connaître la structure de la
population suivant les deux caractères étudiés. On peut lire par
exemple que :
25% de la population est constituée d’hommes mariés ; les femmes
représentent 40% de l’effectif total ; les femmes veuves constituent
2,5% de l’effectif total ;

On peut aussi calculer les tableaux des fréquences (ou pourcentages)
en lignes
Tableau 12 : Répartition (en pourcentage lignes) de la population
étudiée selon le sexe et la situation matrimoniale
Sit.
Célibatair
matrimoniale Marié Divorcé Veuf Total
e
Sexe
Homme 41,7 33,3 16,7 8,3 100,0

50
Femme 37,5 37,5 18,8 6,3 100,0
Total 40,0 35,0 17,5 7,5 100,0
Le tableau ci-dessus présente les fréquences en lignes ou encore les
fréquences conditionnelles de la situation matrimoniale en fonction
du sexe. On peut lire par exemple :
41,7% des hommes sont mariés contre 37,5% chez les femmes ; les
célibataires sont proportionnellement plus nombreux chez les
femmes que chez les hommes ;

Tableau 13 : Répartition (en pourcentage lignes) de la population


étudiée selon le sexe et la situation matrimoniale
Sit.
Célibatair
matrimoniale Marié Divorcé Veuf Total
e
Sexe
Homme 62,5 57,1 57,1 66,7 60,0
Femme 37,5 42,9 42,9 33,3 40,0
Total 100,0 100,0 100,0 100,0 100,0
Ici, on peut lire les structures, selon le sexe, des sous-populations
définies par les situations matrimoniales. C’est le tableau des
fréquences conditionnelles de la variable « Sexe » ou tableau des
profils colonnes ou encore tableau des pourcentages en colonnes. On
peut lire par exemple que : les hommes constituent 62,5% des
personnes mariées ; les femmes constituent 40% de la population
totale ;

4. Représentation graphique
4.1. Exemple1 : Cas de variables discrètes
Tableau 14 : Répartition d’un échantillon de personnes suivant le
sexe et le statut matrimonial
Sit.
Célibatair Divorc
Matrimoniale Marié Veuf Total
e é
Sexe
Homme 250 200 100 50 600
Femme 150 150 75 25 400
Total 400 350 175 75 1000

51
Graphique 7 : Représentation de la répartition des effectifs de
l’échantillon suivant le sexe et le statut matrimonial

Dans cet exemple, le diagramme est un diagramme en barres (ou


tuyeaux d’orgue) compilées d’orgue :
la distribution marginale par catégorie socioprofessionnelle est
représentée par les hauteurs des tuyaux d’orgue ;
les effectifs $3n (ou les fréquences 3n) sont représentés par les
hauteurs des rectangles intérieurs représentant chaque
modalité de la variable « sexe ».

4.2. Exemple 2 : Cas où les 2 caractères sont des


variables quantitatives
Graphique 8 : Répartition des enfants d’une école maternelle
d’après leur âge

52
et leur poids
De 3 ans à moins de 4 De 4 ans à moins de 5 De 5 ans à moins de 6
35 Répartition par tranches d’âge des
enfants dont le poids varie de 20
30
Kg à moins de 25 Kg
25

20

15

10

0
De 10 kg à moins De 15 kg à moins De 20 kg à moins De 25 kg à moins
de 15 de 20 de 25 de 30

Le diagramme dans cet exemple est un diagramme en barres


groupées. Chaque groupe de barres représente la répartition par
tranches d’âge (3 ans à moins de 4 ans ; 4 ans à moins de 5 ans ; 5
ans à moins de 6 ans).

4.3. Autres représentations graphiques


Nuage de points
Nuage des points pondérés

5. Mesure de la liaison entre deux variables


L’un des intérêts de l’étude simultanée de deux caractères est
l’analyse des variations communes afin de détecter l’existence ou
non d’une dépendance.
Les cas suivants peuvent se présenter :
les variations des deux caractères n’ont aucun lien entre elles.
On dira que les deux variables sont indépendantes : Exemple :
la taille des élèves et leur moyenne en classe.
les deux variables sont rigoureusement liées. On parle de liaison
fonctionnelle. Exemple: le revenu et la dépense de
consommation des ménages. les deux variables évoluent
globalement dans le même sens (ou en sens contraire) sans être
liées rigoureusement. On parle de corrélation positive (ou
négative).
53
Il existe des indicateurs permettant de mesurer le niveau de la
relation entre deux variables. Parmi ces indicateurs, on a :
le khi deux (distance du khi
deux) la covariance le
coefficient de corrélation.

5.1. Notion d’indépendance de deux variables.


On dit que deux variable statistiques X et Y sont indépendantes si la
réalisation de n’importe quel résultat de X n’influence d’aucune façon
celle d’un résultat quelconque pour Y.
En considérant le tableau de contingence de X et Y et les
distributions conditionnelles de X et Y, l’indépendance de X et Y se
traduit par le résultat suivant : Pour i et j quelconques, la fréquence
conditionnelle 3n est égale à la fréquence marginale 3n.

3/n = 3. ⇒ 3n = 3. .n
Cette formule découle des propriétés du paragraphe 3.3.
Ainsi, l’indépendance entre les variables X et Y se traduit par le fait
que les fréquences conjoints 3n sont les produits des fréquences
marginales.

5.2. Notions de covariance et indépendance de deux

variables La covariance de X et Y est le nombre (., m) défini par :

Après transformation, cette formule s’écrit :

Si les variables X et Y sont indépendantes, alors on aura :

54
et donc (., m) = 0
L’indépendance de X et Y entraîne la nullité de (., m). Autrement dit,
si (., m) ≠ 0 alors il existe une certaine dépendance entre X et Y.
Remarque : La nullité de la covariance n’implique pas forcement
l’indépendance entre X et Y.
Exemple :
X -2 -1 01 2
Y 2 1 01 2
Dans cet exemple on a (., m) = 0 alors qu’il existe une relation
fonctionnelle entre X et Y du type m = |.|
Remarque :
La covariance permet de déceler seulement les liaisons du type "
= T + (fonction affine). Par ailleurs, sa valeur est influencée par
les unités de mesure des variables X et Y, on lui préfère le
coefficient de corrélation linéaire défini par:

Le coefficient de corrélation linéaire est un nombre compris entre -1


et 1.
si ≈ − 1 alors il existe une relation du type " = T + avec < 0.
entre X et
Y.
si ≈ 1 alors il existe une relation du type " = T + avec > 0
Si < < 1 alors le nuage de points (T3, "n) s’allonge suivant une
droite croissante.
Si −1< < 0 le nuage de points (T3, "n) s’allonge suivant une
droite décroissante.
si ≈ 0 le nuage de points (T3, "n) n’a pas une forme allongée.

5.3. Distance du khi-deux et indépendance entre 2 variables


En considérant les notations précédentes (voir tableau de
contingence et fréquence) on définit la distance du khi-deux par :

55
ou encore:

Remarques :
La distance du Khi-deux vaut 0 si les variables X et Y sont
indépendantes. En effet, si X et Y sont indépendantes, 3n = 3. .n et
donc pour tous i et j
3n − 3. .n = 0

La distance du Khi-deux est maximale s’il existe une


dépendance systématique entre X et Y.
Les quantités et sont appelées respectivement
les fréquences et les effectifs théoriques de la distribution
conjointe de X et Y. Ce sont les fréquences (ou les effectifs)
qu’aurait la distribution conjointe si X et Y étaient
indépendantes.
Ainsi la distance du Khi-deux mesure l’écart entre la distribution
empirique (fréquences observées) et la distribution théorique
(fréquences théoriques dans le cas d’indépendance de X et Y).
Pour le calcul du Khi-deux il est conseillé de regrouper les
modalités, à voir pour lesquels il existe des effectifs $3n < 5.

56
Références bibliographiques

Bernard Grais, 2003, Statistique descriptive, Dunod


Boureima Ouedraogo, Module de statistique descriptive, IAPM, 2008
Walder Masiéri 1996, Statistique et calcul des probabilités, éditions
Sirey, 7ème édition
Bernard PY, 1987, Statistique descriptive, Economica
Jean Bégin, Résumé de cours de statistique (net)
Fabrice Mazerol, Statistique descriptive, 2008(net)

57

Vous aimerez peut-être aussi