Statistique Descriptive Nutrition
Statistique Descriptive Nutrition
Enseignement Supérieur et
Universitaire
INSTITUT SUPERIEUR DES TECHNIQUES
MEDICALES DE KIKWIT « ISTM KKT»
STATISTIQUE DESCRIPTIVE
LMD2
NUTRITION
NEW EDITION
Introduction
2
Chapitre 1 : Concepts de base
1. Définition
La statistique est la science qui a pour objet de recueillir,
organiser, classer, présenter et interpréter les données.
La statistique (science) est à distinguer d’une statistique
(généralement employée au pluriel) qui désigne un chiffre ou
une collection de chiffres se rapportant à un sujet quelconque et
élaborés grâce à des outils et des méthodes statistiques.
2. Objet et utilité de la statistique
L’objet de la statistique est l’étude des faits pour prendre des
décisions. Elle utilise des outils mathématiques pour étudier les
propriétés numériques des ensembles de faits nombreux. Elle
permet de :
Décrire les caractéristiques d’une population ainsi que les
relations entre les critères qui caractérisent la population.
Exemple : décrire le lien entre l’ancienneté des employés
et leur salaire ; estimer des paramètres et prendre des
décisions ; prévoir et éventuellement expliquer.
Pour un pays, par exemple, la statistique permet de mesurer
des agrégats afin de connaître la situation actuelle d’un
phénomène (conjoncture économique), son évolution dans le
temps, de prévoir son état futur (prévision des recettes de
l’Etat), de comparer des entités, de décider de l’action à mener.
L’enseignement de la statistique présente essentiellement deux
grandes branches :
Les méthodes descriptives : elles comprennent les
statistiques descriptives et l’analyse des données (analyses
factorielles et classification). Elles servent à simplifier un
ensemble de données (généralement vaste) sans trop
perdre d’information par le biais de graphes, de tableaux et
de nombres qui résument les données ;
La statistique mathématique dont l’objet et de formuler les
lois à partir d’échantillons et de sous-ensembles d’une
population statistique.
3
3. Définition des concepts usuels de la statistique
3.1. Population et individu
L’ensemble sur lequel porte une étude statistique est appelé «
population ». Chaque élément de cet ensemble est appelé «
individu » ou « unité statistique ».
Remarque :
On emploiera les termes population et individu aussi bien
lorsqu’il s’agit d’un ensemble d’êtres humains (les salariés
d’une entreprise) ou d’objets inanimés ou bien d’un
ensemble plus ou moins abstrait comme l’ensemble des
accidents de la route au cours d’une période donnée.
La population étudiée doit être définie de façon précise pour
que tous les intervenants qui concourent à l’observation,
au traitement, à l’analyse ou à l’utilisation de l’information
statistique en aient la même compréhension.
Exemples :
La population du Burkina Faso au 1er janvier 2015
Préciser si les burkinabé de l’étranger et les étrangers
vivant au BF en font partie.
4
C’est le critère ou la propriété suivant lequel on étudie la
population statistique.
Exemple :
L’âge des étudiants d’une université
L’ancienneté des travailleurs d’une société
La couleur des motocyclettes dans la ville de Kikwit
Le degré d’appréciation d’une mesure gouvernementale par
les populations.
La variable statistique prend des valeurs différentes pour les
individus de la population. Les valeurs possibles d’une variable
statistique sont ses modalités.
Exemple : Couleur des yeux : noir, bleu, marron ou vert
La variable statistique peut être qualitative ou quantitative.
3.4. Types de variables
statistiques
Discrète
Quantitative
Continue
Variable
statistique
Nominale
Qualitative
Ordinale
Variable mesurable ou
quantitative : repérable
Exemples : âge, poids, ancienneté, température, taille, nombre
d’enfants en charge.
Variable quantitative discrète : variable dont les modalités
sont des valeurs isolées (par exemple des valeurs entières).
Exemple : nombre d’enfants à charge, taille des entreprises (en
nombre d’employés), nombre de pièces des logements des
ménages.
Variable quantitative continue : variable pouvant prendre
toute valeur dans un intervalle donné. En général, ses modalités
sont des nombres à virgule.
5
Exemple : âge, poids (en kilogrammes), taille (en mètres), PIB
par tête des pays, salaire des employés.
En pratique, on considère qu’une variable quantitative est
continue lorsqu’elle prend un très grand nombre de valeurs
possibles.
Exemple : le revenu, le salaire des employés d’une entreprise.
Variable qualitative : les modalités sont non mesurables. Elles
sont généralement représentées par des noms qui traduisent des
états.
Exemple :
Couleurs des yeux : Bleu/Noir/Vert/Marron
Marié/Célibataire/Divorcé/Veuf
6
; !"; #é
4. Elaboration de statistiques
L’étude statistique des phénomènes suppose d’abord une
collecte des données de base. Cette collecte se fait à partir
d’enquêtes (collecte auprès de personnes morales ou
physiques), de résultats d’expériences ou d’exploitation de
fichiers administratifs.
L’observation des faits peut se faire de façon instantanée
(enquêtes par sondages et recensements) ou de façon continue
(enregistrement des naissances à l’état civil, comptabilité d’une
entreprise).
4.1. Recensement
7
les critères à étudier, à concevoir les outils
nécessaires à la collecte des informations
(questionnaires, guide d’entretien, manuels des
agents, etc.). Elle doit également définir les
résultats attendus, notamment les indicateurs
essentiels à calculer.
2. La phase de collecte : Elle comprend la formation
des acteurs, la sensibilisation des personnes cibles,
l’observation et l’enregistrement de l’information à
l’aide de questionnaires. La collecte peut se faire
par interview directe, par courrier (poste, e-mail),
par téléphone, etc.
3. La phase de traitement : Elle consiste à la
validation des questionnaires, la codification des
réponses, le dépouillement (manuel ou
automatique) et le traitement éventuel des données
manquantes, des erreurs de saisie, etc.
4. La phase d’analyse et de diffusion : Calcul des
indicateurs, critique et interprétation des résultats,
présentation des résultats obtenus.
5. Critiques de la statistique
A tort ou à raison, plusieurs griefs sont souvent faits à la
statistique :
« La statistique porte sur des faits passés et apporte trop tard
ses enseignements »
Pas toujours vrai puisqu’il existe des méthodes
d’observation continue et des méthodes de prévision.
« Les statistiques sont fausses »
Bien sûr si les bases ont été faussées ou si les
méthodes utilisées ne sont pas scientifiquement
correctes. C’est pour cela il est nécessaire de
comprendre les statistiques pour les interpréter.
« Les statistiques aboutissent à des conclusions relatives au
comportement d’ensemble et non à celui de l’individu. »
C’est précisément l’objet de la statistique
« Une des formes les plus raffinées du mensonge. »
Nécessité de connaître clairement de quoi il s’agit, les
concepts et les méthodes utilisées afin de mieux porter
son jugement.
8
Chapitre 2 : Présentation des données
2. Tableau de dénombrement
2.1. Définition :
9
modalité le nombre d’individus de l’échantillon qui portent cette
modalité. Un tel tableau est appelé tableau de dénombrement.
Effectif : On appelle effectif ou encore fréquence absolue d’une
modalité M, le nombre d’individus de l’échantillon qui possèdent
cette modalité.
La constitution d’un tableau de dénombrement est immédiate
dans le cas des variables qualitatives et des variables
quantitatives discrètes. Par contre, dans le cas des variables
continues, il existe une infinité (ou un très grand nombre) de
modalités. Il est donc nécessaire dans ce cas de transformer les
données en les regroupant dans des classes de valeurs
(intervalles).
2.2. Exemples
10
Cas d’une variable continue
Tableau 3 : Salaire mensuel des employés de l’entreprise X
Remarques :
Ce tableau indique par exemple que deux employés ont un
salaire au moins égal à 50 mille mais inférieur à 100 mille.
La largeur des classes (ou encore amplitude) est constante et
égale à 50.
La borne inférieure de la distribution (50) et la borne
supérieure (250) ont été choisies de sorte que toutes les
valeurs observées soient dans l’intervalle [50 ; 250 [
Les classes sont disjointes (une valeur ne peut être à la fois
dans deux classes différentes) et continues (il n’y a pas
d’espace entre deux classes successives).
11
Il existe quelques règles empiriques pour le choix optimal du
nombre de classes :
Règle de Sturge :
$! = 1 + (3,3 × ) $)
Règle de Yule :
. $6
12
Total :
3.1. Définitions
Fréquence :
Remarque
On a la relation suivante :
13
Avec les notations ci-dessus, la forme générale d’un tableau de
fréquences est la suivante :
Modali Effectifs Fréquenc Fréquenc Fréquences
tés du (Ni) e es cumulées
caract s cumulées décroissantes
ère fi = NNi croissante
(X i ) s
.8 $8 $9 f1 F1 = f1 F1' = f1 + f2 +...
. + fK =1
. f 2 F2 = f1 +
. f2 F f f
.. .
. fK
$3 . .
.
. . .
. .
.. fi .
.
. . Fi = f1 +
$6 f2 + fi Fi' = fi + fi+1
. .. +...+ fK
. .
. .
. fK
. .
.
.
FK = f1
+ fK =1 FK = fK
Total i=1
∑ K Ni K ∑ fi
=N =1i=1
3.3. Exemples :
Tableau 4 : Distribution de la langue maternelle des élèves (voir
paragraphe 1)
Langue Effectifs Fréquence Fréquence
maternelle (%)
YANSI 7 0,47 46,7
MBALA 3 0,20 20,0
BUNDA 1 0,07 6,7
NGONGO 1 0,07 6,7
PENDE 1 0,07 6,7
14
WUNGANI 2 0,13 13,3
Total 15 1,00 100,0
15
le titre du tableau : renseigne sur le contenu du tableau. Il
doit être précis et se place au-dessus du tableau ;
les titres des lignes et des colonnes : doivent être aussi courts
que possible pour ne pas encombrer le tableau ;
les unités de mesure des variables ;
la source : placée en bas du tableau, elle indique le ou les
services qui publient les statistiques contenues dans le
tableau.
Quelques règles usuelles de présentation des données à
l’intérieur d’un tableau qui facilitent la lecture :
Utiliser une police de caractères lisible pour les chiffres
(exemple Arial) ;
Aligner les chiffres à droite sans coller à la bordure du tableau
;
Centrer verticalement les chiffres ;
Utiliser les séparateurs de milliers pour les chiffres pour les
valeurs dépassant 1 000 ;
Harmoniser le nombre de chiffres après la virgule à l’intérieur
de chaque colonne ;
Limiter le nombre de chiffres après la virgule en fonction du
degré de précision requis (en général un ou deux chiffres
après la virgule) ;
Utiliser de préférence un chiffre après la virgule pour les
valeurs en pourcentage.
Les tableaux doivent être en pleine page s’ils ont suffisamment
de colonnes ou sur la moitié de la page s’ils n’ont que quelques
colonnes.
Les colonnes, hors celle de l’intitulé divent avoir une largeur
identique.
4. Représentation graphique
La représentation graphique permet de renseigner
immédiatement sur l’allure générale de la distribution. Elle facilite
l’interprétation des données.
Le type de graphique à utiliser pour représenter une série
statistique dépend de la nature discrète ou continue de la
variable.
16
4.1. Le diagramme en bâtons et le diagramme
circulaire.
Ils servent à représenter les variables qualitatives et les variables
quantitatives discrètes.
Dans le cas du diagramme en bâtons, les modalités de la
variable sont représentées par des bâtonnets ou des rectangles
(tuyaux d’orgue) dont les hauteurs sont proportionnelles aux
effectifs des modalités.
Exemple : Graphique en bâtonnets de la distribution du nombre
d’enfants à charge des employés d’une entreprise.
0,3
0,25
Fréquences
0,2
0,15
0,1
0,05
0
0 1 2 3 4 5 6 7 10
Nombre d'enfants
17
Graphique : Représentation par le diagramme circulaire de
l’état matrimonial des détenus d’une prison
Veuf
Divorcé
Marié
Célibataire
Remarque
L’angle Ai de chaque modalité se calcule de la façon suivante
Ai = 360× fi
Et
∑Ai =∑360× f i = 360×∑ f i = 360×1= 360
Remarque :
Le diagramme en secteurs circulaires permet mieux que le
diagramme en bâtons de visualiser la part relative de chaque
modalité dans l’ensemble de la population.
Pour des comparaisons dans l’espace et dans le temps, la
représentation par secteurs permet de rendre sensible à la fois
les différences en valeurs absolues et en valeurs relatives.
Exercice :
Comparer les structures de l’emploi par grands secteurs d’activité
en France et aux Etats-Unis.
18
Tableau 7 : Structure de l’emploi civil par grands secteurs
d’activités en RDC et en ANGOLA(1985)
ANGOLA RDC
Secteurs d’activités
Ni fi Ni fi
Agriculture 3 338 3,1 1 583 7,6
Industrie 30 28,0 6 681 32,0
048
Transport, commerce, 73 68,6 12 60,4
service 764 626
TOTAL 107 150 100,0 20 890 100,0
Source : OCDE
Tableau de calculs
ANGOLA RDC
Secteurs
fi Ai fi Ai
Agriculture 3,1 11,21 7,6 27,36
Industrie 28,0 100,95 32,0 115,20
Transport 68,8 247,83 60,4 217,44
TOTAL 100,0 360,00 100,0 360,00
Pour comparer la structure de l’emploi dans les deux pays la
situation de chaque pays sera représentée par un diagramme
circulaire. Le principe de proportionnalité des superficies des
secteurs représentatifs des modalités implique que les
superficies des cercles soit également proportionnelles aux
valeurs respectives de l’emploi dans les deux pays.
Ainsi, on a :
⇒ RUS = RFr
πRUS2 πRFr2 107150
= = 2,26RFr
19
Où RUS et RFr désignent respectivement les rayons des cercles
représentant les structures de l’emploi aux Etats-Unis et en
France.
a. Histogramme
21
des employés de l’entreprise Y au 31 déce
employés de
b. Courbe de fréquence
Exemple
23
x a F(x) = P(X < x)
Tel que P(X < x) est la proportion d’individus dont la valeur observée
de X est inférieure à x.
La courbe cumulative se construit à partir des fréquences cumulées
croissantes.
a. Courbe cumulative d’une variable discrète.
Dans le cas d’une variable discrète, la courbe cumulative se présente
comme une courbe en escalier puisque la fonction de répartition F
est dans ce cas une fonction constante par intervalles.
Exemple :
Tableau 10 : Répartition des familles des travailleurs d’un groupe
industriel selon le nombre d’enfants.
100,00
80,00
60,00
40,00
20,00
0,00
0 1 2 3 4 5 6 7
100
80
60
F(x)
40
20
0
50 100 x 150 200 250
Salaires en milliers
employés
Remarque :
25
Le tracé de la courbe cumulative de la variable continue fait
l’hypothèse d’une répartition uniforme des individus à l’intérieur
des classes.
La courbe cumulative permet de déterminer graphiquement,
pour tout nombre réel x, la proportion d’individus dont la valeur
pour la variable X est inférieure à x, (voir graphe ci-dessus).
4.3. Autres types de représentation graphique
Les cartogrammes
La pyramide des âges
26
Exemple 2 : la série {2;1;2;2;3;1;5;4;4;5;4} a deux modes à savoir 2
et 4.
1.2. Cas des variables à modalités isolées
(qualitatives et quantitatives discrètes)
Le mode est facile à déterminer dans ce cas à partir d’un tableau des
fréquences ou d’un graphique de distribution. C’est la modalité qui
présente l’effectif le plus élevé (ou la fréquence la plus élevée).
Exemple 1 : Langue maternelle (Exemple 1.2 du chapitre 2). Dans
ce cas, le mode est Mooré.
Exemple 2 : Nombre d’enfants des travailleurs d’une entreprise
(Exemple 1.2 du chapitre 2) : Il y a deux modes : 0 et 1.
27
Le mode n’a de signification véritable que si l’effectif
correspondant est nettement supérieur aux effectifs des autres
modalités. Le mode n’est intéressant que lorsqu’il est unique.
2. La médiane
2.1. Définition
2
Exemple : Série S = 2 ; 4 ; 4 ; 6 ; 7 ; 8 ; 10 ; 10 ; 12 Ici, la médiane
est égale à 7. Cas où N est pair : Dans ce cas la médiane est la
N
moyenne des valeurs de rangs
2
et N +1 2
Exemple : S = 0 ; 1 ; 1 ; 2 ; 2 ; 3 ; 3 ; 3 ; 4 ; 5
M e= = 2,5
28
2.3. Méthode de calcul – cas des données groupées.
Si les données sont groupées par classes (cas des variables
continues) il faut :
localiser la classe médiane, c’est-à-dire celle qui contient la
médiane. calculer par extrapolation linéaire la valeur de la
médiane ;
ou déterminer la médiane par projection à partir du diagramme
des fréquences cumulées.
NB : La classe médiane est celle dont la fréquence cumulée est ≥ 50
% et dont la classe précédente à une fréquence cumulée < 50 %.
Si on note M e la médiane, e1 la borne inférieure de la classe médiane,
F la fonction de répartition de la variable, et fMe la fréquence de la
classe médiane, on a alors
F(e1) est la fréquence cumulée à la classe précédant la classe
médiane, F(e2 ) la fréquence cumulée à la classe médiane et :
0,5− F(e1)
Me = e1 + ×(e2 −e1) F(e2) − F(e1)
Remarque :
Si les fréquences sont exprimées en % on a :
50− F(e1)
Me = e1 + ×(e2 −e1)
F(e2) − F(e1)
On peut remplacer les fréquences par les effectifs cumulés. Dans
ce cas
N
−N(e1)
Me =e1 + 2 ×(e2 −e1)
NMe
29
2.4. Avantages et inconvénients de la médiane Son calcul est
facile.
Donne une idée satisfaisante de la tendance centrale de la
distribution.
N’est pas influencée par les valeurs extrêmes de la distribution
(valeurs aberrantes).
La médiane Me possède la propriété suivante : ∑xi −M
e ≤ ∑ xi − xo Pour
i i toute valeur xo
de la série différente de la médiane.
Elle ne tient pas compte des valeurs prises par la variable mais
seulement de leurs ordres de grandeur.
Elle concerne uniquement les variables quantitatives.
Q1 Q2 Q3
30
3.3. Les déciles :
; C'est-à-dire que :
De même :
i
F(Di ) = , pour i = 1, 2,..., 9
10 i
F(Ci ) = , pour i=1,2,..., 99
100
4. La moyenne arithmétique
4.1. Définition :
La moyenne arithmétique d’un ensemble de données est la somme
des valeurs obtenues divisée par le nombre d’observations. Elle est
notée X pour une variable notée X.
31
∑x i N
i=1 1
Sa formule est : X = = ∑xi (1)
N N i=1
où les xi sont les valeurs observées et N est le nombre d’observations
ou la taille de la population.
Cette formule est utilisée dans le cas où les données sont présentées
sous forme de série.
Exemple : série du nombre d’enfants des employés (voir
X= = 2,75
4.3. La moyenne arithmétique pondérée
K
∑Ni x i K
Sa formule est : X = i=1K = 1 ∑Ni xi (2)
∑Ni N i=1
i=1
32
Exemple : Série du nombre d’enfants à charge avec tableau des
fréquences.
1 9
X = ∑Ni × xifi × xi = 2 , 75
20
On a bien donc : =1 i=1
4.4. Calcul de la moyenne dans le cas des données groupées
(variables continues)
Dans le cas où les données sont groupées par classes, on fait
l’hypothèse que chaque observation à l’intérieur d’une classe a une
valeur égale au centre de la classe. Ce qui constitue bien sûr une
approximation.
Soit ai et bi respectivement les bornes inférieures et supérieures de la
classe N°i , le
33
ai + bi
centre ci de la classe est ci =
K
∑Ni ×c i K
i=1
Dans ce cas on a : X = K = 1 ∑Ni ×ci
∑Ni N i=1
i=1
Remarque :
La moyenne calculée sur les données groupées est généralement
différente de la moyenne calculée sur la série initiale non groupée.
Exemple : Soit la série 4 ;0 ;1 ;1 ;2 ;2 ;2 ;3 ;3 ;4 ;2 ;3 ;4 ;5 ;2 ;1 ;3 ;3
;4 ;5
Le tableau de distribution de la variable étudiée est comme suit :
∑Ni ×Ci
34
X
Remarque :
Les données groupées ne doivent être utilisées pour les calculs que
lorsque les données initiales ne sont pas disponibles.
4.5. Avantages et inconvénients de la moyenne arithmétique
Du fait qu’elle utilise pour son calcul toutes les valeurs prises par
la variable, la moyenne arithmétique est la meilleure des
caractéristiques de position.
La moyenne possède la propriété suivante :
∑N (xi − X)2 ≤∑N (xi −xo )2 ,
f (X) = 1 ∑K Ni × f (xi )
N i=1
35
5.1. Moyenne géométrique
Elle est utilisée dans le cas d’une variable positive (strictement >0).
Sa formule est :
N
x1 ×x2 ×...×xn G= : Moyenne
géométrique simple ou
G = x ×x ×... ×x
N N1 N2 NK
1 2 K
: Moyenne géométrique pondérée
Exemple :
Une banque propose à ses clients des taux d’intérêt sur épargne de
la façon suivante : 3 % à la 1 ère année ; 3,5 % les 2 ème et 3ème années
et 4 % au-delà de la 3ème année.
Quel est le taux d’intérêt moyen annuel d’un placement au bout de la
6ème année ?
Résolution :
Soit le montant initial placé et .le montant de la somme épargnée
au bout de la è/J année et M le montant au bout des 6 ans. Soit 8; 9; …
; K, les taux d’intérêt
annuels et le taux moyen annuel.
On a :
36
au bout de la 1ère année : 8 = (1 + 8) I
ème
au bout de la 2 année ; 9 = (1 + 9) 8 = (1 + 9)(1 +
ème
8)I au bout de la 6 année : = (1 + 8)(1 + 9) … (1 + K)I
K
Or = (1 + /) I
Donc
Remarque :
La moyenne harmonique ne peut être calculée que lorsque la
série a des valeurs non nulles.
Elle est utilisée pour le calcul des durées moyennes, des
distances moyennes, et de certains ratios.
Exemple 1:
Un cycliste parcourt une distance de 100 km avec les vitesses
horaires suivantes : 40km/h les 1ers 25 km puis 30 km/h, 25km/h et
20km/h les 2ème, 3ème et 4ème 25 km suivants.
Quelle est la vitesse moyenne horaire du cycliste ?
Résolution :
Soit T la durée totale de la course, et la vitesse moyenne horaire
3 et sont les durées et les vitesses respectives sur le tronçon N°i.
d’où
37
-
Exemple 2 : Les statistiques suivantes ont été observées sur 6
régions :
Population (milliers 1
250 450 800 150 600
d’habitants) 200
Nombre d’habitants pour
1 000 1 500 2 000 1 250 2 500 900
un médecin
Quel est pour l’ensemble des six villes le nombre moyen de médecin
par habitant ?
5.3. Moyenne quadratique
Remarque :
On utilise la moyenne quadratique pour le calcul des écarts
quadratiques moyens
38
Elles servent à mesurer la variabilité de la variable statistique
et de juger de la pertinence (représentativité) de la caractéristique
de tendance centrale.
1. L’étendue
1.1. Définition :
2. Intervalle interquartile
2.1. Définition
39
C’est la moyenne des écarts absolus entre chaque observation et la
moyenne.
: Cas simple
Ou encore
: Cas pondéré
Remarque :
On peut aussi calculer l’écart absolu moyen à partir de la
médiane
4. Variance et écart-type
4.1. Définition :
: Cas simple Ou
encore
40
4.2. Interprétation, avantages et inconvénients
L’écart-type et la variance mesurent la dispersion de la variable
autour de la moyenne. Ainsi, des valeurs élevées
(respectivement faibles) de ces caractéristiques traduisent une
grande (respectivement faible) dispersion des valeurs autour de
la moyenne.
La variance est calculée à partir des valeurs de la série élevées
au carré. Ainsi l’unité (de mesure) de la variance est le carré de
celle de la variable. Par exemple, si la variable est mesurée en
francs, en kg ou en mètre, la variance sera mesurée en francs
au carré, en kg au carré ou en mètres au carré. Par contre
l’écart-type a la même unité de mesure que la variable.
41
observations et ; la variance en utilisant la
formule de Kœnigs.
4.5. Exercice
Soit le tableau suivant représentant la distribution de la mesure du
poids en kg de 100 personnes :
1.
Déterminer la moyenne et la médiane de cette
distribution.
2.
Calculer l’écart absolu moyen respectivement par
rapport à la moyenne et à la médiane.
3.
Déterminer l’écart interquartile.
4.
Calculer la variance et l’écart-type de la distribution.
Poids en kg Effectifs
[58,5 ; 62 ,5[ 5
[62,5 ; 65,5[ 18
[65,5 ; 68,5[ 42
[68,5 ; 74,5[ 27
[74,5 ; 80,5[ 8
Total 100
42
5.2. Interprétation, avantages et inconvénients
Contrairement aux autres indicateurs de dispersion, le coefficient
de variation est sans unité de mesure. On l’exprime souvent en
pourcentage.
Du fait qu’elle est sans unité, le coefficient de variation présente
l’avantage de ne pas être sensible à l’ordre de grandeur (ou à
l’unité de mesure) de la variable mais seulement à la dispersion
des valeurs autour de la moyenne. Ainsi on peut l’utiliser pour
comparer la dispersion de deux séries dont les ordres de
grandeur (ou les unités de mesure) sont différents.
Un coefficient de variation élevé (respectivement faible) traduit
une grande (respectivement faible) dispersion de la variable
autour de la moyenne.
L’appréciation du niveau (faible ou élevé) du coefficient de
variation est laissée aux soins de l’utilisateur. Cependant une
valeur du CV supérieure à 10 % doit susciter des questions
quant à la représentativité de la moyenne comme
caractéristique de tendance centrale.
43
Chapitre 5 : Les séries statistiques à deux dimensions
1. Introduction
Pour l’étude de certains phénomènes complexes, il s’avère
insuffisant de prendre en compte un seul caractère. Il faut en
considérer simultanément deux ou même davantage. Naturellement,
l’analyse des tableaux correspondants et leur représentation
graphique deviennent plus difficiles. La statistique descriptive à deux
dimensions a essentiellement pour but de mettre en évidence les
relations qui existent entre deux séries d’observations considérées
simultanément. Ces données peuvent être de nature qualitative ou
quantitative.
Il sera envisagé dans ce chapitre :
l’élaboration de tableaux statistiques permettant de condenser
les données sous forme de distributions de fréquences à deux
dimensions ou distributions conjointes ;
la représentation graphique des
observations ; la mesure de la liaison
entre deux variables.
Exemple :
Individu (i) 1 2 3 4 5 6 7 8
Sexe (jk) 1 1 2 2 1 2 1 2
Etat matrimonial (lk) 2 3 1 1 1 2 1 4
où
• Sexe : 1=Homme ; 2 = Femme
44
• Etat matrimonial : 1 = Marié ; 2= Célibataire ; 3= Divorcé ; 4 =
Veuf
Comme dans le cas des séries à une dimension, il peut être utile,
lorsque N est grand de condenser les données en une distribution
d’effectifs (ou de fréquences). Celle-ci se présente sous la forme d’un
tableau où les modalités T3 de la variable . sont croisées avec les
modalités "3 de la variable et dont chaque cellule présente l’effectif
$3n des individus correspondants à la fois au couple (T3, "n).
Exemple :
Sit.
Matrimoniale
Marié Célibatair Divorcé Veuf Total
Sexe
e
Homme 2 1 1 4
Femme 2 1 0 1 4
Total 4 2 1 1 8
Ce tableau indique par exemple que la population étudiée
comprend :
4 hommes dont 2 sont mariés, 1 est célibataire et 1 est
divorcé 4 femmes dont 2 sont mariées, 1 est célibataire et 1
est veuve.
Y
X "9 … "n … "p Total
45
x8 $88 $89 $8n $8p $8
.
$98 $99 $9n $9p $9.
. .
… …
. .
. .
$38 $39 $3n $3p $3.
.
. . . . .
. . . .
. . .
. . . . .
xs $o8 $o $on $op $o.
Total $.8 $.9 … $.n … $.p
$3n représente l’effectif des individus de la population qui possèdent
à la fois la valeur T3 de la variable X et la valeur "n de la variable Y.
2.2. Notations
p
$3. = $38 + $39 + ⋯ + $3p = 5 $3n
n78
C’est le total des effectifs de la ligne i ; c'est-à-dire l’effectif total des
individus qui possèdent la valeur T3 de la variable X
(indépendamment de la valeur de la variable Y).
46
En adoptant la notation ci-dessus on a :
Fréquence conjointe
3.
.n
47
rs de margina es rs de margina es
X (jk) ux marginal Y (lk) ux marginal
es es
.8
8 8. 8 .8
9 9. . .9 .
9. . 9 .9 .
. . .
. . .
. . .
. . .
. 3. . .n .
3. . . .n .
. . .
. .
. . .
. . .
. . . .p .p
.
Total : 1 Total : 1
48
De même on définit la distribution conditionnelle de Y liée à T3 (ou
distribution conditionnelle de Y sachant T3) en considérant la ligne i
du tableau de distribution conjointe :
La fréquence
Valeur Effectifs Fréquences conditionnelle
de s de Y conditionnelle conditionnelle "n sachant T3
est : ( ) s s
"8 Valeurs $38 Effectifs 8/3 Fréquences
de X (xi) conditionnels 9/3conditionnelles
.
"9 $39 . 8/n
. T8 . $8n
.
. . 9/n .
$9n n/3 .
. . .
" . . .
$3n
. . . p/3
. 3/n .
. 9 . .
.
. . . $ 3n
. o/n
. 3p .
. .
Total $3. 1
3. .
. $on
.
To
Total $.n 1
3n = .n × xT3⁄"ny = n. 3/n
3n = 3. × x"n⁄T3y = 3. n/3
Cette propriété découle immédiatement des formules qui définissent
les fréquences conditionnelles de X et de Y.
49
3.4. Exemple
Le tableau ci-dessous représente un échantillon de 1000 personnes
étudiées suivant les caractères « Sexe » et « Situation matrimoniale
».
Sit.
matrimoniale
Marié Célibatair Divorcé Veuf Total
Sexe
e
Homme 250 200 100 50 600
Femme 150 150 75 25 400
Total 400 350 175 75 1000
Calculons les fréquences conjointes des deux variables.
Tableau 11 : Répartition (en pourcentage) de la population étudiée
selon le sexe et la situation matrimoniale
Sit.
Célibatair
matrimoniale Marié Divorcé Veuf Total
e
Sexe
Homme 25,0 20,0 10,0 5,0 60,0
Femme 15,0 15,0 7,5 2,5 40,0
Total 40,0 35,0 17,5 7,5 100,0
Ce tableau de fréquences permet de connaître la structure de la
population suivant les deux caractères étudiés. On peut lire par
exemple que :
25% de la population est constituée d’hommes mariés ; les femmes
représentent 40% de l’effectif total ; les femmes veuves constituent
2,5% de l’effectif total ;
…
On peut aussi calculer les tableaux des fréquences (ou pourcentages)
en lignes
Tableau 12 : Répartition (en pourcentage lignes) de la population
étudiée selon le sexe et la situation matrimoniale
Sit.
Célibatair
matrimoniale Marié Divorcé Veuf Total
e
Sexe
Homme 41,7 33,3 16,7 8,3 100,0
50
Femme 37,5 37,5 18,8 6,3 100,0
Total 40,0 35,0 17,5 7,5 100,0
Le tableau ci-dessus présente les fréquences en lignes ou encore les
fréquences conditionnelles de la situation matrimoniale en fonction
du sexe. On peut lire par exemple :
41,7% des hommes sont mariés contre 37,5% chez les femmes ; les
célibataires sont proportionnellement plus nombreux chez les
femmes que chez les hommes ;
…
4. Représentation graphique
4.1. Exemple1 : Cas de variables discrètes
Tableau 14 : Répartition d’un échantillon de personnes suivant le
sexe et le statut matrimonial
Sit.
Célibatair Divorc
Matrimoniale Marié Veuf Total
e é
Sexe
Homme 250 200 100 50 600
Femme 150 150 75 25 400
Total 400 350 175 75 1000
51
Graphique 7 : Représentation de la répartition des effectifs de
l’échantillon suivant le sexe et le statut matrimonial
52
et leur poids
De 3 ans à moins de 4 De 4 ans à moins de 5 De 5 ans à moins de 6
35 Répartition par tranches d’âge des
enfants dont le poids varie de 20
30
Kg à moins de 25 Kg
25
20
15
10
0
De 10 kg à moins De 15 kg à moins De 20 kg à moins De 25 kg à moins
de 15 de 20 de 25 de 30
3/n = 3. ⇒ 3n = 3. .n
Cette formule découle des propriétés du paragraphe 3.3.
Ainsi, l’indépendance entre les variables X et Y se traduit par le fait
que les fréquences conjoints 3n sont les produits des fréquences
marginales.
54
et donc (., m) = 0
L’indépendance de X et Y entraîne la nullité de (., m). Autrement dit,
si (., m) ≠ 0 alors il existe une certaine dépendance entre X et Y.
Remarque : La nullité de la covariance n’implique pas forcement
l’indépendance entre X et Y.
Exemple :
X -2 -1 01 2
Y 2 1 01 2
Dans cet exemple on a (., m) = 0 alors qu’il existe une relation
fonctionnelle entre X et Y du type m = |.|
Remarque :
La covariance permet de déceler seulement les liaisons du type "
= T + (fonction affine). Par ailleurs, sa valeur est influencée par
les unités de mesure des variables X et Y, on lui préfère le
coefficient de corrélation linéaire défini par:
55
ou encore:
Remarques :
La distance du Khi-deux vaut 0 si les variables X et Y sont
indépendantes. En effet, si X et Y sont indépendantes, 3n = 3. .n et
donc pour tous i et j
3n − 3. .n = 0
56
Références bibliographiques
57