0% ont trouvé ce document utile (0 vote)
60 vues213 pages

Introduction à la Statistique Descriptive

Ce document présente un cours de statistique descriptive, comprenant des thèmes tels que l'introduction à la statistique, la représentation des données, et les caractéristiques de position et de dispersion. Il aborde également l'historique de la statistique, ses applications dans divers domaines, ainsi que les définitions clés comme population, échantillon et variable statistique. Enfin, il décrit les types de variables et les méthodes de représentation des données à l'aide de tableaux et graphiques.

Transféré par

oumaimaamghar61
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
60 vues213 pages

Introduction à la Statistique Descriptive

Ce document présente un cours de statistique descriptive, comprenant des thèmes tels que l'introduction à la statistique, la représentation des données, et les caractéristiques de position et de dispersion. Il aborde également l'historique de la statistique, ses applications dans divers domaines, ainsi que les définitions clés comme population, échantillon et variable statistique. Enfin, il décrit les types de variables et les méthodes de représentation des données à l'aide de tableaux et graphiques.

Transféré par

oumaimaamghar61
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

COURS : Statistique

Descriptive

PROFESSEURE : HAJAR SABIKI


Programme du cours

1 Introduction et Terminologie

2 Représentation des données

3 Caractères de position et de dispersion

4 Statistique à deux Variables

5 Les caractéristiques de concentration et de forme

6 Les indices et taux de croissance

1 / 212
Introduction

Historique
L’histoire de la "statistique" remonte à une époque très ancienne. Les activités
statistiques (dénombrements) ont commencé bien avant la création du mot, l’application
de la méthode et de l’analyse statistique.
Depuis l’antiquité, les Empereurs réalisaient des dénombrements de populations
humaines et de terres pour les besoins de la guerre et de l’impôt.
Il y a plus de 4000 ou 5000 ans, il existait déjà en Chine des descriptions chiffrées
de la population et de l’agriculture.
Les Égyptiens de l’époque des Pharaons procédaient au dénombrement de la
population.
A Rome, l’empereur Auguste fit procéder à une vaste enquête en dénombrant les
soldats, les navires et les revenus publics.

Introduction et Terminologie 2 / 212


Introduction
Historique
Jusqu’au moyen âge, les seules "statistiques" existante étaient les dénombrements
faits dans des buts divers : assiettes de l’impôt, répartition des terres, recrutement
dans l’armée est effectués avec des méthodes diverses (recensements des personnes,
enregistrements de certains actes d’état civil ...).
En XVIII siècle le mot "statistique" a été crée par ACHENWAL en 1749 à partir du
mot "STATISTA" (politique).
En XVIII-XIX siècle, beaucoup de scientifiques de tous ordre ont apporté leur
contribution au développement de cette science PASCAL, HUYGENS,
BERNOULLI, MOIVRE, LAPLACE, GAUSS, MENDEL, PEARSON, FISCHER etc
(traitement et interprétation des observations dans le but de faire de la prévision.
Problèmes traités : démographie, calcul de taux de mortalité, 1ères interactions
avec les probabilités).

Introduction et Terminologie 3 / 212


Introduction

Divers domaines d’application


Economie, assurance, finance : études quantitatives de marchés, prévisions
économétriques, analyse de la consommation des ménages, taxation des primes
d’assurances et de franchises, gestion de portefeuille, évaluation d’actifs financiers,
...
Biologie, médecine : essais thérapeutiques, épidémiologie, dynamique des
populations, analyse du génôme, ...
Sciences humaines : enquêtes d’opinion, sondages, étude de population, ...
Sciences de l’ingénieur : contrôle qualité, sûreté de fonctionnement, évaluation
des performances, ...
Sciences de l’information : traitement des images et des signaux, reconnaissance
de forme et parole, machine learning, ...

Introduction et Terminologie 4 / 212


Introduction
Définition
La Statistique, c’est l’étude des variations observables. C’est une méthode qui consiste
à réunir des données chiffrées sur des ensembles nombreux, puis à les analyser et à les
interpréter.

La statistique grosso-modo est formée de trois grandes classes : la statistique


descriptive, la statistique inférentielle et la nouvelle branche qu’est la statistique
exploratrice. Ce cours est consacré à la statistique descriptive.
La statistique descriptive : comme son nom l’indique, se propose de décrire les
données, de les classer et de les présenter sous des formes claires et compréhensibles.
Elle est à la base par exemple de toute organisation du système d’information d’une
entreprise : statistiques de la production ou des ventes, statistiques financières,
statistiques des ressources humaines. Elle est aussi une importante composante en
sciences humaines de ce qu’on appelle les méthodes quantitatives. On va commencer par
définir le lexique qu’on va utiliser tout le long de ce cours.
Introduction et Terminologie 5 / 212
Terminologie
Définitions
Population : Ensemble que l’on observe et qui sera soumis à une analyse statistique (Par
exemple les étudiants de l’ENCG, la population féminine, les fonctionnaires,..).
Chaque élément de cet ensemble est un Individu ou Unité statistique.
Échantillon C’est un sous ensemble de la population considérée. Le nombre d’individus dans
l’échantillon est la taille de l’échantillon.

Schéma : Individus, Échantillon et Population

Population

Échantillon Échantillon Échantillon


1 2 3

Individus

Introduction et Terminologie 6 / 212


Terminologie

Exemple
On veut étudier la croissance économique de 200 petites et moyennes entreprises (PME)
au Maroc.
• Population : Les entreprises au Maroc.
• Échantillon : Les 200 PME au Maroc.
• Individu : Chaque PME au Maroc.

Introduction et Terminologie 7 / 212


Terminologie

Définition : (Variable Statistique ou Caractère)


Une variable est une information dont on recueille (ou observe ou mesure) la valeur sur
chaque individu. On parle de variable parce que la valeur de l’information n’est pas la
même d’un individu à l’autre.
Par exemple : les Notes et les Mentions des étudiants à l’examen de Statistique, leur
Sexe, les Couleurs de leurs Yeux, le Chiffre d’Affaire par PME, le Nombre d’Enfants par
Ménage.

Remarque
On va réserver les dernières lettres de l’alphabet pour noter les variables : X, Y, Z, U...

Dans une population donnée, un caractère peut varier d’un individu à l’autre. On dit que
ce caractère présente différentes modalités.

Introduction et Terminologie 8 / 212


Terminologie

Exemple
1 Si l’on étudie la population des étudiants d’un amphithéâtre et que le caractère
étudié est l’âge, les modalités du caractère seront 18 ans, 19 ans, 20 ans, etc.
2 Si l’on étudie une population de voitures et que le caractère étudié est la couleur,
les modalités du caractère seront des couleurs : bleu, vert, blanc, etc.

Remarque
On emploie également le terme de variable statistique pour désigner un caractère, les
modalités du caractère étant les valeurs prises par cette variable.

Introduction et Terminologie 9 / 212


Terminologie

On distingue deux types de variable :

Défintion : (Variable qualitative)


Une variable statistique est dite de nature qualitative si ses modalités ne sont pas
mesurables.

Exemple
Le sexe, la profession, la situation familiale sont quelques exemples de variables
qualitatives.

Les modalités d’une variable qualitative peuvent être classées sur deux types d’échelle :
nominale ou ordinale.

Introduction et Terminologie 10 / 212


Terminologie
Défintion : Variable qualitative nominale
Une variable statistique qualitative est dite définie sur une échelle nominale si ses
modalités ne sont pas naturellement ordonnées.

Exemple
Nationalité : marocaine, allemande, française.
Groupe sanguin : A, B, O, AB.

Défintion : Variable qualitative ordinale


Une variable statistique qualitative est dite ordinale si l’ensemble de ses modalités peut
être doté d’une relation d’ordre.

Exemple
Niveau d’étude : primaire, secondaire, supérieur.
État mécanique d’une Voiture : mauvais, moyen, bon, excellent.
Introduction et Terminologie 11 / 212
Terminologie
Défintion : (Variable quantitative)
Une variable statistique est dite de nature quantitative si ses modalités sont mesurables.
Les modalités d’une variable quantitative sont des nombres liés à l’unité choisie, qui doit
toujours être précisée.

Il existe deux types de variables quantitatives : les variables discrètes et les variables
continues
Définition : (Variable quantitative discrète)
L’ensemble des valeurs possibles (modalités) est dénombrable. Lorsque les modalités
sont des valeurs numériques isolées, comme le nombre d’enfants par ménage, on parle de
variable discrète

Exemple :
Âge, salaire, nombre de lit dans un hôpital, nombre d’étudiants par classe.
Introduction et Terminologie 12 / 212
Terminologie

Définition : (Variable quantitative continue)


L’ensemble des valeurs possibles (modalités) est continu. Lorsque la variable, par
exemple la taille d’un individu, peut prendre toutes les valeurs d’un intervalle, ces valeurs
peuvent alors être regroupées en classes, et on parle dans ce cas de variable continue.

Exemple
Poids, taux du sucre, taille, taux du sel.

Introduction et Terminologie 13 / 212


Représentation des données

Défintion : (Série Statistique)


La série Statistique est une correspondance qui a chaque individu de la population
étudiée fait associer une valeur du caractère étudié.
Les valeurs d’une série statistique pour un caractère X sont notées : x1 , x2 , x3 , ..., xn .

Remarque
Les modalités d’un caractère doivent être :
Incompatibles : Chaque individu a une seule modalité.
Exhaustives : Tous les cas sont prévus.

Représentation des données 14 / 212


Représentation des données

Représentation des variables statistiques


Dans une population, on considère un échantillon de n individus sur lequel on observe
une variable X .
Si X est quantitative discrète, on parlera des valeurs xi de la variable X .
Si X est qualitative nominale ou ordinale, on parlera des modalitès xi de la variable
X.
Si X est quantitative continue, on parlera des classes Ci de la variable X .

Représentation des données 15 / 212


Représentation des données
Les tableaux et graphiques
On considère une série statistique X à caractère quantitatif, dont les p valeurs sont
données par x1 , x2 , ..., xp d’effectifs associés n1 , n2 , ..., np avec n1 + n2 + ... + np = N.
1 À chaque valeur xi (ou classe Ci ) est associée une fréquence fi : c’est la proportion
d’individus associés à cette valeur.
ni
2 fi = est un nombre compris entre 0 et 1, que l’on peut écrire sous forme de
N
p p Pp
X X ni ni N
pourcentage et fi = = i=1 = = 1.
i=1 i=1
N N N
Si dans une série statistique X , les valeurs d’un caractère peuvent être ordonnées, on
définit l’effectif cumulé Nj de la valeur nj par la somme des effectifs de toutes les valeurs
inférieures ou égales à nj .
j
X
Nj c = ni avec 1 6 j 6 p.
i=1
Représentation des données 16 / 212
Représentation des données
Les tableaux et graphiques
Il s’agit ici d’effectif cumulé croissant, on pourrait de même définir un effectif
cumulé décroissant Nj d en prenant la somme des effectifs de toutes les valeurs
supérieures ou égales à nj .
On définit la fréquence cumulée croissante Fj par :
j j
Nj X ni X
Fj c = = = fi avec 1 6 j 6 p.
N i=1
N i=1

La fréquence cumumée décroissante Fj d d’une valeur est la somme des fréquence


des valeurs supérieures ou égales à cette valeur.

Après la collecte et dépouillement des informations, il convient alors de les présenter


sous forme de tableaux et de graphiques. Considérons une population statistique (P)
formée de N individus. Soit C un caractère comportant K modalités : x1 , x2 ,.......xk .
Représentation des données 17 / 212
Représentation des données

Les tableaux et graphiques


xi x1 x2 ... xk Total
ni n1 n2 ... nk N
n1 n2 nk
fi f1 = f2 = ... fk = 1
N N N
pi f1 × 100 f2 × 100 ... fk × 100 100
Nj c n1 n1 + n2 ... n1 + n2 + n3 + ... + nk = N
Fj c f1 f1 + f2 ... f1 + f2 + f3 + ... + fk = 1
Nj d n1 + n2 + n3 + ... + nk = N n2 + n3 + ... + nk ... nk
Fj d f1 + f2 + f3 + ... + fk = 1 f2 + f3 + ... + fk ... fk

Avec xi : caractère, ni : Effectif, fi : Fréquence, pi : Pourcentage, Nj c : effectif cumulée


croissant, Fj c : fréquence cumulée croissante, Nj d : effectif cumulée décroissant, Fj d :
fréquence cumulée décroissante.

Représentation des données 18 / 212


Représentation des données

A) Cas des variables quantitatives discrètes


Soit X une variable quantitative discrète dont le nombre de modalités n’est pas trop
grand. Alors on peut dresser un tableau des fréquences auquel on peut ajouter une
colonne supplémentaire où on met les fréquences cumulées.
En ce qui concerne la représentation graphique, un seul graphique s’associe avec les
variables quantitatives discrètes : le diagramme en bâtons.
Série A : Notes obtenues à un contrôle dans une classe de 40 élèves :
3−4−4−4−4−4−5−5−5−5−6−6−6−6−7−7−7−7−7−8−8−8−
9 − 9 − 13 − 13 − 14 − 14 − 14 − 15 − 15 − 15 − 15 − 16 − 16 − 16 − 17 − 17 − 17 − 17.

Représentation des données 19 / 212


Représentation des données

A) Cas des variables quantitatives discrètes


On présente le résultat dans le tableau suivant :
xi 3 4 5 6 7 8 9 13 14 15 16 17
ni 1 5 4 4 5 3 2 2 3 4 3 4
fi 0,025 0,125 0,1 0,1 0,125 0,075 0,05 0,05 0,075 0,1 0,075 0,1
Fj c 0,025 0,15 0,25 0,35 0,475 0,55 0,6 0,65 0,725 0,825 0,9 1
Fj d 1 0,975 0,85 0,75 0,65 0,525 0,45 0,4 0,35 0,275 0,175 0,1

Avec xi sont les notes, ni : Effectifs, fi : Fréquence, Fj c : Fréquence cumulée croissante,


Fj d : Fréquence cumulée décroissante.

Représentation des données 20 / 212


Représentation des données

La longueur du bâton est proportionnelle à l’effectifs.


Représentation des données 21 / 212
Représentation des données

B) Cas de variables quantitatives continues.


L’histogramme convient particulièrement aux variables quantitatives quand celles-ci sont
regroupées par classes. Parfois les classes ont des amplitudes égales. C’est le cas le plus
évident. Parfois, cependant, les amplitudes des classes sont différentes. Il faut alors
opérer une correction en suivant la méthode indiquée ci-après.

Exemple 1 :
Soit 100 ménages distribués selon leur revenu mensuel en DHS. On définit des classes
d’amplitudes égales à 1 500 DH.

Représentation des données 22 / 212


Représentation des données
B) Cas de variables quantitatives continues.
ai + ai+1
Classe de revenu ci = ni fi
2
[0, 1500[ 750 20 0,2
[1500, 3000[ 2250 40 0,4
[3000, 4500[ 3750 30 0,3
[4500, 6000[ 5250 10 0,1

Répartition d’un échantillon de 100 ménages par classe de revenu mensuel


(amplitude de classe = 1 500 DHS).

L’histogramme peut-être construit à partir des effectifs (les ni ) ou à partir des


fréquences (et d’ailleurs aussi en prenant les pourcentages). Contrairement au
diagramme en barre, avec lequel il ne faut pas le confondre, les rectangles qui
composent l’histogramme ont une base qui est définie par l’amplitude de la classe qu’ils
représentent et, de plus, ils sont collés les uns aux autres.
Représentation des données 23 / 212
Représentation des données

Représentation des données 24 / 212


Représentation des données

Exemple 2 :
Supposons que l’on regroupe les données de l’exemple 1 en classes d’amplitudes inégales
([0, 1500[; [1500, 4500[, [4500, 6000[).

Il faut dans ce cas effectuer une correction pour tenir compte des différences d’amplitude.
Il convient en fait de diviser l’effectif de chaque classe par l’amplitude correspondant et
le multipliant par la plus petite ampliture ar . On obtient ainsi l’effectif corrigé (ni0 ).
ar × ni
Classe de revenu Amplitude de classe ai ni fi ni0 =
ai
[0, 1500[ 1500 20 0,2 20
[1500, 4500[ 3000 70 0,7 35
[4500, 6000[ 1500 10 0,1 10

Avec ar : est la plus petite amplitude.

Représentation des données 25 / 212


Représentation des données
Sur l’histogramme, on aura donc lves classes d’inégales amplitudes en abscisse et
l’effectif corrigé en ordonnée.

Représentation des données 26 / 212


Représentation des données

B) Cas de variables quantitatives continues.


Considérons maintenant un échantillon de données provenant d’une variable quantitative
continue ou discrète avec un grand nombre de modalités. Il est donc inconcevable de
dresser un tableau où on énumère les modalités d’une telle variable, il serait non
analysable. Il faut donc grouper ces données en classes de valeurs. Deux questions se
posent alors :
• Combien de classes faut-il former ?
• Quelles seront les largeurs de chacune des classes ?

Représentation des données 27 / 212


Représentation des données
La réponse à la première question, dépend de la taille de l’échantillon, le nombre de
classe à former est donné par la formule de Sturges suivante :
10
Les nombres des Classes :K = 1 + log(n).
3
Ainsi, par exemple, si n = 150, il faut former
10
K =1+ log(150) = 8, 2536 ≈ 9.
3
(on arrondit à l’entier immédiatement supérieur). Une fois qu’on sait combien de classes
à former. On essaie de former des classes de même amplitude (largeur) et cette
amplitude sera égale à :
La pus grande observation-la plus petite observation xmax − xmin
A= = .
K K
On arrondit cette amplitude selon les données pour avoir des bornes de classes faciles à
manipuler.
Représentation des données 28 / 212
Représentation des données

Pour les différents indicateurs statistiques, on utilise pour les calculs les centres des
classes comme l’indique le tableau ci-dessous :

Classes [X0 ; X1 [ [X1 ; X2 [ ······ [Xp−1 ; Xp ]


Centre des classes ci c1 c2 ······ cp Xi +Xi+1
avec ci = 2
Éffectifs ni n1 n2 ······ np
n1 n2 np
Fréquences fi N N ······ N

Représentation des données 29 / 212


Représentation des données

Exemple : Cas de variables quantitatives continues.


Soit X , les recettes quotidiennes(en Dirhams) d’un petit magasin. On a sélectionné un
échantillon de taille n = 40 jours au hasard qui ont donné les résultats suivants :
16, 00 − 58, 50 − 68, 20 − 78, 00 − 79, 45 − 142, 20 − 145, 3 − 186, 70 − 209, 05 −
216, 75 − 219, 70 − 247, 75 − 249, 10 − 256, 00 − 257, 15 − 262, 35 − 268, 60 − 269, 60 −
270, 15 − 284, 45 − 319, 00 − 332, 00 − 343, 29 − 350, 75 − 354, 90 − 372, 60 − 383, 20 −
389, 20 − 404, 55 − 420, 20 − 428, 50 − 432, 40 − 444, 60 − 446, 80 − 456, 10 − 458, 10 −
493, 95 − 511, 95 − 521, 05 − 621, 35.

Représentation des données 30 / 212


Représentation des données
10
Le nombre de classe à former est K = 1 + log(40) = 6, 34 ≈ 7 d’amplitude chacune
3
621, 35 − 16, 00
égale à A = = 86, 48 ≈ 90. Cette amplitude est arrondie à 90. Ce qui
7
donne le tableau des fréquences suivant, où les classes sont des intervalles fermés à
gauche et ouverts à droite sauf le dernier qui est un intervalle fermé des deux côtés.
Répartition des 40 semaines selon les recettes hebdomadaires du dépanneur
X=les recettes Effectifs Fréquences Fréquences Cumulées
[10; 100[ 5 0,125 0,125
[100; 190[ 3 0,075 0,200
[190; 280[ 11 0,275 0,475
[280; 370[ 6 0,150 0,625
[370; 460[ 11 0,275 0,900
[460; 550[ 3 0,075 0,975
[550; 640[ 1 0,025 1,00
Total n=40 1,00
Représentation des données 31 / 212
Représentation des données

Quand aux graphiques, on va ici privilégier trois graphiques pour les variables
quantitatives continues.
• L’histogramme, qui est une suite de rectangles juxtaposés les uns aux autres dressés
au-dessus de chacune des classes, dont la largeur est égale à l’amplitude de la classe
(prise comme unité de mesure) et dont la surface reflète la fréquence de la classe qu’il
représente.

Représentation des données 32 / 212


Représentation des données
Histogramme donnant la répartition des 40 semaines en fonction des recettes
hebdomadaires

Représentation des données 33 / 212


Représentation des données
• Le polygone des fréquences, qui consiste à joindre le milieux des sommets des rectangles
d’un histogramme par une ligne en zig-zag et cette ligne se ferme en ajoutant aux deux
extrémités deux classes fictives de même amplitude que les autres, comme ça la surface délimitée
par l’histogramme est identique à celle délimitée par le polygone des fréquences.

Polygone des fréquences donnant la répartition des 40 semaines selon les


recettes hebdomadaires.

Représentation des données 34 / 212


Représentation des données
• La courbe des fréquences cumulées. Comme son nom l’indique, elle consiste à tracer le
graphique des fréquences cumulées, en mettant les limites des classes sur l’axe horizontal et les
fréquences cumulées sur l’axe vertical, ces dernières se cumulant à la fin de chacune des classes.
Ce graphique aura l’allure d’une courbe croissante variant entre 0 et 1.
La courbe des fréquences cumulées de la répartition des 40 semaines selon les
recettes

Représentation des données 35 / 212


Représentation des données

C) Cas de variables qualitatives.


On va considérer des exemples où on a des variables qualitatives observées sur un
échantillon en suivant le traitement possible de ces données.

Exemple :
On a pris un échantillon de 50 achats de boissons non-alcoolisées achetées dans une
grande surface, en notant par : CC=Coca-Cola ; S=Sprite ; CL=Coca-Light ; P=Poms ;
PC=Pepsi-Cola. On a obtenu les résultats suivants :
CC − S − PC − CL − CC − CC − PC − CL − CC − CL − CC − CC − CC − CL − PC − CC −
CC − P − P − S − CC − CL − PC − CL − PC − CC − PC − PC − CC − PC − CC − CC −
PC −P −PC −PC −S −CC −CC −CC −S −P −CL−P −PC −CC −PC −S −CC −CL.

Représentation des données 36 / 212


Représentation des données
Alors ici la variable est X=Boisson non-alcoolisée, qui est une variable qualitative
nominale. Pour présenter ces données sous forme de tableau, on dresse un tableau, dans
la première colonne on énumère les cinq modalités de la variable, dans la seconde
colonne on donne l’effectif de chacune des modalités (c’est-à-dire le nombre de fois que
cette modalité se répète dans l’échantillon) et dans la troisième colonne, on donne la
fréquence de chacune des modalités.

Tableau des fréquences des boissons non-alcoolisées


X=Boisson Effectifs Fréquences
CC 19 0,38
CL 8 0,16
PC 13 0,26
P 5 0,10
S 5 0,10
Total n=50 1,00

Représentation des données 37 / 212


Représentation des données
En ce qui concerne la représentation graphique, on va donner deux graphiques qui
résument la même information contenue dans le tableau des fréquences.
• Le diagramme à barres (horizontales ou verticales). Où on met sur un axe les
modalités de la variable et sur l’autre axe l’effectifs ou les fréquences.
Répartition des ventes des boissons non alcoolisées selon la marque

Représentation des données 38 / 212


Représentation des données

Exemple : (Cas de variables qualitatives)


Dans une clinique spécialisée en oncologie, on identifie les différents types de cancers qui
affectent les 200 derniers patients qui s’y sont inscrits :

X=Types de cancers Effectifs Fréquences


Poumon 42 0,210
Sein 50 0,250
Colon 32 0,160
Prostate 55 0,275
Mélanome 9 0,045
Vessie 12 0,060

Représentation des données 39 / 212


Représentation des données
• Le deuxième graphique qu’on peut faire est le diagramme à secteurs (ou circulaire) qui
est une sorte de tarte où chaque modalité occupe une partie qui reflète sa fréquence.
Répartition des différents cancers selon le type

Formule pour calculer l’angle d’un secteur : angle= fréquence×360°.


Représentation des données 40 / 212
Caractères de position

Introduction
On appelle Caractères de position , des valeurs de la variable susceptibles de nous
donner une idée sur la série statistique. On va décrire dans ce paragraphe, les quatres
plus importantes mesures de position que sont :
Le mode
la moyenne
la médiane
Les quantiles

Caractères de position et de dispersion 41 / 212


Le Mode

Definition 1 (Le Mode ).


Le mode d’une variable statistique X est la valeur du caractère étudié qui a le plus
grand effectif et on le note Mod.
Pour un caractère continu pour lequel les données sont groupées en classes, on parle de
la classe modale, dans ce cas là la classe modale correspond à celle associée à l’effectif
le plus élevé ou graphiquement au plus haut rectangle de l’histogramme.

Caractères de position et de dispersion 42 / 212


Le Mode

Remarque
Le mode est une importante mesure de tendance centrale pour les variables
qualitatives nominales.
Une distribution peut avoir un seul mode et on dit qu’elle est uni-modale, ou
plusieurs modes et on dit qu’elle est multimodale.

Exemple (Variable statistique quantitative discrète )


Dans l’exemple Diagramme en bâtons, le mode est « 7 »et « 4 », la distribution dans ce
cas, elle est bi-modale.

Caractères de position et de dispersion 43 / 212


Le Mode
Exemple ( Variable statistique qualitative)
Si on reprend l’exemple des boissons non-alcoolisées, on avait le tableau des fréquences
suivant :

Tableau des fréquences des boissons non-alcoolisées


X=Boisson Effectifs Fréquences
CC 19 0,38
CL 8 0,16
PC 13 0,26
P 5 0,10
S 5 0,10
Total n=50 1,00

Alors, le mode de cette variable est Mod = Coca − Cola (CC ), cela signifie que dans cet
échantillon, la boisson la plus fréquemment achetée est Coca-Cola.
Caractères de position et de dispersion 44 / 212
Le Mode

Variable statistique quantitative continue


On va distinguer deux cas :
1) Effectifs groupés par classes d’amplitudes égales : Soit le tableau où des
données sont présentées par classes d’amplitudes égales. Dans ce cas, pour calculer
le mode, il faut appliquer la formule suivante :
d1
Mod = xiinf + A .
d1 + d2

Avec xiinf = Borne inférieure de la classe modale.


A = Amplitude de la classe modale, d1 = ni − ni−1 et d2 = ni − ni+1 .

Caractères de position et de dispersion 45 / 212


Le Mode
Exemple
Considérons la distribution de la variable statistique X suivante, où la variable est
quantitative continue avec des données groupées en classes :

X Effectifs ni
[10; 15[ 5
[15; 20[ 3
[20; 25[ 11
[25; 30[ 6

Ici, on a la valeur 11 qui représente le plus grand effectif donc on a [20; 25[ est la classe
modale et le mode :
d1 (11 − 3)
Mod = xiinf + A = 20 + 5 ≈ 23.
d1 + d2 (11 − 3) + (11 − 6)

Caractères de position et de dispersion 46 / 212


Le Mode

Variable statistique quantitative continue


2) Effectifs groupés par classes d’amplitudes inégales :
Si on a au moins une classe a une amplitude différente des autres : dans ce cas on
choisi une amplitude de référence ar (par exemple la plus petite ou la plus répandu).
Par suite, on corrige les effectifs des classes différentes en les divisant par ar et en
les multipliant par l’amplitude associée ai :
ar
ni0 = ni ×
ai

Caractères de position et de dispersion 47 / 212


Le Mode

Après on va chercher le plus grand effectif corrigé et on applique la formule suivante :


h1
Mod = xiinf + A .
h1 + h2

Avec xiinf = Borne inférieure de la classe modale associée à le plus grand effectif corrigé .
A = Amplitude de la classe modale associée à le plus grand effectif corrigé,
h1 = ni0 − ni−1
0 et h2 = ni0 − ni+1
0 .

Caractères de position et de dispersion 48 / 212


Le Mode
Exemple
Considérons la distribution de la variable statistique X suivante, où la variable est
quantitative continue avec des données groupées en classes :

X Effectifs ni ai ni0
[10; 15[ 5 5 5
[15; 30[ 3 15 1
[30; 35[ 11 5 11
[35; 45[ 6 10 3

Ici, on a la valeur 11 qui représente le plus grand effectif corrigé donc on a [30; 35[ est la
classe modale et le mode :
h1 (11 − 1)
Mod = xiinf + A = 30 + 5 ≈ 32, 77.
h1 + h2 (11 − 1) + (11 − 3)

Caractères de position et de dispersion 49 / 212


Les Moyennes

1) Moyenne Arithmétique
La moyenne arithmétique ou simplement la moyenne est la mesure de tendance
centrale la plus connue. Elle ne s’applique qu’aux variables quantitatives. On va décrire
la méthode pour calculer la moyenne d’une variable quantitative selon que les données
sont en vrac, groupées par valeurs ou groupées par classes.

Caractères de position et de dispersion 50 / 212


Les Moyennes

Données en vrac ou brute


Définition : (Moyenne Arithmétique)
On considère une série statistique à caractère quantititif prenant n valeurs notées x1 , x2 ,
. . ., xn . Ainsi la population totale a un effectif n. La moyenne de cette série est le
nombre x défini par :
p
X
xi
x1 + x2 + · · · + xn i=1
x= =
n n

Caractères de position et de dispersion 51 / 212


Les Moyennes

Exemple : (Moyenne Arithmétique)


On donne la série de notes obtenues par les élèves d’une classe :
15 12 3 20 8 0 18 2 14 6 16 4 14 4 15 6
5 15 16 3 7 17 13 6 13 18 2 15 5 4 14
15+12+3+20+8+0+18+2+14+6+16+4+14+4+15+6+5+15+16+3+7+17+13+6+13+18+2+15+5+4+14
31 = 10.
La moyenne de la classe est : x = 10

Caractères de position et de dispersion 52 / 212


Les Moyennes

Données groupées par valeurs

Définition : (Moyenne pondérée)


On considère une série statistique à caractère quantititif prenant p valeurs notées x1 , x2 ,
. . ., xp . ; chaque valeur xi apparaissant ni fois dans la série. Ainsi la population totale a
un effectif N = n1 + n2 + · · · + np . La moyenne de cette série est le nombre x défini par :
p
X
ni xi
n1 x1 + n2 x2 + · · · + np xP i=1
x= =
n1 + n2 + · · · + np N

Cette moyenne est appelée moyenne pondérée par les effectifs.

Caractères de position et de dispersion 53 / 212


Les Moyennes

Exemple : (Moyenne pondérée)


On donne la série de notes obtenues par les étudiants de ENCG BM dans un contrôle de
statistique :

Note 5 7 10 11 13 15 16 19
Effectif 1 6 7 4 6 7 1 3
La moyenne de la classe est :
1 × 5 + 6 × 7 + 7 × 10 + 4 × 11 + 6 × 13 + 7 × 15 + 1 × 16 + 3 × 19
x= ≈ 11, 9
35
Chaque note est comptée autant de fois qu’elle apparaît dans les copies des étudiants.
L’effectif de la note est aussi appelé poids ou coefficient.

Caractères de position et de dispersion 54 / 212


Les Moyennes
Proposition
On considère une série statistique à caractère quantititif prenant p valeurs notées x1 , x2 ,
. . ., xp . Si la distribution des fréquences associée à cette série est (f1 ; f2 ; . . . ; fp ), alors, la
moyenne de cette série est :
p
X
x = f1 x1 + f2 x2 + · · · + fp xp = fi xi
i=1

Exemple
On donne la répartition des familles selon le nombre d’enfants en 1999 :
Nombre d’enfant 0 1 2 3 4
Fréquence 0,47 0,22 0,2 0,08 0,03
le nombre moyen d’enfant par famille en 1999 était de :

x = 0, 47 × 0 + 0, 22 × 1 + 0, 20 × 2 + 0, 08 × 3 + 0, 03 × 4 ≈ 0, 98
Caractères de position et de dispersion 55 / 212
Les Moyennes

Données groupées par classes


Supposons qu’on est devant un tableau où les données provenant d’un échantillon sont
groupées par classes. Alors pour calculer la moyenne de cet échantillon, on va utiliser
une formule approximative, où chaque classe est assimilée à son centre et on utilise la
même formule que pour le cas où les données sont groupées par valeurs. Si on note par
ci , le milieu de la ième classe et qu’on suppose que la taille de l’échantillon est N et qu’il
k
X
ni ci
i=1
y a k classes, alors la moyenne de l’échantillon est x̄ = .
N

Caractères de position et de dispersion 56 / 212


Les Moyennes
Exemple :
En reprenant l’exemple où X est la recette quotidienne d’un petit magasin, on avait le tableau
suivant auquel on a ajouté une colonne à gauche contenant le milieu des classes :

ci X=les recettes Effectifs


55 [10; 100[ 5
145 [100; 190[ 3
235 [190; 280[ 11
325 [280; 370[ 6
415 [370; 460[ 11
505 [460; 550[ 3
595 [550; 640[ 1
Total n=40

La moyenne de cet échantillon est :


Pk
ni ci 55 × 5 + 145 × 3 + ... + 595 × 1
x̄ = i=1 = = 298 DH.
N 40
Caractères de position et de dispersion 57 / 212
Les Moyennes
Proposition :
Soit X une variable quantitative dont la moyenne est x̄ et soit Y une autre variable
quantitative transformée linéaire de X , c’est-à-dire que Y = aX + b où a et b sont des
constantes réelles. Alors la moyenne de Y sera égale à ȳ = ax̄ + b.
On dit que la moyenne conserve la transformation linéaire entre les variables.

Exemple :
Soit X , le nombre d’heures qu’un étudiant travaille à temps partiel par semaine.
Supposons qu’à partir d’un échantillon d’étudiants, on a pu trouver qu’en moyenne le
nombre d’heures travaillées par ces étudiants est égale à 14, 5 heures/semaine. Si le
salaire horaire est de 20 DH et que les patrons de ces étudiants leur offrent 300 DH par
semaine pour leurs déplacements, quel est le gain net moyen hebdomadaire de ces
étudiants ? Posons Y , le gain net hebdomadaire de ces étudiants alors Y = 20X + 300 ,
donc le gain moyen hebdomadaire de cet échantillon d’étudiants est égal à
ȳ = 20 × 14, 5 + 300 = 590 DH.
Caractères de position et de dispersion 58 / 212
Les Moyennes
Moyenne géométrique
n o
On appelle moyenne géométrique de la distribution (xi , ni )16i6k que l’on note G, la
racine nième du produit des x nii
q q
Πki=1 xini = x1n1 × x2n2 × ... × xknk
n n
G=

k
X
où n = ni .
i=1
C’est plus pratique d’utiliser le logarithme
1
h
nk n
i  1 h i
n1 n2
log(G) = log x1 × x2 × .....xk = log x1n1 × x2n2 × .....xknk
n
k k
1X 1
log(xini ) =
X
= ni log(xi )
n i=1 n i=1

Caractères de position et de dispersion 59 / 212


Les Moyennes

Moyenne géométrique (Pourquoi utiliser ce type de moyenne ?)


On utilise la moyenne géométrique dans le calcul du taux d’accroissement moyen et dans
le calcul des valeurs ont un caractère multiplicatif (exemples : les prix de l’immobilier
ancien ont augmenté ces trois dernières années la façon suivante : 2, 4, 8. Taux de
pauvreté moyen).

Caractères de position et de dispersion 60 / 212


Les Moyennes

Exemple(cas discret)
Les prix de l’immobilier ancien ont augmenté ces 10 dernières années de la façon
suivante :

Année 1 2 3 4 5 6
Variation anuelle 19 8 7 10 28 18 90
log(xi ) 0 0,3 0,47 0,6 0,7 0,78
ni log(xi ) 0 2,4 3,29 6 19,6 14,04 45,33
la moyenne géométrique de la classe est :
n n
1X 1X 45, 33
log(G) = log(xini ) = ni log(xi ) = = 0, 50
n i=1 n i=1 90
Donc G = exp(0, 50) = 1, 648

Caractères de position et de dispersion 61 / 212


Les Moyennes

Exemple (cas continue ) :


Prenant le tableau suivant :
ci Xi ni log(ci ) log(ci )ni
1 [0; 2[ 22 0 0
3 [2; 4[ 18 0, 47 8,46
5 [4; 6[ 15 0, 7 10,5
7 [6; 8[ 25 0, 845 21,12
9 [8; 10[ 20 0, 95 19
Total n=100 59,17

Caractères de position et de dispersion 62 / 212


Les Moyennes

Exemple(cas continue)
la moyenne géométrique de cet échantillon est :
n n
1X ni 1X 59, 17
log(G) = log(ci ) = ni log(ci ) = = 0, 5917 Donc
n i=1 n i=1 100
G = exp(0, 5921) = 1, 80.

Caractères de position et de dispersion 63 / 212


Les Moyennes
Moyenne Harmonique
n o
La moyenne harmonique notée H, d’une distribution (xi , ni )16i6k est l’inverse de la
n o
moyenne arithmétique de la distribution ( x1i , ni )16i6k ,

n 1
H= k
= k
,
X 1 X fi
ni
i=1
xi i=1
xi

k
X
où n = ni .
i=1

On utilise la moyenne harmonique lorsqu’on veut déterminer un rapport moyen dans des
domaines où il existe des liens de proportionnalité inverse par exemple pour une distance
donné, le temps de trajet est d’autant plus court que la vitesse est élevée.
Caractères de position et de dispersion 64 / 212
Les Moyennes

Exemple(cas discret)
Une petite usine abrite 2 machines. La première machine a produit 500 pièces à la
vitesse de 100 pièces par heure. Une seconde machine a produit 300 pièces à la vitesse
de 60 pièces par heure. Calculer la vitesse moyenne (exprimée en nombre de pièces par
heure) de production dans l’usine. Vitesse moyenne = nombre total de pièces
produites/nombre d’heures de production. La première machine a produit 500 pièces en
(500/100) heures (5 heures) La seconde machine a produit 300 pièces en (300/60)
heures (5 heures). La vitesse moyenne est donc donnée par :
n 800
H= k = = 80 pièces par heure
X 1 500 300
ni +
x 100 60
i=1 i

Caractères de position et de dispersion 65 / 212


Les Moyennes

Exemple(cas discret)
On donne la série de notes obtenues par les étudiants de ENCG BM dans un contrôle de
statistique :

xi 5 7 10 11 13 15 16 19
ni 1 6 7 4 6 7 1 3 35
ni
0,2 0,85 0,7 0,36 0,46 0,46 0,06 0,15 3,41
xi
n 35
la moyenne harmonique de la classe est : H = k
= = 10, 26
X 1 3, 41
ni
i=1
xi

Caractères de position et de dispersion 66 / 212


Les Moyennes
Exemple (cas continue ) :
En reprenant l’exemple où X est la recette quotidienne d’un petit magasin, on avait le tableau
suivant auquel on a ajouté une colonne à gauche contenant le milieu des classes :
ni
ci X=les recettes Effectifs
ci
55 [10; 100[ 5 0, 09
145 [100; 190[ 5 0, 03
235 [190; 280[ 11 0, 04
325 [280; 370[ 6 0, 01
415 [370; 460[ 11 0, 02
505 [460; 550[ 3 0, 005
595 [550; 640[ 1 0, 001
Total n=40 0,196

n 40
la moyenne harmonique de la classe est : H = Pk 1
= = 204, 08
i=1 ni ci
0, 196
Caractères de position et de dispersion 67 / 212
Les Moyennes

Remarque
Un inconvénient de la moyenne arithmétique est qu’elle est très sensible aux valeurs
extrêmes de la série.
La moyenne géométrique est peu sensible aux valeurs extrêmes de la série.
En ce qui concerne la moyenne harmonique, elle est plus sensible aux plus petites
valeurs de la série qu’aux plus grandes.

Caractères de position et de dispersion 68 / 212


La Médiane

Définition
La médiane est la valeur de la variable qui divise l’échantillon en deux groupes d’égal
effectif. Il y a 50% des données qui sont inférieures ou égales à la médiane et 50% des
données qui sont supérieures ou égales à la médiane. La médiane se calcule pour des
variables qualitatives ordinales et pour des variables quantitatives. On note la médiane
d’une variable X par Med(X ). Dans ce qui suit on va décrire les façons de calculer une
médiane dans les différents cas possibles.

Caractères de position et de dispersion 69 / 212


La Médiane

1) Cas d’une variable discrète.


Méthode de détermination de la médiane, les valeurs étant rangées par ordre croissant
Deux cas sont possibles :
S’il y a un nombre impair d’observations : N = 2k + 1, où k ∈ N, alors la médiane
est la (k + 1)ième valeur du caractère.
S’il y a un nombre pair d’observations : N = 2k, où k ∈ N, alors la médiane est la
xk + xk+1
moyenne des k ième et (k + 1)ième valeurs du caractère (i.e ).
2

Caractères de position et de dispersion 70 / 212


La Médiane

Exemple : [nombre impair d’observations]


On donne la série statistique suivante qui comporte 11 valeurs : 11 = 2 × 5 + 1.

3 − 4 − 4 − 5 − 7 − 9 − 11 − 13 − 15 − 16 − 18.

La médiane est la 6 ème valeur : médiane = x6 = 9.

Exemple : [nombre pair d’observations]


On donne la série statistique suivante qui comporte 10 valeurs : 10 = 2 × 5.

2 − 5 − 7 − 8 − 8 − 12 − 12 − 15 − 15 − 16.

La médiane est la moyenne des valeurs de rangs 5 et 6 : médiane =


x5 + x6 8 + 12
= = 10.
2 2
Caractères de position et de dispersion 71 / 212
La Médiane
Exemple
Reprenons les données de l’exemple où X est le degré de satisfaction de la clientèle, on avait le
tableau suivant :
X=Degré de satisfaction Effectifs Effectifs cumulée croissant
1 0 0
2 0 0
3 2 2
4 3 5
5 15 20
6 25 45
7 18 63
Total n=63

Nombre d’observation 63 donc on a 63 = 31 × 2 + 1, alors la médiane est x32 = 6. Ce qui veut


dire que dans cet échantillon 50% des clients ont un degré de satisfaction de 6 ou moins et
l’autre 50% un degré de satisfaction de 6 ou plus.
Caractères de position et de dispersion 72 / 212
La Médiane
Exemple
Prenant l’exemple suivant avec un effectif total pair :
X Effectifs Effectifs cumulée croissant
1 2 2
2 4 6
3 2 8
4 3 11
5 25 36
6 15 51
7 17 68
Total n=68

x34 + x35 5+5


Nombre d’observation 68 donc on a 68 = 34 × 2, alors la médiane est = = 5.
2 2
Ce qui veut dire que dans cet échantillon 50% des clients ont un degré de satisfaction de 5 ou
moins et l’autre 50% un degré de satisfaction de 5 ou plus.
Caractères de position et de dispersion 73 / 212
La Médiane

1) Cas d’une variable continue.


Dans le cas où on dispose d’un tableau de fréquences complet (incluant les fréquences
cumulées) des données groupées par classes. Il faut d’abord déterminer la classe
médiane, qui est la classe où les fréquences cumulées dépassent pour la première fois
50%. Cette classe aura la forme : Cm = [binf , bsup [, alors on obtient la médiane par
interpolation à l’intérieur de cette classe médiane et on obtient la formule suivante :

(0, 5 − Fm−1 )
Med(X ) = binf + Am .
fm
Avec
• binf est la borne inférieure de la classe médiane.
• Fm−1 est la fréquence cumulée avant la classe médiane.
• fm est la la fréquence de la classe médiane.
• Am est l’amplitude de la classe médiane.

Caractères de position et de dispersion 74 / 212


La Médiane
Exemple
En reprenant les données où X donne la recette quotidienne d’un petit magasin, on
retrouve le tableau des fréquences suivant :

X=les recettes Effectifs Fréquences Fréquences Cumulées


[10; 100[ 5 0,125 0,125
[100; 190[ 3 0,075 0,200
[190; 280[ 11 0,275 0,475
[280; 370[ 6 0,150 0,625
[370; 460[ 11 0,275 0,900
[460; 550[ 3 0,075 0,975
[550; 640[ 1 0,025 1,00
Total n=40 1,00

Alors ici, la classe médiane est Cm = [280, 370[, binf = 280, Fm−1 = 0, 475, fm = 0, 15 et
Am = 90, ce qui donne une médiane égale à :
Caractères de position et de dispersion 75 / 212
La Médiane

(0, 5 − Fm−1 ) (0, 5 − 0, 475)


Med(X ) = binf + Am = 280 + 90 = 295.
fm 0, 15
Ce qui veut dire qu’en se basant sur cet échantillon de données, 50% des recettes
quotidiennes de ce petit magasin sont inférieures ou égales à 295 DH et les autres 50%
sont supérieures ou égales à 295 DH.

Caractères de position et de dispersion 76 / 212


La Médiane
Dans l’exemple suivant on va déterminer la Médiane graphiquement, on aura besoin
de définir la fréquence cumulée décroissante,
Définition
La fréquence décroissante d’une valeur est la somme des fréquence des valeurs
supérieures ou égales à cette valeur.

Exemple
Considérons la distribution des notes par classe suivante :

Notes [0; 5[ [ 5 ; 10 [ [ 10 ; 15 [ [ 15 ; 20 [
Effectif 4 17 7 2
Fréquence en % 13 57 23 7
F.c.c. 13 70 93 100
F.c.d. 100 87 30 7

Caractères de position et de dispersion 77 / 212


La Médiane

Polygone des fréquences cumulées croissantes et décroissantes du tableau


ci-dessus :

Caractères de position et de dispersion 78 / 212


La Médiane

On peut grâce à ces polygones déterminter la médiane de la série de deux manière :


1 Soit en déterminant le point du polygone d’ordonnée 50% : on trouve environ
M = 8, 2.
2 Soit en lisant l’abscisse du point d’intersection des deux courbes.

Remarque
Le calcul de la médiane est basé sur l’ordre des observations et non sur leur valeur.
Contrairement à la moyenne, la médiane est insensible aux données extrêmes. Dans le
cas ou les données sont très différentes, la médiane est une meilleure mesure de
tendance centrale.

Caractères de position et de dispersion 79 / 212


Les Quantiles
Définition
Les quantiles sont les valeurs qui divisent les données en intervalles contenant le même
nombre. Un quantile d’ordre α(pour α ∈ (0, 1)) notée en toute généralité Qα est la
valeur qui partage la série en deux sous-ensembles, une proportion α se situe en dessous
de Qα et une proportion 1-α au-dessus strictement de Qα .

A) Les Quartiles
Définition
Dans une série statistique de type quantitatif, le premier quartile Q1 = Q25% et le
troisième quartile Q3 = Q75% sont avec la médiane Med = Q2 = Q50% les trois valeurs
du caractère qui séparent la population en quatre groupes de mêmes effectifs.

La médiane sépare la série des valeurs ordonnées en deux parties d’effectifs égaux.
Le premier quartile est la médiane de la première partie Q1 = Q25% .
Le troisième quartile est la médiane de la seconde partie Q3 = Q75% .
Caractères de position et de dispersion 80 / 212
Les Quantiles

Autrement dit :
Le premier quartile est la plus petite valeur Q1 = Q25% telle qu’au moins de quart
des données sont inférieure ou égale à Q25% .
Le troisième quartile est la plus petite valeur Q3 = Q75% telle qu’au moins trois
quart des données sont inférieures ou égales à Q75% .

Au moins 50 % des données Au moins 50 % des données


z }| {z }| {
Min Q25% Med Q75% Max
| {z }| {z }| {z }
Au moins 25 % Au moins 50 % des données Au moins 25 %
des données des données

Caractères de position et de dispersion 81 / 212


Les Quantiles
Remarque
Les quartiles permettent d’avoir en quelques chiffres un résumé rapide de la série
statistique. Ils ne présentent un réel intérêt que lorsque les données sont en grand
nombre. Leurs calculs se feront la plupart du temps avec la calculatrice ou avec un
tableur.

Définition
Les éléments ci-dessus permettent de définir une représentation particulière d’une série
statistique appelée Boîte de Tuckey ou plus simplement boîte à moustaches.

Caractères de position et de dispersion 82 / 212


Quantiles
Exemple
Considérons la série statistique suivante :

2 − 5 − 7 − 8 − 8 − 12 − 12 − 15 − 15 − 16.

Il y a 10 valeurs, la médiane est égale à 10 et sépare la série en deux partie de 5 éléments.


Le premier quartile Q1 est égale à x3 , Q1 = 7.
Le troisième quartile Q3 est égale à x8 , Q3 = 15.

Caractères de position et de dispersion 83 / 212


Les Quantiles
Remarque
Les effectifs cumulés croissants peuvent permettre de déterminer les quartiles et la
médiane d’une série

Exemple
On donne la série de notes obtenues par des étudiants de Section B ENCG dans un contrôle de
statistique :
4 − 4 − 4 − 4 − 5 − 5 − 5 − 5 − 6 − 6 − 6 − 7 − 7 − 7 − 7 − 7 − 8 − 8 − 9 − 9 − 13 − 13 − 14 −
14 − 14 − 15 − 15 − 15 − 15 − 16 − 16 − 16 − 17 − 17 − 17.
Notes 4 5 6 7 8 9 13 14 15 16 17
Effectifs 4 4 3 5 2 2 2 3 4 3 3
Ecc 4 8 11 16 18 20 22 25 29 32 35

Il y a 35 = 2 × 17 + 1 valeurs, la médiane est donc la 18ième valeur : med = 8.


Le premier quartile est au milieu de la première partie de 17 = 2 × 8 + 1 valeurs : Q25% = x9 = 6.
Le troisième est au milieu de la deuxième partie de 17 valeurs : Q75% = x26 = 15.
Caractères de position et de dispersion 84 / 212
Les Quantiles

Proposition
Le calcul des fréquences cumulées croissantes permet aussi d’obtenir les quartiles.

Exemple
Voici les notes des étudiants de Section A ENCG
Classes [ 2; 4 [ [ 4; 6 [ [ 6; 8 [ [ 8 ; 10 [ [10 ; 12 [ [12 ; 14 [ [14 ; 16 [ [16 ; 18 [
Centres 3 5 7 9 11 13 15 17
Effectifs 5 8 2 4 5 8 5 3
Fr 0,125 0,20 0,05 0,10 0,12 0,2 0,13 0,075
Fc 0,125 0,325 0,375 0,475 0,60 0,80 0,925 1

Caractères de position et de dispersion 85 / 212


Les Quantiles
Nous allons construire la courbe des fréquences cumulées croissantes et retrouver la
médiane et les quartiles graphiquement.

Caractères de position et de dispersion 86 / 212


Les Quantiles

Exemple
En reprenant les données où X donne la recette quotidienne d’un petit magasin, on
retrouve le tableau des fréquences suivant :

X=les recettes Effectifs Fréquences Fréquences Cumulées


[10; 100[ 5 0,125 0,125
[100; 190[ 3 0,075 0,200
[190; 280[ 11 0,275 0,475
[280; 370[ 6 0,150 0,625
[370; 460[ 11 0,275 0,900
[460; 550[ 3 0,075 0,975
[550; 640[ 1 0,025 1,00
Total n=40 1,00

Caractères de position et de dispersion 87 / 212


Les Quantiles
• Pour déterminer le premier quartile, les fréquences cumulées ont dépassé 25 % pour la première fois au
niveau de la classe [190; 280[, donc
25% Q
Q (0, 25 − Fm−1 ) (0, 25 − 0, 20)
Q25% = binf25% + Q
Am = 190 + 90 = 206, 36.
fm 25% 0, 275
Ce qui signifie que dans cet échantillon de données, 25% des journées, les recettes quotidiennes de ce
petit magasin ont été de 206,36 DH ou moins.
• Pour déterminer le deuxième quartile (on refait ce qu’on a déjà fait pour calculer la médiane), les
fréquences cumulées ont dépassé 50 % pour la première fois au niveau de la classe [280; 370[, donc
Q (0, 5 − Fm−1 ) (0, 5 − 0, 475)
Q50% = binf50% + Am = 280 + 90 = 295.
fm 0, 15
Ce qui signifie que dans cet échantillon de données, 50 % des journées, les recettes quotidiennes de ce
petit magasin ont été de 295 DH ou moins.
• Pour déterminer le troisième quartile, les fréquences cumulées ont dépassé 75 % pour la première fois
au niveau de la classe [370; 460[, donc
Q
75%
Q (0, 75 − Fm−1 ) (0, 75 − 0, 625)
Q75% = binf75% + Q
Am = 370 + 90 = 410, 91.
fm 75% 0, 275
75 % des journées, les recettes quotidiennes de ce petit magasin ont été de 410,91 DH ou moins.
Caractères de position et de dispersion 88 / 212
Les Quantiles

Remarque
Utilité des quartiles, en plus de leur utilisation comme mesures de position, s’utilisent
pour détecter des données aberrantes dans toute série de données. Cette détection se
fait à l’aide d’un graphique en boîte (Box-plot) ou bien boîte à moustache.

Caractères de position et de dispersion 89 / 212


Les Quantiles
B) Les Déciles

Définition : Les Déciles


Déciles (notés D1, D2, ..., D9) : quantiles qui séparent la série en 10 sous-ensembes de
même fréquence. Plus précisément :

D1 = Q10% , D2 = Q20% , ..., D9 = Q90% .

Remarque
Les Déciles se calculent de manière similaire à la médiane.
Ainsi pour des données regroupées on a :

Dα (α − Fm−1 )
Dα = binf + Am .
fmDα

Caractères de position et de dispersion 90 / 212


Les Quantiles
Exemple
En reprenant les données où X donne la recette quotidienne d’un petit magasin :

X=les recettes Effectifs Fréquences Fréquences Cumulées


[10; 100[ 5 0,125 0,125
[100; 190[ 3 0,075 0,200
[190; 280[ 11 0,275 0,475
[280; 370[ 6 0,150 0,625
[370; 460[ 11 0,275 0,900
[460; 550[ 3 0,075 0,975
[550; 640[ 1 0,025 1,00
Total n=40 1,00

0, 1 − 0 0, 4 − 0, 2
• D1 = 10 + 90 = 82. D4 = 190 + 90 = 255, 45 et
0, 125 0, 275
0, 7 − 0, 625
D7 = 370 + 90 = 394, 54.
0, 275
Caractères de position et de dispersion 91 / 212
Caractères de Dispersion

Définition
Les indices de tendance centrale définissent le comportement général des données. Mais
les données peuvent varier beaucoup autour de cette tendance. On doit donc définir un
indice qui caractérise la variabilité des données dans l’échantillon. Cet indice est appelé
indice de dispersion parce qu’il renseigne sur la dispersion ou l’éparpillement des données
autour notamment des paramètres de tendance centrale.
Nous étudierons quatre paramètres de dispersion parmi les principaux, en mettant plus
particulièrement l’accent sur la variance et l’écart-type :
1 L’étendue et le rapport de variation
2 L’intervalle interquartile
3 La variance et l’écart-type
4 Le coefficient de variation

Caractères de position et de dispersion 92 / 212


Caractères de Dispersion

Etendue et Rapport de variation


L’étendue d’une série statistique de type quantitatif est la différence entre la plus
grande et la plus petite valeur du caractère étudié.

Etendue = Maximum - Minimum

le Rapport de Variation (RV), c’est-à-dire le rapport de la valeur maximale de la


distribution à la valeur minimale de la même distribution.
Maximum
RV = .
Minimum

Caractères de position et de dispersion 93 / 212


Caractères de Dispersion

Exemple
Les notes d’élèves de deux classes au même examen ont donné les résultats suivants :
Classe 1 9 11 12 13 7 5 11 9 13 12 14 17 8
Classe 2 7 8 10 17 16 13 19 8 14 11 15 3 11 15

Classe 1 Classe 2
Minimum 5 3
Maximum 17 19
Etendu 12 16
Rapport de Variation 3,4 6,3

Le rapport de variation nous apprend que dans la classe 1 la meilleure note est 3,4 fois
plus élevée que la note la plus faible. Ce rapport est plus important dans la classe 2 pour
laquelle il est 6,3.
Caractères de position et de dispersion 94 / 212
Caractères de Dispersion

Écart inter-quartile
L’écart inter-quartile d’une série statistique de type quantitatif est la différence entre
le troisième quartile et le premier quartile du caractère étudié.

Écart inter-quartile = Q3 −Q1 .

Caractères de position et de dispersion 95 / 212


Caractères de Dispersion

La variance
La variance d’une variable mesurée sur un échantillon est égale à la moyenne des carrés
des écarts qui séparent chaque observation de la moyenne, son calcul diffère selon la
nature des données.
On va distinguer deux cas :
1) Cas des données brute non groupées :
Soit X une variable quantitative mesurée sur un échantillon de taille n, et dont les
valeurs sont xi avec 1 6 i 6 n, alors la variance de l’échantillon est
n  n
1X 2 1 X 
Vx = xi − x̄ = xi2 − x̄ 2 .
n i=1 n i=1

Caractères de position et de dispersion 96 / 212


Caractères de Dispersion

2) Cas des données groupées par valeurs :


Soit X une variable quantitative mesurée sur un échantillon de taille n, et dont les
k valeurs sont x1 , x2 , ..., xk avec des fréquences respectivement égales à f1 , f2 , ..., fk .
Alors la variance de X dans cet échantillon est égale à
k k k
1X  2 X  2 X 
Vx = ni xi − x̄ = fi xi − x̄ = fi xi2 − x̄ 2 .
n i=1 i=1 i=1

3) Cas des données groupées par classes :


k k k
1X  2 X  2 X 
Vx = ni ci − x̄ = fi ci − x̄ = fi ci2 − x̄ 2 .
n i=1 i=1 i=1

Caractères de position et de dispersion 97 / 212


Caractères de Dispersion

Remarque
• La variance corrigée de X est définie par :
n
Vx∗ = Vx .
n−1
Pour des raisons techniques, on préfère dans la suite de calculer la variance corrigée Vx∗ .

Caractères de position et de dispersion 98 / 212


Caractères de Dispersion
Exemple : Cas des données groupées par valeurs
Un inspecteur en contrôle de qualité a extrait de sa base de données, un échantillon de 40
semaines où il a noté X , le nombre d’accidents de travail enregistrés par semaine. Il a obtenu les
résultats suivants :
2−0−4−2−2−1−3−2−0−5−4−3−2−4−5−6−6−4−2−0−3−4−4−2−
6 − 2 − 4 − 3 − 0 − 4 − 3 − 4 − 3 − 3 − 5 − 5 − 4 − 2 − 2 − 1.
On peut donc dresser le tableau des fréquences suivant.

N d’accidents par semaine Effectifs Fréquences


0 4 0,1
1 2 0,05
2 10 0,25
3 7 0,175
4 10 0,25
5 4 0,1
6 3 0,075
Total n=40 1
Caractères de position et de dispersion 99 / 212
Caractères de Dispersion

Exemple : Cas des données groupées par valeurs


p
X
ni xi
i=1 0 × 4 + 1 × 2 + ... + 6 × 3
La moyenne x̄ = = = 3, 025 accident par semaine.
n 40
k
X  2
La variance Vx = fi xi − x̄ =
i=1
 2  2  2
0, 1 0 − 3, 025 + 0, 05 1 − 3, 025 + ... + 0, 075 6 − 3, 025 = 2, 68.
n 40
Vx∗ = Vx = × 2, 68 = 2, 74.
n−1 39

Caractères de position et de dispersion 100 / 212


Caractères de Dispersion

Exemple : Cas des données groupées par classe


En reprenant l’exemple où X est la recette quotidienne d’un petit magasin, on avait le
tableau suivant auquel on a ajouté une colonne à gauche contenant le centre des classes :

ci X=les recettes Effectifs Fréquences


55 [10; 100[ 5 0,125
145 [100; 190[ 3 0,075
235 [190; 280[ 11 0,275
325 [280; 370[ 6 0,150
415 [370; 460[ 11 0,275
505 [460; 550[ 3 0,075
595 [550; 640[ 1 0,025
Total n=40 1

Caractères de position et de dispersion 101 / 212


Caractères de Dispersion

Exemple : Cas des données groupées par classe


On a déjà calculé la moyenne de cet échantillon, x̄ = 298 DH, donc la variance
k
X  2
Vx = fi ci − x̄ =
i=1
 2  2  2
0, 125 55 − 298 + 0, 075 145 − 298 + ... + 0, 025 595 − 298 = 19521.
n 40
Vx∗ = Vx = × 19521 = 20021, 54.
n−1 39

Caractères de position et de dispersion 102 / 212


Caractères de Dispersion

L’écart type
L’écart type est la racine carrée de la variance :
p
σx = Vx .

L’écart type corrigé est défini par :

n
r
σx∗ = σx
n−1
Si l’écart-type est faible, cela signifie que les valeurs sont assez concentrées autour de la
moyenne et si l’écart-type est élevé, cela veut dire au contraire que les valeurs sont plus
dispersées autour de la moyenne.

Caractères de position et de dispersion 103 / 212


Caractères de Dispersion

Coefficient de variation
Tous les indicateurs de dispersion que nous avons vu jusqu’à présent dépendent des
unités de mesure de la variable. Ils ne permettent pas de comparer des dispersions de
distributions statistiques. Le coefficient de variation, qui est un nombre sans dimension,
permet cette comparaison lorsque les valeurs de la variable sont positives. Il s’écrit
σx
CV =

Si CV < 0, 5 alors la dispersion n’est pas importante et on dit que la variable est
homogène.
Si CV > 0, 5 alors la dispersion est importante et on dit que la variable est hétérogène.

Caractères de position et de dispersion 104 / 212


Statistique à deux Variables

Introduction
• On s’intéresse maintenant à l’étude simultanée de deux variables, notées X et Y ,
observées sur le même échantillon (le même ensemble d’individus).
• L’objectif essentiel des méthodes présentées dans cette partie est de mettre en
évidence une éventuelle variation simultanée des deux variables, que nous appellerons
alors liaison. C’est en effet l’un des objectifs fondamentaux de la statistique que de
mettre en évidence des liaisons entre variables, ces liaisons exprimant certaines relations
entre les phénomènes représentés par ces variables. Par exemple, dans un groupe
d’hommes adultes, on peut penser qu’il existe une liaison entre la taille et le poids.

Statistique à deux Variables 105 / 212


Statistique à deux Variables

Remarques :
• Les deux variables observées peuvent être aussi bien quantitatives que qualitatives.
• Dans le cas d’une variable quantitative, on pourra faire des calculs d’indicateurs
(moyenne, écart-type, etc.) en fonction des modalités de l’autre variable.

Statistique à deux Variables 106 / 212


Statistique à deux Variables

Exemples
• Au près des étudiants pris au hasard parmi deux groupes G1 et G3 , on observe les
notes de macroéconomie X et de statistique Y .
• Une entreprise mène une étude sur la liaison entre les dépenses mensuelles en publicité
X et le volume des ventes Y qu’elle réalise.
• On suppose qu’on souhaite étudier la relation entre le sexe (Féminin, Masculin) et le
statut d’activité (Inactif, actif) de 20 personnes.
• On s’intéresse à une éventuelle relation entre la variable X (Salaire mensuel) et Y (La
profession).

Statistique à deux Variables 107 / 212


Statistique à deux Variables

Les séries statistiques à deux variables peuvent être présentées de deux façons.
Présentation 1 :
On suppose que, suite à une étude faite, on s’intéresse à deux caractères sur une
population donnée. À chaque individu de cette population, on associe donc un couple
(xi , yi ) de nombres réels où la variable xi est la valeur de la première variable pour
l’individu considéré et où la variable yi est la valeur de la seconde variable.
L’ensemble de ces couples forme une série statistique à deux variables ou encore série
statistique double.
Les résultats peuvent être résumés dans un tableau :

Valeurs du 1er caractère xi x1 x2 x3 ... xk


Valeurs du 2ème caractère yi y1 y2 y3 ... yk

Statistique à deux Variables 108 / 212


Statistique à deux Variables

Présentation 2 :
Cette présentation d’une série à deux variables peut être sous forme d’un tableau de
contingence, qui peut être défini comme :
1 Un tableau à double entrée ou à deux dimensions.
2 Un tableau avec deux variables X et Y , tel que les n modalités de X sont désignées
par x1 , x2 , ..., xi , ..., xk et les m modalités de Y sont désignées par y1 , ..., yj , ..., ym .
3 Un tableau avec k lignes et m colonnes comme illustré dans le tableau ci-dessous,
tel que n et m sont les nombres de modalités de la variable X et de la variable Y
respectivement.

Statistique à deux Variables 109 / 212


Statistique à deux Variables

Tableau de contingence :
X \Y d1 ou y1 ··· dj ou yj ··· dm ou ym Total=ni• ou fi•
c1 ou x1 n11 ou f11 ··· n1j ou f1j ··· n1m ou f1m n1• ou f1•
.. .. .. .. .. .. ..
. . . . . . .
ci ou xi ni1 ou fi1 ··· nij ou fij ··· nim ou fim ni• ou fi•
.. .. .. .. .. .. ..
. . . . . . .
ck ou xk nk1 ou fk1 ··· nkj ou fkj ··· nkm ou fkm nk• ou fk•
Total=n•j ou f•j n•1 ou f•1 ··· n•j ou f•j ··· n•m ou f•m N ou 1

Statistique à deux Variables 110 / 212


Statistique à deux Variables

Tableau de contingence :
Avec dm = [lm , lm+1 [ et ck = [hk , hk+1 [ sont les classes des variables statistiques Y et X
respectivement dans le cas continue.
Nous notons par fij la fréquence du coulpe (xi , yi ). Cette fréquence est donnée par :
k X m
nij X
fij = , avec N = nij .
N i=1 j=1

Nous avons la propriété suivante,


k X
X m
fij = 1.
i=1 j=1

Statistique à deux Variables 111 / 212


Statistique à deux Variables

Distributions Marginales :
Sur la marge du tableau de contingence, on peut extraire les données seulement par
rapport à X et seulement par rapport à Y .
Effectifs marginaux et fréquences marginales par rapport à Y : nous avons, pour
j = 1, ..., m
k k
X n•j X
n•j = nij , et f•j = = fij .
i=1
N i=1

Effectifs marginaux et fréquences marginales par rapport à X : nous avons, pour


i = 1, ..., k
m m
X ni• X
ni• = nij , et fi• = = fij .
j=1
N j=1

Statistique à deux Variables 112 / 212


Statistique à deux Variables

Distribution Marginale de X :
On présente la distribution marginale de X comme suite :

X ni• ou fi•
c1 ou x1 n1• ou f1•
.. ..
. .
ci ou xi ni• ou fi•
.. ..
. .
ck ou xk nk• ou fk•

Statistique à deux Variables 113 / 212


Statistique à deux Variables

Distribution Marginale de Y :
On présente la distribution marginale de Y comme suite :

Y d1 ou y1 ··· dj ou yj ··· dm ou ym
Total=n•j ou f•j n•1 ou f•1 ··· n•j ou f•j ··· n•m ou f•m

Statistique à deux Variables 114 / 212


Statistique à deux Variables

Proposition :
k
X m
X k
X m
X
ni• = n•j = N, et fi• = f•j = 1.
i=1 j=1 i=1 j=1

Statistique à deux Variables 115 / 212


Statistique à deux Variables

Exemple A) : Deux variables qualitatives


•Tableau de contingence des effectifs
On s’intéresse à une éventuelle relation entre la variable X = (le sexe) de n = 200
personnes et la variable Y = (la couleur des yeux).

X /Y Bleu Vert Marron Total


Homme n11 = 10 n12 = 50 n13 = 20 n1• = 80
Femme n21 = 20 n22 = 60 n23 = 40 n2• = 120
Total n•1 = 30 n•2 = 110 n•3 = 60 n = 200

Statistique à deux Variables 116 / 212


Statistique à deux Variables

Exemple A) : Deux variables qualitatives


Les nombres n1• , n2• et n•1 , n•2 , n•3 sont appelés effectifs marginaux.
Par exemple la valeur n22 = 60 exprime que 60 femmes ont une couleur verte des yeux
et on a : 

 n11 + n12 + n13 = n1• ,
n21 + n22 + n23 = n2• ,





 n +n =n ,
11 21 •1

 n12 + n22 = n•2 ,




 n13 + n23 = n•3 ,
n11 + n12 + n13 + n21 + n22 + n23 = n.

Statistique à deux Variables 117 / 212


Statistique à deux Variables

Exemple A) : Deux variables qualitatives


•Tableau de contingence des fréquences
n n




fij = nij , fi• = nni• , f•j = n•j
f11 + f12 + f13 = f1• ,




f21 + f22 + f23 = f2• ,




f11 + f21 = f•1 ,




 f12 + f22 = f•2 ,
f13 + f23 = f•3 ,





 f11 + f12 + f13 + f21 + f22 + f23 = 1.
Les nombres f1• , f2• et f•1 , f•2 , f•3 sont appelées fréquences marginales.

Statistique à deux Variables 118 / 212


Statistique à deux Variables

Exemple A) : Deux variables qualitatives


X /Y Bleu Vert Marron Total
Homme f11 = 0.05 f12 = 0.25 f13 = 0.10 f1• = 0.40
Femme f21 = 0.10 f22 = 0.30 f23 = 0.20 f2• = 0.60
Total f•1 = 0.15 f•2 = 0.55 f•3 = 0.30 1

Statistique à deux Variables 119 / 212


Statistique à deux Variables

Exemple A) : Deux variables qualitatives


•Distribution Marginale de X

X Effectifs=ni•
Homme n1• = 80
Femme n2• = 120

• Disctribution Marginale de Y

Y Bleu Vert Marron


Effectifs=n•j n•1 = 30 n•2 = 110 n•3 = 60

Statistique à deux Variables 120 / 212


Statistique à deux Variables

Exemple B) : Variable qualitative et variable quantitative


Soit le tableau de contingence suivant d’un groupe de 50 personnes réparties par sexe
(X ) et par groupe d’âge (Y ), tous âgés de 45 ans au plus.

X /Y [0, 18[ [18, 45[ Total


Homme n11 = 10 n12 = 20 n1• = 30
Femme n21 = 5 n22 = 15 n2• = 20
Total n•1 = 15 n•2 = 35 N = 50

Statistique à deux Variables 121 / 212


Statistique à deux Variables

Exemple B) : Variable qualitative et variable quantitative


Tableau de contingence des fréquences :

X /Y [0, 18[ [18, 45[ Total


Homme f11 = 0, 2 f12 = 0, 4 n1• = 0, 6
Femme f21 = 0, 1 f22 = 0, 3 n2• = 0, 4
Total f•1 = 0, 3 f•2 = 0, 7 1

Statistique à deux Variables 122 / 212


Statistique à deux Variables

Exemple B) : Variable qualitative et variable quantitative


•Distribution Marginale de X

X Effectifs=ni•
Homme n1• = 30
Femme n2• = 20

•Distribution Marginale de Y

Y [0, 18[ [18, 45[


Effectifs=n•j n•1 = 15 n•2 = 35

Statistique à deux Variables 123 / 212


Statistique à deux Variables

Exemple C) : Variables quantitatives


Nous considérons 10 salariés qui sont observés à l’aide de deux variables "âge" et
"salaire". Les informations brutes (pas encore traitées) sont données dans le tableau
suivant,

Salaire 6000 7400 7500 8200 8207 8900 9100 9900 9950 10750
Age 15 26 20 43 47 37 52 34 50 44

1 Déterminer le tableau de contingence (X : âge, Y : salaire). Pour l’âge et pour le


salaire, former respectivement des classes de pas de 10 ans et de 1000 DH.
2 Calculer f21 , f12 , f45 , f33 .
3 Déterminer les effectifs marginaux de X et de Y .
4 Déterminer le tableau statistique des deux séries marginales X et Y .

Statistique à deux Variables 124 / 212


Statistique à deux Variables

Solution :
En utilisant les hypothèses, nous considérons les classes suivantes,
Pour l’âge : [15, 25[; [25, 35[; [45, 55[.
Pour le salaire (×1000) : [6, 7[; [7, 8[; [8, 9[; [9, 10[; [10, 11[.
Pour les classes nous avons :
xmax − xmin 52 − 15
Nombre de classe (âge) = = = 3, 7 ≈ 4 classes.
Aâge 10

ymax − ymin 10750 − 6000


Nombre de classe (salaire) = = = 4, 75 ≈ 5 classes.
Asal 1000
Cette série statistique est représentée par le tableau suivant,

Statistique à deux Variables 125 / 212


Statistique à deux Variables

Solution :
Age\Salaire × 1000 [6, 7[ [7, 8[ [8, 9[ [9, 10[ [10, 11[ ni• fi•
[15, 25[ 1 1 0 0 0 2 0,2
[25, 35[ 0 1 0 1 0 2 0,2
[35, 45[ 0 0 2 0 1 3 0,3
[45, 55[ 0 0 1 2 0 3 0,3
n•j 1 2 3 3 1 10 1
f•j 0,1 0,2 0,3 0,3 0,1 1
n12 1 n21 0 n45 0
De ce fait nous avons f12 = = = 0, 1, f21 = = = 0, f45 = = =
N 10 N 10 N 10
n33 2
0, et f33 = = = 0, 2.
N 10

Statistique à deux Variables 126 / 212


Statistique à deux Variables

Solution :
Enfin, les deux distributions marginales de X et de Y sont donnés, respectivement, par

X =Âge ni• fi• ci le centre


[15, 25[ 2 0,2 20
[25, 35[ 2 0,2 30
[35, 45[ 3 0,3 40
[45, 55[ 3 0,3 50

Statistique à deux Variables 127 / 212


Statistique à deux Variables

Solution :
Y =Salaire×1000 n•j f•j dj le centre
[6, 7[ 1 0,1 6,5
[7, 8[ 2 0,2 7,5
[8, 9[ 3 0,3 8,5
[9, 10[ 3 0,3 9,5
[10, 11[ 1 0,1 10,5

Statistique à deux Variables 128 / 212


Statistique à deux Variables

Caractéristique des séries marginales (Variables Qantitatives)


Dans le cas d’une variable statistique à deux dimensions X et Y , les moyennes
marginales sont données respectivement par
k k
1 X X
x̄ = ni• xi = fi• xi , Moyenne marginale de X .
N i=1 i=1

Et
m m
1 X X
ȳ = n•j yj = f•j yj , Moyenne marginale de Y .
N j=1 j=1

Dans le cas continu, xi et yj représentent respectivement le centre des classes de X et Y .

Statistique à deux Variables 129 / 212


Statistique à deux Variables

Exemple
Nous calculons x̄ et ȳ pour l’Exercice C) traité précédemment. Nous avons la moyenne
marginale d’âge
1 
x̄ = 40 + 60 + 120 + 150 = 37 ans.
10
Et la moyenne marginale du salaire
1 
ȳ = 6, 5 + 15 + 25, 5 + 28, 5 + 10, 5 × 1000 = 8600 DH.
10

Statistique à deux Variables 130 / 212


Statistique à deux Variables

Caractéristique des séries marginales (Variables Qantitatives)


Nous définissions maintenant la variance marginale de X et la variance marginale de Y
comme suit
k k
1 X
Var (x ) = x¯2 − (x̄ )2 , avec x¯2 =
X
ni• xi2 = fi• xi2 .
N i=1 i=1

Et
m m
1 X
Var (y ) = y¯2 − (ȳ )2 , avec y¯2 =
X
n•j yj2 = f•j yj2 .
N j=1 j=1

L’écart-type marginale de X et Y est donné par les formules suivantes :


q q
σ(x ) = Var (x ), et σ(y ) = Var (y ).

Statistique à deux Variables 131 / 212


Statistique à deux Variables

Exemple
Nous calculons Var (x ) et Var (y ) pour l’Exercice C) traité précédemment.
4
X  
Var (x ) = fi• ci2 −(x̄ )2 = 0, 2×202 +0, 2×302 +0, 3×402 +0, 3×502 −(37)2 = 121
i=1
p √
Et σ(x ) = Var (x ) = 121 = 11.
5
X h
Var (y ) = f•j di2 − (ȳ )2 = 0, 1 × (6, 5)2 + 0, 2 × (7, 5)2 + 0, 3 × (8, 5)2 + 0, 3 ×
j=1
 i
(9, 5) + 0, 1 × (10, 5)2 − (8, 6)2 × 1000 = 1290
2
p √
Et σ(y ) = Var (y ) = 1290 = 35, 92.

Statistique à deux Variables 132 / 212


Série conditionnelle :

1 La notion de série conditionnelle est essentielle pour comprendre l’analyse de la


ré[Link] tableau de contingence se compose en autant de séries
conditionnelles suivant chaque ligne et chaque colonnes.
2 Contrairement aux distributions marginales, les caractéristiques des distributions
conditionnelles tiennent compte des modalités des deux caractères. De façon
pratique,on se donne une modalité d’un caractère, par exemple y1 , et l’on étudie la
façon dont l’effectif de cette modalité se distribue entre l’ensemble des modalités de
l’autre caractère x.

Statistique à deux Variables 133 / 212


Série conditionnelle :

(a) Série conditionnelle par rapport à X :


Elle est noté par X /yj (ou Xj ) et on dit que c’est la série conditionnelle de X sachant
que Y = yj .

X /yj yj
x1 n1j
.. ..
. .
xi nij
.. ..
. .
xk nkj

Statistique à deux Variables 134 / 212


Série conditionnelle :

(a) Série conditionnelle par rapport à X :


Nous calculons dans ce cas la fréquence conditionnelle fi/j (fi sachant j), pour
i = 1, ..., k, par
nij fij
fi/j = = .
n•j f•j
Nous avons aussi la moyenne conditionnelle x¯j , c’est à dire la moyenne des valeurs de X
sous la condition yj , elle est définie par
k k
X 1 X
x¯j = fi/j xi = nij xi .
i=1
n•j i=1

Statistique à deux Variables 135 / 212


Série conditionnelle :

(a) Série conditionnelle par rapport à X :


q
Pour l’écart-type conditionnel, nous avons σXj = Var (Xj ) avec

k
fi/j (xi − x¯j )2 = x¯j2 − (x¯j )2 .
X
Var (Xj ) =
i=1

Statistique à deux Variables 136 / 212


Série conditionnelle :

Exemple : Série conditionnelle par rapport à X :


Reprenant l’Exercice C) :

X /y4 [9, 10[ fi/j ci le centre


[15, 25[ 0 0 20
[25, 35[ 1 0,333 30
[35, 45[ 0 0 40
[45, 55[ 2 0,667 50
4
X  
x¯j = fi/j ci = 0 × 20 + 0, 333 × 30 + 0 × 40 + 0, 667 × 50 = 43, 34.
i=1

Statistique à deux Variables 137 / 212


Série conditionnelle :

(b) Série conditionnelle par rapport à Y :


Elle est noté par Y /xi (ou Yi ) et on dit que c’est la série conditionnelle de Y sachant
que X = xi ,

Y /xi y1 ··· yj ··· ym


xi ni1 ··· nij ··· nim

Statistique à deux Variables 138 / 212


Série conditionnelle :

(b) Série conditionnelle par rapport à Y :


Nous calculons dans ce cas la fréquence conditionnelle fj/i (fj sachant i), pour
j = 1, ..., m, par
nij fij
fj/i = = .
ni• fi•
Nous avons aussi la moyenne conditionnelle y¯i , c’est à dire la moyenne des valeurs de Y
sous la condition xi , elle est définie par
m m
X 1 X
y¯i = fj/i yj = nij yj .
j=1
ni• j=1

Statistique à deux Variables 139 / 212


Série conditionnelle :

(b) Série conditionnelle par rapport à Y :


p
Pour l’écart-type conditionnel, nous avons σYi = Var (Yi ) avec
m
fj/i (yi − y¯i )2 = y¯i2 − (y¯i )2 .
X
Var (Yi ) =
j=1

Statistique à deux Variables 140 / 212


Série conditionnelle :

Exemple : Série conditionnelle par rapport à Y :


Reprenant l’Exercice C) :

Y /x2 ×1000 x2 = [25, 35[ fj/i dj le centre


[6, 7[ 0 0 6,5
[7, 8[ 1 0,5 7,5
[8, 9[ 0 0 8,5
[9, 10[ 1 0,5 9,5
[10, 11[ 0 0 10,5
5
X  
y¯i = fj/i dj = 0 × 6, 5 + 0, 5 × 7, 5 + 0 × 8, 5 + 0, 5 × 9, 5 + 0 × 10, 5 = 8, 5.
j=1

Statistique à deux Variables 141 / 212


Statistique à deux variables :

Covariance
On appelle Covariance de la série statistique double de variables X et Y le nombre réel :
k X m k X m
1 X 1 X
Cov (x , y ) = σxy = xy − x̄ ȳ = nij xi yj − x̄ ȳ = nij (xi − x̄ )(yj − ȳ ).
N i=1 j=1 N i=1 j=1

Statistique à deux Variables 142 / 212


Statistique à deux variables :
Exemple :
Reprenant le tableau de contingence de l’Exemple C) :

ci \dj (×1000) 6, 5 7, 5 8, 5 9, 5 10, 5


20 1 1 0 0 0
30 0 1 0 1 0
40 0 0 2 0 1
50 0 0 1 2 0
4 5
1 XX 1
Cov (x , y ) = nij ci dj − x̄ ȳ = 20 × 6, 5 × 1 + 20 × 7, 5 × 1 + 20 × 8, 5 × 0
N i=1 j=1 10
+20 × 9, 5 × 0 + 20 × 10, 5 × 0 + 30 × 6, 5 × 0 + 30 × 7, 5 × 1 + 30 × 8, 5 × 0 + 30 × 9, 5 × 1
+30 × 10, 5 × 0 + 40 × 6, 5 × 0 + 40 × 7, 5 × 0 + 40 × 8, 5 × 2 + 40 × 9, 5 × 0+ 40 × 10, 5 × 1
+50 × 6, 5 × 0 + 50 × 7, 5 × 0 + 50 × 8, 5 × 1 + 50 × 9, 5 × 2 + 40 × 10, 5 × 0 × 1000
−(37 × 8600) = 8300.

Statistique à deux Variables 143 / 212


Statistique à deux variables :

Remarque
• La covariance est un paramètre qui donne la variabilité de X par rapport à Y .
• La covariance est une notion qui généralise la variance, En effet,

Cov (x , x ) = σx2 = V (x ).

• Dans le cas où nous avons un tableau des données brutes "représentation 1" (nous
n’avons pas d’effectifs), nous avons les formules suivantes :
n n n
1 X 1 X 1 X
x̄ = xi , ȳ = yj , et xy = xi yi .
N i=1 N j=1 N i=1

Statistique à deux Variables 144 / 212


Statistique à deux variables :
Indépendance des Variables X et Y
On dit que deux variables statistiques X et Y sont indépendantes si et seulement si,
pour tout i et j,
fij = fi• × f•j .
Il suffit que cette égalité ne soit pas vérifiée dans une seule cellule pour que les deux
variables ne soient pas indépendantes. De manière équivalente, pour tout i et j,

N × nij = ni• × n•j .

Dans ce cas, si X et Y sont indépendantes alors Cov (X , Y ) = 0 (réciproque est fausse).

Exemple :
Si on consulte le tableau de contingence de l’Exemple C), on peut conclure que les
deux variables X et Y ne sont pas indépendantes car l’égalité N × nij = ni• × n•j n’est
pas vérifiée pour i = 1 et j = 2 c-à-d (10 × 0 6= 2 × 1.)
Statistique à deux Variables 145 / 212
Représentation graphique - Nuage de points

Définition 1
Si à chaque individu de la population on associe le point Ai de coordonnées (xi , yi ) dans
un même repère, l’ensemble des points obtenus est appelé le nuage de points associé à
cette série statistique.

Définition 2
En notant x̄ et ȳ les moyennes respectives des séries X et Y , le point G de coordonnées
(x̄ , ȳ ) est appelé point moyen du nuage.

Statistique à deux Variables 146 / 212


Représentation graphique - Nuage de points

Exemple D)
L’étude du coût de maintenance annuel d’une installation de chauffage dans un
immeuble de bureaux, en fonction de l’âge de l’installation, a donné les résultats
suivants :

Age xi (années) 1 2 3 4 5 6
Coût yi (kDH) 7,55 9,24 10,74 12,84 15,66 18,45

Objectif : Y’a-t-il un lien crédible entre l’âge de l’installation et le coût de maintenance ?


Si oui, peut-on le quantifier, et peut-on, par exemple, prévoir le coût de maintenance
d’une installation de 7 ans ? 8 ans ? 10 ans ?

Statistique à deux Variables 147 / 212


Représentation graphique - Nuage de points

Le point moyen G a pour coordonnées (3, 5 ; 12, 41).


Statistique à deux Variables 148 / 212
Statistique à deux variables :

Ajustement affine par la méthode des moindres carrés


Les points de l’exemple précédents ne sont pas alignés. Néanmoins, ces points semblent
se distribuer approximativement autour d’une droite.
La méthode des moindres carrés permet de déterminer l’équation de la "meilleure" droite
passant dans le nuage de points, ainsi que de quantifier la "qualité de l’alignement des
points" du nuage.
On considère un nuage de points Ak (xk ; yk ).
Pour une droite quelconque, on peut définir la "distance" de la droite au nuage de points
par la somme des distances Ak Hk .
Ainsi, la "meilleure" droite passant dans le nuage de points est celle dont la distance au
nuage de points est la plus petite.

Statistique à deux Variables 149 / 212


Statistique à deux variables :
Ajustement affine par la méthode des moindres carrés

Statistique à deux Variables 150 / 212


Statistique à deux variables :

Ajustement affine par la méthode des moindres carrés


Il existe une unique droite telle que la somme des distances
n
X n
X
S(a, b) = A1 H12 + A2 H22 + · · · + An Hn2 = Ak Hk2 = ei2
k=1 k=1
soit minimale. Cette droite est appelée droite de régression de y en x , ou encore
droite des moindres carrés.
Cette droite de régression passe par le point moyen G(x ; y ).

Statistique à deux Variables 151 / 212


Statistique à deux variables :

Proposition
La droite de régression notée D(y /x ) de Y en X à pour équation y = ax + b. Avec

Cov (x , y )
a= et b = ȳ − ax̄
V (x )
.
Ou bien la droite de régression notée D(x /y ) de X en Y à pour équation x = a0 y + b 0 .
Avec
Cov (x , y )
a0 = et b 0 = x̄ − a0 ȳ
V (y )
.

Statistique à deux Variables 152 / 212


Statistique à deux variables :

Exemple
Pour calculer la droite de régression de l’Exemple D), nous cherchons :

1+2+3+4+5+6
x̄ = = 3, 5,
6
7, 55 + 9, 24 + 10, 74 + 12, 84 + 15, 66 + 18, 45
ȳ = = 12, 42,
6
12 + 22 + 32 + 42 + 52 + 62
x¯2 = = 15, 17,
6
(7, 55)2 + (9, 24)2 + (10, 74)2 + (12, 84)2 + (15, 66)2 + (18, 45)2
y¯2 = = 168, 04,
6
Var (x ) = x¯2 −x̄ 2 = 15, 17−12, 25 = 2, 92, Var (y ) = y¯2 −ȳ 2 = 168, 04−154, 26 = 13, 78.

Statistique à deux Variables 153 / 212


Statistique à deux variables :
Exemple
¯ − x̄ ȳ = 49, 77 − 12, 42 × 3, 5 = 67, 79.
Cov (x , y ) = xy
Avec
7, 55 + 9, 24 × 2 + 10, 74 × 3 + 12, 84 × 4 + 15, 66 × 5 + 18, 45 × 6
xy
¯ = = 49, 77
6
donc
Cov (x , y ) 6, 30
a= = = 2, 15
V (x ) 2, 92
et
b = ȳ − ax̄ = 12, 42 − 2, 15 × 3, 5 = 4, 89.
Finalement l’équation de la droite de régression de Y en X est :

y = 2, 17x + 4, 83.
Statistique à deux Variables 154 / 212
Statistique à deux variables :

Les coefficients de corrélation permettent de donner une mesure synthétique de


l’intensité de la relation entre deux caractères et de son sens lorsque cette relation est
monotone.
Définition
La quantité
Cov (x , y )
ρxy = .
σx σy
s’appelle le coefficient de corrélation.

Proposition
Le coefficient de corrélation est compris entre [−1, 1] ou encore |ρxy | 6 1.

Statistique à deux Variables 155 / 212


Statistique à deux variables :

Remarque
Le coefficient ρxy mesure le degré de liaison linéaire entre X et Y .
1 Plus le module de ρxy est proche de 1 plus X et Y sont liées linéairement.
2 Plus le module de ρxy est proche de 0 plus il y a l’absence de liaison linéaire entre
X et Y .
3 Le coefficient de corrélation ρxy permet de justifier le fait de l’ajustement linéaire.
On adopte les critères numériques suivants :
(a) Si |ρxy | < 0, 7 alors l’ajustement linéaire est refusé (droite refusée).
(b) Si |ρxy | > 0, 7 alors l’ajustement linéaire est accepté (droite acceptée).

Statistique à deux Variables 156 / 212


Statistique à deux variables :

Exemple
La droite de réegression de l’exemple précédent a pour équation y = 2, 17x + 4, 83.
En utilisant ce modèle estimer le coût de maintenance pour une installation de 7 ans, de
8 ans, puis de 10 ans.
Avant de répondre à cette question, on doit vérifier est ce que l’ajustement linéaire est
accepté ou pas.
Déterminons Le coefficient de corrélation ρxy :

Cov (x , y ) 6, 30
ρxy = =√ √ = 0, 99 > 0, 7.
σx σy 2, 15 13, 78

alors l’ajustement linéaire est accepté (droite acceptée).

Statistique à deux Variables 157 / 212


1-Les caractéristiques de concentration

La courbe de concentration ou courbe de Lorenz


L’idée générale de la courbe de concentration, dite aussi courbe de Lorenz, est de
comparer la distribution des masses observée avec une distribution des masses qui serait
uniforme et dite « égalitaire ».
Une distribution égalitaire des masses d’un caractère est telle que x % des individus
d’une population représentent toujours x % de la masse du caractère. Ce cas se produit
quand la valeur du caractère observé est la même pour tous les individus, par exemple
même salaire pour tous. Si l’on considère l’exemple des revenus des Marocains , une
répartition égalitaire serait telle que : 10% des Marocains perçoivent 10% du revenu
global ; 20% des Marocains perçoivent 20% du revenu global ; 30% des Marocains
perçoivent 30% du revenu global ; etc.

Les caractéristiques de concentration et de forme 158 / 212


1-Les caractéristiques de concentration

La courbe de concentration ou courbe de Lorenz


Dans la réalité il n’en est pas ainsi : les revenus ne sont pas distribués de façon
égalitaire ; on dit qu’ils sont plus ou moins concentrés selon que la distribution est plus
ou moins inégalitaire.
Pour juger de la concentration c’est-à-dire de la plus ou moins grande inégalité d’une
distribution, on va comparer, d’une part, les fréquences cumulées des effectifs et d’autre
part, les fréquences cumulées des masses de caractères.

Remarque
Dans la suite, on supposera que les valeurs observées sont positives. Plus les fréquences
cumulées des masses s’éloigneront des fréquences cumulées des effectifs, plus la
distribution sera inégalitaire.

Les caractéristiques de concentration et de forme 159 / 212


1-Les caractéristiques de concentration

La courbe de concentration ou courbe de Lorenz


Les fréquences cumulées des effectifs sont :
i
X nj
Fi = avec 1 6 i 6 n.
j=1
N

Les fréquences cumulées des masses de caractères sont :


i i
X nj xj X ni xi
Gi = Pn = gj avec 1 6 i 6 n et gi = Pn
j=1 j=1 xj nj j=1 i=1 xi ni

Les caractéristiques de concentration et de forme 160 / 212


1-Les caractéristiques de concentration

La courbe de concentration ou courbe de Lorenz


Pour juger de l’écart entre fréquences cumulées des effectifs et fréquences cumulées des
masses, on construit un graphique qui se fonde sur les propriétés du carré, en mettant en
abscisse le % des fréquences cumulées des effectifs et en ordonnées le % des fréquences
cumulées des masses, c’est-à-dire des ni xi . La courbe est dite courbe de concentration
ou courbe de Lorenz

Remarque
La diagonale du carré représente la courbe de concentration d’une distribution qui serait
parfaitement égalitaire (y =x) : 10% des effectifs représentent 10% de la masse 20% des
effectifs représentent 20% de la masse etc.

Les caractéristiques de concentration et de forme 161 / 212


1-Les caractéristiques de concentration

La courbe de concentration ou courbe de Lorenz

Les caractéristiques de concentration et de forme 162 / 212


1-Les caractéristiques de concentration

La courbe de concentration ou courbe de Lorenz


En comparant la diagonale à la courbe de concentration dite courbe de Lorenz, on
évalue l’inégalité de la distribution.

Remarques
Plus la courbe de concentration est éloignée de la diagonale du carré qui représente la
distribution égalitaire, plus la distribution est inégalitaire.
La surface comprise entre la diagonale du carré et la courbe de concentration est
appelée surface de concentration. Quand la distribution est égalitaire, la courbe de
concentration est confondue avec la diagonale du carré.
Une distribution B plus inégalitaire qu’une distribution A aura une surface de
concentration plus élevée que celle de A.
On mesure alors l’inégalité au moyen de la surface de concentration à partir de laquelle
on définit le coefficient de Gini.

Les caractéristiques de concentration et de forme 163 / 212


1-Les caractéristiques de concentration

Exemple
On étudie les salaires de 50 employés d’une entreprise.

xi ci ni fi Fi ni ci gi Gi
[600; 1200[ 900 15 0,3 0,3 13500 0.191 0,191
[1200; 1800[ 1500 25 0,5 0.8 37500 0,532 0,723
[1800; 2100[ 1950 10 0,2 1 19500 0,277 1
Totale X 50 1 X 70500 1 X

1 On calcule la masse salariale = ni × ci


2 On calcule le % de la masse salariale gi , ainsi que les fréquences cumulées Gi .

Les caractéristiques de concentration et de forme 164 / 212


1-Les caractéristiques de concentration

Exemple

Les caractéristiques de concentration et de forme 165 / 212


1-Les caractéristiques de concentration

Exemple
Droite rouge = répartition parfaitement équitable.
Plus la courbe de Lorentz est éloignée de la droite rouge et plus la concentration est
forte (répartition de moins en moins équitable).
la surface orange (la surface comprise entre la diagonale OB et la courbe OMB) est
la surface de concentration.

Les caractéristiques de concentration et de forme 166 / 212


1-Les caractéristiques de concentration

Indice de Gini
On se sert du coefficient ou indice de Gini pour comparer des distributions inégales :
revenus, répartition des impôts etc. L’indicateur de concentration (noté IG ), appelé
coefficient de concentration ou indice de Gini est défini par :

Surf de concentration
IG = ∈ [0, 1]
Surf Demi-carré
Pour la distribution la plus égalitaire, la surface de concentration est nulle. Cela
correspond à IG = 0.
Pour la distribution la plus inégalitaire, la surface de concentration est égale à la surface
du demi-carré. Cela correspond à IG = 1.
Le coefficient de Gini est donc compris entre 0 et 1. Plus la distribution est inégalitaire
plus le coefficient se rapproche de 1 ; plus elle est égalitaire plus il est proche de 0.

Les caractéristiques de concentration et de forme 167 / 212


1-Les caractéristiques de concentration
Méthode de calcul du coefficient de Gini
On va traiter l’exemple précédent :
Soit S la surface orange (la surface comprise entre la diagonale OB et la courbe OMB)

S
IG = ∈ [0, 1]
Surf Demi-carré
1×1 1
• On a Surf Demi-carré est ègale à 2 = 2
donc

IG = 2S

• S = Surface du triangle OAB – Surface de OABM


Surface OABM et décomposée en un triangle et deux trapèzes.
Sachant que :
Hauteur × Base 0,3 × 0,191
la surface du triangle = = = 0, 0286
2 2
Les caractéristiques de concentration et de forme 168 / 212
1-Les caractéristiques de concentration

Méthode de calcul du coefficient de Gini


La surface du Trapèze 1=
Hauteur × (Petite Base + Grande Base) (0, 8 − 0, 3) × (0, 723 + 0, 191)
= = 0, 2285
2 2
la surface du Trapèze 2 =
Hauteur × (Petite Base + Grande Base) (1 − 0, 8) × (0, 723 + 1)
= = 0, 1725
2 2
Donc la surface de OABM = 0, 0286 + 0, 2285 + 0, 1725 = 0, 4296
Donc S =

surface de OAB − surface de OABM = 0, 5 − 0, 4296 = 0, 07

IGini = 2S = 0, 14

Les caractéristiques de concentration et de forme 169 / 212


1-Les caractéristiques de concentration
Méthode de calcul du coefficient de Gini
On peut remarquer que :
(F1 −0)×(G1 +0)
la surface du triangle= 2

(F2 −F1 )×(G2 +G1 )


La surface du Trapèze 1 = 2

(F3 −F2 )×(G3 +G2 )


la surface du Trapèze 2 = 2

Donc
3
X (Fi − Fi−1 ) × (Gi + Gi−1 )
S(OABM) =
i=1
2

3
X
IGini = 2( 12 − S(OABM)) = 1 − (Fi − Fi−1 ) × (Gi + Gi−1 )
i=1
Les caractéristiques de concentration et de forme 170 / 212
1-Les caractéristiques de concentration

Coefficient de Gini Formule générale


n
X
IGini = 1 − (Fi − Fi−1 ) × (Gi + Gi−1 )
i=1

Les caractéristiques de concentration et de forme 171 / 212


2-Les caractéristiques de forme

Définition
Les caractéristiques de forme permettent de préciser l’allure de la courbe des fréquences
sans avoir besoin de la tracer. On repère généralement deux mesures de la forme d’une
série : celle de l’asymétrie a pour objet de nous renseigner sur la façon régulière ou non
dont les observations se répartissent de part et d’autre d’une valeur centrale. Celle de
l’aplatissement a pour objet de faire apparaître si une faible variation de la variable
entraîne ou non une forte variation des fréquences relatives.

Les caractéristiques de concentration et de forme 172 / 212


La mesure de l’asymétrie
Définition
Dans une distribution symétrique, les trois caractéristiques : Mode, Médiane et Moyenne
sont confondus , comme le montre le diagramme çi-dessous

Les caractéristiques de concentration et de forme 173 / 212


La mesure de l’asymétrie

Définition
Une courbe non symétrique est dite omlique : l’obliquité se repère du côté de la
croissance la plus forte de la courbe des fréquences

Les caractéristiques de concentration et de forme 174 / 212


La mesure de l’asymétrie

Coefficient d’asymétrie
Une distribution statistique est symétrique si les observations repérées par leurs
fréquences sont également dispersées de part et d’autre d’une valeur centrale. On utilise
un certain nombre de coefficients, c’est-à-dire de nombres sans dimension permettant les
comparaisons, pour mesurer l’asymétrie. Ces coefficients ne sont généralement valables
que si la distribution contient un nombre assez élevé d’observations, et qu’elle ne
présente pas plusieurs modes.

Les caractéristiques de concentration et de forme 175 / 212


La mesure de l’asymétrie

1. Le coefficient de Pearson
Un premier coefficient mesure l’écart relatif du mode et de la moyenne à un indicateur
de dispersion. Si nous retenons l’écart type, nous obtenons le premier coefficient de
Pearson :
moyenne - mode x̄ − Mod
D1 = =
écart type σx
D1 est un nombre sans dimension.
•D1 = 0 la courbe est symétrique par rapport au mode
•D1 > 0 la courbe est étalée à droite
•D1 < 0 la courbe est étalée à gauche.

Les caractéristiques de concentration et de forme 176 / 212


La mesure de l’asymétrie

1. Le coefficient de Pearson
Le second coefficient de Pearson (D2 ) estime l’asymétrie par le rapport de l’écart entre
la moyenne et la médiane à l’écart type.

3(moyenne-médiane) 3(x̄ − Me)


D2 = =
écart type σx
Pour une distribution symétrique, D2 est nul, pour une distribution étalée vers la droite
D2 est positif, dans le cas inverse D2 est négatif.

Les caractéristiques de concentration et de forme 177 / 212


La mesure de l’asymétrie

2. Le coefficient de Yule
Le statisticien britannique Yule propose une mesure de l’asymétrie en comparant
l’étalement vers la gauche et l’étalement vers la droite, tous deux repérés par la position
des quartiles (Q1 , Me, Q3 ).
Q3 + Q1 − 2Me
S=
Q3 − Q1
Si S = 0 ↔ symétrie (quartiles équidistants)
Si S > 0 ↔ oblique à gauche (étalement vers la droite)
Si S < 0 ↔ oblique à droite (étalement vers la gauche)

Les caractéristiques de concentration et de forme 178 / 212


La mesure de l’asymétrie

3. Le coefficient de Fisher
Sir Ronald Fisher, biologiste-statisticien britannique, propose, une vingtaine d’années
plus tard, le coefficient suivant
k
µ3 1X
γ1 = avec µ 3 = ni (xi − x̄ )3
σx3 n i=1

Si γ3 = 0 ↔ symétrie
Si γ3 > 0 ↔ oblique à gauche
Si γ3 < 0 ↔ oblique à droite

Les caractéristiques de concentration et de forme 179 / 212


La mesure de l’asymétrie
Exercice E) (mesures d’asymétrie)
Une enquête menée auprès de 1500 ménages d’une certaine région géographique rurale
s’est intéressée à la variable X correspondant à la taille du ménage, c’est-à-dire au
nombre de personnes constituant le ménage. Les données recueillies peuvent être
présentées sous la forme du diagramme en bâtons suivant.

Les caractéristiques de concentration et de forme 180 / 212


La mesure de l’asymétrie

Exercice E) (mesures d’asymétrie)


La boîte à moustaches associée à cette distribution est représentée ci-dessous.

avec Q1 = 1, Q2 = Med = 2 et Q3 = 4.
On a par ailleurs déterminé que la taille moyenne des 1500 ménages était égale à 2.67 et
que la variance des tailles des ménages s’élevait à 2.27.
Le diagramme en bâtons et la boîte à moustaches mettent clairement en évidence une
asymétrie gauche de la Distribution. Mesurons à présent la force de cette asymétrie à
l’aide des trois coefficients d’asymétrie que nous avons étudiés.

Les caractéristiques de concentration et de forme 181 / 212


La mesure de l’asymétrie
Exercice E) (mesures d’asymétrie)
Déterminez le coefficient d’asymétrie de Fisher, nous avons,
k
µ3 1X
γ1 = 3 avec µ3 = nj (xj − x̄ )3 , Le tableau ci-après reprend le détail des calculs :
σx n j=1

Taille de ménage xj Effectif nj xj − x̄ (xj − x̄ )3 nj (xj − x̄ )3


1 380 -1.67 -4.6575 -1769.8359
2 455 -0.67 -0.3008 -136.8472
3 245 0.33 0.0359 8.8046
4 230 1.33 2.3526 541.1065
5 100 2.33 12.6493 1264.9337
6 75 3.33 36.9260 2769.4528
7 10 4.33 81.1827 811.8274
8 5 5.33 151.4194 757.0972
Total 1500 4246.5390
Les caractéristiques de concentration et de forme 182 / 212
La mesure de l’asymétrie

Exercice E) (mesures d’asymétrie)


Le moment centré d’ordre 3 vaut : µ3 = 4246,5390 = 2, 8310.
1500 √
L’écart-type est égal à la racine carrée de la variance, soit σx = 2, 27 = 1, 5067.
Le coefficient d’asymétrie de Fisher est donc égal à
µ3 2, 8310
γ1 = 3 = = 0, 8278.
σx (1, 5067)3

Les caractéristiques de concentration et de forme 183 / 212


La mesure de l’asymétrie

Exercice E) (mesures d’asymétrie)


Déterminons les coefficients empirique d’asymétrie de Pearson,
moyenne - mode x̄ − Mod 2, 27 − 2
D1 = = = = 0, 44.
écart type σx 1, 5067

3(moyenne-médiane) 3(x̄ − Me) 3(2, 27 − 2)


D2 = = = = 1, 32.
écart type σx 1, 5067

Les caractéristiques de concentration et de forme 184 / 212


La mesure de l’asymétrie

Exercice E) (mesures d’asymétrie)


Déterminons le coefficient empirique d’asymétrie de Yule,
Q3 + Q1 − 2Me 4+1−2×2 1
S= = = = 0, 33.
Q3 − Q1 4−1 3

Remarque :
Comme nous pouvions nous y attendre au vu de l’asymétrie gauche, les trois coefficients
d’asymétrie sont positifs. Il ne faut pas s’étonner qu’ils n’aient pas la même valeur,
puisqu’ils ne mesurent pas l’asymétrie de la même façon.

Les caractéristiques de concentration et de forme 185 / 212


L’Aplatissement

Définition
On considère qu’une courbe des fréquences est plus ou moins aplatie, par référence à la
courbe des fréquences de la Loi Normale (loi de Gauss-Laplace). Une distribution est
dite aplatie si une faible variation de la variable entraine une forte variation de la
fréquence relative fi (et inversement).

Les caractéristiques de concentration et de forme 186 / 212


Les coefficients d’aplatissement

En grec :« Platos » se traduit par « large »,« Leptos » se traduit par « mince » et «
Kurtosis » se traduit par « bosse »
1. Coefficient aplatissement de Pearson
k
µ4 1X
β2 = avec µ 4 = ni (xi − x̄ )4
σx4 n i=1
• β2 est d’autant plus proche de 1 que la courbe est platicurtique.
• β2 est égale à 3 pour une distribution mezzocurtique (normale).
• β2 est supérieur à 3 et d’autant plus grand que la courbe est leptocurtique.

Les caractéristiques de concentration et de forme 187 / 212


Les coefficients d’aplatissement

2. Coefficient aplatissement de Fisher


γ2 = β2 − 3
• γ2 est négatif pour une distribution platicurtique.
• γ2 est égale à 0 pour une distribution mezzocurtique (normale).
• γ2 est positif pour une distribution leptocurtique.

Les caractéristiques de concentration et de forme 188 / 212


Les coefficients d’aplatissement

Exercice
Reprenant l’Exercice E) et calculons le Coefficient d’aplatissemnt de Pearson et de
Fisher,
Taille de ménage xj Effectif nj xj − x̄ (xj − x̄ )4 nj (xj − x̄ )4
1 380 -1,67 -7,77 -2955,626
2 455 -0,67 -0,21 -91,687
3 245 0,33 0,01185 2,905
4 230 1,33 3,129 719,67
5 100 2,33 29,472 2947,29
6 75 3,33 122,963 9222,22
7 10 4,33 351,52 3515,21
8 5 5,33 807,065 4035,327
Total 1500 17395,31

Les caractéristiques de concentration et de forme 189 / 212


Les coefficients d’aplatissement

Exercice
Le moment centré d’ordre 4 vaut : µ4 = 17395,31
1500 = 11, 60. √
L’écart-type est égal à la racine carrée de la variance, soit σx = 2, 27 = 1, 5067.
Le coefficient d’aplatissement de Pearson est donc égal à
µ4 11, 60
β2 = 4
= = 2, 25.
σx (1, 5067)4

Nous avons donc le coefficient d’aplatissement de Fisher

γ2 = β2 − 3 = 2, 25 − 3 = −0, 75.

Les caractéristiques de concentration et de forme 190 / 212


Les indices

1. Les indices élémentaires : Définition


Les indices servent à comparer les états d’une même variable dans deux situations
différentes, une situation prise comme référence et une autre situation que l’on compare
à la première. La situation de référence sera dite situation de base et celle qui lui est
comparée sera dite situation courante. Par exemple, on construit des indices quand on
veut comparer le prix d’un bien entre deux dates ou bien la production d’un bien entre
deux dates.

Les indices et taux de croissance 191 / 212


Les indices

1. Les indices élémentaires : Exemple


Prenons le prix d’un bien l’année n : 1000 Dh
L’année n + 1 : 1500 Dh.
Pour comparer les valeurs prises par le prix du bien entre ces deux années (deux
situations), on fait leur rapport, ce qui permet d’éliminer les unités de mesure, puis, on
multiplie le rapport par 100 pour éliminer des décimales. Cela donne pour le prix du bien
considéré :
1500
× 100
1000
qui est l’indice du prix du bien l’année n + 1 par rapport à l’année n, où l’indice du prix a
été fixé à 100.

Les indices et taux de croissance 192 / 212


Les indices

1. Les indices élémentaires : Exemple


l’indice de la production des Tomates au Maroc :

2014 2015
Production 524 540
Indice 100 103

L’année de référence est 2014 et l’on compare la production de 2015 à celle de 2014. On
donne la valeur 100 à l’indice pour l’année de référence. La valeur 103 pour l’indice de
2015 est obtenue en faisant le rapport production en 2015 / production en 2014, soit
540/524, et en le multipliant par 100. Que nous dit cet indice ? Que la production des
Tomates a augmenté de 3% de 2014 à 2014.

Les indices et taux de croissance 193 / 212


Les indices

1. Les indices élémentaires : Formule


De façon plus générale, quand on construit un indice pour comparer deux situations
différentes, on considère la valeur prise dans la situation courante, qui est appelée
situation un et on considère la valeur prise dans la situation de base, qui est appelée la
situation zéro. L’indice qui permet de comparer ces deux situations est noté I1,0 Il est
obtenu en faisant le rapport entre la valeur de la variable prise dans la situation 1 (V1 )
et celle prise dans la situation 0 (V0 ), puis en multipliant ce résultat par 100 :

V1
I1,0 = × 100
V0
Il est appelé indice élémentaire : c’est l’indice relatif à la variable V entre la situation
courante et la situation de base.

Les indices et taux de croissance 194 / 212


Les indices

2. Les indices synthétiques de Laspeyres,Paasche et Fisher


Les indices synthétiques les plus utilisés en économie sont les indices qui résument
l’évolution de la valeur d’un panier de produits. Trois économistes,
LASPEYRES,PAASCHE et FISHER, ont proposé des indices synthétiques différents pour
mesurer l’évolution de cette valeur.

Les indices et taux de croissance 195 / 212


Les indices
2.1 Définition de la valeur d’un panier de biens
Comment mesurer l’évolution d’une variable synthétique, la valeur d’un panier de
produits, sachant que la valeur de chaque produit est elle-même le produit d’un prix par
une quantité ? Pour clarifier cette question, posons quelques définitions. Nous étudierons
successivement les indices proposés par LASPERES, PAASCHE et FISHER. Dans chaque
cas, nous définirons l’indice et nous illustrerons son mode de calcul par un exemple. Soit
Vti = pti × qti la valeur du bien i, à la date i où pti représente le prix du bien i à la date t
et qti sa quantité. Par exemple, si pti = 20Dh et que qti = 4 unités, on aura :

Vti = pti × qti = 20 × 4 = 80Dh

Maintenant, s’il y a n produits dans le panier (i = 1, n), la valeur totale du panier à la


date t s’écrira :
n
X
pti qti
i=1

Les indices et taux de croissance 196 / 212


Les indices

2.1 Définition de la valeur d’un panier de biens


L’évolution de la valeur du panier entre deux dates dépend de l’évolution du prix de
chaque bien et de l’évolution de la quantité de chaque bien. Il faut donc construire un
indice synthétique qui permette d’imputer l’évolution de la valeur du panier à la
envisagés. Nous étudierons successivement les indices proposés par LASPERES,
PAASCHE et FISHER. Dans chaque cas, nous définirons l’indice et nous illustrerons son
mode de calcul par un exemple.

Les indices et taux de croissance 197 / 212


Les indices
2.2 Les indices de LASPEYRES
L’économiste allemand Ernst Louis Etienne LASPEYRES (1834-1913) a proposé de
calculer deux indices synthétiques qui portent son nom : l’indice de LASPEYRES des
prix et l’indice de LASPEYRES des quantités.

2.2.1 Les indices de LASPEYRES des prix


L’indice de LASPEYRES des prix mesure l’évolution entre deux dates 0 et t, des prix des
biens qui composent un panier, en prenant comme référence la valeur du panier à la
date initiale (t = 0) et en supposant que les quantités de biens dans le panier n’ont pas
varié entre 0 et t.L’indice de LASPEYRES des prix se définit comme suit :
n
X
pti q0i
i=1
Lp (t, 0) = n × 100
X
p0i q0i
i=1
Les indices et taux de croissance 198 / 212
Les indices

Remarque
On voit ainsi que si les prix ne changent pas entre 0 et t (c’est-à-dire si pti = p0i ),l’indice
synthétique de LASPEYRES des prix demeure égal à 100.

2.2.1 Les indices de LASPEYRES des prix : Exemple


Soit le tableau suivant , qui donne les prix et les quantités de deux produits 1 et 2 aux
périodes 0 et t.

Période 0 Période t
Produit 1 p01 = 10 q01 = 4 pt1 = 14 qt1 = 8
Produit 2 p02 = 6 q02 = 12 pt2 = 5 qt2 = 9

Les indices et taux de croissance 199 / 212


Les indices

2.2.1 Les indices de LASPEYRES des prix :Exemple


Calculons l’indice de LASPEYRES des prix
n
X
pti q0i
i=1 pt1 q01 + pt2 q02 (14 × 4) + (5 × 12)
Lp (t, 0) = n × 100 = 1 1 2 2 × 100 = × 100 = 103, 5
X p0 q0 + p0 q0 (10 × 4) + (6 × 12)
p0i q0i
i=1

Dans notre exemple, le prix du bien 1 a augmenté (de 10 à 14) et le prix du bien 2 a
baissé. L’indice, qui synthétise ces deux variations contraires, nous permet de conclure à
une « inflation », c’est-à-dire une augmentation du niveau général des prix égale à
3, 57%.

Les indices et taux de croissance 200 / 212


Les indices

2.2.2 Les indices de LASPEYRES des quantités


L’indice de LASPEYRES des quantités mesure l’évolution entre deux dates 0 et t, des
quantités des biens qui composent un panier, en prenant comme référence la valeur du
panier à la date initiale (t=0) et en supposant que les prix des biens dans le panier n’ont
pas varié entre 0 et t. On a donc la formule suivante de l’indice de LASPEYRES des
quantités :
n
X
p0i qti
i=1
LQ (t, 0) = n × 100
X
p0i q0i
i=1

On voit ainsi que si les quantités ne changent pas entre 0 et t (c’est-à-dire si


qti = q0i ),l’indice synthétique de LASPEYRES des quantités demeure égal à 100.

Les indices et taux de croissance 201 / 212


Les indices

2.2.2 Les indices de LASPEYRES des prix :Exemple


Calculons l’indice de LASPEYRES des quantités.
n
X
p0i qti
i=1 p01 qt1 + p02 qt2 (10 × 8) + (5 × 12)
Lq (t, 0) = n × 100 = 1 1 2 2 × 100 = × 100 = 119, 64
X p0 q0 + p0 q0 (10 × 4) + (6 × 12)
p0i q0i
i=1

Dans notre exemple, la quantité du bien 1 a augmenté (de 4 à 8) et la quantité du bien


2 a baissé. L’indice, qui synthétise ces deux variations contraires, nous permet de
conclure à une augmentation des volumes égale à 19, 64%.

Les indices et taux de croissance 202 / 212


Les indices
2.3 Les indices de PAASCHE
L’économiste allemand Hermann PAASCHE (1851-1925) a proposé de calculer deux
indices synthétiques qui portent son nom : l’indice de PAASCHE des prix et l’indice de
PAASCHE des quantités

2.3.1 Les indices de PAASCHE des prix


L’indice de PAASCHE des prix mesure l’évolution entre deux dates 0 et t, des prix des
biens qui composent un panier,en prenant comme référence la valeur du panier et en
supposant que les quantités de biens dans le panier n’ont pas varié entre 0 et t.
On a donc la formule suivante de l’indice de PAASCHE des prix :
n
X
pti qti
i=1
P p (t, 0) = n × 100
X
p0i qti
i=1
Les indices et taux de croissance 203 / 212
Les indices

2.3.1 Les indices de PAASCHE des prix :Exemple


Calculons l’indice de PAASCHE des prix
n
X
pti qti
i=1 pt1 qt1 + pt2 qt2 (14 × 8) + (5 × 9)
P p (t, 0) = n × 100 = 1 1 2 2 × 100 = × 100 = 117, 16
X p0 qt + p0 qt (10 × 8) + (6 × 9)
p0i qti
i=1

Dans notre exemple, le prix du bien 1 a augmenté (de 10 à 14) et le prix du bien 2 a
baissé. L’indice, qui synthétise ces deux variations contraires, nous permet de conclure à
une « inflation », c’est-à-dire une augmentation du niveau général des prix égale à
17,6(contre 3, 57% quand on utilise la formule de LASPEYRES).

Les indices et taux de croissance 204 / 212


Les indices

2.3.1 Les indices de PAASCHE des quantités


L’indice de PAASCHE des quantités mesure l’évolution entre deux dates 0 et t, des
quantités des biens qui composent un panier,en prenant comme référence la valeur du
panier à la date terminale (t) et en supposant que les quantités de biens dans le panier
n’ont pas varié entre 0 et t.
On a donc la formule suivante de l’indice de PAASCHE des quantités :
n
X
pti qti
i=1
P q (t, 0) = n × 100
X
pti q0i
i=1

Les indices et taux de croissance 205 / 212


Les indices

2.3.2 Les indices de PAASCHE des quantités :Exemple


Calculons l’indice de PAASCHE des quantités
n
X
pti qti
i=1 pt1 qt1 + pt2 qt2 (14 × 8) + (5 × 9)
P q (t, 0) = n × 100 = 1 1 2 2 × 100 = × 100 = 135, 34
X pt q0 + pt q0 (14 × 4) + (5 × 12)
pti q0i
i=1

Dans notre exemple, la quantité du bien 1 a augmenté (de 4 à 8) et le prix du bien 2 a


baissé. L’indice, qui synthétise ces deux variations contraires, nous permet de conclure à
une « inflation », c’est-à-dire une augmentation du niveau général des prix égale à
35, 34% (contre 19, 64% quand on utilise la formule de LASPEYRES).

Les indices et taux de croissance 206 / 212


Les indices

2.3 Les indices de FISHER


L’économiste américain Irving FISHER (1867-1947) a proposé de calculer deux indices
synthétiques qui portent son nom : l’indice de FISHER des prix et l’indice de FISHER
des quantités. En fait, chacun de ces deux indices est une moyenne géométrique des
indices de LASPEYRES et de PAASCHE correspondant.

2.3.1 Les indices de FISHER des prix


L’indice de FISHER des prix est la moyenne géométrique des indices de prix de
LASPEYRES et de PAASCHE
On a donc la formule suivante de l’indice de FISHER des prix :
q
F p (t, 0) = Lp (t, 0) × P p (t, 0)

Les indices et taux de croissance 207 / 212


Les indices

2.3.1 Les indices de FISHER des prix :Exemple


Calculons l’indice de FISHER des prix :
q
F p (t, 0) =
p
Lp (1, 0) × P p (1, 0) = 103, 57 × 117, 16 = 110, 16

Les indices et taux de croissance 208 / 212


Les indices

2.3.1 Les indices de FISHER des quantités


L’indice de FISHER des quantités est la moyenne géométrique des indices des quantités
de LASPEYRES et de PAASCHE
On a donc la formule suivante de l’indice de FISHER des quantités :
q
F p (t, 0) = Lq (t, 0) × P q (t, 0)

Les indices et taux de croissance 209 / 212


Les indices

2.3.2 Les indices de FISHER des quantités :Exemple


Calculons l’indice de FISHER des quantités :
q
F q (t, 0) =
p
Lq (t, 0) × P q (t, 0) = 119, 64 × 135, 34 = 127, 39

Les indices et taux de croissance 210 / 212


Taux de croissance

Taux de croissance : Définition


Le taux de variation d’une variable statistique entre deux états nommés zéro et un, zéro
servant de base, est donné par la différence entre les valeurs prises par cette variable en
zéro et en un, rapportée à la valeur prise en zéro :
V1 − V0
τ= = (Valeur finale – Valeur initiale)/Valeur initiale
V0
Il est d’usage courant de parler de taux de croissance, que le taux de variation soit
négatif, positif ou nul.

Les indices et taux de croissance 211 / 212


Taux de croissance

Taux de croissance :Exemple


Si le prix d’un bien passe entre deux périodes de 200 dh à 240 dh, le taux de variation
est : (240 − 200)/200 = 0, 20 = 20/100 = 20% Le prix a augmenté de 20%.

Les indices et taux de croissance 212 / 212

Vous aimerez peut-être aussi