0% ont trouvé ce document utile (0 vote)

60 vues213 pages

Introduction à la Statistique Descriptive

Ce document présente un cours de statistique descriptive, comprenant des thèmes tels que l'introduction à la statistique, la représentation des données, et les caractéristiques de position et de dispersion. Il aborde également l'historique de la statistique, ses applications dans divers domaines, ainsi que les définitions clés comme population, échantillon et variable statistique. Enfin, il décrit les types de variables et les méthodes de représentation des données à l'aide de tableaux et graphiques.

Transféré par

oumaimaamghar61

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

60 vues213 pages

Introduction à la Statistique Descriptive

Transféré par

oumaimaamghar61

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

COURS : Statistique

Descriptive

PROFESSEURE : HAJAR SABIKI

Programme du cours

1 Introduction et Terminologie

2 Représentation des données

3 Caractères de position et de dispersion

4 Statistique à deux Variables

5 Les caractéristiques de concentration et de forme

6 Les indices et taux de croissance

1 / 212
Introduction

Historique
L’histoire de la "statistique" remonte à une époque très ancienne. Les activités
statistiques (dénombrements) ont commencé bien avant la création du mot, l’application
de la méthode et de l’analyse statistique.
Depuis l’antiquité, les Empereurs réalisaient des dénombrements de populations
humaines et de terres pour les besoins de la guerre et de l’impôt.
Il y a plus de 4000 ou 5000 ans, il existait déjà en Chine des descriptions chiffrées
de la population et de l’agriculture.
Les Égyptiens de l’époque des Pharaons procédaient au dénombrement de la
population.
A Rome, l’empereur Auguste fit procéder à une vaste enquête en dénombrant les
soldats, les navires et les revenus publics.

Introduction et Terminologie 2 / 212

Introduction
Historique
Jusqu’au moyen âge, les seules "statistiques" existante étaient les dénombrements
faits dans des buts divers : assiettes de l’impôt, répartition des terres, recrutement
dans l’armée est effectués avec des méthodes diverses (recensements des personnes,
enregistrements de certains actes d’état civil ...).
En XVIII siècle le mot "statistique" a été crée par ACHENWAL en 1749 à partir du
mot "STATISTA" (politique).
En XVIII-XIX siècle, beaucoup de scientifiques de tous ordre ont apporté leur
contribution au développement de cette science PASCAL, HUYGENS,
BERNOULLI, MOIVRE, LAPLACE, GAUSS, MENDEL, PEARSON, FISCHER etc
(traitement et interprétation des observations dans le but de faire de la prévision.
Problèmes traités : démographie, calcul de taux de mortalité, 1ères interactions
avec les probabilités).

Introduction et Terminologie 3 / 212

Introduction

Divers domaines d’application

Economie, assurance, finance : études quantitatives de marchés, prévisions
économétriques, analyse de la consommation des ménages, taxation des primes
d’assurances et de franchises, gestion de portefeuille, évaluation d’actifs financiers,
...
Biologie, médecine : essais thérapeutiques, épidémiologie, dynamique des
populations, analyse du génôme, ...
Sciences humaines : enquêtes d’opinion, sondages, étude de population, ...
Sciences de l’ingénieur : contrôle qualité, sûreté de fonctionnement, évaluation
des performances, ...
Sciences de l’information : traitement des images et des signaux, reconnaissance
de forme et parole, machine learning, ...

Introduction et Terminologie 4 / 212

Introduction
Définition
La Statistique, c’est l’étude des variations observables. C’est une méthode qui consiste
à réunir des données chiffrées sur des ensembles nombreux, puis à les analyser et à les
interpréter.

La statistique grosso-modo est formée de trois grandes classes : la statistique

descriptive, la statistique inférentielle et la nouvelle branche qu’est la statistique
exploratrice. Ce cours est consacré à la statistique descriptive.
La statistique descriptive : comme son nom l’indique, se propose de décrire les
données, de les classer et de les présenter sous des formes claires et compréhensibles.
Elle est à la base par exemple de toute organisation du système d’information d’une
entreprise : statistiques de la production ou des ventes, statistiques financières,
statistiques des ressources humaines. Elle est aussi une importante composante en
sciences humaines de ce qu’on appelle les méthodes quantitatives. On va commencer par
définir le lexique qu’on va utiliser tout le long de ce cours.
Introduction et Terminologie 5 / 212
Terminologie
Définitions
Population : Ensemble que l’on observe et qui sera soumis à une analyse statistique (Par
exemple les étudiants de l’ENCG, la population féminine, les fonctionnaires,..).
Chaque élément de cet ensemble est un Individu ou Unité statistique.
Échantillon C’est un sous ensemble de la population considérée. Le nombre d’individus dans
l’échantillon est la taille de l’échantillon.

Schéma : Individus, Échantillon et Population

Population

Échantillon Échantillon Échantillon

1 2 3

Individus

Introduction et Terminologie 6 / 212

Terminologie

Exemple
On veut étudier la croissance économique de 200 petites et moyennes entreprises (PME)
au Maroc.
• Population : Les entreprises au Maroc.
• Échantillon : Les 200 PME au Maroc.
• Individu : Chaque PME au Maroc.

Introduction et Terminologie 7 / 212

Terminologie

Définition : (Variable Statistique ou Caractère)

Une variable est une information dont on recueille (ou observe ou mesure) la valeur sur
chaque individu. On parle de variable parce que la valeur de l’information n’est pas la
même d’un individu à l’autre.
Par exemple : les Notes et les Mentions des étudiants à l’examen de Statistique, leur
Sexe, les Couleurs de leurs Yeux, le Chiffre d’Affaire par PME, le Nombre d’Enfants par
Ménage.

Remarque
On va réserver les dernières lettres de l’alphabet pour noter les variables : X, Y, Z, U...

Dans une population donnée, un caractère peut varier d’un individu à l’autre. On dit que
ce caractère présente différentes modalités.

Introduction et Terminologie 8 / 212

Terminologie

Exemple
1 Si l’on étudie la population des étudiants d’un amphithéâtre et que le caractère
étudié est l’âge, les modalités du caractère seront 18 ans, 19 ans, 20 ans, etc.
2 Si l’on étudie une population de voitures et que le caractère étudié est la couleur,
les modalités du caractère seront des couleurs : bleu, vert, blanc, etc.

Remarque
On emploie également le terme de variable statistique pour désigner un caractère, les
modalités du caractère étant les valeurs prises par cette variable.

Introduction et Terminologie 9 / 212

Terminologie

On distingue deux types de variable :

Défintion : (Variable qualitative)

Une variable statistique est dite de nature qualitative si ses modalités ne sont pas
mesurables.

Exemple
Le sexe, la profession, la situation familiale sont quelques exemples de variables
qualitatives.

Les modalités d’une variable qualitative peuvent être classées sur deux types d’échelle :
nominale ou ordinale.

Introduction et Terminologie 10 / 212

Terminologie
Défintion : Variable qualitative nominale
Une variable statistique qualitative est dite définie sur une échelle nominale si ses
modalités ne sont pas naturellement ordonnées.

Exemple
Nationalité : marocaine, allemande, française.
Groupe sanguin : A, B, O, AB.

Défintion : Variable qualitative ordinale

Une variable statistique qualitative est dite ordinale si l’ensemble de ses modalités peut
être doté d’une relation d’ordre.

Exemple
Niveau d’étude : primaire, secondaire, supérieur.
État mécanique d’une Voiture : mauvais, moyen, bon, excellent.
Introduction et Terminologie 11 / 212
Terminologie
Défintion : (Variable quantitative)
Une variable statistique est dite de nature quantitative si ses modalités sont mesurables.
Les modalités d’une variable quantitative sont des nombres liés à l’unité choisie, qui doit
toujours être précisée.

Il existe deux types de variables quantitatives : les variables discrètes et les variables
continues
Définition : (Variable quantitative discrète)
L’ensemble des valeurs possibles (modalités) est dénombrable. Lorsque les modalités
sont des valeurs numériques isolées, comme le nombre d’enfants par ménage, on parle de
variable discrète

Exemple :
Âge, salaire, nombre de lit dans un hôpital, nombre d’étudiants par classe.
Introduction et Terminologie 12 / 212
Terminologie

Définition : (Variable quantitative continue)

L’ensemble des valeurs possibles (modalités) est continu. Lorsque la variable, par
exemple la taille d’un individu, peut prendre toutes les valeurs d’un intervalle, ces valeurs
peuvent alors être regroupées en classes, et on parle dans ce cas de variable continue.

Exemple
Poids, taux du sucre, taille, taux du sel.

Introduction et Terminologie 13 / 212

Représentation des données

Défintion : (Série Statistique)

La série Statistique est une correspondance qui a chaque individu de la population
étudiée fait associer une valeur du caractère étudié.
Les valeurs d’une série statistique pour un caractère X sont notées : x1 , x2 , x3 , ..., xn .

Remarque
Les modalités d’un caractère doivent être :
Incompatibles : Chaque individu a une seule modalité.
Exhaustives : Tous les cas sont prévus.

Représentation des données 14 / 212

Représentation des données

Représentation des variables statistiques

Dans une population, on considère un échantillon de n individus sur lequel on observe
une variable X .
Si X est quantitative discrète, on parlera des valeurs xi de la variable X .
Si X est qualitative nominale ou ordinale, on parlera des modalitès xi de la variable
X.
Si X est quantitative continue, on parlera des classes Ci de la variable X .

Représentation des données 15 / 212

Représentation des données
Les tableaux et graphiques
On considère une série statistique X à caractère quantitatif, dont les p valeurs sont
données par x1 , x2 , ..., xp d’effectifs associés n1 , n2 , ..., np avec n1 + n2 + ... + np = N.
1 À chaque valeur xi (ou classe Ci ) est associée une fréquence fi : c’est la proportion
d’individus associés à cette valeur.
ni
2 fi = est un nombre compris entre 0 et 1, que l’on peut écrire sous forme de
N
p p Pp
X X ni ni N
pourcentage et fi = = i=1 = = 1.
i=1 i=1
N N N
Si dans une série statistique X , les valeurs d’un caractère peuvent être ordonnées, on
définit l’effectif cumulé Nj de la valeur nj par la somme des effectifs de toutes les valeurs
inférieures ou égales à nj .
j
X
Nj c = ni avec 1 6 j 6 p.
i=1
Représentation des données 16 / 212
Représentation des données
Les tableaux et graphiques
Il s’agit ici d’effectif cumulé croissant, on pourrait de même définir un effectif
cumulé décroissant Nj d en prenant la somme des effectifs de toutes les valeurs
supérieures ou égales à nj .
On définit la fréquence cumulée croissante Fj par :
j j
Nj X ni X
Fj c = = = fi avec 1 6 j 6 p.
N i=1
N i=1

La fréquence cumumée décroissante Fj d d’une valeur est la somme des fréquence

des valeurs supérieures ou égales à cette valeur.

Après la collecte et dépouillement des informations, il convient alors de les présenter

sous forme de tableaux et de graphiques. Considérons une population statistique (P)
formée de N individus. Soit C un caractère comportant K modalités : x1 , x2 ,.......xk .
Représentation des données 17 / 212
Représentation des données

Les tableaux et graphiques

xi x1 x2 ... xk Total
ni n1 n2 ... nk N
n1 n2 nk
fi f1 = f2 = ... fk = 1
N N N
pi f1 × 100 f2 × 100 ... fk × 100 100
Nj c n1 n1 + n2 ... n1 + n2 + n3 + ... + nk = N
Fj c f1 f1 + f2 ... f1 + f2 + f3 + ... + fk = 1
Nj d n1 + n2 + n3 + ... + nk = N n2 + n3 + ... + nk ... nk
Fj d f1 + f2 + f3 + ... + fk = 1 f2 + f3 + ... + fk ... fk

Avec xi : caractère, ni : Effectif, fi : Fréquence, pi : Pourcentage, Nj c : effectif cumulée

croissant, Fj c : fréquence cumulée croissante, Nj d : effectif cumulée décroissant, Fj d :
fréquence cumulée décroissante.

Représentation des données 18 / 212

Représentation des données

A) Cas des variables quantitatives discrètes

Soit X une variable quantitative discrète dont le nombre de modalités n’est pas trop
grand. Alors on peut dresser un tableau des fréquences auquel on peut ajouter une
colonne supplémentaire où on met les fréquences cumulées.
En ce qui concerne la représentation graphique, un seul graphique s’associe avec les
variables quantitatives discrètes : le diagramme en bâtons.
Série A : Notes obtenues à un contrôle dans une classe de 40 élèves :
3−4−4−4−4−4−5−5−5−5−6−6−6−6−7−7−7−7−7−8−8−8−
9 − 9 − 13 − 13 − 14 − 14 − 14 − 15 − 15 − 15 − 15 − 16 − 16 − 16 − 17 − 17 − 17 − 17.

Représentation des données 19 / 212

Représentation des données

A) Cas des variables quantitatives discrètes

On présente le résultat dans le tableau suivant :
xi 3 4 5 6 7 8 9 13 14 15 16 17
ni 1 5 4 4 5 3 2 2 3 4 3 4
fi 0,025 0,125 0,1 0,1 0,125 0,075 0,05 0,05 0,075 0,1 0,075 0,1
Fj c 0,025 0,15 0,25 0,35 0,475 0,55 0,6 0,65 0,725 0,825 0,9 1
Fj d 1 0,975 0,85 0,75 0,65 0,525 0,45 0,4 0,35 0,275 0,175 0,1

Avec xi sont les notes, ni : Effectifs, fi : Fréquence, Fj c : Fréquence cumulée croissante,

Fj d : Fréquence cumulée décroissante.

Représentation des données 20 / 212

Représentation des données

La longueur du bâton est proportionnelle à l’effectifs.

Représentation des données 21 / 212
Représentation des données

B) Cas de variables quantitatives continues.

L’histogramme convient particulièrement aux variables quantitatives quand celles-ci sont
regroupées par classes. Parfois les classes ont des amplitudes égales. C’est le cas le plus
évident. Parfois, cependant, les amplitudes des classes sont différentes. Il faut alors
opérer une correction en suivant la méthode indiquée ci-après.

Exemple 1 :
Soit 100 ménages distribués selon leur revenu mensuel en DHS. On définit des classes
d’amplitudes égales à 1 500 DH.

Représentation des données 22 / 212

Représentation des données
B) Cas de variables quantitatives continues.
ai + ai+1
Classe de revenu ci = ni fi
2
[0, 1500[ 750 20 0,2
[1500, 3000[ 2250 40 0,4
[3000, 4500[ 3750 30 0,3
[4500, 6000[ 5250 10 0,1

Répartition d’un échantillon de 100 ménages par classe de revenu mensuel

(amplitude de classe = 1 500 DHS).

L’histogramme peut-être construit à partir des effectifs (les ni ) ou à partir des

fréquences (et d’ailleurs aussi en prenant les pourcentages). Contrairement au
diagramme en barre, avec lequel il ne faut pas le confondre, les rectangles qui
composent l’histogramme ont une base qui est définie par l’amplitude de la classe qu’ils
représentent et, de plus, ils sont collés les uns aux autres.
Représentation des données 23 / 212
Représentation des données

Représentation des données 24 / 212

Représentation des données

Exemple 2 :
Supposons que l’on regroupe les données de l’exemple 1 en classes d’amplitudes inégales
([0, 1500[; [1500, 4500[, [4500, 6000[).

Il faut dans ce cas effectuer une correction pour tenir compte des différences d’amplitude.
Il convient en fait de diviser l’effectif de chaque classe par l’amplitude correspondant et
le multipliant par la plus petite ampliture ar . On obtient ainsi l’effectif corrigé (ni0 ).
ar × ni
Classe de revenu Amplitude de classe ai ni fi ni0 =
ai
[0, 1500[ 1500 20 0,2 20
[1500, 4500[ 3000 70 0,7 35
[4500, 6000[ 1500 10 0,1 10

Avec ar : est la plus petite amplitude.

Représentation des données 25 / 212

Représentation des données
Sur l’histogramme, on aura donc lves classes d’inégales amplitudes en abscisse et
l’effectif corrigé en ordonnée.

Représentation des données 26 / 212

Représentation des données

B) Cas de variables quantitatives continues.

Considérons maintenant un échantillon de données provenant d’une variable quantitative
continue ou discrète avec un grand nombre de modalités. Il est donc inconcevable de
dresser un tableau où on énumère les modalités d’une telle variable, il serait non
analysable. Il faut donc grouper ces données en classes de valeurs. Deux questions se
posent alors :
• Combien de classes faut-il former ?
• Quelles seront les largeurs de chacune des classes ?

Représentation des données 27 / 212

Représentation des données
La réponse à la première question, dépend de la taille de l’échantillon, le nombre de
classe à former est donné par la formule de Sturges suivante :
10
Les nombres des Classes :K = 1 + log(n).
3
Ainsi, par exemple, si n = 150, il faut former
10
K =1+ log(150) = 8, 2536 ≈ 9.
3
(on arrondit à l’entier immédiatement supérieur). Une fois qu’on sait combien de classes
à former. On essaie de former des classes de même amplitude (largeur) et cette
amplitude sera égale à :
La pus grande observation-la plus petite observation xmax − xmin
A= = .
K K
On arrondit cette amplitude selon les données pour avoir des bornes de classes faciles à
manipuler.
Représentation des données 28 / 212
Représentation des données

Pour les différents indicateurs statistiques, on utilise pour les calculs les centres des
classes comme l’indique le tableau ci-dessous :

Classes [X0 ; X1 [ [X1 ; X2 [ ······ [Xp−1 ; Xp ]

Centre des classes ci c1 c2 ······ cp Xi +Xi+1
avec ci = 2
Éffectifs ni n1 n2 ······ np
n1 n2 np
Fréquences fi N N ······ N

Représentation des données 29 / 212

Représentation des données

Exemple : Cas de variables quantitatives continues.

Soit X , les recettes quotidiennes(en Dirhams) d’un petit magasin. On a sélectionné un
échantillon de taille n = 40 jours au hasard qui ont donné les résultats suivants :
16, 00 − 58, 50 − 68, 20 − 78, 00 − 79, 45 − 142, 20 − 145, 3 − 186, 70 − 209, 05 −
216, 75 − 219, 70 − 247, 75 − 249, 10 − 256, 00 − 257, 15 − 262, 35 − 268, 60 − 269, 60 −
270, 15 − 284, 45 − 319, 00 − 332, 00 − 343, 29 − 350, 75 − 354, 90 − 372, 60 − 383, 20 −
389, 20 − 404, 55 − 420, 20 − 428, 50 − 432, 40 − 444, 60 − 446, 80 − 456, 10 − 458, 10 −
493, 95 − 511, 95 − 521, 05 − 621, 35.

Représentation des données 30 / 212

Représentation des données
10
Le nombre de classe à former est K = 1 + log(40) = 6, 34 ≈ 7 d’amplitude chacune
3
621, 35 − 16, 00
égale à A = = 86, 48 ≈ 90. Cette amplitude est arrondie à 90. Ce qui
7
donne le tableau des fréquences suivant, où les classes sont des intervalles fermés à
gauche et ouverts à droite sauf le dernier qui est un intervalle fermé des deux côtés.
Répartition des 40 semaines selon les recettes hebdomadaires du dépanneur
X=les recettes Effectifs Fréquences Fréquences Cumulées
[10; 100[ 5 0,125 0,125
[100; 190[ 3 0,075 0,200
[190; 280[ 11 0,275 0,475
[280; 370[ 6 0,150 0,625
[370; 460[ 11 0,275 0,900
[460; 550[ 3 0,075 0,975
[550; 640[ 1 0,025 1,00
Total n=40 1,00
Représentation des données 31 / 212
Représentation des données

Quand aux graphiques, on va ici privilégier trois graphiques pour les variables
quantitatives continues.
• L’histogramme, qui est une suite de rectangles juxtaposés les uns aux autres dressés
au-dessus de chacune des classes, dont la largeur est égale à l’amplitude de la classe
(prise comme unité de mesure) et dont la surface reflète la fréquence de la classe qu’il
représente.

Représentation des données 32 / 212

Représentation des données
Histogramme donnant la répartition des 40 semaines en fonction des recettes
hebdomadaires

Représentation des données 33 / 212

Représentation des données
• Le polygone des fréquences, qui consiste à joindre le milieux des sommets des rectangles
d’un histogramme par une ligne en zig-zag et cette ligne se ferme en ajoutant aux deux
extrémités deux classes fictives de même amplitude que les autres, comme ça la surface délimitée
par l’histogramme est identique à celle délimitée par le polygone des fréquences.

Polygone des fréquences donnant la répartition des 40 semaines selon les

recettes hebdomadaires.

Représentation des données 34 / 212

Représentation des données
• La courbe des fréquences cumulées. Comme son nom l’indique, elle consiste à tracer le
graphique des fréquences cumulées, en mettant les limites des classes sur l’axe horizontal et les
fréquences cumulées sur l’axe vertical, ces dernières se cumulant à la fin de chacune des classes.
Ce graphique aura l’allure d’une courbe croissante variant entre 0 et 1.
La courbe des fréquences cumulées de la répartition des 40 semaines selon les
recettes

Représentation des données 35 / 212

Représentation des données

C) Cas de variables qualitatives.

On va considérer des exemples où on a des variables qualitatives observées sur un
échantillon en suivant le traitement possible de ces données.

Exemple :
On a pris un échantillon de 50 achats de boissons non-alcoolisées achetées dans une
grande surface, en notant par : CC=Coca-Cola ; S=Sprite ; CL=Coca-Light ; P=Poms ;
PC=Pepsi-Cola. On a obtenu les résultats suivants :
CC − S − PC − CL − CC − CC − PC − CL − CC − CL − CC − CC − CC − CL − PC − CC −
CC − P − P − S − CC − CL − PC − CL − PC − CC − PC − PC − CC − PC − CC − CC −
PC −P −PC −PC −S −CC −CC −CC −S −P −CL−P −PC −CC −PC −S −CC −CL.

Représentation des données 36 / 212

Représentation des données
Alors ici la variable est X=Boisson non-alcoolisée, qui est une variable qualitative
nominale. Pour présenter ces données sous forme de tableau, on dresse un tableau, dans
la première colonne on énumère les cinq modalités de la variable, dans la seconde
colonne on donne l’effectif de chacune des modalités (c’est-à-dire le nombre de fois que
cette modalité se répète dans l’échantillon) et dans la troisième colonne, on donne la
fréquence de chacune des modalités.

Tableau des fréquences des boissons non-alcoolisées

X=Boisson Effectifs Fréquences
CC 19 0,38
CL 8 0,16
PC 13 0,26
P 5 0,10
S 5 0,10
Total n=50 1,00

Représentation des données 37 / 212

Représentation des données
En ce qui concerne la représentation graphique, on va donner deux graphiques qui
résument la même information contenue dans le tableau des fréquences.
• Le diagramme à barres (horizontales ou verticales). Où on met sur un axe les
modalités de la variable et sur l’autre axe l’effectifs ou les fréquences.
Répartition des ventes des boissons non alcoolisées selon la marque

Représentation des données 38 / 212

Représentation des données

Exemple : (Cas de variables qualitatives)

Dans une clinique spécialisée en oncologie, on identifie les différents types de cancers qui
affectent les 200 derniers patients qui s’y sont inscrits :

X=Types de cancers Effectifs Fréquences

Poumon 42 0,210
Sein 50 0,250
Colon 32 0,160
Prostate 55 0,275
Mélanome 9 0,045
Vessie 12 0,060

Représentation des données 39 / 212

Représentation des données
• Le deuxième graphique qu’on peut faire est le diagramme à secteurs (ou circulaire) qui
est une sorte de tarte où chaque modalité occupe une partie qui reflète sa fréquence.
Répartition des différents cancers selon le type

Formule pour calculer l’angle d’un secteur : angle= fréquence×360°.

Représentation des données 40 / 212
Caractères de position

Introduction
On appelle Caractères de position , des valeurs de la variable susceptibles de nous
donner une idée sur la série statistique. On va décrire dans ce paragraphe, les quatres
plus importantes mesures de position que sont :
Le mode
la moyenne
la médiane
Les quantiles

Caractères de position et de dispersion 41 / 212

Le Mode

Definition 1 (Le Mode ).

Le mode d’une variable statistique X est la valeur du caractère étudié qui a le plus
grand effectif et on le note Mod.
Pour un caractère continu pour lequel les données sont groupées en classes, on parle de
la classe modale, dans ce cas là la classe modale correspond à celle associée à l’effectif
le plus élevé ou graphiquement au plus haut rectangle de l’histogramme.

Caractères de position et de dispersion 42 / 212

Le Mode

Remarque
Le mode est une importante mesure de tendance centrale pour les variables
qualitatives nominales.
Une distribution peut avoir un seul mode et on dit qu’elle est uni-modale, ou
plusieurs modes et on dit qu’elle est multimodale.

Exemple (Variable statistique quantitative discrète )

Dans l’exemple Diagramme en bâtons, le mode est « 7 »et « 4 », la distribution dans ce
cas, elle est bi-modale.

Caractères de position et de dispersion 43 / 212

Le Mode
Exemple ( Variable statistique qualitative)
Si on reprend l’exemple des boissons non-alcoolisées, on avait le tableau des fréquences
suivant :

Tableau des fréquences des boissons non-alcoolisées

X=Boisson Effectifs Fréquences
CC 19 0,38
CL 8 0,16
PC 13 0,26
P 5 0,10
S 5 0,10
Total n=50 1,00

Alors, le mode de cette variable est Mod = Coca − Cola (CC ), cela signifie que dans cet
échantillon, la boisson la plus fréquemment achetée est Coca-Cola.
Caractères de position et de dispersion 44 / 212
Le Mode

Variable statistique quantitative continue

On va distinguer deux cas :
1) Effectifs groupés par classes d’amplitudes égales : Soit le tableau où des
données sont présentées par classes d’amplitudes égales. Dans ce cas, pour calculer
le mode, il faut appliquer la formule suivante :
d1
Mod = xiinf + A .
d1 + d2

Avec xiinf = Borne inférieure de la classe modale.

A = Amplitude de la classe modale, d1 = ni − ni−1 et d2 = ni − ni+1 .

Caractères de position et de dispersion 45 / 212

Le Mode
Exemple
Considérons la distribution de la variable statistique X suivante, où la variable est
quantitative continue avec des données groupées en classes :

X Effectifs ni
[10; 15[ 5
[15; 20[ 3
[20; 25[ 11
[25; 30[ 6

Ici, on a la valeur 11 qui représente le plus grand effectif donc on a [20; 25[ est la classe
modale et le mode :
d1 (11 − 3)
Mod = xiinf + A = 20 + 5 ≈ 23.
d1 + d2 (11 − 3) + (11 − 6)

Caractères de position et de dispersion 46 / 212

Le Mode

Variable statistique quantitative continue

2) Effectifs groupés par classes d’amplitudes inégales :
Si on a au moins une classe a une amplitude différente des autres : dans ce cas on
choisi une amplitude de référence ar (par exemple la plus petite ou la plus répandu).
Par suite, on corrige les effectifs des classes différentes en les divisant par ar et en
les multipliant par l’amplitude associée ai :
ar
ni0 = ni ×
ai

Caractères de position et de dispersion 47 / 212

Le Mode

Après on va chercher le plus grand effectif corrigé et on applique la formule suivante :

h1
Mod = xiinf + A .
h1 + h2

Avec xiinf = Borne inférieure de la classe modale associée à le plus grand effectif corrigé .
A = Amplitude de la classe modale associée à le plus grand effectif corrigé,
h1 = ni0 − ni−1
0 et h2 = ni0 − ni+1
0 .

Caractères de position et de dispersion 48 / 212

Le Mode
Exemple
Considérons la distribution de la variable statistique X suivante, où la variable est
quantitative continue avec des données groupées en classes :

X Effectifs ni ai ni0
[10; 15[ 5 5 5
[15; 30[ 3 15 1
[30; 35[ 11 5 11
[35; 45[ 6 10 3

Ici, on a la valeur 11 qui représente le plus grand effectif corrigé donc on a [30; 35[ est la
classe modale et le mode :
h1 (11 − 1)
Mod = xiinf + A = 30 + 5 ≈ 32, 77.
h1 + h2 (11 − 1) + (11 − 3)

Caractères de position et de dispersion 49 / 212

Les Moyennes

1) Moyenne Arithmétique
La moyenne arithmétique ou simplement la moyenne est la mesure de tendance
centrale la plus connue. Elle ne s’applique qu’aux variables quantitatives. On va décrire
la méthode pour calculer la moyenne d’une variable quantitative selon que les données
sont en vrac, groupées par valeurs ou groupées par classes.

Caractères de position et de dispersion 50 / 212

Les Moyennes

Données en vrac ou brute

Définition : (Moyenne Arithmétique)
On considère une série statistique à caractère quantititif prenant n valeurs notées x1 , x2 ,
. . ., xn . Ainsi la population totale a un effectif n. La moyenne de cette série est le
nombre x défini par :
p
X
xi
x1 + x2 + · · · + xn i=1
x= =
n n

Caractères de position et de dispersion 51 / 212

Les Moyennes

Exemple : (Moyenne Arithmétique)

On donne la série de notes obtenues par les élèves d’une classe :
15 12 3 20 8 0 18 2 14 6 16 4 14 4 15 6
5 15 16 3 7 17 13 6 13 18 2 15 5 4 14
15+12+3+20+8+0+18+2+14+6+16+4+14+4+15+6+5+15+16+3+7+17+13+6+13+18+2+15+5+4+14
31 = 10.
La moyenne de la classe est : x = 10

Caractères de position et de dispersion 52 / 212

Les Moyennes

Données groupées par valeurs

Définition : (Moyenne pondérée)

On considère une série statistique à caractère quantititif prenant p valeurs notées x1 , x2 ,
. . ., xp . ; chaque valeur xi apparaissant ni fois dans la série. Ainsi la population totale a
un effectif N = n1 + n2 + · · · + np . La moyenne de cette série est le nombre x défini par :
p
X
ni xi
n1 x1 + n2 x2 + · · · + np xP i=1
x= =
n1 + n2 + · · · + np N

Cette moyenne est appelée moyenne pondérée par les effectifs.

Caractères de position et de dispersion 53 / 212

Les Moyennes

Exemple : (Moyenne pondérée)

On donne la série de notes obtenues par les étudiants de ENCG BM dans un contrôle de
statistique :

Note 5 7 10 11 13 15 16 19
Effectif 1 6 7 4 6 7 1 3
La moyenne de la classe est :
1 × 5 + 6 × 7 + 7 × 10 + 4 × 11 + 6 × 13 + 7 × 15 + 1 × 16 + 3 × 19
x= ≈ 11, 9
35
Chaque note est comptée autant de fois qu’elle apparaît dans les copies des étudiants.
L’effectif de la note est aussi appelé poids ou coefficient.

Caractères de position et de dispersion 54 / 212

Les Moyennes
Proposition
On considère une série statistique à caractère quantititif prenant p valeurs notées x1 , x2 ,
. . ., xp . Si la distribution des fréquences associée à cette série est (f1 ; f2 ; . . . ; fp ), alors, la
moyenne de cette série est :
p
X
x = f1 x1 + f2 x2 + · · · + fp xp = fi xi
i=1

Exemple
On donne la répartition des familles selon le nombre d’enfants en 1999 :
Nombre d’enfant 0 1 2 3 4
Fréquence 0,47 0,22 0,2 0,08 0,03
le nombre moyen d’enfant par famille en 1999 était de :

x = 0, 47 × 0 + 0, 22 × 1 + 0, 20 × 2 + 0, 08 × 3 + 0, 03 × 4 ≈ 0, 98
Caractères de position et de dispersion 55 / 212
Les Moyennes

Données groupées par classes

Supposons qu’on est devant un tableau où les données provenant d’un échantillon sont
groupées par classes. Alors pour calculer la moyenne de cet échantillon, on va utiliser
une formule approximative, où chaque classe est assimilée à son centre et on utilise la
même formule que pour le cas où les données sont groupées par valeurs. Si on note par
ci , le milieu de la ième classe et qu’on suppose que la taille de l’échantillon est N et qu’il
k
X
ni ci
i=1
y a k classes, alors la moyenne de l’échantillon est x̄ = .
N

Caractères de position et de dispersion 56 / 212

Les Moyennes
Exemple :
En reprenant l’exemple où X est la recette quotidienne d’un petit magasin, on avait le tableau
suivant auquel on a ajouté une colonne à gauche contenant le milieu des classes :

ci X=les recettes Effectifs

55 [10; 100[ 5
145 [100; 190[ 3
235 [190; 280[ 11
325 [280; 370[ 6
415 [370; 460[ 11
505 [460; 550[ 3
595 [550; 640[ 1
Total n=40

La moyenne de cet échantillon est :

Pk
ni ci 55 × 5 + 145 × 3 + ... + 595 × 1
x̄ = i=1 = = 298 DH.
N 40
Caractères de position et de dispersion 57 / 212
Les Moyennes
Proposition :
Soit X une variable quantitative dont la moyenne est x̄ et soit Y une autre variable
quantitative transformée linéaire de X , c’est-à-dire que Y = aX + b où a et b sont des
constantes réelles. Alors la moyenne de Y sera égale à ȳ = ax̄ + b.
On dit que la moyenne conserve la transformation linéaire entre les variables.

Exemple :
Soit X , le nombre d’heures qu’un étudiant travaille à temps partiel par semaine.
Supposons qu’à partir d’un échantillon d’étudiants, on a pu trouver qu’en moyenne le
nombre d’heures travaillées par ces étudiants est égale à 14, 5 heures/semaine. Si le
salaire horaire est de 20 DH et que les patrons de ces étudiants leur offrent 300 DH par
semaine pour leurs déplacements, quel est le gain net moyen hebdomadaire de ces
étudiants ? Posons Y , le gain net hebdomadaire de ces étudiants alors Y = 20X + 300 ,
donc le gain moyen hebdomadaire de cet échantillon d’étudiants est égal à
ȳ = 20 × 14, 5 + 300 = 590 DH.
Caractères de position et de dispersion 58 / 212
Les Moyennes
Moyenne géométrique
n o
On appelle moyenne géométrique de la distribution (xi , ni )16i6k que l’on note G, la
racine nième du produit des x nii
q q
Πki=1 xini = x1n1 × x2n2 × ... × xknk
n n
G=

k
X
où n = ni .
i=1
C’est plus pratique d’utiliser le logarithme
1
h
nk n
i 1 h i
n1 n2
log(G) = log x1 × x2 × .....xk = log x1n1 × x2n2 × .....xknk
n
k k
1X 1
log(xini ) =
X
= ni log(xi )
n i=1 n i=1

Caractères de position et de dispersion 59 / 212

Les Moyennes

Moyenne géométrique (Pourquoi utiliser ce type de moyenne ?)

On utilise la moyenne géométrique dans le calcul du taux d’accroissement moyen et dans
le calcul des valeurs ont un caractère multiplicatif (exemples : les prix de l’immobilier
ancien ont augmenté ces trois dernières années la façon suivante : 2, 4, 8. Taux de
pauvreté moyen).

Caractères de position et de dispersion 60 / 212

Les Moyennes

Exemple(cas discret)
Les prix de l’immobilier ancien ont augmenté ces 10 dernières années de la façon
suivante :

Année 1 2 3 4 5 6
Variation anuelle 19 8 7 10 28 18 90
log(xi ) 0 0,3 0,47 0,6 0,7 0,78
ni log(xi ) 0 2,4 3,29 6 19,6 14,04 45,33
la moyenne géométrique de la classe est :
n n
1X 1X 45, 33
log(G) = log(xini ) = ni log(xi ) = = 0, 50
n i=1 n i=1 90
Donc G = exp(0, 50) = 1, 648

Caractères de position et de dispersion 61 / 212

Les Moyennes

Exemple (cas continue ) :

Prenant le tableau suivant :
ci Xi ni log(ci ) log(ci )ni
1 [0; 2[ 22 0 0
3 [2; 4[ 18 0, 47 8,46
5 [4; 6[ 15 0, 7 10,5
7 [6; 8[ 25 0, 845 21,12
9 [8; 10[ 20 0, 95 19
Total n=100 59,17

Caractères de position et de dispersion 62 / 212

Les Moyennes

Exemple(cas continue)
la moyenne géométrique de cet échantillon est :
n n
1X ni 1X 59, 17
log(G) = log(ci ) = ni log(ci ) = = 0, 5917 Donc
n i=1 n i=1 100
G = exp(0, 5921) = 1, 80.

Caractères de position et de dispersion 63 / 212

Les Moyennes
Moyenne Harmonique
n o
La moyenne harmonique notée H, d’une distribution (xi , ni )16i6k est l’inverse de la
n o
moyenne arithmétique de la distribution ( x1i , ni )16i6k ,

n 1
H= k
= k
,
X 1 X fi
ni
i=1
xi i=1
xi

k
X
où n = ni .
i=1

On utilise la moyenne harmonique lorsqu’on veut déterminer un rapport moyen dans des
domaines où il existe des liens de proportionnalité inverse par exemple pour une distance
donné, le temps de trajet est d’autant plus court que la vitesse est élevée.
Caractères de position et de dispersion 64 / 212
Les Moyennes

Exemple(cas discret)
Une petite usine abrite 2 machines. La première machine a produit 500 pièces à la
vitesse de 100 pièces par heure. Une seconde machine a produit 300 pièces à la vitesse
de 60 pièces par heure. Calculer la vitesse moyenne (exprimée en nombre de pièces par
heure) de production dans l’usine. Vitesse moyenne = nombre total de pièces
produites/nombre d’heures de production. La première machine a produit 500 pièces en
(500/100) heures (5 heures) La seconde machine a produit 300 pièces en (300/60)
heures (5 heures). La vitesse moyenne est donc donnée par :
n 800
H= k = = 80 pièces par heure
X 1 500 300
ni +
x 100 60
i=1 i

Caractères de position et de dispersion 65 / 212

Les Moyennes

Exemple(cas discret)
On donne la série de notes obtenues par les étudiants de ENCG BM dans un contrôle de
statistique :

xi 5 7 10 11 13 15 16 19
ni 1 6 7 4 6 7 1 3 35
ni
0,2 0,85 0,7 0,36 0,46 0,46 0,06 0,15 3,41
xi
n 35
la moyenne harmonique de la classe est : H = k
= = 10, 26
X 1 3, 41
ni
i=1
xi

Caractères de position et de dispersion 66 / 212

Les Moyennes
Exemple (cas continue ) :
En reprenant l’exemple où X est la recette quotidienne d’un petit magasin, on avait le tableau
suivant auquel on a ajouté une colonne à gauche contenant le milieu des classes :
ni
ci X=les recettes Effectifs
ci
55 [10; 100[ 5 0, 09
145 [100; 190[ 5 0, 03
235 [190; 280[ 11 0, 04
325 [280; 370[ 6 0, 01
415 [370; 460[ 11 0, 02
505 [460; 550[ 3 0, 005
595 [550; 640[ 1 0, 001
Total n=40 0,196

n 40
la moyenne harmonique de la classe est : H = Pk 1
= = 204, 08
i=1 ni ci
0, 196
Caractères de position et de dispersion 67 / 212
Les Moyennes

Remarque
Un inconvénient de la moyenne arithmétique est qu’elle est très sensible aux valeurs
extrêmes de la série.
La moyenne géométrique est peu sensible aux valeurs extrêmes de la série.
En ce qui concerne la moyenne harmonique, elle est plus sensible aux plus petites
valeurs de la série qu’aux plus grandes.

Caractères de position et de dispersion 68 / 212

La Médiane

Définition
La médiane est la valeur de la variable qui divise l’échantillon en deux groupes d’égal
effectif. Il y a 50% des données qui sont inférieures ou égales à la médiane et 50% des
données qui sont supérieures ou égales à la médiane. La médiane se calcule pour des
variables qualitatives ordinales et pour des variables quantitatives. On note la médiane
d’une variable X par Med(X ). Dans ce qui suit on va décrire les façons de calculer une
médiane dans les différents cas possibles.

Caractères de position et de dispersion 69 / 212

La Médiane

1) Cas d’une variable discrète.

Méthode de détermination de la médiane, les valeurs étant rangées par ordre croissant
Deux cas sont possibles :
S’il y a un nombre impair d’observations : N = 2k + 1, où k ∈ N, alors la médiane
est la (k + 1)ième valeur du caractère.
S’il y a un nombre pair d’observations : N = 2k, où k ∈ N, alors la médiane est la
xk + xk+1
moyenne des k ième et (k + 1)ième valeurs du caractère (i.e ).
2

Caractères de position et de dispersion 70 / 212

La Médiane

Exemple : [nombre impair d’observations]

On donne la série statistique suivante qui comporte 11 valeurs : 11 = 2 × 5 + 1.

3 − 4 − 4 − 5 − 7 − 9 − 11 − 13 − 15 − 16 − 18.

La médiane est la 6 ème valeur : médiane = x6 = 9.

Exemple : [nombre pair d’observations]

On donne la série statistique suivante qui comporte 10 valeurs : 10 = 2 × 5.

2 − 5 − 7 − 8 − 8 − 12 − 12 − 15 − 15 − 16.

La médiane est la moyenne des valeurs de rangs 5 et 6 : médiane =

x5 + x6 8 + 12
= = 10.
2 2
Caractères de position et de dispersion 71 / 212
La Médiane
Exemple
Reprenons les données de l’exemple où X est le degré de satisfaction de la clientèle, on avait le
tableau suivant :
X=Degré de satisfaction Effectifs Effectifs cumulée croissant
1 0 0
2 0 0
3 2 2
4 3 5
5 15 20
6 25 45
7 18 63
Total n=63

Nombre d’observation 63 donc on a 63 = 31 × 2 + 1, alors la médiane est x32 = 6. Ce qui veut

dire que dans cet échantillon 50% des clients ont un degré de satisfaction de 6 ou moins et
l’autre 50% un degré de satisfaction de 6 ou plus.
Caractères de position et de dispersion 72 / 212
La Médiane
Exemple
Prenant l’exemple suivant avec un effectif total pair :
X Effectifs Effectifs cumulée croissant
1 2 2
2 4 6
3 2 8
4 3 11
5 25 36
6 15 51
7 17 68
Total n=68

x34 + x35 5+5

Nombre d’observation 68 donc on a 68 = 34 × 2, alors la médiane est = = 5.
2 2
Ce qui veut dire que dans cet échantillon 50% des clients ont un degré de satisfaction de 5 ou
moins et l’autre 50% un degré de satisfaction de 5 ou plus.
Caractères de position et de dispersion 73 / 212
La Médiane

1) Cas d’une variable continue.

Dans le cas où on dispose d’un tableau de fréquences complet (incluant les fréquences
cumulées) des données groupées par classes. Il faut d’abord déterminer la classe
médiane, qui est la classe où les fréquences cumulées dépassent pour la première fois
50%. Cette classe aura la forme : Cm = [binf , bsup [, alors on obtient la médiane par
interpolation à l’intérieur de cette classe médiane et on obtient la formule suivante :

(0, 5 − Fm−1 )
Med(X ) = binf + Am .
fm
Avec
• binf est la borne inférieure de la classe médiane.
• Fm−1 est la fréquence cumulée avant la classe médiane.
• fm est la la fréquence de la classe médiane.
• Am est l’amplitude de la classe médiane.

Caractères de position et de dispersion 74 / 212

La Médiane
Exemple
En reprenant les données où X donne la recette quotidienne d’un petit magasin, on
retrouve le tableau des fréquences suivant :

X=les recettes Effectifs Fréquences Fréquences Cumulées

[10; 100[ 5 0,125 0,125
[100; 190[ 3 0,075 0,200
[190; 280[ 11 0,275 0,475
[280; 370[ 6 0,150 0,625
[370; 460[ 11 0,275 0,900
[460; 550[ 3 0,075 0,975
[550; 640[ 1 0,025 1,00
Total n=40 1,00

Alors ici, la classe médiane est Cm = [280, 370[, binf = 280, Fm−1 = 0, 475, fm = 0, 15 et
Am = 90, ce qui donne une médiane égale à :
Caractères de position et de dispersion 75 / 212
La Médiane

(0, 5 − Fm−1 ) (0, 5 − 0, 475)

Med(X ) = binf + Am = 280 + 90 = 295.
fm 0, 15
Ce qui veut dire qu’en se basant sur cet échantillon de données, 50% des recettes
quotidiennes de ce petit magasin sont inférieures ou égales à 295 DH et les autres 50%
sont supérieures ou égales à 295 DH.

Caractères de position et de dispersion 76 / 212

La Médiane
Dans l’exemple suivant on va déterminer la Médiane graphiquement, on aura besoin
de définir la fréquence cumulée décroissante,
Définition
La fréquence décroissante d’une valeur est la somme des fréquence des valeurs
supérieures ou égales à cette valeur.

Exemple
Considérons la distribution des notes par classe suivante :

Notes [0; 5[ [ 5 ; 10 [ [ 10 ; 15 [ [ 15 ; 20 [
Effectif 4 17 7 2
Fréquence en % 13 57 23 7
F.c.c. 13 70 93 100
F.c.d. 100 87 30 7

Caractères de position et de dispersion 77 / 212

La Médiane

Polygone des fréquences cumulées croissantes et décroissantes du tableau

ci-dessus :

Caractères de position et de dispersion 78 / 212

La Médiane

On peut grâce à ces polygones déterminter la médiane de la série de deux manière :

1 Soit en déterminant le point du polygone d’ordonnée 50% : on trouve environ
M = 8, 2.
2 Soit en lisant l’abscisse du point d’intersection des deux courbes.

Remarque
Le calcul de la médiane est basé sur l’ordre des observations et non sur leur valeur.
Contrairement à la moyenne, la médiane est insensible aux données extrêmes. Dans le
cas ou les données sont très différentes, la médiane est une meilleure mesure de
tendance centrale.

Caractères de position et de dispersion 79 / 212

Les Quantiles
Définition
Les quantiles sont les valeurs qui divisent les données en intervalles contenant le même
nombre. Un quantile d’ordre α(pour α ∈ (0, 1)) notée en toute généralité Qα est la
valeur qui partage la série en deux sous-ensembles, une proportion α se situe en dessous
de Qα et une proportion 1-α au-dessus strictement de Qα .

A) Les Quartiles
Définition
Dans une série statistique de type quantitatif, le premier quartile Q1 = Q25% et le
troisième quartile Q3 = Q75% sont avec la médiane Med = Q2 = Q50% les trois valeurs
du caractère qui séparent la population en quatre groupes de mêmes effectifs.

La médiane sépare la série des valeurs ordonnées en deux parties d’effectifs égaux.
Le premier quartile est la médiane de la première partie Q1 = Q25% .
Le troisième quartile est la médiane de la seconde partie Q3 = Q75% .
Caractères de position et de dispersion 80 / 212
Les Quantiles

Autrement dit :
Le premier quartile est la plus petite valeur Q1 = Q25% telle qu’au moins de quart
des données sont inférieure ou égale à Q25% .
Le troisième quartile est la plus petite valeur Q3 = Q75% telle qu’au moins trois
quart des données sont inférieures ou égales à Q75% .

Au moins 50 % des données Au moins 50 % des données

z }| {z }| {
Min Q25% Med Q75% Max
| {z }| {z }| {z }
Au moins 25 % Au moins 50 % des données Au moins 25 %
des données des données

Caractères de position et de dispersion 81 / 212

Les Quantiles
Remarque
Les quartiles permettent d’avoir en quelques chiffres un résumé rapide de la série
statistique. Ils ne présentent un réel intérêt que lorsque les données sont en grand
nombre. Leurs calculs se feront la plupart du temps avec la calculatrice ou avec un
tableur.

Définition
Les éléments ci-dessus permettent de définir une représentation particulière d’une série
statistique appelée Boîte de Tuckey ou plus simplement boîte à moustaches.

Caractères de position et de dispersion 82 / 212

Quantiles
Exemple
Considérons la série statistique suivante :

2 − 5 − 7 − 8 − 8 − 12 − 12 − 15 − 15 − 16.

Il y a 10 valeurs, la médiane est égale à 10 et sépare la série en deux partie de 5 éléments.

Le premier quartile Q1 est égale à x3 , Q1 = 7.
Le troisième quartile Q3 est égale à x8 , Q3 = 15.

Caractères de position et de dispersion 83 / 212

Les Quantiles
Remarque
Les effectifs cumulés croissants peuvent permettre de déterminer les quartiles et la
médiane d’une série

Exemple
On donne la série de notes obtenues par des étudiants de Section B ENCG dans un contrôle de
statistique :
4 − 4 − 4 − 4 − 5 − 5 − 5 − 5 − 6 − 6 − 6 − 7 − 7 − 7 − 7 − 7 − 8 − 8 − 9 − 9 − 13 − 13 − 14 −
14 − 14 − 15 − 15 − 15 − 15 − 16 − 16 − 16 − 17 − 17 − 17.
Notes 4 5 6 7 8 9 13 14 15 16 17
Effectifs 4 4 3 5 2 2 2 3 4 3 3
Ecc 4 8 11 16 18 20 22 25 29 32 35

Il y a 35 = 2 × 17 + 1 valeurs, la médiane est donc la 18ième valeur : med = 8.

Le premier quartile est au milieu de la première partie de 17 = 2 × 8 + 1 valeurs : Q25% = x9 = 6.
Le troisième est au milieu de la deuxième partie de 17 valeurs : Q75% = x26 = 15.
Caractères de position et de dispersion 84 / 212
Les Quantiles

Proposition
Le calcul des fréquences cumulées croissantes permet aussi d’obtenir les quartiles.

Exemple
Voici les notes des étudiants de Section A ENCG
Classes [ 2; 4 [ [ 4; 6 [ [ 6; 8 [ [ 8 ; 10 [ [10 ; 12 [ [12 ; 14 [ [14 ; 16 [ [16 ; 18 [
Centres 3 5 7 9 11 13 15 17
Effectifs 5 8 2 4 5 8 5 3
Fr 0,125 0,20 0,05 0,10 0,12 0,2 0,13 0,075
Fc 0,125 0,325 0,375 0,475 0,60 0,80 0,925 1

Caractères de position et de dispersion 85 / 212

Les Quantiles
Nous allons construire la courbe des fréquences cumulées croissantes et retrouver la
médiane et les quartiles graphiquement.

Caractères de position et de dispersion 86 / 212

Les Quantiles

Exemple
En reprenant les données où X donne la recette quotidienne d’un petit magasin, on
retrouve le tableau des fréquences suivant :

X=les recettes Effectifs Fréquences Fréquences Cumulées

[10; 100[ 5 0,125 0,125
[100; 190[ 3 0,075 0,200
[190; 280[ 11 0,275 0,475
[280; 370[ 6 0,150 0,625
[370; 460[ 11 0,275 0,900
[460; 550[ 3 0,075 0,975
[550; 640[ 1 0,025 1,00
Total n=40 1,00

Caractères de position et de dispersion 87 / 212

Les Quantiles
• Pour déterminer le premier quartile, les fréquences cumulées ont dépassé 25 % pour la première fois au
niveau de la classe [190; 280[, donc
25% Q
Q (0, 25 − Fm−1 ) (0, 25 − 0, 20)
Q25% = binf25% + Q
Am = 190 + 90 = 206, 36.
fm 25% 0, 275
Ce qui signifie que dans cet échantillon de données, 25% des journées, les recettes quotidiennes de ce
petit magasin ont été de 206,36 DH ou moins.
• Pour déterminer le deuxième quartile (on refait ce qu’on a déjà fait pour calculer la médiane), les
fréquences cumulées ont dépassé 50 % pour la première fois au niveau de la classe [280; 370[, donc
Q (0, 5 − Fm−1 ) (0, 5 − 0, 475)
Q50% = binf50% + Am = 280 + 90 = 295.
fm 0, 15
Ce qui signifie que dans cet échantillon de données, 50 % des journées, les recettes quotidiennes de ce
petit magasin ont été de 295 DH ou moins.
• Pour déterminer le troisième quartile, les fréquences cumulées ont dépassé 75 % pour la première fois
au niveau de la classe [370; 460[, donc
Q
75%
Q (0, 75 − Fm−1 ) (0, 75 − 0, 625)
Q75% = binf75% + Q
Am = 370 + 90 = 410, 91.
fm 75% 0, 275
75 % des journées, les recettes quotidiennes de ce petit magasin ont été de 410,91 DH ou moins.
Caractères de position et de dispersion 88 / 212
Les Quantiles

Remarque
Utilité des quartiles, en plus de leur utilisation comme mesures de position, s’utilisent
pour détecter des données aberrantes dans toute série de données. Cette détection se
fait à l’aide d’un graphique en boîte (Box-plot) ou bien boîte à moustache.

Caractères de position et de dispersion 89 / 212

Les Quantiles
B) Les Déciles

Définition : Les Déciles

Déciles (notés D1, D2, ..., D9) : quantiles qui séparent la série en 10 sous-ensembes de
même fréquence. Plus précisément :

D1 = Q10% , D2 = Q20% , ..., D9 = Q90% .

Remarque
Les Déciles se calculent de manière similaire à la médiane.
Ainsi pour des données regroupées on a :
Dα
Dα (α − Fm−1 )
Dα = binf + Am .
fmDα

Caractères de position et de dispersion 90 / 212

Les Quantiles
Exemple
En reprenant les données où X donne la recette quotidienne d’un petit magasin :

X=les recettes Effectifs Fréquences Fréquences Cumulées

[10; 100[ 5 0,125 0,125
[100; 190[ 3 0,075 0,200
[190; 280[ 11 0,275 0,475
[280; 370[ 6 0,150 0,625
[370; 460[ 11 0,275 0,900
[460; 550[ 3 0,075 0,975
[550; 640[ 1 0,025 1,00
Total n=40 1,00

0, 1 − 0 0, 4 − 0, 2
• D1 = 10 + 90 = 82. D4 = 190 + 90 = 255, 45 et
0, 125 0, 275
0, 7 − 0, 625
D7 = 370 + 90 = 394, 54.
0, 275
Caractères de position et de dispersion 91 / 212
Caractères de Dispersion

Définition
Les indices de tendance centrale définissent le comportement général des données. Mais
les données peuvent varier beaucoup autour de cette tendance. On doit donc définir un
indice qui caractérise la variabilité des données dans l’échantillon. Cet indice est appelé
indice de dispersion parce qu’il renseigne sur la dispersion ou l’éparpillement des données
autour notamment des paramètres de tendance centrale.
Nous étudierons quatre paramètres de dispersion parmi les principaux, en mettant plus
particulièrement l’accent sur la variance et l’écart-type :
1 L’étendue et le rapport de variation
2 L’intervalle interquartile
3 La variance et l’écart-type
4 Le coefficient de variation

Caractères de position et de dispersion 92 / 212

Caractères de Dispersion

Etendue et Rapport de variation

L’étendue d’une série statistique de type quantitatif est la différence entre la plus
grande et la plus petite valeur du caractère étudié.

Etendue = Maximum - Minimum

le Rapport de Variation (RV), c’est-à-dire le rapport de la valeur maximale de la

distribution à la valeur minimale de la même distribution.
Maximum
RV = .
Minimum

Caractères de position et de dispersion 93 / 212

Caractères de Dispersion

Exemple
Les notes d’élèves de deux classes au même examen ont donné les résultats suivants :
Classe 1 9 11 12 13 7 5 11 9 13 12 14 17 8
Classe 2 7 8 10 17 16 13 19 8 14 11 15 3 11 15

Classe 1 Classe 2
Minimum 5 3
Maximum 17 19
Etendu 12 16
Rapport de Variation 3,4 6,3

Le rapport de variation nous apprend que dans la classe 1 la meilleure note est 3,4 fois
plus élevée que la note la plus faible. Ce rapport est plus important dans la classe 2 pour
laquelle il est 6,3.
Caractères de position et de dispersion 94 / 212
Caractères de Dispersion

Écart inter-quartile
L’écart inter-quartile d’une série statistique de type quantitatif est la différence entre
le troisième quartile et le premier quartile du caractère étudié.

Écart inter-quartile = Q3 −Q1 .

Caractères de position et de dispersion 95 / 212

Caractères de Dispersion

La variance
La variance d’une variable mesurée sur un échantillon est égale à la moyenne des carrés
des écarts qui séparent chaque observation de la moyenne, son calcul diffère selon la
nature des données.
On va distinguer deux cas :
1) Cas des données brute non groupées :
Soit X une variable quantitative mesurée sur un échantillon de taille n, et dont les
valeurs sont xi avec 1 6 i 6 n, alors la variance de l’échantillon est
n n
1X 2 1 X
Vx = xi − x̄ = xi2 − x̄ 2 .
n i=1 n i=1

Caractères de position et de dispersion 96 / 212

Caractères de Dispersion

2) Cas des données groupées par valeurs :

Soit X une variable quantitative mesurée sur un échantillon de taille n, et dont les
k valeurs sont x1 , x2 , ..., xk avec des fréquences respectivement égales à f1 , f2 , ..., fk .
Alors la variance de X dans cet échantillon est égale à
k k k
1X 2 X 2 X
Vx = ni xi − x̄ = fi xi − x̄ = fi xi2 − x̄ 2 .
n i=1 i=1 i=1

3) Cas des données groupées par classes :

k k k
1X 2 X 2 X
Vx = ni ci − x̄ = fi ci − x̄ = fi ci2 − x̄ 2 .
n i=1 i=1 i=1

Caractères de position et de dispersion 97 / 212

Caractères de Dispersion

Remarque
• La variance corrigée de X est définie par :
n
Vx∗ = Vx .
n−1
Pour des raisons techniques, on préfère dans la suite de calculer la variance corrigée Vx∗ .

Caractères de position et de dispersion 98 / 212

Caractères de Dispersion
Exemple : Cas des données groupées par valeurs
Un inspecteur en contrôle de qualité a extrait de sa base de données, un échantillon de 40
semaines où il a noté X , le nombre d’accidents de travail enregistrés par semaine. Il a obtenu les
résultats suivants :
2−0−4−2−2−1−3−2−0−5−4−3−2−4−5−6−6−4−2−0−3−4−4−2−
6 − 2 − 4 − 3 − 0 − 4 − 3 − 4 − 3 − 3 − 5 − 5 − 4 − 2 − 2 − 1.
On peut donc dresser le tableau des fréquences suivant.

N d’accidents par semaine Effectifs Fréquences

0 4 0,1
1 2 0,05
2 10 0,25
3 7 0,175
4 10 0,25
5 4 0,1
6 3 0,075
Total n=40 1
Caractères de position et de dispersion 99 / 212
Caractères de Dispersion

Exemple : Cas des données groupées par valeurs

p
X
ni xi
i=1 0 × 4 + 1 × 2 + ... + 6 × 3
La moyenne x̄ = = = 3, 025 accident par semaine.
n 40
k
X 2
La variance Vx = fi xi − x̄ =
i=1
2 2 2
0, 1 0 − 3, 025 + 0, 05 1 − 3, 025 + ... + 0, 075 6 − 3, 025 = 2, 68.
n 40
Vx∗ = Vx = × 2, 68 = 2, 74.
n−1 39

Caractères de position et de dispersion 100 / 212

Caractères de Dispersion

Exemple : Cas des données groupées par classe

En reprenant l’exemple où X est la recette quotidienne d’un petit magasin, on avait le
tableau suivant auquel on a ajouté une colonne à gauche contenant le centre des classes :

ci X=les recettes Effectifs Fréquences

55 [10; 100[ 5 0,125
145 [100; 190[ 3 0,075
235 [190; 280[ 11 0,275
325 [280; 370[ 6 0,150
415 [370; 460[ 11 0,275
505 [460; 550[ 3 0,075
595 [550; 640[ 1 0,025
Total n=40 1

Caractères de position et de dispersion 101 / 212

Caractères de Dispersion

Exemple : Cas des données groupées par classe

On a déjà calculé la moyenne de cet échantillon, x̄ = 298 DH, donc la variance
k
X 2
Vx = fi ci − x̄ =
i=1
2 2 2
0, 125 55 − 298 + 0, 075 145 − 298 + ... + 0, 025 595 − 298 = 19521.
n 40
Vx∗ = Vx = × 19521 = 20021, 54.
n−1 39

Caractères de position et de dispersion 102 / 212

Caractères de Dispersion

L’écart type
L’écart type est la racine carrée de la variance :
p
σx = Vx .

L’écart type corrigé est défini par :

n
r
σx∗ = σx
n−1
Si l’écart-type est faible, cela signifie que les valeurs sont assez concentrées autour de la
moyenne et si l’écart-type est élevé, cela veut dire au contraire que les valeurs sont plus
dispersées autour de la moyenne.

Caractères de position et de dispersion 103 / 212

Caractères de Dispersion

Coefficient de variation
Tous les indicateurs de dispersion que nous avons vu jusqu’à présent dépendent des
unités de mesure de la variable. Ils ne permettent pas de comparer des dispersions de
distributions statistiques. Le coefficient de variation, qui est un nombre sans dimension,
permet cette comparaison lorsque les valeurs de la variable sont positives. Il s’écrit
σx
CV =
x̄
Si CV < 0, 5 alors la dispersion n’est pas importante et on dit que la variable est
homogène.
Si CV > 0, 5 alors la dispersion est importante et on dit que la variable est hétérogène.

Caractères de position et de dispersion 104 / 212

Statistique à deux Variables

Introduction
• On s’intéresse maintenant à l’étude simultanée de deux variables, notées X et Y ,
observées sur le même échantillon (le même ensemble d’individus).
• L’objectif essentiel des méthodes présentées dans cette partie est de mettre en
évidence une éventuelle variation simultanée des deux variables, que nous appellerons
alors liaison. C’est en effet l’un des objectifs fondamentaux de la statistique que de
mettre en évidence des liaisons entre variables, ces liaisons exprimant certaines relations
entre les phénomènes représentés par ces variables. Par exemple, dans un groupe
d’hommes adultes, on peut penser qu’il existe une liaison entre la taille et le poids.

Statistique à deux Variables 105 / 212

Statistique à deux Variables

Remarques :
• Les deux variables observées peuvent être aussi bien quantitatives que qualitatives.
• Dans le cas d’une variable quantitative, on pourra faire des calculs d’indicateurs
(moyenne, écart-type, etc.) en fonction des modalités de l’autre variable.

Statistique à deux Variables 106 / 212

Statistique à deux Variables

Exemples
• Au près des étudiants pris au hasard parmi deux groupes G1 et G3 , on observe les
notes de macroéconomie X et de statistique Y .
• Une entreprise mène une étude sur la liaison entre les dépenses mensuelles en publicité
X et le volume des ventes Y qu’elle réalise.
• On suppose qu’on souhaite étudier la relation entre le sexe (Féminin, Masculin) et le
statut d’activité (Inactif, actif) de 20 personnes.
• On s’intéresse à une éventuelle relation entre la variable X (Salaire mensuel) et Y (La
profession).

Statistique à deux Variables 107 / 212

Statistique à deux Variables

Les séries statistiques à deux variables peuvent être présentées de deux façons.
Présentation 1 :
On suppose que, suite à une étude faite, on s’intéresse à deux caractères sur une
population donnée. À chaque individu de cette population, on associe donc un couple
(xi , yi ) de nombres réels où la variable xi est la valeur de la première variable pour
l’individu considéré et où la variable yi est la valeur de la seconde variable.
L’ensemble de ces couples forme une série statistique à deux variables ou encore série
statistique double.
Les résultats peuvent être résumés dans un tableau :

Valeurs du 1er caractère xi x1 x2 x3 ... xk

Valeurs du 2ème caractère yi y1 y2 y3 ... yk

Statistique à deux Variables 108 / 212

Statistique à deux Variables

Présentation 2 :
Cette présentation d’une série à deux variables peut être sous forme d’un tableau de
contingence, qui peut être défini comme :
1 Un tableau à double entrée ou à deux dimensions.
2 Un tableau avec deux variables X et Y , tel que les n modalités de X sont désignées
par x1 , x2 , ..., xi , ..., xk et les m modalités de Y sont désignées par y1 , ..., yj , ..., ym .
3 Un tableau avec k lignes et m colonnes comme illustré dans le tableau ci-dessous,
tel que n et m sont les nombres de modalités de la variable X et de la variable Y
respectivement.

Statistique à deux Variables 109 / 212

Statistique à deux Variables

Tableau de contingence :
X \Y d1 ou y1 ··· dj ou yj ··· dm ou ym Total=ni• ou fi•
c1 ou x1 n11 ou f11 ··· n1j ou f1j ··· n1m ou f1m n1• ou f1•
.. .. .. .. .. .. ..
. . . . . . .
ci ou xi ni1 ou fi1 ··· nij ou fij ··· nim ou fim ni• ou fi•
.. .. .. .. .. .. ..
. . . . . . .
ck ou xk nk1 ou fk1 ··· nkj ou fkj ··· nkm ou fkm nk• ou fk•
Total=n•j ou f•j n•1 ou f•1 ··· n•j ou f•j ··· n•m ou f•m N ou 1

Statistique à deux Variables 110 / 212

Statistique à deux Variables

Tableau de contingence :
Avec dm = [lm , lm+1 [ et ck = [hk , hk+1 [ sont les classes des variables statistiques Y et X
respectivement dans le cas continue.
Nous notons par fij la fréquence du coulpe (xi , yi ). Cette fréquence est donnée par :
k X m
nij X
fij = , avec N = nij .
N i=1 j=1

Nous avons la propriété suivante,

k X
X m
fij = 1.
i=1 j=1

Statistique à deux Variables 111 / 212

Statistique à deux Variables

Distributions Marginales :
Sur la marge du tableau de contingence, on peut extraire les données seulement par
rapport à X et seulement par rapport à Y .
Effectifs marginaux et fréquences marginales par rapport à Y : nous avons, pour
j = 1, ..., m
k k
X n•j X
n•j = nij , et f•j = = fij .
i=1
N i=1

Effectifs marginaux et fréquences marginales par rapport à X : nous avons, pour

i = 1, ..., k
m m
X ni• X
ni• = nij , et fi• = = fij .
j=1
N j=1

Statistique à deux Variables 112 / 212

Statistique à deux Variables

Distribution Marginale de X :
On présente la distribution marginale de X comme suite :

X ni• ou fi•
c1 ou x1 n1• ou f1•
.. ..
. .
ci ou xi ni• ou fi•
.. ..
. .
ck ou xk nk• ou fk•

Statistique à deux Variables 113 / 212

Statistique à deux Variables

Distribution Marginale de Y :
On présente la distribution marginale de Y comme suite :

Y d1 ou y1 ··· dj ou yj ··· dm ou ym
Total=n•j ou f•j n•1 ou f•1 ··· n•j ou f•j ··· n•m ou f•m

Statistique à deux Variables 114 / 212

Statistique à deux Variables

Proposition :
k
X m
X k
X m
X
ni• = n•j = N, et fi• = f•j = 1.
i=1 j=1 i=1 j=1

Statistique à deux Variables 115 / 212

Statistique à deux Variables

Exemple A) : Deux variables qualitatives

•Tableau de contingence des effectifs
On s’intéresse à une éventuelle relation entre la variable X = (le sexe) de n = 200
personnes et la variable Y = (la couleur des yeux).

X /Y Bleu Vert Marron Total

Homme n11 = 10 n12 = 50 n13 = 20 n1• = 80
Femme n21 = 20 n22 = 60 n23 = 40 n2• = 120
Total n•1 = 30 n•2 = 110 n•3 = 60 n = 200

Statistique à deux Variables 116 / 212

Statistique à deux Variables

Exemple A) : Deux variables qualitatives

Les nombres n1• , n2• et n•1 , n•2 , n•3 sont appelés effectifs marginaux.
Par exemple la valeur n22 = 60 exprime que 60 femmes ont une couleur verte des yeux
et on a : 

 n11 + n12 + n13 = n1• ,
n21 + n22 + n23 = n2• ,





 n +n =n ,
11 21 •1

 n12 + n22 = n•2 ,




 n13 + n23 = n•3 ,
n11 + n12 + n13 + n21 + n22 + n23 = n.


Statistique à deux Variables 117 / 212

Statistique à deux Variables

Exemple A) : Deux variables qualitatives

•Tableau de contingence des fréquences
n n




fij = nij , fi• = nni• , f•j = n•j
f11 + f12 + f13 = f1• ,




f21 + f22 + f23 = f2• ,




f11 + f21 = f•1 ,




 f12 + f22 = f•2 ,
f13 + f23 = f•3 ,





 f11 + f12 + f13 + f21 + f22 + f23 = 1.
Les nombres f1• , f2• et f•1 , f•2 , f•3 sont appelées fréquences marginales.

Statistique à deux Variables 118 / 212

Statistique à deux Variables

Exemple A) : Deux variables qualitatives

X /Y Bleu Vert Marron Total
Homme f11 = 0.05 f12 = 0.25 f13 = 0.10 f1• = 0.40
Femme f21 = 0.10 f22 = 0.30 f23 = 0.20 f2• = 0.60
Total f•1 = 0.15 f•2 = 0.55 f•3 = 0.30 1

Statistique à deux Variables 119 / 212

Statistique à deux Variables

Exemple A) : Deux variables qualitatives

•Distribution Marginale de X

X Effectifs=ni•
Homme n1• = 80
Femme n2• = 120

• Disctribution Marginale de Y

Y Bleu Vert Marron

Effectifs=n•j n•1 = 30 n•2 = 110 n•3 = 60

Statistique à deux Variables 120 / 212

Statistique à deux Variables

Exemple B) : Variable qualitative et variable quantitative

Soit le tableau de contingence suivant d’un groupe de 50 personnes réparties par sexe
(X ) et par groupe d’âge (Y ), tous âgés de 45 ans au plus.

X /Y [0, 18[ [18, 45[ Total

Homme n11 = 10 n12 = 20 n1• = 30
Femme n21 = 5 n22 = 15 n2• = 20
Total n•1 = 15 n•2 = 35 N = 50

Statistique à deux Variables 121 / 212

Statistique à deux Variables

Exemple B) : Variable qualitative et variable quantitative

Tableau de contingence des fréquences :

X /Y [0, 18[ [18, 45[ Total

Homme f11 = 0, 2 f12 = 0, 4 n1• = 0, 6
Femme f21 = 0, 1 f22 = 0, 3 n2• = 0, 4
Total f•1 = 0, 3 f•2 = 0, 7 1

Statistique à deux Variables 122 / 212

Statistique à deux Variables

Exemple B) : Variable qualitative et variable quantitative

•Distribution Marginale de X

X Effectifs=ni•
Homme n1• = 30
Femme n2• = 20

•Distribution Marginale de Y

Y [0, 18[ [18, 45[

Effectifs=n•j n•1 = 15 n•2 = 35

Statistique à deux Variables 123 / 212

Statistique à deux Variables

Exemple C) : Variables quantitatives

Nous considérons 10 salariés qui sont observés à l’aide de deux variables "âge" et
"salaire". Les informations brutes (pas encore traitées) sont données dans le tableau
suivant,

Salaire 6000 7400 7500 8200 8207 8900 9100 9900 9950 10750
Age 15 26 20 43 47 37 52 34 50 44

1 Déterminer le tableau de contingence (X : âge, Y : salaire). Pour l’âge et pour le

salaire, former respectivement des classes de pas de 10 ans et de 1000 DH.
2 Calculer f21 , f12 , f45 , f33 .
3 Déterminer les effectifs marginaux de X et de Y .
4 Déterminer le tableau statistique des deux séries marginales X et Y .

Statistique à deux Variables 124 / 212

Statistique à deux Variables

Solution :
En utilisant les hypothèses, nous considérons les classes suivantes,
Pour l’âge : [15, 25[; [25, 35[; [45, 55[.
Pour le salaire (×1000) : [6, 7[; [7, 8[; [8, 9[; [9, 10[; [10, 11[.
Pour les classes nous avons :
xmax − xmin 52 − 15
Nombre de classe (âge) = = = 3, 7 ≈ 4 classes.
Aâge 10

ymax − ymin 10750 − 6000

Nombre de classe (salaire) = = = 4, 75 ≈ 5 classes.
Asal 1000
Cette série statistique est représentée par le tableau suivant,

Statistique à deux Variables 125 / 212

Statistique à deux Variables

Solution :
Age\Salaire × 1000 [6, 7[ [7, 8[ [8, 9[ [9, 10[ [10, 11[ ni• fi•
[15, 25[ 1 1 0 0 0 2 0,2
[25, 35[ 0 1 0 1 0 2 0,2
[35, 45[ 0 0 2 0 1 3 0,3
[45, 55[ 0 0 1 2 0 3 0,3
n•j 1 2 3 3 1 10 1
f•j 0,1 0,2 0,3 0,3 0,1 1
n12 1 n21 0 n45 0
De ce fait nous avons f12 = = = 0, 1, f21 = = = 0, f45 = = =
N 10 N 10 N 10
n33 2
0, et f33 = = = 0, 2.
N 10

Statistique à deux Variables 126 / 212

Statistique à deux Variables

Solution :
Enfin, les deux distributions marginales de X et de Y sont donnés, respectivement, par

X =Âge ni• fi• ci le centre

[15, 25[ 2 0,2 20
[25, 35[ 2 0,2 30
[35, 45[ 3 0,3 40
[45, 55[ 3 0,3 50

Statistique à deux Variables 127 / 212

Statistique à deux Variables

Solution :
Y =Salaire×1000 n•j f•j dj le centre
[6, 7[ 1 0,1 6,5
[7, 8[ 2 0,2 7,5
[8, 9[ 3 0,3 8,5
[9, 10[ 3 0,3 9,5
[10, 11[ 1 0,1 10,5

Statistique à deux Variables 128 / 212

Statistique à deux Variables

Caractéristique des séries marginales (Variables Qantitatives)

Dans le cas d’une variable statistique à deux dimensions X et Y , les moyennes
marginales sont données respectivement par
k k
1 X X
x̄ = ni• xi = fi• xi , Moyenne marginale de X .
N i=1 i=1

Et
m m
1 X X
ȳ = n•j yj = f•j yj , Moyenne marginale de Y .
N j=1 j=1

Dans le cas continu, xi et yj représentent respectivement le centre des classes de X et Y .

Statistique à deux Variables 129 / 212

Statistique à deux Variables

Exemple
Nous calculons x̄ et ȳ pour l’Exercice C) traité précédemment. Nous avons la moyenne
marginale d’âge
1
x̄ = 40 + 60 + 120 + 150 = 37 ans.
10
Et la moyenne marginale du salaire
1
ȳ = 6, 5 + 15 + 25, 5 + 28, 5 + 10, 5 × 1000 = 8600 DH.
10

Statistique à deux Variables 130 / 212

Statistique à deux Variables

Caractéristique des séries marginales (Variables Qantitatives)

Nous définissions maintenant la variance marginale de X et la variance marginale de Y
comme suit
k k
1 X
Var (x ) = x¯2 − (x̄ )2 , avec x¯2 =
X
ni• xi2 = fi• xi2 .
N i=1 i=1

Et
m m
1 X
Var (y ) = y¯2 − (ȳ )2 , avec y¯2 =
X
n•j yj2 = f•j yj2 .
N j=1 j=1

L’écart-type marginale de X et Y est donné par les formules suivantes :

q q
σ(x ) = Var (x ), et σ(y ) = Var (y ).

Statistique à deux Variables 131 / 212

Statistique à deux Variables

Exemple
Nous calculons Var (x ) et Var (y ) pour l’Exercice C) traité précédemment.
4
X
Var (x ) = fi• ci2 −(x̄ )2 = 0, 2×202 +0, 2×302 +0, 3×402 +0, 3×502 −(37)2 = 121
i=1
p √
Et σ(x ) = Var (x ) = 121 = 11.
5
X h
Var (y ) = f•j di2 − (ȳ )2 = 0, 1 × (6, 5)2 + 0, 2 × (7, 5)2 + 0, 3 × (8, 5)2 + 0, 3 ×
j=1
i
(9, 5) + 0, 1 × (10, 5)2 − (8, 6)2 × 1000 = 1290
2
p √
Et σ(y ) = Var (y ) = 1290 = 35, 92.

Statistique à deux Variables 132 / 212

Série conditionnelle :

1 La notion de série conditionnelle est essentielle pour comprendre l’analyse de la

ré[Link] tableau de contingence se compose en autant de séries
conditionnelles suivant chaque ligne et chaque colonnes.
2 Contrairement aux distributions marginales, les caractéristiques des distributions
conditionnelles tiennent compte des modalités des deux caractères. De façon
pratique,on se donne une modalité d’un caractère, par exemple y1 , et l’on étudie la
façon dont l’effectif de cette modalité se distribue entre l’ensemble des modalités de
l’autre caractère x.

Statistique à deux Variables 133 / 212

Série conditionnelle :

(a) Série conditionnelle par rapport à X :

Elle est noté par X /yj (ou Xj ) et on dit que c’est la série conditionnelle de X sachant
que Y = yj .

X /yj yj
x1 n1j
.. ..
. .
xi nij
.. ..
. .
xk nkj

Statistique à deux Variables 134 / 212

Série conditionnelle :

(a) Série conditionnelle par rapport à X :

Nous calculons dans ce cas la fréquence conditionnelle fi/j (fi sachant j), pour
i = 1, ..., k, par
nij fij
fi/j = = .
n•j f•j
Nous avons aussi la moyenne conditionnelle x¯j , c’est à dire la moyenne des valeurs de X
sous la condition yj , elle est définie par
k k
X 1 X
x¯j = fi/j xi = nij xi .
i=1
n•j i=1

Statistique à deux Variables 135 / 212

Série conditionnelle :

(a) Série conditionnelle par rapport à X :

q
Pour l’écart-type conditionnel, nous avons σXj = Var (Xj ) avec

k
fi/j (xi − x¯j )2 = x¯j2 − (x¯j )2 .
X
Var (Xj ) =
i=1

Statistique à deux Variables 136 / 212

Série conditionnelle :

Exemple : Série conditionnelle par rapport à X :

Reprenant l’Exercice C) :

X /y4 [9, 10[ fi/j ci le centre

[15, 25[ 0 0 20
[25, 35[ 1 0,333 30
[35, 45[ 0 0 40
[45, 55[ 2 0,667 50
4
X
x¯j = fi/j ci = 0 × 20 + 0, 333 × 30 + 0 × 40 + 0, 667 × 50 = 43, 34.
i=1

Statistique à deux Variables 137 / 212

Série conditionnelle :

(b) Série conditionnelle par rapport à Y :

Elle est noté par Y /xi (ou Yi ) et on dit que c’est la série conditionnelle de Y sachant
que X = xi ,

Y /xi y1 ··· yj ··· ym

xi ni1 ··· nij ··· nim

Statistique à deux Variables 138 / 212

Série conditionnelle :

(b) Série conditionnelle par rapport à Y :

Nous calculons dans ce cas la fréquence conditionnelle fj/i (fj sachant i), pour
j = 1, ..., m, par
nij fij
fj/i = = .
ni• fi•
Nous avons aussi la moyenne conditionnelle y¯i , c’est à dire la moyenne des valeurs de Y
sous la condition xi , elle est définie par
m m
X 1 X
y¯i = fj/i yj = nij yj .
j=1
ni• j=1

Statistique à deux Variables 139 / 212

Série conditionnelle :

(b) Série conditionnelle par rapport à Y :

p
Pour l’écart-type conditionnel, nous avons σYi = Var (Yi ) avec
m
fj/i (yi − y¯i )2 = y¯i2 − (y¯i )2 .
X
Var (Yi ) =
j=1

Statistique à deux Variables 140 / 212

Série conditionnelle :

Exemple : Série conditionnelle par rapport à Y :

Reprenant l’Exercice C) :

Y /x2 ×1000 x2 = [25, 35[ fj/i dj le centre

[6, 7[ 0 0 6,5
[7, 8[ 1 0,5 7,5
[8, 9[ 0 0 8,5
[9, 10[ 1 0,5 9,5
[10, 11[ 0 0 10,5
5
X
y¯i = fj/i dj = 0 × 6, 5 + 0, 5 × 7, 5 + 0 × 8, 5 + 0, 5 × 9, 5 + 0 × 10, 5 = 8, 5.
j=1

Statistique à deux Variables 141 / 212

Statistique à deux variables :

Covariance
On appelle Covariance de la série statistique double de variables X et Y le nombre réel :
k X m k X m
1 X 1 X
Cov (x , y ) = σxy = xy − x̄ ȳ = nij xi yj − x̄ ȳ = nij (xi − x̄ )(yj − ȳ ).
N i=1 j=1 N i=1 j=1

Statistique à deux Variables 142 / 212

Statistique à deux variables :
Exemple :
Reprenant le tableau de contingence de l’Exemple C) :

ci \dj (×1000) 6, 5 7, 5 8, 5 9, 5 10, 5

20 1 1 0 0 0
30 0 1 0 1 0
40 0 0 2 0 1
50 0 0 1 2 0
4 5
1 XX 1
Cov (x , y ) = nij ci dj − x̄ ȳ = 20 × 6, 5 × 1 + 20 × 7, 5 × 1 + 20 × 8, 5 × 0
N i=1 j=1 10
+20 × 9, 5 × 0 + 20 × 10, 5 × 0 + 30 × 6, 5 × 0 + 30 × 7, 5 × 1 + 30 × 8, 5 × 0 + 30 × 9, 5 × 1
+30 × 10, 5 × 0 + 40 × 6, 5 × 0 + 40 × 7, 5 × 0 + 40 × 8, 5 × 2 + 40 × 9, 5 × 0+ 40 × 10, 5 × 1
+50 × 6, 5 × 0 + 50 × 7, 5 × 0 + 50 × 8, 5 × 1 + 50 × 9, 5 × 2 + 40 × 10, 5 × 0 × 1000
−(37 × 8600) = 8300.

Statistique à deux Variables 143 / 212

Statistique à deux variables :

Remarque
• La covariance est un paramètre qui donne la variabilité de X par rapport à Y .
• La covariance est une notion qui généralise la variance, En effet,

Cov (x , x ) = σx2 = V (x ).

• Dans le cas où nous avons un tableau des données brutes "représentation 1" (nous
n’avons pas d’effectifs), nous avons les formules suivantes :
n n n
1 X 1 X 1 X
x̄ = xi , ȳ = yj , et xy = xi yi .
N i=1 N j=1 N i=1

Statistique à deux Variables 144 / 212

Statistique à deux variables :
Indépendance des Variables X et Y
On dit que deux variables statistiques X et Y sont indépendantes si et seulement si,
pour tout i et j,
fij = fi• × f•j .
Il suffit que cette égalité ne soit pas vérifiée dans une seule cellule pour que les deux
variables ne soient pas indépendantes. De manière équivalente, pour tout i et j,

N × nij = ni• × n•j .

Dans ce cas, si X et Y sont indépendantes alors Cov (X , Y ) = 0 (réciproque est fausse).

Exemple :
Si on consulte le tableau de contingence de l’Exemple C), on peut conclure que les
deux variables X et Y ne sont pas indépendantes car l’égalité N × nij = ni• × n•j n’est
pas vérifiée pour i = 1 et j = 2 c-à-d (10 × 0 6= 2 × 1.)
Statistique à deux Variables 145 / 212
Représentation graphique - Nuage de points

Définition 1
Si à chaque individu de la population on associe le point Ai de coordonnées (xi , yi ) dans
un même repère, l’ensemble des points obtenus est appelé le nuage de points associé à
cette série statistique.

Définition 2
En notant x̄ et ȳ les moyennes respectives des séries X et Y , le point G de coordonnées
(x̄ , ȳ ) est appelé point moyen du nuage.

Statistique à deux Variables 146 / 212

Représentation graphique - Nuage de points

Exemple D)
L’étude du coût de maintenance annuel d’une installation de chauffage dans un
immeuble de bureaux, en fonction de l’âge de l’installation, a donné les résultats
suivants :

Age xi (années) 1 2 3 4 5 6
Coût yi (kDH) 7,55 9,24 10,74 12,84 15,66 18,45

Objectif : Y’a-t-il un lien crédible entre l’âge de l’installation et le coût de maintenance ?

Si oui, peut-on le quantifier, et peut-on, par exemple, prévoir le coût de maintenance
d’une installation de 7 ans ? 8 ans ? 10 ans ?

Statistique à deux Variables 147 / 212

Représentation graphique - Nuage de points

Le point moyen G a pour coordonnées (3, 5 ; 12, 41).

Statistique à deux Variables 148 / 212
Statistique à deux variables :

Ajustement affine par la méthode des moindres carrés

Les points de l’exemple précédents ne sont pas alignés. Néanmoins, ces points semblent
se distribuer approximativement autour d’une droite.
La méthode des moindres carrés permet de déterminer l’équation de la "meilleure" droite
passant dans le nuage de points, ainsi que de quantifier la "qualité de l’alignement des
points" du nuage.
On considère un nuage de points Ak (xk ; yk ).
Pour une droite quelconque, on peut définir la "distance" de la droite au nuage de points
par la somme des distances Ak Hk .
Ainsi, la "meilleure" droite passant dans le nuage de points est celle dont la distance au
nuage de points est la plus petite.

Statistique à deux Variables 149 / 212

Statistique à deux variables :
Ajustement affine par la méthode des moindres carrés

Statistique à deux Variables 150 / 212

Statistique à deux variables :

Ajustement affine par la méthode des moindres carrés

Il existe une unique droite telle que la somme des distances
n
X n
X
S(a, b) = A1 H12 + A2 H22 + · · · + An Hn2 = Ak Hk2 = ei2
k=1 k=1
soit minimale. Cette droite est appelée droite de régression de y en x , ou encore
droite des moindres carrés.
Cette droite de régression passe par le point moyen G(x ; y ).

Statistique à deux Variables 151 / 212

Statistique à deux variables :

Proposition
La droite de régression notée D(y /x ) de Y en X à pour équation y = ax + b. Avec

Cov (x , y )
a= et b = ȳ − ax̄
V (x )
.
Ou bien la droite de régression notée D(x /y ) de X en Y à pour équation x = a0 y + b 0 .
Avec
Cov (x , y )
a0 = et b 0 = x̄ − a0 ȳ
V (y )
.

Statistique à deux Variables 152 / 212

Statistique à deux variables :

Exemple
Pour calculer la droite de régression de l’Exemple D), nous cherchons :

1+2+3+4+5+6
x̄ = = 3, 5,
6
7, 55 + 9, 24 + 10, 74 + 12, 84 + 15, 66 + 18, 45
ȳ = = 12, 42,
6
12 + 22 + 32 + 42 + 52 + 62
x¯2 = = 15, 17,
6
(7, 55)2 + (9, 24)2 + (10, 74)2 + (12, 84)2 + (15, 66)2 + (18, 45)2
y¯2 = = 168, 04,
6
Var (x ) = x¯2 −x̄ 2 = 15, 17−12, 25 = 2, 92, Var (y ) = y¯2 −ȳ 2 = 168, 04−154, 26 = 13, 78.

Statistique à deux Variables 153 / 212

Statistique à deux variables :
Exemple
¯ − x̄ ȳ = 49, 77 − 12, 42 × 3, 5 = 67, 79.
Cov (x , y ) = xy
Avec
7, 55 + 9, 24 × 2 + 10, 74 × 3 + 12, 84 × 4 + 15, 66 × 5 + 18, 45 × 6
xy
¯ = = 49, 77
6
donc
Cov (x , y ) 6, 30
a= = = 2, 15
V (x ) 2, 92
et
b = ȳ − ax̄ = 12, 42 − 2, 15 × 3, 5 = 4, 89.
Finalement l’équation de la droite de régression de Y en X est :

y = 2, 17x + 4, 83.
Statistique à deux Variables 154 / 212
Statistique à deux variables :

Les coefficients de corrélation permettent de donner une mesure synthétique de

l’intensité de la relation entre deux caractères et de son sens lorsque cette relation est
monotone.
Définition
La quantité
Cov (x , y )
ρxy = .
σx σy
s’appelle le coefficient de corrélation.

Proposition
Le coefficient de corrélation est compris entre [−1, 1] ou encore |ρxy | 6 1.

Statistique à deux Variables 155 / 212

Statistique à deux variables :

Remarque
Le coefficient ρxy mesure le degré de liaison linéaire entre X et Y .
1 Plus le module de ρxy est proche de 1 plus X et Y sont liées linéairement.
2 Plus le module de ρxy est proche de 0 plus il y a l’absence de liaison linéaire entre
X et Y .
3 Le coefficient de corrélation ρxy permet de justifier le fait de l’ajustement linéaire.
On adopte les critères numériques suivants :
(a) Si |ρxy | < 0, 7 alors l’ajustement linéaire est refusé (droite refusée).
(b) Si |ρxy | > 0, 7 alors l’ajustement linéaire est accepté (droite acceptée).

Statistique à deux Variables 156 / 212

Statistique à deux variables :

Exemple
La droite de réegression de l’exemple précédent a pour équation y = 2, 17x + 4, 83.
En utilisant ce modèle estimer le coût de maintenance pour une installation de 7 ans, de
8 ans, puis de 10 ans.
Avant de répondre à cette question, on doit vérifier est ce que l’ajustement linéaire est
accepté ou pas.
Déterminons Le coefficient de corrélation ρxy :

Cov (x , y ) 6, 30
ρxy = =√ √ = 0, 99 > 0, 7.
σx σy 2, 15 13, 78