0% ont trouvé ce document utile (0 vote)
71 vues75 pages

Cours de Statistique Descriptive 2023/2024

Le document présente un cours de statistique descriptive comprenant des définitions, des méthodes de collecte de données et des techniques d'analyse. Il aborde des concepts tels que les variables, les échantillons et les tableaux statistiques, tout en soulignant l'importance de la qualité des données pour des décisions éclairées. En outre, il décrit les différentes méthodes d'échantillonnage et les étapes d'élaboration des statistiques.

Transféré par

romaneanderssonlawani
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
71 vues75 pages

Cours de Statistique Descriptive 2023/2024

Le document présente un cours de statistique descriptive comprenant des définitions, des méthodes de collecte de données et des techniques d'analyse. Il aborde des concepts tels que les variables, les échantillons et les tableaux statistiques, tout en soulignant l'importance de la qualité des données pour des décisions éclairées. En outre, il décrit les différentes méthodes d'échantillonnage et les étapes d'élaboration des statistiques.

Transféré par

romaneanderssonlawani
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

COURS DE STATISTIQUE

DESCRIPTIVE
COURS et EXERCICES Année 2023/2024
CORRIGES

Par M. NANA Alain


Chargé de cours

1
CHAPITRE I : GENERALITES ET DEFINITIONS .......................................................... 5

I.1 GENERALITES ET DEFINITIONS ................................................................................ 5

Vocabulaire statistique ............................................................................................................ 5


Éléments, Variables et Observations ...................................................................................... 6

I.3 LES DONNEES D’INFORMATION ............................................................................... 7

PARTIE I : TRI A PLAT : DISTRIBUTION A UN CARACTERE ............................... 13

CHAPITRE II PRESENTATION DES DONNEES ........................................................... 13

II.1 VARIABLES QUALITATIVES .................................................................................... 13

II.2 REPRESENTATION ...................................................................................................... 13

II.3 VARIABLES QUANTITATIVES ................................................................................. 15

CHAPITRE III CARACTERISTIQUES ........................................................................... 20


Les moyennes de grandeur ................................................................................................... 21
Les Moyennes d’ordre ou de rang ........................................................................................ 25
La Moyenne de fréquence .................................................................................................... 28
Les intervalles interquantiles ................................................................................................ 33
Écarts pondérés .................................................................................................................... 33
Variance, Écart type, Coefficient de variation. .................................................................... 34
Complément : changement de variable ....................................... Erreur ! Signet non défini.
Les coefficients d’asymétrie ................................................................................................ 37
Mesure de l’aplatissement .................................................................................................... 39
L’indice de concentration ..................................................................................................... 41
L’indice de GINI .................................................................................................................. 43
La méthode des trapèzes ............................................................. Erreur ! Signet non défini.

Partie II Tri croisè (Distribution à deux caractères) ......................................................... 55

CHAPITRE IV LA DISTRIBUTION DE DONNEES PONCTUELLES ........................ 55

IV-1 TABLEAU STATISTIQUE DE DONNEES PONCTUELLES A DEUX


VARIABLES........................................................................................................................... 55
Les relations entre deux variables ........................................................................................ 56
Liaison fonctionnelle ............................................................................................................ 56

Méthode d'ajustement. ........................................................................................................... 57


a) Méthode des moyennes mobiles ...................................................................................... 57
b) Méthode analytique. ......................................................................................................... 57

Ajustement Linéaire par la méthode des moindres carrés ................................................. 57


Droite de régression ............................................................................................................. 58

2
IV-2 TABLEAU DE CONTINGENCE EN FREQUENCES (RELATIVES OU
ABSOLUES) ........................................................................................................................... 62
Distributions marginales et conditionnelles ......................................................................... 63

L’INDEPENDANCE .............................................................................................................. 64

Test du Khi-deux : ................................................................................................................... 64

3) Bibliographie sélective ................................................................................................... 75

3
Dans l’environnement économique et commercial actuel, l’information statistique
disponible est vaste. Les dirigeants qui ont le plus de succès sont ceux qui peuvent comprendre
l’information et l’utiliser.

Les entreprises publiques ou privées, les comptables utilisent des procédures


d’échantillonnage statistique pour mener des opérations d’audit au bénéfice de leurs clients.
Les conseillers financiers utilisent les informations statistiques diverses pour orienter leurs
recommandations en matière d’investissement. En marketing, les informations fournies par les
relevés des caisses enregistreuses dans les supermarchés ont été utilisées pour de nombreuses
études.

De nos jours, en raison de l’importance de la qualité, le contrôle de la qualité est


devenu une application primordiale de la statistique dans la gestion de la production. En
économie, on demande souvent aux économistes de faire des prévisions à propos de certains
faits économiques.

4
CHAPITRE I : GENERALITES ET DEFINITIONS

I.1 Généralités et définitions


Le recueil des données chiffrées sur des populations est une très ancienne pratique, et
on attribue généralement à Moïse le premier recensement. Rassembler les données
démographiques, économiques, sociales, techniques sur des populations d’individus (hommes,
entreprises, nations, etc.) est le premier pasvers l’appréhension d’une certaine « réalité » des
phénomènes étudiés. Résumer les données, les transformer, sous la forme de quelques
indicateurs numériques ou graphiques (histogramme, quantile, écart type, etc.) est le second
pas de cette démarche. Il permet :
- de synthétiser l’information ;
- de la visualiser ;
- de l’appréhender globalement ;
- de comparer des informations sur plusieurs populations.
Ces techniques relèvent de la statistique descriptive qui, par définition, donne une description
simplifiée des faits étudiés à partir des tableaux, des graphiques et des approches numériques
qui sont utilisés pour résumer des données. Deux points sont à noter :
- Les indicateurs donnent de l’information initiale une version résumée, moins riche que
cette information initiale, mais plus simple à appréhender ;
- Cette information initiale elle-même est rarement exhaustive parce qu’elle est issue
d’un échantillon tiré de la population totale.

Il y a donc un double niveau d’approximation. Ce deuxième point est fondamental. En effet,


l’objectif final du statisticien ne consiste pas à compiler des informations chiffrées, mais à
vérifier expérimentalement la validité de théories politiques, économiques, sociologiques,
commerciales, biologiques, techniques, etc., et à prendre des décisions en s’appuyant sur ces
théories.

VOCABULAIRE STATISTIQUE
La statistique est une méthode générale de recherche, l'outil avec lequel on travaille une
matière première constituée par les « données statistiques ». Son but est d'étudier les
phénomènes pour permettre de prendre des décisions. La statistique est donc l’art et la
science de collecter, analyser, présenter et interpréter les données. Après une enquête, si
les informations chiffrées dont on dispose concernent l’ensemble de la population observée, les
décisions peuvent être prises sur la base de certains résultats d’où sont directement issus des

5
indicateurs ou autres. Au contraire, comme c’est généralement le cas, on peut disposer de
l’information exhaustive sur la population, on procède de la manière suivante :
(1)- on extrait de cette population un échantillon d’individus ;
(2)- on recueille les informations chiffrées relatives à cet échantillon ;
(3)- on produit certains résultats à partir de ces informations ;
(4)- on infère à partir de ces résultats leurs équivalents sur la population ;
(5)- on prend la décision à laquelle conduisent ces résultats induits sur la population.

L’information est donc la base de toute étude inductive et la fidélité de cette information doit
constituer le souci principal dans la collecte des données expérimentales. Les méthodes
statistiques permettent de synthétiser des résultats et d’induire des lois que l’on doit enregistrer
avec un certain degré d’approximation. Dans toutes statistiques, il est indispensable de donner
une définition claire, précise et stable des unités statistiques afin d’éviter des incompréhensions
et des erreurs, soit lors du rassemblement des données, soit lors de leur interprétation. Les
données sont les faits et les chiffres qui sont collectés, analysés et résumés pour être ensuite
interprétés. Les données collectées dans une étude particulière forment l’ensemble de données
de l’étude.

ÉLEMENTS, VARIABLES ET OBSERVATIONS


Eléments : Les éléments sont les entités auprès desquelles les données sont collectées. Pour
l’ensemble de données du Tableau 1, chaque entreprise est un élément. Puisqu’il y a 25
entreprises, on compte 25 éléments dans l’ensemble de données.

Variables : Une variable est une caractéristique des éléments à laquelle on s’intéresse.

Unité statistique : L’unité statistiqueest l’élément de l’ensemble que l’on veut étudier.
L’ensemble des unités statistiques est appelé ensemble statistique ou population statistique.

Caractères ou variables statistiques : On peut n'étudier que certaines propriétés des unités
statistiques, propriétés appelées caractères ou variables statistiques, propriétés distinctives des
unités statistiques d’une population. Exemple: taille, poids, nombre de défauts, effectifs d’une
usine. Le caractère, l’aspect de l’unité statistique que l’on retient dans l’analyse peut être:

- Qualitatif et peut comporter plusieurs modalités ou variantes: une pièce bonne ou


mauvaise, une catégorie socioprofessionnelle (CSP) ;
- Quantitatif et peut concerner une grandeur continue ou discontinue.

6
Variable statistique : Dans le cas d’un caractère quantitatifon emploie généralement le
vocable de variable statistique qui est l’expression numérique du caractère observé sur les
unités statistiques considérées. La variable statistique est habituellement notée par une
majuscule : X par exemple. La variable statistique X est dite discrète lorsqu’elle ne peut
prendre que des valeurs isolées : x1 , x2 ,...., xm (où x1  x2  ....  xm ) . Exemple : le nombre de
chevaux fiscaux d’une automobile. La variable statistique X est dite continue lorsqu’elle peut
prendre n’importe quelle valeur d’un intervalle [a, b]. Exemple : durée d’une conversation
téléphonique. Dans ce cas l’intervalle des valeurs possibles [a , b] est divisé en k intervalles : [
a0 , a1 [ , [ a1 , a2 [,...., [ak-2 , a k-1[ , [ ak-1 , a k ] (où a0  a  a1  a2  ....  ak  b) qui sont appelés
classes.

Échantillon : Un échantillon est un sous-ensemble d’une population statistique. L’échantillon


est aléatoire lorsque son prélèvement dans la population statistique a été soumis aux
loisduhasard.

I.3 Les données d’information


Si l’on s’intéresse à la consommation des ménages de l’Estuaire pendant la période de Noël en
collectant des informations auprès des ménages de la région, on perçoit alors des ressemblances
(les concordances) entre certaine unité (ici chaque ménage) et des différences (les variations)
entre celle ci et d’autres ménages. Ceci permet d’effectuer une classification des résultats
obtenus. Ainsi la statistique apparaît comme une méthode de classification. Exemple :Un
recensement des producteurs de café dans la région d’ANGOVILLE permet d'établir la série
de fréquences suivantes constituées par une présentation de la répartition de 15000 planteurs
(producteur ou non producteur)

Caractère Effectif Fréquence


Producteurs de café 9600 64%
Non producteurs de café 5400 36%
Total 15000 100%

On remarquera dans l’expression de la série ci-dessus que l’utilisation des pourcentages


(proportion) permet une meilleure appréhension du phénomène, et rend possible une
comparaison entre deux ou plusieurs régions dans lesquelles on étudierait le même phénomène.
Le comptage des unités dans des sous-ensembles par un caractère observable constitue la
première opération de l’analyse statistique d’une population donnée. L’introduction de la
7
mesure des phénomènes et des propriétés des nombres permet à la technique statistique de
passer du stade de comptage à celui des opérations numériques et de l’expression d’une
appréciation qualitative du résultat. L’information est donc la base de toute étude inductive et la
fidélité de cette information doit constituer le souci principal dans la collecte des données
expérimentales. Par exemple l’anthropologie étudie l’homme et les groupes humains ; et
l’anthropologie culturelle a montré que « l’appréciation des comportements normaux et
pathologiques varie selon les cultures ». A partir d’observations relatives aux comportements
d’un groupe humain dans le temps, on peut ou non confirmer cette idée. Les méthodes
statistiques permettent de synthétiser des résultats et d’induire des lois que l’on doit enregistrer
avec un certain degré d’approximation. Le calcul des probabilités détermine cette
approximation à condition que toute erreur dans les mesures des phénomènes soit exclue. En
effet, aucune méthode ne permet d’aboutir à une conclusion vraisemblable à partir de données
de base erronées.

Conclusion : Dans toute statistique, il est indispensable de donner une définition claire, précise
et stable des unités statistiques afin d’éviter des incompréhensions et des erreurs, soit lors du
rassemblement des données, soit lors de leur interprétation.

I.3.1 Les principaux modes de collecte des données

Enquête par sondage ou sondage d’opinion : Le sondage d’opinion est une procédure
d’enquête sur certaines caractéristiques d’une population à partir d’observations sur un
échantillon limité, considéré comme représentatif de cette population. Elle sert notamment à
étudier un marché potentiel pour le lancement d’un produit, à prévoir le comportement
politique avant une élection ou à estimer les paramètres inconnus de la population.

Recensement : Le recensement est une opération administrative qui consiste à faire le


dénombrement de la population d’un Etat, d’une ville, des suffrages d’un vote, etc. Un
recensement ou une enquête exige une triple préparation : psychologique, matérielle et
technique.

Principes généraux Le questionnaire doit être maniable et correctement présenté, clair et


précis. Il doit être adapté à l’exploitation des résultats, à la nature de l’enquête et au lieu de
l’enquête.

I.3.2 Quelques modes de tirage de l’échantillon

Définitions
8
Un échantillon de taille n est une liste de n individus (w1, w2,..,wn) extraite de la population
mère. On appelle échantillonnage le prélèvement d’échantillons. Le rapport tde l’effectif n de
l’échantillon à l’effectif N de la population, dans laquelle il a été prélevé, est appelé taux
n
d’échantillonnage ou fraction de sondage :t= . On appelle base de sondage la liste
N
exhaustive des unités statistiques ou individus de la population-mère.

Échantillonnage aléatoire raisonné

Unéchantillonnage aléatoire est un prélèvement de n individus dans une population - mère de


façon que toutes les combinaisons possibles aient la même probabilité d’être prélevées. Cela
peut être obtenu à l’aide d’une table de nombres aléatoires. On réalise unéchantillon raisonné
lorsqu’on impose à l’échantillon d’avoir une structure identique à celle de la population - mère
pour un certain nombre de facteurs dont on pense qu’ils influencent le phénomène étudié. Pour
chaque modalité des différents caractères qualitatifs retenus pour décrire ces facteurs,
l’échantillon doit contenir un nombre précis d’individus présentant cette modalité (méthode des
quotas).

Échantillonnage avec ou sans remise

• Un échantillonnage exhaustif ou sans remise est un prélèvement de n individus en une seule


fois, ou successivement sans remise, dans la population mère.

• L’échantillonnage est dit non exhaustif ou avec remise lorsque chaque individu prélevé est
remis dans la population - mère avant le tirage de l’individu suivant.

• Lorsque le taux t d’échantillonnage aléatoire exhaustif est suffisamment petit (t< 0,1), on
peut assimiler l’échantillonnage exhaustif à un échantillonnage avec remise.

I.3.3 Élaboration des Statistiques

Elle se déroule en trois étapes :

1ephase : préliminaire

Définition des faits élémentaires à observer (unités statistiques).

Limitation du champ d’investigation (ensemble statistique).

2ephase : collecte des renseignements (enquête orale ou écrite)

Instruments de l’enquête (enquêteurs et questionnaire).

9
Les enquêteurs doivent posséder les qualités requises (connaissances techniques, conscience
professionnelle, bonne psychologie) ; par ailleurs, ils doivent être recrutés, formés et encadrés
spécialement. Le questionnaire se caractérise par :

- le choix des questions (nombre limité, adaptation à l’enquêté) ;


- la formulation des questions (clarté, précision, facilité de compréhension, interprétation
unique et immédiate, objectivité) ;
- la présentation (note préliminaire, ordre logique, aspect agréable) ;

Modalités de l’enquête (recensement et sondage)

Recensement : collecte exhaustive de l’information induisant un coût élevé. Sondage : collecte


partielle de l’information posant le problème de la représentativité de l’échantillon.

3ephase : dépouillement des questionnaires

Vérification des documents de base (vraisemblance des réponses).

Définition d’un certain nombre de groupes et de classes en vue de l’établissement du tableau


statistique correspondant. La phase technique du dépouillement peut être réalisée manuellement
ou par des machines électroniques plus ou moins sophistiquées.

I.3.5 Quelques mots clés

- Statistique : étude des faits pour comprendre les processus qui les engendrent et pour
faire ressortir certaines caractéristiques qui permettront par la suite de prendre des
décisions ;
- Données Statistiques : faits et chiffres qui sont collectés, analysés et interprétés ;
- Ensemble de données : toutes les données collectées pour une étude particulière ;
- Eléments : entités auprès desquelles les données sont collectées ;
- Variable : caractéristique d’intérêt des éléments ;
- Observation : ensemble des mesures obtenues pour un élément unique ;
- Données qualitatives : données qui fournissent des étiquettes ou des noms à une
caractéristique d’un élément. Elles peuvent être numériques ou non numériques ;
- Variable qualitative : variable dont les données sont qualitatives ;
- Données quantitatives : données qui indiquent la quantité de quelque chose. Elles sont
toujours numériques ;
- Variable quantitative : variable dont les données sont quantitatives ;

10
- Données en coupe transversale : données collectées à un même moment (ou presque)
dans le temps ;
- Données de série temporelle : données collectées à plusieurs moments successifs dans
le temps ;
- Statistiques descriptives : tableaux, graphiques et approches numériques utilisés pour
résumer des données ;
- Population : ensemble de tous les éléments considérés dans une étude particulière ;
- Echantillon : sous-ensemble de la population ;
- Inférence statistique : processus d’utilisation des données d’un échantillon pour estimer
ou tester des hypothèses sur les caractéristiques d’une population.

I.3.7 Sigles utilisés

Les sigles utilisés sont à la fois simples et logiques : ils correspondent le plus souvent à la
première lettre de la notion concernée et chacun d’eux intéresse une seule notion (pour éviter
toute ambiguïté).

Notions fondamentales Signes de Signes Signification


base dérivés
Indice i i =1 Première ligne du tableau statistique
Caractère statistique Valeur de X pour l’indice i
(variable)
X xi
Nombre de fois (effectif ou Effectif n pour l’indice i
fréquence absolue)
n ni
Fréquence relative f fi Fréquence f pour l’indice i
Opérateur statistique Somme pour l’indice i
i
« somme »
 x
t 1
t

Moyenne arithmétique Valeur moyenne fixée du caractère


1 n
(x « barre »)
x  xt
n t 1
statistique

k
Effectif total
N n
i 1
i Somme pour l’indice i variant de 1 à
k
« Epsilon » ε …… La plus petite quantité possible
Abscisse du point M XM (ni)c Effectif ni cumulé
Ordonnée du point M Fréquence fi cumulée
YM (fi)c
Coefficient C Ci Coefficient pour l’indice i

11
Amplitude de la classe Amplitude variant selon i
(intervalle) a ai
Mode Fréquence maximale
Mo nmax (relative ou absolue)
Médiane Fréquence cumulée
Me N
(relative 0,5 ou absolue )
2
Percentile Percentile d’ordre 1
P P1 (ou premier percentile)
Décile Décile d’ordre 1
D D1 (ou premier décile)
Quartile Quartile d’ordre 1
Q Q1 (ou premier quartile)
Ecart-type Variance
2 ( l’écart-type)
(« petit sigma ») σ
Coefficient de variation Variance calculée sur la variable x
V  x2
« Béta » β β1, et β2 Coefficient « Béta1 » et « Béta 2 »
Moment non centré Moment non centré d’ordre q
m mq
Moment centré (« mu ») Moment centré d’ordre q
µ µq (quelconque)

Médiale Fréquence cumulée de la série (nixi)


k
Ml n x
i 1
i i
(relative 0,5 ou absolue )
2
Effectif relatif à xi et yj Double somme des effectifs
nij  ni j
ij (par rapport aux indices i et j)

Coefficient de corrélation Coefficient de corrélation calculé


entre X et Y r(x,y) sur x et y
r

12
Partie I : Tri à plat : Distribution à un caractère

CHAPITRE II : PRESENTATION DES DONNEES

II.1 Variables qualitatives


Une variable est qualitative si ses modalités ne sont pas mesurables. Exemple : catégorie
socioprofessionnelle, groupe ethnique, sexe, nationalité, profession, etc. Les modalités d’une
variable qualitative sont les diverses rubriques d’une nomenclature plus ou moins détaillée
permettant le rattachement de chaque unité à une et une seulement des rubriques.
Nomenclature : ensemble de modalités précédées d’un numéro de code.

II.2 Représentation
Deux modes de représentation graphique sont généralement utilisés :
Diagramme à « secteurs » circulaires (dit « camnembert ») ou semi-circulaires et
représentations par « bandes », mais bien d’autres représentations sont possibles : Exemple 1 :
En 1999 les recettes du budget d’ANGOVILLE se présentaient de la façon suivante (en
milliards de francs) :

Taxe sur la valeur ajoutée 3


Impôt sur le revenu 15
Impôt sur les sociétés 7
Taxes sur les produits pétroliers 5
Total 30

On doit partager 360º en secteurs proportionnels aux effectifs. Par exemple, l’effectif 5
360  5
correspond à un angle de : x   360  16, 667%  60 , d’où le tableau suivant :
30

Recettes 3 15 7 5 30
% 10% 50% 23,333% 16,667% 100%
Angles 36 180 84 60 360

Remarque : Pour avoir les différents angles il suffit de multiplier les différentes fréquences
relatives par 360 degrés :

13
Fig. II -1 : Représentation par secteur de la répartition des recettes du budget d’ANGOVILLE
selon leur origine.

Remarque: Dans le graphique circulaire, les secteurs représentatifs ont une aire et par
conséquent un angle au centre proportionnel aux effectifs (montants des recettes) des modalités
(sources des recettes) correspondantes. Le graphique est tracé à l’aide d’un rapporteur après
avoir calculé l’angle au centre relatif à chaque secteur.

Représentation par bande (ou tuyau d’orgue) : Les différentes modalités du caractère
(diverses sources de recettes du budget d’ANGOVILLE) sont représentées par des rectangles
dont la base est constante et dont la hauteur et l’aire par conséquent, sont proportionnelles aux
effectifs (montants des recettes). Très souvent les différentes modalités sont ordonnées sur le
graphique dans le sens des effectifs croissants ou décroissants.

16 15

14

12

10

8 7 Effectif

6 5

4 3

Fig. II-2 : Représentation par tuyau d’orguede larépartition des recettes du budget
d’ANGOVILLE selon leur origine.

14
Remarque : La représentation par secteur permet, mieux que les tuyaux d’orgue, de visualiser
l’importance relative (en %) de chaque source de recettes, importance figurée par la valeur de
l’angle au centre correspondant. Elle permet aussi d’établir des comparaisons entre plusieurs
faits observés du même phénomène dans l’espace et dans le temps.

II.3 Variables quantitatives


Une variable est quantitative si ses modalités sont mesurables ou repérables. Exemple : l’âge ;
le poids ; le nombre d’enfants ; la production d’une usine. Le nombre correspondant à chaque
modalité est appelé variable statistique.

II.3.1 Distributions de Fréquences

Plus généralement, soit C le caractère (variable) qui comporte k modalités. On observe n


individus, et dresse le tableau suivant composé des couples (Ci, ni):

Tableau statistique à simple entrée : On présente les couples (Ci, ni) de la manière suivante :

Ci C1 C2 . .C3 . . . . . . . . . . Ck

(Catégories ou Valeur xi de X)

ni (effectifs = nombre d’observations) n1 n2 . .n3 . . . .... .... ... . . nk

k
Notons n l’effectif total : n =  ni = n1 + n2 + n3 + ....+nk ;ni, l’effectif de la modalité Ci, aussi
i 1

ni
appelé fréquence absolue ; f i  est la fréquence relative de la modalité Ci dans la
n
k
population. On a :  fi = 1. Pour les caractères quantitatifs, on calcule l’effectif cumulé Ni’(x) =
i 1
i' i'

 ni , et la fréquence cumulée Fi’ (x) =


i 1
f
i 1
i . F est appelée fonction de répartition; elle est

monotone croissante et telle que : F (   ) = 0 et F (+  ) = 1.

Dans le cas d’une variable discrète, le couple (Ci, ni) devient (xi , ni).

Dans le cas d’une variable statistique continue, on considère la classe Ci d’extrémités b i-1 , et bi
telle que bi 1  x  bi ;

bi  bi 1
- Le centre de la classe est xi  ;
2

15
- L’amplitude de la classe Ci est ai = b i – b i-1 ;
ni
- La densité d’une classe bornée est d i  (di est calculée lorsque les classes sont
ai

d’amplitudes inégales).

II.3.2 Variables discrètes

Une variable statistique est dite discrète lorsque ses valeurs possibles sont séparées (nombres
isolés en général des entiers). Exemple : le nombre d’enfants d’un couple; le nombre de pièces
d’un logement; le nombre d’employés d’une entreprise; les notes obtenues à un devoir.

Exemple 1 : Voici le relevé de notes par ordre croissant d’une classe :

7,7,7,8,8,10,10, 10,12,12,12,13,13,13,13,13,14,14,16,16

Tableau 2 : Tableau des effectifs et fréquences cumulées (croissantes)

Notes 7 8 10 12 13 14 16
Effectifs (ni) 3 2 3 3 5 2 2
Effectifs cumulés 3 5 8 11 16 18 20
(Ni) (=3+2) (=5+3) (=8+3) (=11+5) (=16+2) (=18+2)
Fréquences (fi) 3 2 3 3 5 2 2
20 20 20 20 20 20 20
(= 15%) (= 10%) (= 15%) (= 15%) (= 25%) (= 10%) (= 10%)
Fréquences 3 5 8 11 16 18 20
20 20 20 20 20 20 20
cumulées (Fi)
(=15%) (=25%) (=40%) (=55%) (=80%) (=90%) (100%)
L’effectif cumulé qui correspond à la note 8 (par exemple) est la somme des effectifs des notes
inférieures où égales à 8 (ici égal à 5). L’effectif total est la somme des effectifs (ici égal à 20).
Les fréquences sont les quotients des effectifs des modalités par l’effectif total. Elles sont
exprimées souvent en pourcentage.

Représentation graphique
La représentation graphique des fréquences ou des effectifs est le diagramme en bâtons (des
effectifs). A chaque valeur xi de la variable, portée en abscisses, on fait correspondre un
segment vertical de longueur proportionnelle à l’effectif (ou à la fréquence) de cette valeur.

Tableau 2

16
Marque achetée Code des marques Effectifs (ni)
Coca-Cola 1 25
Coke light 2 11
Pepsi –cola 3 16
Djino 4 7
Sprite 5 6
Distribution de fréquence des données sur les boissons non alcoolisées construite par
Excel 2007

30
25
Fréquence

20
15
10 Fréquence
5
0
1 2 3 4 5 ou plus...
Code des marques

Diagramme en barre des données sur les boissons non alcoolisées construite par Excel 2007.

II.3.3 Variables continues

Une variable statistique est dite continue lorsqu’elle peut, dans un intervalle donné, prendre une
infinité de valeurs. Exemple: L’âge exact; le diamètre d’une pièce circulaire; le poids d’une
cargaison.

Représentation graphique

Dans le tableau statistique, les observations sont groupées par classes d’amplitudes constantes
ou variables. La représentation graphique des fréquences ou des effectifs est l’histogramme,
ensemble de rectangles contigus. Chaque rectangle, associé à chaque classe, a une surface
proportionnelle à la fréquence (absolue ou relative) de cette classe. Chaque classe est
représentée par un rectangle dont l’aire (et non la hauteur) est proportionnelle à la fréquence ou
à l’effectif de la classe.

a. Amplitudes égales

Exemple 3 : On a mesuré la taille de 30 étudiants. Les mesures sont regroupées en classes

La série statistique est alors présentée sous la forme du tableau 3 suivant :

17
Taille t en mètre 1,30  t <1,40 1,40  t <1,50 1,50  t <1,60 1,60  t <1,70

Effectif (ni) 3 15 7 5

Effectif cumulé (Ni)↑ 3 18 25 30

Représentation graphique

Les classes étant d’amplitudes égales, il suffit que chaque rectangle ait une hauteur
proportionnelle à la fréquence (relative ou absolue) de cette classe :

15
28

24

20

16
7
12 5

8 3

Fig. II-4 : Représentation par un histogramme de la répartition de la taille des étudiants; 2e AP,
1999.

Pour tracer la courbe des fréquences cumulées il faut tracer une courbe continue car le caractère
peut être considéré comme continu. Le cumul se fait pour chaque classe à la limite supérieure
de la classe. On considère que la répartition de la taille des étudiants est uniforme, ce qui
revient à tracer des segments.

b. Amplitudes inégales

Il faut construire des rectangles dont la hauteur est proportionnelle à la densité, ce qui permet
d’assurer une surface proportionnelle à la fréquence. Dans ce cas on ajoute une colonne « ai » =
amplitude et une colonne « hi » = hauteur corrigée du rectangle. La colonne ai permis de
visualiser les différentes amplitudes, et de repérer « l’amplitude unité » qui est généralement la
plus petite amplitude de la colonne.

18
L’amplitude unité, ici, est égale à 10 (parfois on la repère par le PGCD des amplitudes). La
colonne « hi » est construite de la façon suivante : on reporte les valeurs de fi ou de ni
correspondant aux amplitudes unités (ici, on reporte les valeurs de fi pour obtenir un
histogramme de fréquences relatives) ; et on divise la fréquence fi ou l’effectif ni par le rapport
des amplitudes quand elles ne sont pas égales à l’amplitude de l’unité.

xi [10,20[ [20,30[ [30,50[ [50,90[ [90 100[ Total

ni 5 10 40 160 25 240

fi 2,08 % 4,16% 16,67 % 66,67% 10,42% 1

ai 10 10 20 40 10

ai 1 1 2 4 1
ri 
a

fi 5 10 20 40 25
hi 
ri

Remarque : Sans cette rectification l’histogramme aurait été faux ! Car il représente l’aire et
non la hauteur qui est proportionnelle à fi ou ni. La surface totale de l’histogramme n’est pas
modifiée par le regroupement des classes. Il y a « compensation des classes ».

Exemple 4 : Le tableau suivant retrace le nombre de taxis et les distances parcourues avant une
première panne:

19
Ci (milliers de km) 0-5 5-7 7-9 9-15 Total
Effectifs ( ni) 15 78 36 21 150
Ni  15 93 129 150
Ni  150 135 47 21

Dans le tableau précédent la troisième colonne par exemple s’interprète ainsi : 129 taxis ont
parcouru au plus 9000 km et 57 taxis ont parcouru au moins 7000 km avant d’avoir une
première panne. On en déduit le tableau suivant :
ti (millier de km) 0 5 7 9 15
Nombre de taxis ayant parcouru au plus ti (millier de km) 0 15 93 129 150
Nombre de taxis ayant parcouru au moins ti (millier de km) 150 135 57 21 0
Remarque : La Somme des effectifs de chaque colonne est égale à l’effectif total. Les données
ne nous permettent pas de déterminer par exemple le nombre de taxis ayant parcouru au moins
10 km.

II.3.4 Polygone des fréquences


a. Amplitudes égales
Si les classes sont d’amplitude égale, on trace le polygone des fréquences en joignant les
milieux des segments supérieurs de chaque rectangle (en joignant éventuellement deux classes
de même amplitude et de fréquence nulle, de chaque côté de l’histogramme). Ce polygone des
fréquences a une surface égale à celle de l’histogramme ;

b. Amplitudes inégales
Si les classes sont d’amplitude inégale, on trace également un polygone des fréquences en
prenant soin de tracer un polygone dont la surface soit toujours égale à celle de l’histogramme.

CHAPITRE III : CARACTERISTIQUES


Grâce aux tableaux et aux graphes, on obtient une première « image » de la distribution
des données. Pour apprécier les phénomènes réels, les chiffres du tableau (ou l’allure du
graphe) se commentent à l’aide de mots et de phrases dont les conclusions peuvent être
entachées de subjectivité. Pour rendre plus commode l’interprétation des nombreux
renseignements numériques classés dans des tableaux statistiques (afin de limiter cette part de
subjectivité), on va les synthétiser, les résumer par des valeurs bien précises qui portent le nom
de caractéristiques ou valeurs typiques : valeurs centrales ou de position, dispersion, forme, de
concentration. Notons que le fait de résumer un tableau statistique ou une distribution par une
ou plusieurs caractéristiques fait perdre de l’information, mais procure un gain de « clarté » et
de « commodité de manipulation », et facilite les comparaisons. Les caractéristiques doivent
être « acceptées sans ambiguïté et comprises de la même manière ». Le statisticien anglais Yule
20
a précisé les conditions que doivent remplir les caractéristiques pour être correctement
utilisées. Une caractéristique « correcte » doit :

- Être définie de façon objective, c’est-à-dire sans que l’utilisateur puisse y adjoindre un
jugement personnel, ou que deux personnes différentes la calculant sur la même série
parviennent à des résultats différents ;
- Dépendre de toutes les observations de la série : elle ne doit pas, en ce sens, résumer
une partie de la série. Néanmoins, on écarte parfois dans le calcul les valeurs
« aberrantes » (exceptionnelles) pour ne pas fausser la réalité du phénomène ;
- Avoir une signification concrète facile à concevoir, pour être comprise par n’importe
quel utilisateur, même non-spécialiste ;
- Être simple à calculer ;
- Être peu sensible aux fluctuations d’échantillonnage : de façon par exemple à ne pas
obtenir des valeurs différentes si on l’applique sur plusieurs échantillons de la même
population. Ce problème est étudié en statistique mathématique (sondages) ;
- Se prêter aisément aux calculs algébriques de façon à pouvoir comparer plusieurs séries
par exemple ou dégager la caractéristique en plusieurs autres de nature connue.

III.4.1 Caractéristiques de valeurs centrales

En présence d’une distribution statistique, l’esprit a un désir spontané de simplification:


il cherche à remplacer la complexité et la multiplicité des notions par une caractéristique qu’il
souhaite unique. La caractéristique la plus accessible d’un point de vue concret est la
caractéristique de valeur centrale. De ce fait, elle est très souvent utilisée. Elle réalise une
approximation qui se traduit par la perte d’une certaine quantité d’informations dans la
connaissance de la série statistique mère. D’une façon schématique, on classe les paramètres de
position (ou valeurs centrales) en trois catégories:

- les moyennes de grandeur ;


- les moyennes de repérage ou d’ordre ;
- les moyennes de fréquence.

LES MOYENNES DE GRANDEUR


Elles se divisent en moyennes simples et en moyennes élaborées. Il existe 4 moyennes simples
élémentaires. Soit un ensemble numérique X à n éléments : X = {x1, x2, ..., xn}

1 n
- Moyenne arithmétique : M  x   xk
n k 1
21
1

 n n
- Moyenne géométrique : G   xk 
 k 1 
1

1  n 2  2
- Moyenne quadratique : Q     xk  
 n  k 1  
n
- Moyenne harmonique : H  .
 1
n

  
 
k 1 xk

Si n > 2, il est préférable de calculer la moyenne géométrique par la formule logarithmique


1 n
ln G   ln xk . La relation qui lie les différentes moyennes entre elles est : H  G  M  Q .
n k 1

Ces 4 moyennes simples peuvent prendre des formes élaborées. Aux éléments xk de l’ensemble
numérique X, on associe respectivement les éléments  k  N de l’ensemble de pondération A

X   x1 , x2 , ..., xn  et A= A  1 ,  2 , ...,  n  et soit  k N:

n
1
- Moyenne arithmétique pondérée : Mp  x 
N
 x
k 1
k k

1
 n  N
- Moyenne géométrique pondérée : G   x k k 
 k 1 
1
1  n  2
- Moyenne quadratique pondérée : Q      k x k2 
 N  k 1 
N
- Moyenne harmonique pondérée : H  .
n  
 
k

k 1  x k


La relation qui lie ces différentes moyennes est : Hp  Gp  Mp  Qp .

Pour la moyenne géométrique on utilise la formule logarithmique définie par :


n
1
ln G 
N

k 1
k ln x k .

Remarque : Pour utiliser l’une de ces formules, on étudiera d’abord le phénomène répertorié
dans le tableau statistique.

22
Exemples: Pour cette série statistique (tableau 2), rappelons que la moyenne des notes
obtenues est le nombre défini par une moyenne arithmétique

k
X  1  ni xi
n
i 1

Pour le calcul de cette moyenne, on peut additionner les 20 notes puis diviser la somme par 20,
mais il est préférable de calculer la moyenne pondérée en utilisant le tableau suivant:

Notes xi Effectifs ni ni xi
7 3 21
8 2 16
10 3 30
12 3 36
13 5 65
14 2 28
16 2 32
Totaux 20 228

X = 228  11, 4 (moyenne arithmétique de la classe). Calcul de la taille moyenne de l’exemple


20
3, page 29. Il s’agit là encore d’une moyenne arithmétique: (voir Tableau suivant)

Taille ti (mètre) effectif ni tixi

1,35 3 4,05
1,45 15 21,75
1,55 7 10,85
1,65 5 8,25
Totaux 30 44,90

44,90 m
La taille moyenne de la classe est t   1,50 m .
30

Calculons les différentes moyennes simples qu’on peut obtenir à partir du tableau suivant :

xi ln xi 1/xi x²i
2 0,693 0,5 4
5 1,609 0,2 25
8 2,079 0,125 64

23
9 2,197 0,111 81
11 2,397 0,091 121
35 8,975 1,027 295

35
 Moyenne arithmétique : X  7;
5

8,975
 Moyenne géométrique : ln G   1, 795 et G  e1,795  6, 019 ;
5

5
 Moyenne harmonique : H   4,869;
1, 027

295
 Moyenne quadratique : Q   59  7, 681 .
5

On vérifie bien : H  G  M  Q .

Calculons les différentes moyennes pondérées qu’on peut obtenir à partir du tableau suivant :

xi i xii lnxi i lnxi 1/xi i1/xi X²i i X²i

2 2 4 0,693 1,386 0,5 1 4 8

5 2 10 1,609 3,219 0,2 0,4 25 50

8 3 24 2,079 6,238 0,125 0,375 64 192

9 1 9 2,197 2,197 0,111 0,111 81 81

11 2 22 2,397 4,796 0,091 0,182 121 242

total 10 69 8,975 17,836 1,027 2,068 295 573

69
 Moyenne arithmétique : X p   6,9 ;
10

17,836
 Moyenne géométrique : ln Gg   1, 7836 et GP  e1,7836  5,951 ;
10

10
 Moyenne harmonique : H P   4,836 ;
2, 068

24
573
 Moyenne quadratique : QP   57,3  7,570 .
10

On vérifie bien : Hp  Gp  Mp  Qp .

LES MOYENNES D’ORDRE OU DE RANG


Il existe plusieurs moyennes d’ordre (de rang) :

Médiane

La médiane est la valeur du caractère qui occupe le milieu de la distribution statistique. Pour
une série classée, la médiane est la valeur du caractère qui partage la série en deux parties
d’égale fréquence (relative ou absolue). C’est donc la valeur du caractère pour laquelle la
1  1
fréquence cumulée est égale à :  F ( M e )   (1). Dans le cas d’une variable discrète, il n’y
2  2
a généralement pas de valeur correspondant strictement à cette définition. L’interprétation de la
valeur trouvée est parfois incertaine car l’équation (1) n’a pas souvent de solution exacte.

Détermination : Deux déterminations sont possibles :

- Détermination graphique

Pour une distribution donnée, on trace les courbes de fréquences cumulées. La médiane est
déterminée par l’intersection des deux courbes cumulées (croissante et décroissante) ou par la
valeur xi correspondant à la fréquence cumulée (½) ;

- Par calcul

Cas discret. Pour trouver la médiane, il faut :

1- ranger par ordre croissant ou décroissant les nombres de la suite ;

2- examiner la parité de la suite.

a) Si la suite possède un nombre impair de termes soit (2k + 1), la médiane est constituée
par le (k + 1) ième terme.

b) Si la suite possède un nombre pair de termes soit (2k), la médiane est constituée par la
moyenne arithmétique du (k) ième et (k + 1) ième terme.

Exemple : (Tableau 6)

25
Trouver la médiane des distributions suivantes 0, 8,1, 4, 3, 3, 5, 7, 2 .

Pour la série classée {0, 1, 2, 3, 3, 4, 5, 7, 8}, la médiane est Me = 3.

Autre présentation : Les données sont résumées dans le tableau suivant :

xi 0 1 2 3 4 5 7 8 Total

ni 1 1 1 2 1 1 1 1 9

Ni↑ 1 2 3 5 6 7 8 9

La médiane est Me = 3, ce qui correspond à l’effectif cumulé N4 = 5.

Remarque : Dans le cas discret la fonction de répartition est une fonction discontinue en
escalier. La courbe cumulative est donc constituée de paliers horizontaux et deux cas peuvent
se présenter :

1. aucun palier horizontal n’a pour ordonnée la valeur  % ; on convient alors de


considérer comme quantile d’ordre  % la valeur observée xi, telle que l’on ait :

F(xi) <  % < F(xi+1) et Q  xi ;

2. un palier horizontal a pour ordonnée la valeur  %, c'est-à-dire qu’il existe une valeur
observée xi telle que x  xi 1 , xi , F ( x)   % ; on convient alors de considérer comme quantile

d’ordre  % la valeur observée xi et Q  xi .

Cas continu : La détermination de la médiane se fait alors approximativement, par


interpolation linéaire. Exemple : Déterminons la médiane de la distribution suivante :

Classe 0 à 5 5 à 10 10 à 30 30 à 50
Fréquence 1 2 3 4
Fréquence cumulée croissante 1 3 6 10
La médiane est la valeur Me du caractère qui correspond à l’effectif cumulé 5, donc elle sera
10  M e  30 M  10 30  10 20 2  20
telle que :   e   , donc M e  10   20,333 .
 356 53 63 3 3

Généralisation : Les quantiles


26
Définition : On appelle quantile d’ordre  et on note Q (avec 0<<1), la valeur xi du caractère
telle que : F ( q  ) =  .

Les quartiles : Nous savons que la médiane scinde la série en deux demi-séries d’égale
fréquence (relative ou absolue). Si l’on détermine à nouveau la médiane de chacune des deux
demi- séries, on obtient le premier et le troisième quartile Q1 et Q3. Il vient immédiatement que
le deuxième quartile Q2 se confond avec la médiane. Les 3 quartiles Q1, Q2, Q3 , sont donc les
valeurs du caractère (x i) qui partagent la série en 4 sous ensembles égaux , comme le montre le
schéma ci dessous :

0________n/4________n/2________3n/4________n

Q1, Q2 , Q3

0,25 0,50 0,75

« Ecart- interquartile »

Ce sont les valeurs pour lesquelles l’ordonnée de la courbe cumulative des effectifs cumulés
N(x) ou celle des fréquences relatives cumulées F(x) soit respectivement égale à :

n n 3n 1 1 3
, , ou , , .
4 2 4 4 2 4 ,

n n 3n
En effet, on obtient : N (Q1 )  , N (Q2 )  , N (Q3 )  ou F(Q1) = 0,25 F(Q2) = 0,50
4 2 4
F(Q3) = 0,75 .

L’écart interquartile égal à (Q3 - Q1) contient 50 % des observations. Les calculs de
détermination des quartiles sont analogues à ceux de la médiane. Les quartiles précisent
l’asymétrie éventuelle d’une distribution statistique.

Les déciles : Les déciles divisent la série en dix parties d’effectifs égaux (d1,…, d9). Les
déciles, au nombre de neuf, séparent l’effectif de la série, préalablement ordonné par ordre
croissant en dix parties égales. Le premier décile D1 est tel que un dixième des observations lui
sont inférieurs, et d’une façon générale un dixième des observations sont comprises entre deux
déciles successifs :

F(D1) = 1/10 F(D2) = 0,20 F(D i) = i . 0,1 F (D9) = 0,9

27
L’écart interdécile égal à (D9 - D1), contient 80 % des observations. Les déciles se déterminent
de la même manière que les quartiles.

Les centiles : Les centiles sont les valeurs du caractère (x i ) qui partagent la série préalablement
ordonnée par ordre croissant en cent parties égales. Ils sont au nombre de 99 notés
respectivement P1, P2,..., P99.

F (P1) = 0, 01 F (P2) = 0, 02 ... F (Pi) = 0, 01×i . F (P99) = 0, 99

N (P1) = 0,01×n N (P2) = 0,02× n ... N( Pi)= 0,0 i ×n ... N (P99) = 0, 99 ×n

P50 n’est autre que la médiane.

L’écart intercentile égal à (P99 - P1) contient 98% des observations.

Exemple : Étant donné la suite 7, 0, 4, 12, 2, 1, 8, 7, 4, 5, 3 : Déterminer les quartiles de cette

série (Q1 = 2 ; Q2 = 4 ; Q3 =7)

xi ni Ni Quantiles

0 1 1  Q1  2
1 1 2
2 1 3
3 1 4  Q2  4
4 2 6
5 1 7  Q3  7
7 2 9
8 1 10
12 1 11

Détermination des moyennes d’ordre par interpolation linéaire


Les quantiles d’ordre, noté q  avec 0<<1, la valeur telle que ( F (q )   .

Supposons connues les classes x0 , a et a, b qui encadrent la fréquence relative cumulée 

ou l’effectif cumulé N  ; pour obtenir le quantile Q , on peut appliquer la formule suivante :

(b  a)(   Fa ) (b  a)( N   N a )
Q  a  a .
Fb  Fa Nb  N a

LA MOYENNE DE FREQUENCE

28
Il existe une moyenne de fréquence : le mode. Le mode ou variable dominante d’une série est
la variable dont l’observation a la plus grande fréquence (absolue ou relative). Le mode peut ne
pas exister, ou même s’il existe il peut être multiple, la courbe de fréquence est alors
multimodale. Si les données ont exactement deux modes, on dit que la distribution est
bimodale. Si les données ont plus de deux modes, on dit que la distribution est multibimodale et
dans ce cas le mode n’est presque jamais utilisé. L’énumération plus de deux valeurs modales
n’est pas utile pour décrire la forme d’une distribution.

Lorsque la variable est discrète, le mode est facilement repérable. Sur le tableau statistique {xi,
fi}, c’est la valeur xi dont la fréquence est la plus élevée. Sur le diagramme en bâtons c’est la
valeur xi correspondant au bâton le plus haut. Si la série présente deux fréquences consécutives
maximales identiques, on définit un intervalle modal à défaut de pouvoir donner une valeur
exacte du mode.

Lorsque la variable est continue deux situations se présentent.

Amplitudes de classe égales

On définit la classe modale comme la classe (ou l’histogramme) correspondant à la fréquence


maximale. Exemple :

Soit la série classée suivante : (Tableau 8)

Classe 0 - 10 10 - 20 20 - 30 30 - 40

Fréquence 2 3 4 1

Par convention, on peut prendre le mode Mo comme la valeur qui occupe le centre de la classe,
soit ici, Mo = 25. On peut aussi déterminer graphiquement la valeur du mode (à l’intérieur de la
classe modale par la méthode des diagonales).

29
Amplitudes de classe inégales

Il faut « corriger » les effectifs ou les fréquences relatives, de la même manière que l’on avait
fait pour construire l’histogramme sur classes inégales, et la détermination du mode se ramène
à la détermination précédente : classe modale et graphe. On définit la classe modale comme la
classe (ou l’histogramme) correspondant à la densité maximale (ou fréquence corrigée
maximale). Le calcul de la détermination de la classe modale se fait en deux étapes :

- Calcul des amplitudes ai ;


ni
- Calcul des densités d i  ; (relative ou absolue).
ai

Exemple :

xi [10,20[ [20,30[ [30,50[ [50,90 [ [ 90,100 [


ni 5 10 30 240 30
ai 10 10 20 40 10
ni 0,5 1 1,5 6 3
di 
ai
 classe dominante

Par convention, on peut prendre le mode Mo comme la valeur qui occupe le centre de la classe
modale, soit ici, Mo = 70, correspondant à di= 6. On peut aussi déterminer graphiquement la
valeur du mode (à l’intérieur de la classe modale par la méthode des diagonales).

Détermination graphique

En effet d’un point de vue théorique, le mode est l’abscisse correspondant à l’intersection des
droites AB et CD, soit M*0,(voir graphe ci-dessous). Il diffère légèrement du M0 précédemment
1
utilisé. On démontre que : M 0*     a ; [ ;  ] la classe modale d’amplitude a.
1   2

30
Relation empirique entre moyenne, médiane et mode

Pour les courbes unies modales, modérément asymétrique (à droite ou à gauche) il existe entre
la moyenne M, la médiane Me et le mode Mo, la relation empirique : (M - Mo) = 3 (M - Me).
Pour les courbes symétriques, les trois caractéristiques de valeurs centrales M, Me, Mo sont
confondues. Cette relation est commode pour la vérification des calculs.

Remarque : Le mode est une mesure importante de tendance centrale pour les données
qualitatives. Par exemple, pour la distribution des fréquences pour les achats de boisson non
alcoolisée, on obtient le tableau suivant :

Boisson non Coca Coke-light Pepsi Sprite Djino Tonic-indien total


alcoolisée cola
Fréquence 35 16 12 15 14 8 100
Le mode ici est la boisson non alcoolisée la plus consommée : le coca-cola.
Pour ces types de données, parler de moyenne ou de médiane n’a aucun sens. Par contre le
mode fournit des informations intéressantes, sur la boisson non alcoolisée la plus fréquemment
consommée (ou achetée).

Moyenne d’ordre

La médiane est la mesure de tendance centrale la plus souvent utilisée pour les données sur le
revenu, la valeur financière et la valeur foncière car quelques valeurs extrêmes peuvent
influencer la moyenne. Dans de telles situations, la médiane est une meilleure mesure de
tendance centrale.
Une autre mesurede tendance central est la moyenne tronquée parfois utilisée, lorsque des
valeurs extrêmes sont présentes. Elle est obtenue en supprimant les observations les plus
petites et les plus grandes d’un ensemble de données puis en calculant la moyenne des valeurs
restantes. Par exemple pour le salaire mensuel d’un échantillon de 12 jeunes diplômés d’une
grande école, la moyenne tronquée à 5% est obtenue en supprimant 5% des plus petites valeurs

31
et 5% des plus grandes valeurs, puis en calculant la moyenne des valeurs restantes. En utilisant
cet échantillon, on a : 0,05*12=0,6 que l’on arrondit à 1, la moyenne tronquée à 5% est obtenue
en supprimant la plus petite valeur (2210€) et la plus grande valeur (2825€) et on obtient : Le
salaire mensuel d’un échantillon de 12 jeunes diplômés d’une grande école.

Salaire effectif (ni) nixi Salaire effectifs nixi


tronqué
2210 1 2210
2255 1 2255 2255 1 2255
2350 1 2350 2350 1 2350
2380 2 4760 2380 2 4760
2390 1 2390 2390 1 2390
2420 1 2420 2420 1 2420
2440 1 2440 2440 1 2440
2450 1 2450 2450 1 2450
2550 1 2550 2550 1 2550
2630 1 2630 2630 1 2630
2825 1 2825 Total 10 24245
Total 12 29280
Moyenne 2440,00 2424,5

NB : Si les mesures sont calculées pour des données issues d’un échantillon, on parlera de
statistique d’échantillon. Si les mesures sont calculées pour des données issues d’une
population, on parlera de paramètres de la population.

II.4.2 Caractéristiques de dispersion

Les plus fréquemment utilisées sont : l’étendue, l’intervalle interquantile, l’écart absolu moyen
et l’écart type (la plus utilisée).

L’étendue et l’écart interquantile sont, dans leur principe, du type de la médiane : les
observations y interviennent par leur rang, et non par leur valeur. L’écart absolu moyen et
l’écart type font, au contraire, intervenir les écarts de chacune des observations à la moyenne
arithmétique : ce sont des moyennes de ces écarts.

Les écarts simples

L’étendue
L’intervalle de variation ou l’étendue est la différence entre xn la plus grande et x1 la plus petite
des valeurs observées de la variable : E = x n - x1.

32
L’intervalle de variation d’une série est la manière la plus simpliste de mesurer la dispersion,
car c’est la différence entre les deux valeurs extrêmes. Cette caractéristique est très imparfaite,
elle est sujette à des fluctuations considérables. Son calcul est extrêmement rapide, ce qui fait
qu’on l’utilise fréquemment (surtout dans le contrôle de fabrication industrielle).

On dira par exemple que les notes de devoir varient de 6 à 19/20. Supposons que l’âge des
étudiants varie entre 17 et 27ans, l’étendue de cette série sera de 27 - 17 =10 ; si pendant cette
même année un retraité de 77 ans venait s’inscrire l’étendue deviendrait 77 –17 = 60. L’étendue
a été multipliée par six et ceci n’a pas de signification réelle.

LES INTERVALLES INTERQUANTILES


Pour remédier aux inconvénients de l’étendue, imputables en particulier à ce que les termes
extrêmes sont très souvent exceptionnels et, par conséquent, sans signification, on a pensé à
écarter ceux-ci du calcul de la caractéristique de dispersion. Les quantiles sont des
caractéristiques de position tout comme la médiane. On les utilise en statistique descriptive,
surtout en prenant en compte les intervalles qu’ils définissent sur la même série. Un intervalle
entre deux quantiles devient alors une caractéristique de dispersion. L’intervalle interquartile
est la différence entre les valeurs du troisième et premier quartile : (Q3 - Q1) qui contient 50%
des observations.

L’intervalle (D9 - D1) qui contient 80% des observations est parfois employé au même titre que
l’intervalle interquartile comme mesure de dispersion.

L’intervalle inter-centile égal à : (P99 - P1) qui contient 98% des observations est aussi une
mesure de dispersion.

ÉCARTS PONDERES
Ecart absolu moyen

Il s’agit d’une moyenne arithmétique des écarts par rapport à une valeur centrale (M ou Me), et
non plus d’un écart entre 2 quantiles.

L’écart absolu moyen par rapport à la moyenne arithmétique (M= x ) est défini par :

1 k
e (x)  ni xi  x .
n i 1

33
L’écart absolu moyen satisfait assez bien aux premières conditions de Yule : définition
objective, prise en compte de toutes les observations, simplicité de calcul mais se prête mal aux
calculs algébriques, on leur préfère l’écart -type. On peut aussi calculer l’écart absolu moyen
par rapport à la médiane.

VARIANCE, ÉCART TYPE, COEFFICIENT DE VARIATION.


Variance : La variance encore appelée moment centré d’ordre deux est définie par :

1 k
V (X )  
n i 1
ni ( xi  x )²   x2 avec n  n1  n2   nk .

Ecart type : L’écart type  (ou l’écart quadratique moyen) est la moyenne quadratique (ou
moyenne d’ordre 2) des écarts à la moyenne arithmétique, il est défini par :

1 k
x  V (X )   ni (x  x )² .
n i 1

Comme la moyenne arithmétique, l’écart type satisfait assez bien à l’ensemble des conditions
de Yule. Tenant compte de toutes les observations, il exprime convenablement la dispersion de
la distribution même très dissymétrique. Son calcul est relativement aisé (et se prête assez mal
au calcul algébrique) et, en règle générale, c’est la caractéristique de dispersion la moins
sensible aux fluctuations d’échantillonnage. Sa signification n’apparaît clairement que pour la
comparaison de deux distributions.

Par exemple, si dans une série l’écart type de distribution des notes de devoirs est de 1.5, et si
dans une autre série il est de 4.51, on pourrait dire que dans celle-ci les notes sont trois fois plus
dispersées que dans la première.

Le coefficient de variation

L’écart type, comme la moyenne, s’exprime dans la même unité que la variable statistique.
Pour comparer 2 distributions qui ne sont pas exprimées dans la même unité (distribution de
revenus dans des pays différents par exemple), des distributions dont les moyennes sont
notablement différentes, on a recours au coefficient de variation qui est défini comme le
X
rapport de l’écart type à la moyenne : CV  .
x

34
C’est une caractéristique de dispersion relative, nombre sans dimension et par conséquent
indépendant des unités choisies. Il est souvent exprimé sous forme de pourcentage. Par
exemple, dans deux entreprises E1 et E2, pour la distribution des salaires, on trouve: x1 =1600

,1 = 128 et cv1 = 128/1600 = 0.08 = 8% ; x 2 = 1250 , 2 = 102.5 et cv2 = 102.5/1250 =


0.082 = 8.2%. La distribution relative des salaires est sensiblement la même dans ces deux
entreprises. Supposons que l’on veuille comparer cette dispersion avec celle observée dans une
entreprise américaine comparable dont la moyenne et l’écart type des salaires sont: x = 800$ et
 = 69$, donc : Cv = 69/800 = 0.08625 = 8.625% ; la dispersion relative des salaires est du
même ordre de grandeur dans ces différentes entreprises, et légèrement plus élevée dans
l’entreprise américaine.

Formule de calcul Formule réduite:

1 k k
1 k k
V (X )  
n i 1
ni ( xi  x )²   f i ( xi  x )²  (  ni xi2 )  ( x ²)  ( f i xi2 )  ( x ²)
i 1 n i 1 i 1

Exemple de calcul de la variance et de l’écart type

Partons des exemples précédents:

( xi  x) 2 ni ( xi  x)
Notes xi Effectifs ni ni xi xi - x 2

7 3 21 -4,4 19,36 58,08


8 2 16 -3,4 11,56 23,12
10 3 30 -1,4 1,96 5,88
12 3 36 0,6 0,36 1,08
13 5 65 1,6 2,56 12,80
14 2 28 2,6 6,76 13,52
16 2 32 4,6 21,16 42,32
Totaux 20 228 63,72 156,8

228 156,8
X=  11.4 (moyenne arithmétique) V   7,84 (variance) ;
20 20

V    2,8 (écart-type) .

Calcul de la moyenne et de l’écart type : (Tableau 5)

2 2
Taille ti effectif ni ni ti ti - t (ti - t ) ni(ti - t )

35
1,35 3 4,05 -0,15 0,0225 0,0675

1,45 15 21,75 -0,05 0,0025 0,0375

1,55 7 10,85 0,05 0,0025 0,0175

1,65 5 8,25 0,15 0,0225 0,1125

totaux 30 44,90 0 0,05 0,235

44,90
La taille moyenne est t   1,50 .
30

0,235
La variance est V   0,0078 et l’écart type est :   V  0,088 .
30

II.4.3 Les caractéristiques de forme (du polygone de fréquence)

L’asymétrie et l’aplatissement permettent de préciser l’allure de la courbe des fréquences sans


avoir besoin de la tracer. On retient généralement deux mesures de forme d’une série:

- Celle de l’asymétrie a pour objet de nous renseigner sur la façon régulière ou non dont
les observations se répartissent de part et d’autre d’une valeur centrale;
- Celle de l’aplatissement a pour objet de faire apparaître si une faible variation de
variable entraîne ou non une forte variation des fréquences relatives.

Mesure de l’asymétrie

Une distribution statistique est symétrique si les observations repérées par leurs fréquences sont
également dispersées de part et d’autre d’une valeur centrale. On choisit généralement les 3
valeurs centrales suivantes pour repérer l’asymétrie : le mode (Mo), la médiane (Me) , la
moyenne arithmétique (M = x ). Dans une distribution symétrique, les 3 caractéristiques Mo,
Me et M sont confondues comme le montre la courbe suivante:

36
Courbe symétrique

Lorsque la distribution est asymétrique, la médiane est généralement comprise entre le mode et
la moyenne et plus proche de cette dernière. La courbe non symétrique est dite oblique :
l’oblique se repère du côté de décroissance la plus forte de la courbe des fréquences :

- oblique à gauche (ou étalée à droite) : Mo < Me < M


- oblique à droite (ou étalée à gauche) : Mo > Me > M

Courbe oblique à gauche (ou étalement à droite)

Courbe oblique à droite (ou étalement à gauche)

LES COEFFICIENTS D’ASYMETRIE

37
On utilise un certain nombre de coefficients, nombre sans dimension, permettant les
comparaisons sans avoir recours aux courbes qui accompagnent la distribution. Nous en
retiendrons, ici, trois connus par les noms de leurs auteurs : YULE, PEARSON, FISHER.

Le coefficient de Yule
Il propose une mesure de l’asymétrie en comparant l’étalement vers la gauche et l’étalement
vers la droite, tous deux repérés par la position des quartiles Q1, Me, Q3.

(Q3  Me)  ( Me  Q1 ) Q3  Q1  2M e
Le coefficient d’asymétrie de Yule s’écrit : S   .
(Q3  Me)  ( Me  Q1 ) Q3  Q1

- Si S = 0  la distribution des fréquences est symétrique (les quartiles sont équidistants).


- Si S > 0  la distribution des fréquences est oblique à gauche (ou étalement vers la
droite).
- Si S < 0  la distribution des fréquences est oblique à droite (ou étalement vers la
gauche).

Les coefficients de Pearson


Kart Pearson propose deux coefficients. Le premier (S) analyse la position de deux valeurs
centrales (le mode et la moyenne arithmétique relativisés par la dispersion de la série)

M  Mo
S .

Si S = 0  la distribution des fréquences est symétrique.

Si S> 0  la distribution des fréquences est oblique à gauche.

Si S< 0  la distribution des fréquences est oblique à droite.

Remarque : Ce coefficient n’est valable que pour des distributions de fréquence faiblement
asymétriques et unimodales.

Le deuxième coefficient, 1est plus élaboré. Il s’appuie sur le calcul des moments centrés. Ceci
est beaucoup plus fastidieux mais le résultat obtenu est plus intéressant, surtout pour les séries
possédant un grand nombre d’observations.

 32 1 k
Il s’écrit :1 = 3
2
avec p  
n i 1
ni ( xi  x ) p (2 = ²).

38
Si 1 = 0  la distribution des fréquences est symétrique (autour d’un axe passant par x ).

Si 1> 0  la distribution des fréquences est oblique à gauche (plus étalée à droite qu’à
gauche).

Coefficient de Fisher
Sir Roland Fisher propose le coefficient 1 qui n’est que la racine carrée du coefficient 1 de

Pearson :      3 . On tire les mêmes conclusions que pour 1.
1 1
3

Si 1 < 0  la distribution des fréquences est oblique à droite (plus étalée à gauche qu’à

droite).

MESURE DE L ’APLATISSEMENT
On considère qu’une courbe de fréquence soit plus ou moins aplatie, par référence à la courbe
de fréquence (ou densité) de la normale (loi de GAUSS- LAPLACE). Ainsi une distribution est
dite aplatie si une forte variation de la variable entraîne une faible variation de la fréquence
relative (fi) et inversement.

fi
10

0
1 2 3 4 5 6 7 8

Courbe normale

1,5

0,5

0
1 2 3 4 5 6 7 8 9

Courbe hyponormale

39
40

30

20

10

0
1 2 3 4 5 6 7 8 9 10 11

Courbe hypernormale

Les coefficients d’aplatissement


On part d’une distribution normale pour décrire les autres distributions. La logique est de
comparer si la courbe d’une distribution est plus ou moins aplatie par rapport à la courbe d’une
loi normale de même moyenne et de même écart type.

4 4
1- Le coefficient de Pearson (Kurtosis) :  2   . Ce coefficient est d’autant plus
22  4
faible que la courbe est hyponormale :2=3 pour une distribution normale (2 croît avec la
concentration des fréquences autour de la moyenne).

4
2- Le coefficient de Fisher:  2   2  3   3.
4

Si  2  0 , la courbe des fréquences est normale.

Si  2 0 , la courbe des fréquences est leptocurtique ou hypernormale.

Si  2 0 , la courbe des fréquences est platicurtique ou hyponormale.

Chapitre 5 : Etude de la concentration

Nous avons eu à notre disposition une « batterie » de valeurs typiques qui nous renseignent sur
l’allure générale d’une série que l’on trouve en dessinant la courbe des fréquences. En
cherchant maintenant à déterminer si une série quelconque s’écarte plus ou moins d’une série
« idéale » dans laquelle les écarts types entre les observations seraient parfaitement
« égalitaires », on utilise comme mesure celle de la concentration. Elle montre l’écart entre la
série observée et une série « idéalement égalitaire ».

La concentration est donc une conséquence directe de la dispersion ; ceci revêt une grande
importance en économie (concentration des salaires, des revenus, de la taille des entreprises).

40
Cette caractéristique ne s’applique qu’aux variables statistiques continues à valeurs positives.
On lui trouve de nombreuses applications dans la gestion de l’entreprise.

Il existe deux méthodes de détermination de la concentration : par le calcul, par le graphe. La


médialeest une valeur particulière du caractère telle que tous les caractères supérieurs
constituent une moitié de la masse globale des caractères, l’autre moitié étant constituée par
tous les caractères inférieurs. Elle partage donc la série (nixi ; xi) en deux sous-ensembles
égaux. On peut aussi dire que la médiale est la médiane que l’on calcule non plus sur les
fréquences absolues ou relatives (ni ou fi) de la série mais sur le produit (ni xi ou fi xi), xi étant le
centre de classe.

Détermination par le calcul

- On calcule la médiane (Me) de la série.


- On calcule la médiale (Ml) de la série.
- On mesure l’écart M entre la médiale et la médiane.
- On compare cet écart (M) à l’intervalle de variation de la série (E=XM -Xm).

Remarque : La médiale est supérieure à la médiane vu qu’on raisonne à partir de la masse (ni
xi ou fi xi).

Soit :M = Ml – Me. Comparaison de M avec l’intervalle de variation E :

- Si M est grand par rapport à l’intervalle de variation, la concentration est forte (dans
l’exemple des revenus, cela signifierait qu’il y a de grandes disparités de revenus entre
les classes de revenus).
- Si M est petit par rapport à l’intervalle de variation, la concentration est faible (dans
l’exemple des revenus, cela signifierait qu’il n’y a pas de grandes disparités de revenus
entre les classes de revenus).
- Si M est nul, la médiane est égale à la médiale, on se trouve dans une situation
d’égalité parfaite ou d’équi-répartition, si les classes sont bien choisies. (Dans
l’exemple des revenus tout individu a le même revenu entre les différentes classes de
revenus).

Détermination par le graphe

L’INDICE DE CONCENTRATION
41
Cet indice est une mesure de dispersion relative (qui a été proposée) par le statisticien italien
CORRADO GINI : 1912) et utilisée pour la dispersion de certaines distributions statistiques :
distribution de salaires ou de revenus, distribution d’entreprises suivant leur taille (nombre de
salariés, chiffres d’affaires).

Construction de la courbe de concentration

La courbe de Lorenz ou courbe de concentration ne peut se construire que pour les grandeurs
sommables. (La somme des revenus de deux individus a un sens mais pas la somme de leurs
âges). La courbe de concentration est synthétique et a pour objectif essentiel de transmettre un
message visuel. Elle allie à la fois le nombre de caractères et la totalité des caractères. La
courbe se construit à partir des fréquences cumulées relatives. Dans un repère orthonormé on
porte :

- en abscisse les valeurs de la fréquence cumulée relative de la série (ni , xi), donc F(x)
(fonction de répartition qui varie de 0 à 1 ) ;
- en ordonnée les valeurs de la fréquence cumulée relative de la série (nixi , xi) qui nous a
permis de calculer la médiale (elles varient aussi de 0 à 1).

On construit ensuite la courbe point par point et on obtient un carré ABCD qui porte
généralement le nom de « carré de GINI ».

De la représentation ci-dessus, on lit : pour F(x) = 0,6 on a F(nx) = 0,3. Avec l’exemple des
revenus on peut dire que 60% des individus se partagent 30% de la masse des revenus. La
42
bissectrice AC est la ligne d’équi-répartition parfaite, ce qui correspond à la ligne de
concentration nulle. Donc plus la courbe de concentration s’écarte de la bissectrice, plus la
concentration est forte.

L’INDICE DE GINI
i

n x k k n
En règle générale, i  k 1
n
. et IG =2× aire de concentration = 1   ( i 1  i ) fi .
n x
i 1
i i
i 1

Pour les calculs, on utilise la disposition suivante :

Classe i i-1 i fi fi (βi-1+ βi)


1 0 1 f1 f1 (0+ β1)
2 1 2 f2 f2 (β1+ β2)
. . . . .
. .
.
N βn-1 1 fn fn (βn-1+ 1)
Total 1 n

 (
i 1
i 1  i ) fi

Exemple Etudions la concentration de la distribution des allocations (en milliers de francs CFA)
suivante :

Ci 10-20 20-30 30-50 50-90


ni 20 40 30 10

4
Fi (βi + βi-1)
ci fi Fi↑ xi
4
fixi  f x i i
fx
i 1
i i βi βi-1
i 1

32
[10; 20[ 0,2 0,2 15 3 3 0,094 0,094 0 0,019
[20; 30[ 0,4 0,6 25 10 13 0,406 0,406 0,094 0,200
[30; 50[ 0,3 0,9 40 12 25 0,781 0,781 0,406 0,356
[50; 90[ 0,1 1 70 7 32 1,000 1,000 0,781 0,178
Total 1 32 0,753
La médiane est la valeur Me du caractère qui correspond à la fréquence cumulée 0,5, donc elle
sera telle que :

 20  M e  30 M  20 30  20 10
  e    25, donc M e  20  25  0,3  27,50.
0, 2  0,5  0, 6 0,5  0, 2 0, 6  0, 2 0, 4

43
La médiale Ml est la valeur du caractère qui correspond à βi= 0,5, elle partage la série (nixi ; xi)
en deux sous-ensembles égaux et elle est telle que :

 30  Ml  50 Ml  30 50  30 20 0, 094
    , donc Ml  30  20   35, 013.
0, 406  0,5  0, 781 0,5  0, 406 0, 781  0, 406 0,375 0,375

Comparaison de M avec l’intervalle de variation

M 35, 013  27,500 7,513


On a le rapport :    0, 0939  9, 4%.
E 90  10 80

On conclut que la concentration est faible, donc il y a une faible disparité des allocations entre
les différentes classes d’allocations. Le calcul de l’indice de GINI donne : IG = 2 × aire de
n
concentration = 1   ( i 1  i ) fi . Pour l’indice de GINI, IG = 1- 0,753 = 0,247 = 24,70%.
i 1

M
Cette valeur est un peu plus élevée que celle obtenue par le rapport , mais cela confirme
E
la faible concentration obtenue précédemment.

Exercices
Exercice 1

L’enquête démographique et de santé Gabon 2000 (EDSG 2000) a donné la distribution des
mères d’enfants de moins de cinq enfants selon le niveau d’instruction :

Niveau d’instruction Aucun Primaire Secondaire ou plus Ensemble

Effectifs des mères 152 1035 1376 2563

Représenter cette distribution à l’aide d’un graphique circulaire.

Exercice 2

La population des quatre régions d’Angoville est donnée par le tableau suivant :

Département Population (en


milliers d’habitants)
I 5150
II 1710
III 420
IV 440
Représenter cette distribution à l’aide d’un graphique circulaire puis commenter.

44
Exercice 3
Etant donné les valeurs suivantes : 12, 4, 3, 8, 7, 2 :

1- calculer la moyenne arithmétique ;


2- calculer la moyenne géométrique ;
3- calculer la moyenne quadratique ;
4- calculer la moyenne harmonique ;
5- comparer les différentes moyennes obtenues.

Exercice 4
Etant donné les cinq valeurs suivantes : [2, 8, 17, 12, 3] dont les coefficients attribués respectifs
sont [2, 3, 1, 3, 2] :

1- calculer la moyenne arithmétique pondérée ;


2- calculer la moyenne géométrique pondérée ;
3- calculer la moyenne quadratique pondérée ;
4- calculer la moyenne harmonique pondérée ;
5- comparer les différentes moyennes obtenues.

Exercice 5
Lors d’un recensement, on a obtenu les résultats partiels suivants :

Nombre d’exploitations agricoles Superficie

6 0 - 5 ha
24 5 - 10 ha
8 10 - 20 ha
2 20 - 50 ha
Quelle est la surface de l’exploitation moyenne (on calculera toutes les moyennes ?

Exercice 6
A partir du tableau ci-dessous,

Département Nombre d’habitants pour une voiture Population département (milliers)


I 5 5.150
II 7,5 1.710
III 7 420
IV 8 440

1. Calculer le nombre de voitures qu’il faut par département.


45
2. Calculer le nombre moyen d’habitants pour une voiture dans l’ensemble de la région
constituée par les quatre départements.

Exercice 7

On achète pour une première fois pour 54600 F de dollars au cours de 600 F, puis pour 27300 F
de dollars au cours de 650 F, puis pour 40950 F de dollars au cours de 700 F.

1. Calculer le cours moyen du dollar sur l’ensemble de ces trois opérations.


2. Quelle est la nature de la moyenne calculée ?

Exercice 8

Un phénomène social a un taux d’accroissement de 6% pendant 3 années consécutives (c'est-à-


dire que si le phénomène en question avait la mesure P à la date 0, il a, à la date 1, la mesure
P. 1,06 et à la date 2, la mesure P.1,06×1,06=(1,06)².P, et ainsi de suite), puis 8% par an
pendant 2 années, puis 5% par an pendant 4 années et enfin 3% par an pendant 2 années.

1. Calculer en fonction de P, la mesure du phénomène observé au bout des 11 années


d’accroissement.
2. Calculer le taux annuel moyen d’accroissement observé pendant les 11 années en
question.

Exercice 9
Un placement à intérêt composé s’est étendu sur 14 ans, aux conditions suivantes :
- pendant 5ans au taux annuel de 7% ;
- pendant les 6 années suivantes au taux annuel de 8% ;
- pendant les 3 dernières années au taux annuel de 6,5%.
Calculer sur l’ensemble des 14 ans le taux annuel moyen de placement.

Exercice 10
Déterminer le mode et la médiane des séries suivantes :
1. {9, 8, 5, 5, 2, 3, 5, 6, 1, 6} ;
2. {10, 8, 11, 12, 4, 5, 6, 7, 4, 6, 8}.

Exercice 11
Etant donné la distribution statistique suivante :

Classes Fréquences

0 à 10 18

46
10 à 20 26
20 à 30 20
30 à 40 36

Total 100

Déterminer trois caractéristiques de valeurs centrales.

Exercice 12
Etant donné la distribution statistique suivante :

Classes Fréquences

0 à 5 8
5 à 10 6
10 à 30 10
30 à 50 6

Total 30

1. tracer l’histogramme et le polygone des fréquences ;


2. calculer la moyenne M puis déterminer le mode M0 et la médiane Me.

Exercice 13
Etant donné la distribution statistique suivante :

Classe Fréquences
Moins de 25 4
25 à moins 35 5
35 à moins 45 8
45 à moins 55 9
55 à moins 65 7
65 à moins 75 6
75 à moins 85 8
85 à moins 95 2
95 et plus 1
Total
1. calculer la moyenne M, le mode M0 et la médiane Me ;
2. vérifier la valeur trouvée pour Me, à partir de la relation empirique entre M, Me et M0.

Exercice 14
Une étude sur le chiffre d’affaires d’une population de petites et moyennes entreprises a permis
d’obtenir les résultats suivants (en million de FCFA) :

47
Minimum 3500
Moyenne 4900
Ecart-type 650
Mode 4550
Médiane 4600
Ecart interquartile 1100
Premier quartile 4100
Premier décile 3700
Ecart inter-décile 2800
Etendue 5000
4 3,012
4

1°) Classer ces paramètres en trois catégories (position, dispersion et forme).


2°) Quel est le chiffre d’affaires le plus grand dans cette population de PME ?
3°) Calculer le troisième quartile et le neuvième décile.
4°) Donner les conclusions que l’on peut tirer de cette série ?

Corrections
Exercice 1

Niveau
d'instruction Effectifs (ni) fi Angles
(des mères)
Aucun 152 0,06 21,6°
Primaire 1035 0,40 144°
Secondaire 0,54 194,4°
ou plus 1376
Ensemble 2563 1 360°

Dans cet échantillon, le niveau secondaire et primaire fait plus de 94% de la population, ce qui reflète
un niveau d’éducation acceptable.

Exercice 2
Département Population % Angles Population d'ANGOVILLE
(en milliers)
I 5150 0,667 240
1
II 1710 0,222 80
2
III 420 0,054 19
3
IV 440 0,057 21 4
Total 7720 1,000 360

Les départements 1 et 2, constituent plus de 88 % de la population d’ANGOVILLE.

48
Exercice 3
N0 xi lnxi 1/xi x²i
1 2 0,693 0,500 4
2 3 1,099 0,333 9
3 4 1,386 0,250 16
4 7 1,946 0,143 49
5 8 2,079 0,125 64
6 12 2,485 0,083 144
Total 36 9,688 1,435 286
36
1. Moyenne arithmétique : M= X =6;
6
2. Moyenne géométrique G :
9, 688
ln G   1, 615  G  e1,615  5, 026
6
3. Moyenne quadratique :
286
Q  47, 667  6,904 .
6
6
4. Moyenne harmonique : H=  4,178
1,435
5. Comparaison des différentes moyennes obtenues :
H = 4,178 < G = 5,026 < M = 6 < Q = 6,904

Exercice 4
xi ni lnxi ni x i ni lnxi ni /xi ni x²i
2 2 0,693 4 1,386 1 8
3 2 1,099 6 2,198 0,667 18
8 3 2,079 24 6,237 0,375 192
12 3 2,485 36 7,455 0,25 432
17 1 2,833 17 2,833 0,059 289
Total 11 87 20,109 2,350 939,000

87
1. moyenne arithmétique pondérée : M= X =  7,909 ;
11
20,109
2. moyenne géométrique pondérée G : lnG =  1,828  G  e1,828  6,222 ;
11
939
3. moyenne quadratique pondérée : Q=  85,364  9,239 ;
11
11
4. moyenne harmonique pondérée : H=  4,681 ;
2,35
5. comparaison des différentes moyennes obtenues :
H = 4,681 < G = 6,222 < M = 7,909 < Q = 9,239.

49
Exercice 5
Ci (hectares) xi ni lnxi Nixi Nilnxi ni/xi nix²i
0à5 2,5 6 0,916 15 5,498 2,4 37,5
5 à 10 7,5 24 2,015 180 48,358 3,2 1350
10 à 20 15 8 2,708 120 21,664 0,533 1800
20 à 50 35 2 3,555 70 7,111 0,057 2450
Total 40 385 82,631 6,190 5637,5

385
moyenne arithmétique : M= X =  9,625 ;
40
40
moyenne harmonique : H=  6,462 ;
6,19
82,631
moyenne géométrique G : lnG=  2,066  G  e 2, 066  7,891 ;
40
5637
moyenne quadratique : Q=  140,938  11,872 .
40
Comparaison des différentes moyennes obtenues :
H = 6,462 < G = 7,891 < M = 9,625 < Q = 11,872

Exercice 6
Département Nombre d’H Population Nombre de voitures
xi mi mi
 ni
xi
I 5 5150 1030
II 7.5 1710 228
III 7 420 60
IV 8 440 55
total 7720 1373

1. Le nombre de voitures qu’il faut par département est donné dans la dernière colonne du
tableau ci-dessus.
7720
2. Le nombre moyen d’habitants par voiture est : X   5, 62 (moyenne harmonique),
1373
qu’on peut arrondir à 6 habitants par voiture.
Exercice 7
xi ni ni
xi
600 54600 91
650 27300 42
700 40950 58.5
Total 122850 191.5

50
122850
La moyenne cherchée est : H   641,514 (il s’agit ici d’une moyenne
191.5
harmonique).
Exercice 8
Xi ni Lnxi ni lnxi
1,06 3 0,058 0,175
1,08 2 0,077 0,154
1,05 4 0,049 0,195
1,03 2 0,030 0,059
Total 11 0,214 0,583

1. On a : P1= (1,06)3P0; P2= (1,08)2P1; P3= (1,05)4P2 ; P4= (1,03)2P3; soit r le taux moyen, on
obtient : P = (1+ r )11P0 = P4 = (1,06)3(1,08)2(1,05)4(1,03)2P0, d’où
11 ln (1+ r )=3 ln (1,06) + 2 ln (1,08) + 4 ln (1,05) + 2 ln (1,03) :
11 ln (1+ r ) = 0,583.
0,583
ln (1  r )   0, 053  1  r  e0,053  1, 0544
11
Le taux annuel moyen est alors r =1,0544 – 1= 0,0544= 5,44 %.
Autre démarche
Le phénomène évolue comme une suite géométrique pendant différentes périodes et si on suppose
que le taux de croissance moyenne est r sur la période étudiée, on aura :
P = (1+ r )11P0 = (1,06)3(1,08)2(1,05)4(1,03)2P0, d’où
11 ln (1+ r )=3 ln(1,06) + 2 ln(1,08) + 4 ln(1,05) + 2 ln(1,03).
Exercice 9
Le placement étant à intérêt composé et si on suppose que le taux de croissance sur la période est r ,
on aura:
(1+ r )14U0 = (1,07)5(1,08)6(1,065)3U0 →(1+ r )14 = (1,07)5(1,08)6(1,065)3 (en passant par le logarithme
ln) on a : 14 ln (1+ r ) = 5 ln (1,07) + 6 ln (1,08) + 3 ln (1,065).
D’où le tableau suivant :
xi ni lnxi nilnxi
1,07 5 0,068 0,338
1,08 6 0,077 0,462
1,065 3 0,063 0,189
Total 14 0,174 0,989

0,989
D’après les calculs on obtient : ln(1  r )   0, 070643  1  r  e0,070643  1, 0732 .
14
Le taux annuel moyen est alors r =1,0732 – 1 = 0,0732 = 7,32 %.

Procédure générale
On calcule : U1= (1,07)5U0; U2= (1,08)6U1; U3= (1,065)3U2 ; donc,
U14 = (1+ r )14U0 = (1,07)5(1,08)6(1,065)3U0, d’où

51
14 ln (1+ r ) =5 ln (1,07) + 6 ln (1,08) + 3 ln (1,065). Tous ces calculs sont résumés dans le tableau
suivant:
xi ni lnxi nilnxi
1,07 5 0,068 0,338
1,08 6 0,077 0,462
1,03 3 0,030 0,089
Total 14 0,174 0,889

0,889
On obtient : ln (1+r) =  0, 0635  1  r  e0,0635 1, 065559. .
14
Le taux annuel moyen est alors r =1,066 – 1= 0,066 = 6,6%.
Exercice 10
55
1. 1,2,3,5,5,5,6,6,8,9 : il y a 10 = 25 observations, donc la médiane est Me   5 et M0 =5
2
(car 5 a l’effectif le plus élevé 3).
2. 4,4,5,6,6,7,8,8,10,11,12 : il y a 11 (=25+1) observations, donc la médiane est la valeur de la
sixième observation, d’où Me = 7. La distribution est bimodale : M0= 6 ou M0 = 8
(correspondant à l’effectif 2).
Exercice 11
Ci xi ni ni xi Ni
0à10 5 18 90 18
10à20 15 26 390 44
20à30 25 20 500 64
30à40 35 36 1260 100
Total 100 2240

a- La classe [30 ; 40[est la classe modale, elle correspond à l’effectif le plus élevé. Une
30  40
estimation du mode est M0 =  35 ;
2
2240
b- la moyenne arithmétique X   22,4 ;
100
20  M e  30 M  20 30  20
c- la médiane Me est telle que :   e   M e  23 .
 44  50  64 50  44 64  44
Exercice 12
Ci xi ni Ni ai ri =ai /5 hi =ni /ri ni xi
0à5 2,5 8 8 5 1 8 20
5 à 10 7,5 6 14 5 1 6 45
10 à 30 20 10 24 20 4 2,5 200
30 à 50 40 6 30 20 4 1,5 240
Total 30 505

52
1-
505
1- La moyenne aruthmétique est X   16,833 .
30
2- La classe [0 ; 5[ est la classe modale, elle correspond à l’effectif corrigé le plus élevé. Une
05
estimation du mode est M0 =  2,5 .
2
3- la médiane Me est telle que :
10  M e  30 M  10 30  10
  e   2  M e  12.
4-  14  15  24 15  14 24  14
La distribution des fréquences est oblique à gauche car M 0  2,5  Me  12  M
Exercice 13
Ci xi ni Ni ni xi
15 - 25 20 4 4 80
25 - 35 30 5 9 150
35 - 45 40 8 17 320
45 - 55 50 9 26 450
55 - 65 60 7 33 420
65 - 75 70 6 39 420
75 - 85 80 8 47 640
85 - 95 90 2 49 180
95 - 105 100 1 50 100
Total 50 2760

2760
1. La moyenne arithmétique est X   55,20 .
50
2. La classe modale est [45 ; 55[. Elle correspond à l’effectif le plus élevé. Une
45  55
estimation du mode est M0 =  50 .
2
La médiane Me est telle que :
45  M e  55 M e  45 55  45 10
     M e  53,89 .
 17  25  26 25  17 26  17 9
3. Pour une distribution modérément asymétrique, on obtient :
M-M0 = 3 ( M - Me)  3Me = 2M+M0
2M  M 2  53, 2  50 160, 4
Me     53, 47 .
3 3 3

53
Comme ces deux valeurs sont proches, on peut donc confirmer que la distribution observée
est modérément oblique à gauche.
Exercice 14
1. Classement des paramètres en quatre catégories :
- Position : moyenne, médiane, mode 1er quartile, 1er décile, minimum.
- Dispersion : écart-type, écart interquartile, écart interdécile, étendue.
4
- Forme : .
4
M
- Concentration : .
E
2. E  xn  x1  5000  xn  5000  x1  5000  3500  8500 millions.
Le plus grand chiffre d’affaires est 8500.
3. Q3  Q1  1100  Q3  1100  Q1  1100  4100  5200 .
Le troisième quartile est Q3 = 5200 millions.
D9  D1  2800  D9  2800  D1  2800  3700  6500 .
Le neuvième décile est D9 = 6500 millions.
1. Conclusion
Etude de la forme
M  4900  M e  4600  M o  4550 , distribution oblique à gauche (étalement vers la droite);
4
2   3  0.012  0, la distribution est presque normale;
4
Etude de la concentation
M  M L  M e  850  M L  850  M e  850  4600  5450 millions
M 850
  0.17  17% (faible concentration).
E 5000
Il y a une faible disparité des chiffres d’affaires entre les différentes classes de chiffres
d’affaires.

54
Partie II Tri croisè (Distribution à deux caractères)

Soient deux caractères X et Y définis sur un même échantillon de taille de taille n extrait
d’une même population. X et Y peuvent être qualitatifs ou quantitatifs ou l’un quantitatif et
l’autre qualitatif.

CHAPITRE IV LA DISTRIBUTION DE DONNEES PONCTUELLES


Il s’agit d’une distribution du type :

IV-1 Tableau statistique de données ponctuelles à deux variables

X X1 X2  Xn

Y Y1 Y2  Yn

Exemple Tableau statistique à deux variables

Le tableau suivant retrace les résultats de l’influence de la température sur la durée


d’incubation des œufs de grenouilles. Pour cela on choisit 6 échantillons de 200 œufs chacun.
Le nombre x d’éclosions au 22ème jour est le suivant :

Température ti d’incubation en d° Celsius 6 6,4 6,8 7,2 7,6 8

Nombre xi d’éclosions à la température ti 131 144 157 170 190 189

Représentation de la serie (ti,xi)


Nombre d'éclosions

200
180
160
140
120
100 Série1
80
60
40
20
0
0 2 4 6 8 10

Température d'incubation en degré celsius

55
Ce tableau définit une série statistique à deux variables, x et t.

On représente cette série en marquant dans un repère orthogonal les points Mi = ( t i , x i ) et


on obtient un nuage de points.

La forme de ce nuage peut parfois conduire à un ajustement linéaire.

On peut aussi associer à cette série deux séries statistiques à une variable.

La série des valeurs prises par le nombre d’éclosions x, a pour moyenne arithmétique x
=163,5 .

La série des valeurs prises par la température t, a pour moyenne t =7

Le point G (7 ; 163,5) est le point moyen du nuage des points M = ( ti , x i ) .

Ainsi pour une série statistique à deux variables quantitatives, l’ensemble des points

Mi = ( ti , x i ) est appelé nuage de points associé à cette série et le point G( t, x ) est le point
moyen du nuage .

LES RELATIONS ENTRE DEUX VARIABLES


Trois relations sont proposées

- l'indépendance ;

- la non – corrélation ;

- la liaison fonctionnelle.

Le fait que l'on puisse calculer les valeurs d'une variable Y à partir de celles observées d'une
autre variable X ne signifie nullement que les valeurs observées, pour X soient la cause des
valeurs observées pour Y.

Ce n'est pas parce que, comme une étude récente l'a montré qu’à ANGOVILLE, les
naissances annuelles sont proportionnelles aux quantités de poissons péchés par an, qu'on
peut conclure que la pêche soit la cause des naissances. Les trois types de liaison évoqués ci
dessus sont obligatoirement liés à la structure mathématique dont sont dotés les ensembles de
modalités des caractères associés à X et Y.

- l'indépendance n'exige aucune structure

- la non corrélation exige qu'une variable au moins soit continue

- la liaison fonctionnelle exige que les deux variables soit continues


LIAISON FONCTIONNELLE
On dit qu'une variable Y est liée fonctionnellement à la variable X, si à chaque modalité xi de
X correspond une seule modalité possible de Y et on écrit : y = f(x). Cette liaison peut être
réciproque.

56
Dans le cas général l'indépendance et la liaison fonctionnelle sont des cas extrêmes que l'on
rencontre rarement dans la réalité. En pratique, on se situera entre ces deux extrêmes et on
dira que les variables présentent une certaine dépendance statistique ou liaison corrélative.

METHODE D'AJUSTEMENT.
Il existe plusieurs méthodes pour trouver cette liaison fonctionnelle, on se limitera ici à la
méthode des moyennes mobiles et à la méthode des moindres carrés

A ) M ETHODE DES MOYENNES MOBILES


Cette méthode est très utilisée dans l'étude des séries chronologiques.

Soit n couples (xi, yi) d'observations où les xi sont rangés par ordre de valeurs croissantes.

On se donne un entier p  2 , appelé paramètre de la méthode, et on forme, à partir des n


couples d'observations, des groupes de p couples de la manière suivante: le premier groupe est
formé par les p premiers couples et chaque groupe à partir du deuxième est formé des (p-1)
derniers couples du groupe précédent et du couple immédiatement suivant. Chaque groupe est
ensuite remplacé par un couple unique dont le premier élément est la médiane des x i du
groupe et dont le second élément est la moyenne arithmétique des yi du groupe.

Cette méthode permet d'obtenir des valeurs corrigées des variations saisonnières.

B ) M ETHODE ANALYTIQUE .
Dans ce qui suit, X est une variable indépendante et Y est une variable dépendante, on

dit aussi que X est la variable explicative (variable exogène) et Y la variable expliquée
(variable endogène). On recherche la fonction f tel que y = f (x) soit l’équation de la courbe
d’estimation de Y en fonction de X.

AJUSTEMENT LINEAIRE PAR LA METHODE DES MOINDRES CARRES


On considère ici une série à deux variables quantitatives X et Y

valeur de X X1 X2 ... ... Xn

Valeur de Y Y1 Y2 ... ... Yn

On se demande s’il existe une dépendance linéaire entre les valeurs prises par X et les valeurs
prises par Y.

Graphiquement, on peut aborder le problème en regardant l’allure du nuage de points,

ce qui peut vous inciter à tracer une courbe qui semble « ajuster » ce nuage.

57
7 12

6 10

5
8
4
6
3 fig 1 fig 2
4
2

1 2

0 0
0 2 4 6 8 0 5 10 15

Pas de dépendance constatée entre X et Y Le nuage a une forme allongée.

Dans le cas de la figure 2, Il semble que l’on peut tracer une droite pour ajuster ce nuage et on
se demande « quelle droite tracer ? »

La méthode des moindres carrés nous apporte une certaine réponse à cette question.

DROITE DE REGRESSION

Principe

La méthode est basée sur le principe qu’il faut réduire au maximum les écarts verticaux entre
les valeurs observées et les valeurs théoriques fournies par la droite.

58
But : minimiser (écart 1 + écart 2 + ....+ écart n), ce qui s’écrit : Min (  des écarts)

Avec, écart1 = y1 - y’1

écart2 = y2 - y’2

Ces différences (écarts peuvent être positives (écart e2), négative (écart e1 ) ou nulle si les
valeurs observées et théoriques sont confondues).

Pour éliminer ce problème de signe et faire en sorte que la sommation de ces écarts ne se
traduise pas par une compensation quand ils sont de signes contraires, on les élève au carré, ce
qui les rend tous positifs.

Nous chercherons donc à minimiser  (des écarts)2. L’expression d’un écart quelconque
peut s’écrire : ei = yi - y’i ; donc la droite la plus représentative est celle pour laquelle la
somme des écarts (ei )² est minimale, d’où le nom de méthodes des moindres carrés
n
Min (  (yi - y’i )2.
i 1

Recherche des paramètres de la droite des moindres carrés.

On démontre et nous admettons que la droite qui minimise les écarts passe par un point

x  
n

 i  x yi  y
i 1
caractéristique, le point moyen de coordonnées x et y et que sa pente a 
x 
n
2
i x
i 1

et son équation y  y  a( x  x)

1 n 1 n ,  
x i
n i 1
x et y   i
n i 1
y o u ˆ
y  ˆ
a x  ˆ avec b  y  a x .
b

Définition

On appelle covariance entre les variables les x et les y notée cov(x, y), le réel défini par

1 n 1 n
cov ( x , y )   ( xi  x )( yi  y )   xi yi  x y
n i 1 n i 1

cov(x, y )
d’où aˆ 
 x2

On appelle coefficient de corrélation défini par la droite de régression de y en x, le réel noté r


et défini par :

59
cov(x, y )   
r  a x 
 x y

 y

Propriétés

1- -1  r  1

x y
2- r=â  â= r.
y x

Utilité pratique de r : Qualité de l’ajustement.

3 3
Si  r  1 ou  1  r   , on dit qu’il y a une forte corrélation entre x et y ,
2 2
l’ajustement linéaire est justifié.

1 1
Si 0  r  ou   r  0 , on dit qu’il y a une faible corrélation entre x et y ,
4 4
l’ajustement linéaire n’ est pas justifié.

- Soient y = ax+b et x = a’x+b’ les droites de régression respectives de Y en X et de X en Y ,

on a : a.a’ = r ²

R² = r²= aa’ est appelé le coefficient de détermination, et r=R est ici le coefficient de
corrélation linéaire simple entre x et y (multiple dans le cas de modèle de régression multiple)
R² mesure la proportion de la variance de y expliquée par la régression de y en x et

(1-R²) mesure la proportion de la variance de y qui n’est pas expliquée par la régression de y
en x.

Exemple
Le tableau suivant donne l’évolution de la moyenne Y, d’un étudiant compte tenu de sa note
de mathématiques durant quatre années d’étude.

X Y x² Y² XY

15 13 225 169 195

11 12 121 144 132

16 14 256 196 224

18 16 324 256 288

total 60 55 926 765 839

60
Calculs de base

60 55 839
X  15; Y   13, 75; Cov ( X , Y )   15 13, 75  3,5;
4 4 4
926
VarX   15²  6,5;  X  6,5  2,55
4
765
VarY   (13, 75)²  2,19 ;  Y 2,19  1, 48
4

Coefficient de corrélation entre X et Y

Cov( X , Y ) 3,5 3,5


r=    0,93 , il y a une forte corrélation entre X et Y donc un
 X Y 2,55 1, 48 3, 774
ajustement linéaire est fondé.

Les coefficients de la droite de régression

 Cov( X , Y ) 3,5  
La pente : a    0,54 et b  Y  aX  13,75  0,54 15  5,65
VarX 6,5

D’où l’équation cherchée : y = 0,54x + 6,65.

Exemple : On s’intéresse à la liaison pouvant existée entre la moyenne générale (y / 20) et la


note de Statistique (x / 20) des étudiants de la 1ère année de géographie. On relève 10 couples
de données consignées dans le tableau suivant :

Tableau 1 moyenne générale y et moyenne x en Statistique


x Y
12 11
16 12
14 13
15 11
10 10
16 13
14 12
15 13
10 12
9 10

Tracer le nuage de points puis commenter

Calculer le coefficient de corrélation empirique simple et tester sa signification par rapport à 0


au seuil α = 5%.

61
IV-2 Tableau de contingence en fréquences (relatives ou absolues)
Lorsqu’on étudie simultanément, sur une population P deux variables, il est commode de
représenter les résultats sous forme de tableau à double entrée appelé tableau de contingence
(en effectifs on en fréquences). Soient X= (X1, X2,…., Xr ) et Y= (Y1, Y2,…., Ys ) deux
caractères étudiés sur un même échantillons de taille N.

Exemple Quatre vingt dix enfants d’un échantillon atteints de l’asthme et eczéma sont répartis
de la manière suivante

Tableau 2 : Tableau d’effectifs d’une série statistiques à deux caractères

Asthme fort moyen. léger Total


eczéma (ni.= ai)
présent 3 9 7 19
passé 7 6 13 26
jamais 10 15 20 45
Total (n.j = bj) 20 30 40 90

Ici N = 90

Il y a par exemple 9 personnes souffrant d’asthme moyen parmi le groupe des présents. Les
marges de ce tableau sont les totaux. Avec les notations données ci-contre on a évidemment
ici :

n1.= 19 ; n2. = 26 et a3 = n3. =45

n.1 = 20, n.2 = 30 et b3 = n.3 = 40

Exemple : Tableau de contingence en fréquences (relatives)

Asthme fort moyen. léger Total


(ni.)
eczéma

présent 0,033 0,1 0,078 0,211

passé 0,078 0,067 0,144 0,289

jamais 0,111 0,167 0,222 0,5

Total (n.j) 0,222 0,334 0,444 1

19
La fréquence marginale des présents  0,211  21,11%)
90

62
Autre exemple
A l’oral du second tour du bac 2005, 200 candidats ont été interrogé. Chaque candidat est
interrogé sur deux matières, les mathématiques (X) et le français (Y) et obtient respectivement
les notes x et y par matière (note/20). Les résultats sont donnés dans le tableau suivant :

Tableau 4

Mathématiques 8-12 12-14 14-16 Total

Français (ni.)

8-10 20 12 8 40

10-12 40 28 12 80

12-15 10 50 20 80

Total (n.j) 70 90 40 200

DISTRIBUTIONS MARGINALES ET CONDITIONNELLES


D’après le tableau d’effectifs du cas général, on obtient :

Loi marginale de X. est la colonne à droite du tableau

Centre de classes X1 X2 …… X i ……. Xr

Fréquences absolues a 1 a2 …… a i ………. a r

Loi marginale de Y est la ligne en bas du tableau

Centre de classes Y1 Y2 …… Yj ……. Ys

Fréquences absolues b1 b2 …… bj ………. bs

Loi conditionnelle de la variable X si Y= yj est la colonne yj.

Centre de classes X1 X2 …… X i ……. Xr

Fréquences absolues n 1j n 2j. …… n ij ………. n rj.

Loi conditionnelle de la variable Y si X = xi est la ligne xi.

Centre de classes Y1 Y2 …… Yi ……. Ys

Fréquences absolues n i1 ni2 …… nij. ………. n is

nij
Fréquences relatives: On définit f ij 
N
(fréquence du couple (xi ,yj ) avec  f
i j
ij 1

63
Les fréquences marginales de xi et de yj sont respectivement :

ai bj
fi 
N
et f . j 
N
avec f
i
i.   f .j 1.
j

nij
Fréquences conditionnelles de la modalité yj liée par la modalité xi est f yj  ;
xi ai

nij
Fréquences conditionnelles de la modalité xi liée par la modalité yj est f xi  ;
yj bj

Les relations entre caractéristiques marginales et caractéristiques conditionnelles

L’Indépendance
Soient X et Y des variables statistiques définies sur une population Ω. On dit que Y est
indépendant de X si, pour toute modalité observée xi de X la distribution en fréquence de la
variable conditionnée Y x =x i , est égale à la distribution en fréquence de la variable marginale
Y. Autrement dit: quels que soient i = 1,…,r et j = 1,…, s : la fréquence f ij (Y = yj / X = xi )
= fij (Y = yj)

Propriété très importante : Si Y est indépendante de X, alors quels que soient i=1,…, r et
j=1,…, s : X et Y sont indépendantes si et seulement si: f ij= fi  fj.

Cette propriété caractéristique de l'indépendance est très importante, car elle permet, à partir
des distributions marginales en fréquences des variables X et Y, de reconstituer le tableau de
contingence en effectif que l'on doit obtenir si l'on fait l'hypothèse que les variables X et Y
sont indépendantes. Ce tableau reconstitué est appelé tableau de contingence théorique en
effectif. Soit tij, l'effectif théorique lorsque l'hypothèse d'indépendance est réalisée, quels que
t ij n. j  ni. n. j  ni.. ai  b j
soient i=1,..,r et j=1,…,s :   t ij   .
N NN N N

ai  b j
Les effectifs tij sont appelés effectifs théoriques : tij  .
N

TEST DU KHI-DEUX :
Pour mesurer la "distance " qui sépare le tableau théorique du tableau observé, on utilise
r s (nij  t ij )²
l'indicateur noté  c2   et appelé "Khi-deux".
i 1 j 1 t ij

64
 c2 = 0 si et seulement si X et Y sont indépendants.

L’indépendance des caractères X et Y conduit à formuler l’hypothèse H 0 :

« Les caractères X et Y sont indépendants ».

Sous l’hypothèse ( H 0 ), on compare les distributions d’effectifs observés et théoriques. La

variable aléatoire  2 est une variable de Pearson à v  ( L  1)(C  1) degré de liberté (ddl)

(L= nombre de lignes et C = nombre de colonnes du tableau de contingence).

Pour v degrés de liberté, la table de ² donne le nombre  02 tel que Pr(c2   02 ( ) )=  et

on conclut ainsi :

Si  c ²   02 ( ) , on refuse l’hypothèse (Ho) au seuil de signification  , donc les


caractères X et Y ne sont pas indépendants.

Si  c ²   02 ( ) , on ne peut refuser l’hypothèse (Ho) au seuil de signification , donc les

caractères X et Y sont indépendants .

Exemple Deux cents enfants d’un échantillon atteints d’asthme et d’eczéma sont répartis de la
manière suivante :

Tableau 2 : Tableau de contingence en effectifs (les valeurs observées sont en gras)

Asthme
Fort Moyen Léger Total
Eczéma
25 5 5 35
Présent 12,775 15,575 6,65
30 30 10 70
Passé 25,55 31,15 13,3
18 54 23 95
Jamais 34,675 42,275 18,05

Total 73 89 38 200

65
 25  12, 775   5  15,575   5  6, 65   30  25,55  30  31,15  10 13,3 
2 2 2 2 2 2

 
2
c      
12, 775 15,575 6, 65 25,55 31,15 13,3
18  34, 675  54  42, 275   23  18, 05 
2 2 2

 
34, 675 42, 275 18, 05
 11, 699  7,180  0, 409  0, 775  0, 042  0,819  8, 019  3, 252  1,357
 c2  33,552
v   3  1 3  1  4 degrés de liberté
 5%
2
 4   9, 49 (lu sur la table du  ²)
Soit H0 : l’asthme et l’eczéma sont indépendants ; comme  c2  33,552 >  52% 4  9,49 , on
conclut la dépendance de ces deux maladies et on rejette l’hypothèse H0.

Exercice 1

On considère la répartition des chefs d’exploitation par âge et par taille de S.A.U. (surface
agricole utile) donnée par le tableau suivant : X : « âge », Y : « surface » en hectares.

Y [0 ; 10[ [10 ; 30[ [30 ; 50[ [50 ; 100[ Total


X
[15 ; 25[ 10 12 9 11
[25 ; 35[ 20 14 16 30
[35 ; 45[ 40 18 33 59
[45 ; 55[ 80 60 70 150
[55 ; 65[ 120 70 80 120
Total

1. Combien y-a-t-il de chefs d’exploitation ayant moins de 55 ans et dont l’exploitation fait
plus de 30 hectares de S.A.U. ?
2. Reproduire le tableau en le complétant avec les effectifs marginaux.
3. Donner les lois marginales de X et de Y.
4. Calculer les moyennes et les écarts types de X et de Y.
5. Calculer la covariance entre X et Y, déduire le coefficient de corrélation puis
l’interpréter.
Exercice 2

Le tableau suivant donne la distribution des notes de 200 étudiants à l’épreuve de


mathématiques (Y) suivant leur établissement (X) d’origine :

66
Y [6,
[0, 6[ [10, 14[ [14, 20[ Total
X 10[
Établissement 1 52 12 8 2 74
Établissement 2 24 18 6 2 50
Établissement 3 2 8 10 12 32
Établissement 5 20 16 6 2 44
Total 98 54 30 18 200
1. Donner la loi de X et celle de Y.
2. Calculer la moyenne et la variance de Y.
3. Les variables X et Y sont-elles indépendantes ?

Exercice 3

Les 1000 femmes d’un échantillon sont réparties selon leur niveau d’éducation (NED) et leur
appartenance à une catégorie socio-économique (CSE) de la manière suivante :

NED / CSE aisée modeste Total


Primaire 70 266 336
Secondaire 180 286 466
Supérieur 154 44 198
Total 404 596 1000
Les deux caractères « niveau d’éducation » et « catégorie socio-économique » sont-ils
indépendants ?

Exercice 4

Le chef de service d’une grande surface dispose des données ci-dessous. Pour différents
produits le temps Y (Temps mis en mn et 1/10 de mn) mis par un employé à installer les
rayons en fonction du nombre X d’articles rangés est donné dans le tableau suivant :

Produit n°i X Y
1 10 2
2 20 5
3 40 5.5
4 50 6.2
5 70 7.9
6 100 10.2
7 120 13
8 150 15.4
Total 560 65.2
On donne les résultats suivants :  xi2  56400;  yi2  670,3 ; x y
i i  6093 .

67
1. Ecrire l’équation de droite régression de Y en X puis tracer cette droite sur le même
graphique que le couple (Xi, Yi).
2. Calculer le coefficient de détermination R2 de la régression.
3. En voyant ce graphique, une donnée, la seconde, semble anormale ; elle correspond à une
présentation publicitaire qui a nécessité un temps plus important :

a- Calculer les estimations â1 ; b̂ des paramètres a et b du modèle Yt = aXt + b,


après l’exclusion du point aberrant ;

b- calculer le nouveau coefficient de détermination ;


c- Que peut-on en conclure ?
d- Quelle est l’équation à utiliser pour faire de bonnes estimations ?
Exercice 5

Soit le modèle : Ct = a Rt + b + Ut ; t = 1…n, où Ct, Rt désignent respectivement la


consommation et le revenu disponible (en milliers de francs) à la période t ; a et b sont les
paramètres inconnus du modèle ; les Ut sont les variables aléatoires indépendantes, suivant
chacune une loi normale de moyenne zéro et d’écart type σ. Sachant que R = 1590,80 ; C =
1429,52 ; Cov (R, C) = 271738,5 ; σ2 (C) = 245581,5 et σ2 (R) = 314098, déterminer :

1. la qualité de l’ajustement linéaire associé à cet échantillon puis conclure ;


2. la droite de régression C en R ;
3. pour un revenu disponible de 500.000F, quelle serait la part consacrée à la
consommation ?
Exercice 6

Une entreprise met à la disposition de ces représentants du matériel publicitaire X :


échantillons gratuits, menus cadeaux, matériels de PLV (publicité sur le lieu de vente) et
désire connaître l’efficacité de cette action sur les chiffres d’affaire Y. Pour chaque
représentant d’un échantillon, elle relève (en millions de francs), pour une année donnée : On
donne les resultats suivants:
15
X  70, 20 Y  654, 20  ( x  x )²  8.606, 40
i 1
i

15 15

 ( yi  y )²  454.592, 40
i 1
 ( x  x )( y  y )  55.199, 40
i 1
i i

1) Calculer le coefficient de corrélation linéaire puis testez le au seuil de 5%, quelle


conclusion tirez de l’efficacité de la PLV ?
2) Déterminer l’équation de la droite de régression de Y en X.

68
3) Pour 100.000.000f de dépense publicitaire, quel sera le chiffre d’affaire espéré ?

Exercice 7

Le chef de service d’une grande surface dispose des données ci-dessous. Pour différents
produits le temps Y (Temps mis en mn et 1/10 de mn) mis par un employé à installer les
rayons en fonction du nombre X d’articles rangés est donné dans le tableau suivant :

10 10 10 10 10
On donne les résultats suivants :  xi  560  y i 65, 2  xi2  56400;  yi2  670,3 ; x y i i  6093 .
i 1 i 1 i 1 i 1 i 1

Ecrire l’équation de droite régression de Y en X .

1) Calculer le coefficient de détermination R2 de la régression de Y en X. Que peut-on en


conclure ?
2) Quel est le temps mis pour ranger 1000 articles?
Corrigé
Exercice 1
1. Il y a 378 (= 208+370-200) chefs d’exploitation ayant moins de 55ans et dont
l’exploitation fait plus de 30 ha.
2. Tableau de contingence en effectif.
Y [0 ; 10[ [10 ; 30[ [30 ; 50[ [50 ; 100[ Total
X
[15 ; 25[ 10 12 9 11 42
[25 ; 35[ 20 14 16 30 80
[35 ; 45[ 40 18 33 59 150
[45 ; 55[ 80 60 70 150 360
[55 ; 65[ 120 70 80 120 390
Total 270 174 208 370 1022

3. La distribution marginale de X et le calcul de la moyenne et de la variance :


X 15  25 25  35 35  45 45  55 55  65 Total
ni 42 80 150 360 390 1022
xi 20 30 40 50 60
ni xi 840 2400 6000 18000 23400 50640
ni xi2 16800 72000 240000 900000 1404000 2632800

La moyenne des âges est : X  49.54  50 ans.


La variance et l’écart-type sont respectivement :
V  X   2576.125   49.54   121.913 et  X  121,913  11.
2

4. La distribution marginale de Y et le calcul de la moyenne et de la variance:

69
Y 0  10 10  30 30  50 50  100 Total
5 20 40 75
ni 270 174 208 370 1022
ni y i 1350 3480 8320 27750 40000
ni yi2 6750 69600 332800 2081250 2490400

La moyenne La moyenne des aires cultivées est Y  40,02 ha.


La variance de Y est V Y   2436, 791   40.02   835, 225  Y  29, 90
2
et l'écart-type est

5. Calcul de la covariance entre Y et X

5 20 40 75 Total
Y
X
20 1000 4800 7200 16500 29500
30 3000 8400 19200 67500 98100
40 8000 14400 52800 177000 252200
50 20000 60000 140000 562500 782500
60 36000 84000 192000 540000 852000
Total 2014300

La covariance entre X et Y est :


2014300
Cov  X , Y    40  49,50  1970,939  1981, 6  10.66
10200
Le coefficient de corrélation entre X et Y est :
Cov  X , Y  10, 661 10, 661
r    0, 032  3, 23% .
 X Y 11  29.90 330
Le coefficient de corrélation r étant très faible on peut conclure que les variables (X et Y) sont
indépendantes.

Exercice 2
Soient E1, E2, E3 et E4 les établissements numéros 1, 2, 3et 4 respectivement.
Profil en ligne de cette distribution :

0-6 6-10 10-14 14-16 Total

E1
70,3% 16,2% 10,8% 2,7% 100,0%
E2
48% 36% 12% 4% 100%
E2
6% 25% 31% 38% 100%
E4
45% 36% 14% 5% 100%

70
Loi marginale de Y 49% 27% 15% 9% 100%

Profil en colonne de cette distribution

1.
X 0-6 6-10 10-14 14-16 Loi marginale de X
Y
E1 53% 22% 27% 11% 37%
E2 24% 33% 20% 11% 25%
E2 2% 15% 33% 67% 16%
E4 20% 30% 20% 11% 22%
Total 100% 100% 100% 100% 100%

Loi marginale de X
X Fi(%)
E1
37
E2
25
E2
16
E4
22
Total 100%

Loi marginale de Y
X 0-6 6-10 10-14 14-16 Total

fi (%) 49 27 15 9 100

Calcul de la moyenne et de la variance de Y


Y 0-6 6-10 10-14 14-16 Total

fi (%) 49 27 15 9 100
xi 3 8 12 15

xifi 147 216 180 135 678


x²i fi 441 1728 2160 2025 6354

678
La moyenne des notes est M = 100 = 6,78.
6354
La variance des notes est V(Y) = 100 − 6,78² = 17,57.
Question : les variables (X et Y) sont-elles indépendantes ?
Soit l’hypothèse : Ho: <<X et Y sont indépendants>>.

71
ai  b j
t ij 
Sous l’hypothèse H0, déterminons les effectifs théoriques (tij) : N

0-6 6-10 10-14 14-20 Total

E1 36,26 19,98 11,1 6,66 74


E1 24,5 13,5 7,5 4,5 50
E1 15,68 8,64 4,8 2,88 32
E1 21,56 11,88 6,6 3,96 44
Total 98 54 30 18 200
Calcul du khi-deux
r s (n  t )²
 c2  
ij ij

i 1 j 1 t ij
6,83 3,19 0,87 3,26 Total
0,01 1,50 0,30 1,39
11,94 0,05 5,63 28,88
0,11 1,43 0,05 0,97
18,89 6,16 6,85 34,50 66,41

Le nombre de degrés de liberté est v = (4-1) (4-1) = 9


5% 2  9   16,92 (lu sur latable du  2 )
Comme  c 2  66, 41  5% 2  9  , alors l’hypothèse Ho est rejetée. En conséquence ces deux
caractères sont dépendants.

Exercice 3
Soit l’hypothèse H0 : « le niveau d’éducation et la catégorie socio-économique sont deux
caractères indépendants »
Tableau de contingence en effectifs observés et en effectifs théoriques

Aisée Modeste Total

Primaire 70 266 336


135,744 200,256
Secondaire 180 286 466
188,264 277,736
Supérieur 154 44 198
79,992 118,008
Total 404 596 1000

Calcul du « Khi-Deux »
 70  135, 744   266  200, 256   44  118, 008 
2 2 2

c 
2
  
135, 744 200, 256 118, 008
 c  31,841  21,584  0,363  0, 246  68, 472  46, 414
2

 c 2  168,92.

72
Le nombre de degré de liberté est v = (2-1) (3-1) = 2
 5% 2 2  5,99 .
Ho : <<le niveau d’éducation >>et <<catégorie socio-économique>> sont deux
caractères indépendants.
Comme  c 2  168,92  5% 2  2  , alors l’hypothèse Ho est rejetée. En conséquence ces deux
caractères sont dépendants.

Exercice 4
1. Equation de la droite de régression de Y en X.
Calcul des moyennes de X et de Y.
560 65, 2
X   70 et Y   8,15 .
8 8
2. Calcul des coefficients de la droite de régression de Y en X.
Cov  X , Y  6093  8  70  8,15 6093  4565 1529
aˆ      0, 089
Var  X  56400  8  702 17200 17200
bˆ  y  ax
ˆ  8,15  0,089  70  1,92.
D’où la droite de régression y  0,089 x  1,92.
3. Calcul du coefficient de determination R²
56400
X   702  2150  46,368
8
670,3
Y    8,15   17,365  4,167
2

8
191,125
r  0,989
193, 215
2
 1529 
 
R2  
8  36576,5625
  0,9797 et 1  R 2  0, 0203  2, 03% .
2150 37334, 75
4. Après l’élimination du couple (20,5), on obtient une nouvelle base de données :
Calcul des moyennes de X et de Y.
 xi  540,  xi2  56000,  yi  60, 2,  xi yi  59,93
y 2
i  645,3, x  77,143, y  8, 6
Calcul des coefficients de la droite de régression de Y en X.
Var  X 1   2048,96   X1  45, 265
645,3
Var Y1     8, 6   92,186  73,96  18, 226   Y1  4, 269.
2

7
5993
Cov  X , Y    77.143*8.6  856.143  663.4298  192, 713.
7
192, 713
aˆ1   0, 094, bˆ1  8, 6  0, 094  77,143  1,349 .
2048,96
45, 265 4, 25491
r1  0, 094    0,997
4, 269 4, 266
r1  0,997 et R12  0,993 et 1  R12  0,007  0,7%.

73
Le second modèle est meilleur que le premier pour faire les prévisions car son coefficient de
détermination (99,3%) est plus élevé que dans le premier modèle (97,8%) qui a un point
aberrant.

Exercice 5

Le coefficient de corrélation linéaire est défini par :


cov  R, C  271738,5 271738,5
r    0,9784
 R . C 314098. 245581,5 277734, 75
r  0,9784 .
Les écarts-types respectifs sont:  R  560, 444 et  C  495,562
R 2  0,957 , il est proche de un, l’ajustement linéaire est donc fondé.
La qualité de l’ajustement est de (1-r2) = 0,043 donc 4,3% de la variance de C est expliqué par
les résidus (variables omises).
Détermination des coefficients de la droite de régression :
c  aR ˆ  bˆ , avec
cov  R, C  271738,5
aˆ    0,865 et bˆ  c  aR
ˆ  1429,52  0,865*1590,80  53, 478 ;
var R 314098
l'équation de la droite de régression est : cˆ  0,865  R  53, 478 .

Pour un revenu de 500.000F, on prend comme valeur de R= 500, d’où


C = 0,865  500 +53,478 = 485,978.
485.978 F sont donc consacrés à la consommation pour un revenu de 500.000F.

Exercice 6

1. Equation de la droite de régression de Y en X.


Calcul des coefficients de la droite de régression de Y en X.
15

Cov  X , Y  
( x  x )( y  y )
i i
55199, 40
aˆ   i 1
  6, 414
Var  X  15

 ( x  x )²
8606, 40
i
i 1

bˆ  y  ax
ˆ  654, 20  6, 4148,15  70, 20  203,954.
D’où la droite de régression y  6,614 x  203,954.
Calcul du coefficient de determination R²
15

 ( x  x )²
i
8606, 40
X  i 1
  573, 76  23,95
15 15
15

 ( y  y )²
i
454.592, 40
Y  i 1
  30306,16  174, 09
15 15
aˆ 6, 414  23,95
r x   0,88 , il y a une forte correlation entre x et y l’ajustement linéaire
y 174, 09
est fondé.

74
R²  (0,88)²  0,78 et 1  R 2  0, 22  22% .
Pour 100.000.000F, x=100 et y  6, 414 100  654, 20  1295, 6 .
Pour 100.000.000F de dépense publitaire, le chiffre d’affaire éspéré sera de 1.295.600.000F

Bibliographie sélective
1) ANDERSON, SWEENEY, WILLIAMS, Statistiques pour l’économie et gestion,
Paris, Nouveaux Horizons/De Boeck, 2006
2) BOURSIN J.L., DURU G., Statistique Cours- Méthodes- Exercices, Paris, Vuibert,
1995.
3) CHAUVAT G., REAU J.-P., Statistiques descriptives, Exercices et corrigés, Paris,
Armand Colin, 1996.
4) GRAIS B. Méthodes statistiques, Paris, Dunod, 1998 (3e édition).
5) GAULTIER M., Statistique100 exercices corrigés avec résumés de cours, Paris,
Vuibert, 1997.
6) MASIERI W., Statistique et calcul des probabilités,Paris, Sirey, 1996 (7e édition).
7) REAU J.-P., CHAUVAT G., Probabilités & Statistiques Résumé des cours
exercices et problèmes corrigés QCM, Paris, Armand Colin, 1988,1999.

75

Vous aimerez peut-être aussi