Introduction à la Statistique Descriptive
Introduction à la Statistique Descriptive
Descriptive
1 Introduction et Terminologie
1 / 212
Introduction
Historique
L’histoire de la "statistique" remonte à une époque très ancienne. Les activités
statistiques (dénombrements) ont commencé bien avant la création du mot, l’application
de la méthode et de l’analyse statistique.
Depuis l’antiquité, les Empereurs réalisaient des dénombrements de populations
humaines et de terres pour les besoins de la guerre et de l’impôt.
Il y a plus de 4000 ou 5000 ans, il existait déjà en Chine des descriptions chiffrées
de la population et de l’agriculture.
Les Égyptiens de l’époque des Pharaons procédaient au dénombrement de la
population.
A Rome, l’empereur Auguste fit procéder à une vaste enquête en dénombrant les
soldats, les navires et les revenus publics.
Population
Individus
Exemple
On veut étudier la croissance économique de 200 petites et moyennes entreprises (PME)
au Maroc.
• Population : Les entreprises au Maroc.
• Échantillon : Les 200 PME au Maroc.
• Individu : Chaque PME au Maroc.
Remarque
On va réserver les dernières lettres de l’alphabet pour noter les variables : X, Y, Z, U...
Dans une population donnée, un caractère peut varier d’un individu à l’autre. On dit que
ce caractère présente différentes modalités.
Exemple
1 Si l’on étudie la population des étudiants d’un amphithéâtre et que le caractère
étudié est l’âge, les modalités du caractère seront 18 ans, 19 ans, 20 ans, etc.
2 Si l’on étudie une population de voitures et que le caractère étudié est la couleur,
les modalités du caractère seront des couleurs : bleu, vert, blanc, etc.
Remarque
On emploie également le terme de variable statistique pour désigner un caractère, les
modalités du caractère étant les valeurs prises par cette variable.
Exemple
Le sexe, la profession, la situation familiale sont quelques exemples de variables
qualitatives.
Les modalités d’une variable qualitative peuvent être classées sur deux types d’échelle :
nominale ou ordinale.
Exemple
Nationalité : marocaine, allemande, française.
Groupe sanguin : A, B, O, AB.
Exemple
Niveau d’étude : primaire, secondaire, supérieur.
État mécanique d’une Voiture : mauvais, moyen, bon, excellent.
Introduction et Terminologie 11 / 212
Terminologie
Défintion : (Variable quantitative)
Une variable statistique est dite de nature quantitative si ses modalités sont mesurables.
Les modalités d’une variable quantitative sont des nombres liés à l’unité choisie, qui doit
toujours être précisée.
Il existe deux types de variables quantitatives : les variables discrètes et les variables
continues
Définition : (Variable quantitative discrète)
L’ensemble des valeurs possibles (modalités) est dénombrable. Lorsque les modalités
sont des valeurs numériques isolées, comme le nombre d’enfants par ménage, on parle de
variable discrète
Exemple :
Âge, salaire, nombre de lit dans un hôpital, nombre d’étudiants par classe.
Introduction et Terminologie 12 / 212
Terminologie
Exemple
Poids, taux du sucre, taille, taux du sel.
Remarque
Les modalités d’un caractère doivent être :
Incompatibles : Chaque individu a une seule modalité.
Exhaustives : Tous les cas sont prévus.
Exemple 1 :
Soit 100 ménages distribués selon leur revenu mensuel en DHS. On définit des classes
d’amplitudes égales à 1 500 DH.
Exemple 2 :
Supposons que l’on regroupe les données de l’exemple 1 en classes d’amplitudes inégales
([0, 1500[; [1500, 4500[, [4500, 6000[).
Il faut dans ce cas effectuer une correction pour tenir compte des différences d’amplitude.
Il convient en fait de diviser l’effectif de chaque classe par l’amplitude correspondant et
le multipliant par la plus petite ampliture ar . On obtient ainsi l’effectif corrigé (ni0 ).
ar × ni
Classe de revenu Amplitude de classe ai ni fi ni0 =
ai
[0, 1500[ 1500 20 0,2 20
[1500, 4500[ 3000 70 0,7 35
[4500, 6000[ 1500 10 0,1 10
Pour les différents indicateurs statistiques, on utilise pour les calculs les centres des
classes comme l’indique le tableau ci-dessous :
Quand aux graphiques, on va ici privilégier trois graphiques pour les variables
quantitatives continues.
• L’histogramme, qui est une suite de rectangles juxtaposés les uns aux autres dressés
au-dessus de chacune des classes, dont la largeur est égale à l’amplitude de la classe
(prise comme unité de mesure) et dont la surface reflète la fréquence de la classe qu’il
représente.
Exemple :
On a pris un échantillon de 50 achats de boissons non-alcoolisées achetées dans une
grande surface, en notant par : CC=Coca-Cola ; S=Sprite ; CL=Coca-Light ; P=Poms ;
PC=Pepsi-Cola. On a obtenu les résultats suivants :
CC − S − PC − CL − CC − CC − PC − CL − CC − CL − CC − CC − CC − CL − PC − CC −
CC − P − P − S − CC − CL − PC − CL − PC − CC − PC − PC − CC − PC − CC − CC −
PC −P −PC −PC −S −CC −CC −CC −S −P −CL−P −PC −CC −PC −S −CC −CL.
Introduction
On appelle Caractères de position , des valeurs de la variable susceptibles de nous
donner une idée sur la série statistique. On va décrire dans ce paragraphe, les quatres
plus importantes mesures de position que sont :
Le mode
la moyenne
la médiane
Les quantiles
Remarque
Le mode est une importante mesure de tendance centrale pour les variables
qualitatives nominales.
Une distribution peut avoir un seul mode et on dit qu’elle est uni-modale, ou
plusieurs modes et on dit qu’elle est multimodale.
Alors, le mode de cette variable est Mod = Coca − Cola (CC ), cela signifie que dans cet
échantillon, la boisson la plus fréquemment achetée est Coca-Cola.
Caractères de position et de dispersion 44 / 212
Le Mode
X Effectifs ni
[10; 15[ 5
[15; 20[ 3
[20; 25[ 11
[25; 30[ 6
Ici, on a la valeur 11 qui représente le plus grand effectif donc on a [20; 25[ est la classe
modale et le mode :
d1 (11 − 3)
Mod = xiinf + A = 20 + 5 ≈ 23.
d1 + d2 (11 − 3) + (11 − 6)
Avec xiinf = Borne inférieure de la classe modale associée à le plus grand effectif corrigé .
A = Amplitude de la classe modale associée à le plus grand effectif corrigé,
h1 = ni0 − ni−1
0 et h2 = ni0 − ni+1
0 .
X Effectifs ni ai ni0
[10; 15[ 5 5 5
[15; 30[ 3 15 1
[30; 35[ 11 5 11
[35; 45[ 6 10 3
Ici, on a la valeur 11 qui représente le plus grand effectif corrigé donc on a [30; 35[ est la
classe modale et le mode :
h1 (11 − 1)
Mod = xiinf + A = 30 + 5 ≈ 32, 77.
h1 + h2 (11 − 1) + (11 − 3)
1) Moyenne Arithmétique
La moyenne arithmétique ou simplement la moyenne est la mesure de tendance
centrale la plus connue. Elle ne s’applique qu’aux variables quantitatives. On va décrire
la méthode pour calculer la moyenne d’une variable quantitative selon que les données
sont en vrac, groupées par valeurs ou groupées par classes.
Note 5 7 10 11 13 15 16 19
Effectif 1 6 7 4 6 7 1 3
La moyenne de la classe est :
1 × 5 + 6 × 7 + 7 × 10 + 4 × 11 + 6 × 13 + 7 × 15 + 1 × 16 + 3 × 19
x= ≈ 11, 9
35
Chaque note est comptée autant de fois qu’elle apparaît dans les copies des étudiants.
L’effectif de la note est aussi appelé poids ou coefficient.
Exemple
On donne la répartition des familles selon le nombre d’enfants en 1999 :
Nombre d’enfant 0 1 2 3 4
Fréquence 0,47 0,22 0,2 0,08 0,03
le nombre moyen d’enfant par famille en 1999 était de :
x = 0, 47 × 0 + 0, 22 × 1 + 0, 20 × 2 + 0, 08 × 3 + 0, 03 × 4 ≈ 0, 98
Caractères de position et de dispersion 55 / 212
Les Moyennes
Exemple :
Soit X , le nombre d’heures qu’un étudiant travaille à temps partiel par semaine.
Supposons qu’à partir d’un échantillon d’étudiants, on a pu trouver qu’en moyenne le
nombre d’heures travaillées par ces étudiants est égale à 14, 5 heures/semaine. Si le
salaire horaire est de 20 DH et que les patrons de ces étudiants leur offrent 300 DH par
semaine pour leurs déplacements, quel est le gain net moyen hebdomadaire de ces
étudiants ? Posons Y , le gain net hebdomadaire de ces étudiants alors Y = 20X + 300 ,
donc le gain moyen hebdomadaire de cet échantillon d’étudiants est égal à
ȳ = 20 × 14, 5 + 300 = 590 DH.
Caractères de position et de dispersion 58 / 212
Les Moyennes
Moyenne géométrique
n o
On appelle moyenne géométrique de la distribution (xi , ni )16i6k que l’on note G, la
racine nième du produit des x nii
q q
Πki=1 xini = x1n1 × x2n2 × ... × xknk
n n
G=
k
X
où n = ni .
i=1
C’est plus pratique d’utiliser le logarithme
1
h
nk n
i 1 h i
n1 n2
log(G) = log x1 × x2 × .....xk = log x1n1 × x2n2 × .....xknk
n
k k
1X 1
log(xini ) =
X
= ni log(xi )
n i=1 n i=1
Exemple(cas discret)
Les prix de l’immobilier ancien ont augmenté ces 10 dernières années de la façon
suivante :
Année 1 2 3 4 5 6
Variation anuelle 19 8 7 10 28 18 90
log(xi ) 0 0,3 0,47 0,6 0,7 0,78
ni log(xi ) 0 2,4 3,29 6 19,6 14,04 45,33
la moyenne géométrique de la classe est :
n n
1X 1X 45, 33
log(G) = log(xini ) = ni log(xi ) = = 0, 50
n i=1 n i=1 90
Donc G = exp(0, 50) = 1, 648
Exemple(cas continue)
la moyenne géométrique de cet échantillon est :
n n
1X ni 1X 59, 17
log(G) = log(ci ) = ni log(ci ) = = 0, 5917 Donc
n i=1 n i=1 100
G = exp(0, 5921) = 1, 80.
n 1
H= k
= k
,
X 1 X fi
ni
i=1
xi i=1
xi
k
X
où n = ni .
i=1
On utilise la moyenne harmonique lorsqu’on veut déterminer un rapport moyen dans des
domaines où il existe des liens de proportionnalité inverse par exemple pour une distance
donné, le temps de trajet est d’autant plus court que la vitesse est élevée.
Caractères de position et de dispersion 64 / 212
Les Moyennes
Exemple(cas discret)
Une petite usine abrite 2 machines. La première machine a produit 500 pièces à la
vitesse de 100 pièces par heure. Une seconde machine a produit 300 pièces à la vitesse
de 60 pièces par heure. Calculer la vitesse moyenne (exprimée en nombre de pièces par
heure) de production dans l’usine. Vitesse moyenne = nombre total de pièces
produites/nombre d’heures de production. La première machine a produit 500 pièces en
(500/100) heures (5 heures) La seconde machine a produit 300 pièces en (300/60)
heures (5 heures). La vitesse moyenne est donc donnée par :
n 800
H= k = = 80 pièces par heure
X 1 500 300
ni +
x 100 60
i=1 i
Exemple(cas discret)
On donne la série de notes obtenues par les étudiants de ENCG BM dans un contrôle de
statistique :
xi 5 7 10 11 13 15 16 19
ni 1 6 7 4 6 7 1 3 35
ni
0,2 0,85 0,7 0,36 0,46 0,46 0,06 0,15 3,41
xi
n 35
la moyenne harmonique de la classe est : H = k
= = 10, 26
X 1 3, 41
ni
i=1
xi
n 40
la moyenne harmonique de la classe est : H = Pk 1
= = 204, 08
i=1 ni ci
0, 196
Caractères de position et de dispersion 67 / 212
Les Moyennes
Remarque
Un inconvénient de la moyenne arithmétique est qu’elle est très sensible aux valeurs
extrêmes de la série.
La moyenne géométrique est peu sensible aux valeurs extrêmes de la série.
En ce qui concerne la moyenne harmonique, elle est plus sensible aux plus petites
valeurs de la série qu’aux plus grandes.
Définition
La médiane est la valeur de la variable qui divise l’échantillon en deux groupes d’égal
effectif. Il y a 50% des données qui sont inférieures ou égales à la médiane et 50% des
données qui sont supérieures ou égales à la médiane. La médiane se calcule pour des
variables qualitatives ordinales et pour des variables quantitatives. On note la médiane
d’une variable X par Med(X ). Dans ce qui suit on va décrire les façons de calculer une
médiane dans les différents cas possibles.
3 − 4 − 4 − 5 − 7 − 9 − 11 − 13 − 15 − 16 − 18.
2 − 5 − 7 − 8 − 8 − 12 − 12 − 15 − 15 − 16.
(0, 5 − Fm−1 )
Med(X ) = binf + Am .
fm
Avec
• binf est la borne inférieure de la classe médiane.
• Fm−1 est la fréquence cumulée avant la classe médiane.
• fm est la la fréquence de la classe médiane.
• Am est l’amplitude de la classe médiane.
Alors ici, la classe médiane est Cm = [280, 370[, binf = 280, Fm−1 = 0, 475, fm = 0, 15 et
Am = 90, ce qui donne une médiane égale à :
Caractères de position et de dispersion 75 / 212
La Médiane
Exemple
Considérons la distribution des notes par classe suivante :
Notes [0; 5[ [ 5 ; 10 [ [ 10 ; 15 [ [ 15 ; 20 [
Effectif 4 17 7 2
Fréquence en % 13 57 23 7
F.c.c. 13 70 93 100
F.c.d. 100 87 30 7
Remarque
Le calcul de la médiane est basé sur l’ordre des observations et non sur leur valeur.
Contrairement à la moyenne, la médiane est insensible aux données extrêmes. Dans le
cas ou les données sont très différentes, la médiane est une meilleure mesure de
tendance centrale.
A) Les Quartiles
Définition
Dans une série statistique de type quantitatif, le premier quartile Q1 = Q25% et le
troisième quartile Q3 = Q75% sont avec la médiane Med = Q2 = Q50% les trois valeurs
du caractère qui séparent la population en quatre groupes de mêmes effectifs.
La médiane sépare la série des valeurs ordonnées en deux parties d’effectifs égaux.
Le premier quartile est la médiane de la première partie Q1 = Q25% .
Le troisième quartile est la médiane de la seconde partie Q3 = Q75% .
Caractères de position et de dispersion 80 / 212
Les Quantiles
Autrement dit :
Le premier quartile est la plus petite valeur Q1 = Q25% telle qu’au moins de quart
des données sont inférieure ou égale à Q25% .
Le troisième quartile est la plus petite valeur Q3 = Q75% telle qu’au moins trois
quart des données sont inférieures ou égales à Q75% .
Définition
Les éléments ci-dessus permettent de définir une représentation particulière d’une série
statistique appelée Boîte de Tuckey ou plus simplement boîte à moustaches.
2 − 5 − 7 − 8 − 8 − 12 − 12 − 15 − 15 − 16.
Exemple
On donne la série de notes obtenues par des étudiants de Section B ENCG dans un contrôle de
statistique :
4 − 4 − 4 − 4 − 5 − 5 − 5 − 5 − 6 − 6 − 6 − 7 − 7 − 7 − 7 − 7 − 8 − 8 − 9 − 9 − 13 − 13 − 14 −
14 − 14 − 15 − 15 − 15 − 15 − 16 − 16 − 16 − 17 − 17 − 17.
Notes 4 5 6 7 8 9 13 14 15 16 17
Effectifs 4 4 3 5 2 2 2 3 4 3 3
Ecc 4 8 11 16 18 20 22 25 29 32 35
Proposition
Le calcul des fréquences cumulées croissantes permet aussi d’obtenir les quartiles.
Exemple
Voici les notes des étudiants de Section A ENCG
Classes [ 2; 4 [ [ 4; 6 [ [ 6; 8 [ [ 8 ; 10 [ [10 ; 12 [ [12 ; 14 [ [14 ; 16 [ [16 ; 18 [
Centres 3 5 7 9 11 13 15 17
Effectifs 5 8 2 4 5 8 5 3
Fr 0,125 0,20 0,05 0,10 0,12 0,2 0,13 0,075
Fc 0,125 0,325 0,375 0,475 0,60 0,80 0,925 1
Exemple
En reprenant les données où X donne la recette quotidienne d’un petit magasin, on
retrouve le tableau des fréquences suivant :
Remarque
Utilité des quartiles, en plus de leur utilisation comme mesures de position, s’utilisent
pour détecter des données aberrantes dans toute série de données. Cette détection se
fait à l’aide d’un graphique en boîte (Box-plot) ou bien boîte à moustache.
Remarque
Les Déciles se calculent de manière similaire à la médiane.
Ainsi pour des données regroupées on a :
Dα
Dα (α − Fm−1 )
Dα = binf + Am .
fmDα
0, 1 − 0 0, 4 − 0, 2
• D1 = 10 + 90 = 82. D4 = 190 + 90 = 255, 45 et
0, 125 0, 275
0, 7 − 0, 625
D7 = 370 + 90 = 394, 54.
0, 275
Caractères de position et de dispersion 91 / 212
Caractères de Dispersion
Définition
Les indices de tendance centrale définissent le comportement général des données. Mais
les données peuvent varier beaucoup autour de cette tendance. On doit donc définir un
indice qui caractérise la variabilité des données dans l’échantillon. Cet indice est appelé
indice de dispersion parce qu’il renseigne sur la dispersion ou l’éparpillement des données
autour notamment des paramètres de tendance centrale.
Nous étudierons quatre paramètres de dispersion parmi les principaux, en mettant plus
particulièrement l’accent sur la variance et l’écart-type :
1 L’étendue et le rapport de variation
2 L’intervalle interquartile
3 La variance et l’écart-type
4 Le coefficient de variation
Exemple
Les notes d’élèves de deux classes au même examen ont donné les résultats suivants :
Classe 1 9 11 12 13 7 5 11 9 13 12 14 17 8
Classe 2 7 8 10 17 16 13 19 8 14 11 15 3 11 15
Classe 1 Classe 2
Minimum 5 3
Maximum 17 19
Etendu 12 16
Rapport de Variation 3,4 6,3
Le rapport de variation nous apprend que dans la classe 1 la meilleure note est 3,4 fois
plus élevée que la note la plus faible. Ce rapport est plus important dans la classe 2 pour
laquelle il est 6,3.
Caractères de position et de dispersion 94 / 212
Caractères de Dispersion
Écart inter-quartile
L’écart inter-quartile d’une série statistique de type quantitatif est la différence entre
le troisième quartile et le premier quartile du caractère étudié.
La variance
La variance d’une variable mesurée sur un échantillon est égale à la moyenne des carrés
des écarts qui séparent chaque observation de la moyenne, son calcul diffère selon la
nature des données.
On va distinguer deux cas :
1) Cas des données brute non groupées :
Soit X une variable quantitative mesurée sur un échantillon de taille n, et dont les
valeurs sont xi avec 1 6 i 6 n, alors la variance de l’échantillon est
n n
1X 2 1 X
Vx = xi − x̄ = xi2 − x̄ 2 .
n i=1 n i=1
Remarque
• La variance corrigée de X est définie par :
n
Vx∗ = Vx .
n−1
Pour des raisons techniques, on préfère dans la suite de calculer la variance corrigée Vx∗ .
L’écart type
L’écart type est la racine carrée de la variance :
p
σx = Vx .
n
r
σx∗ = σx
n−1
Si l’écart-type est faible, cela signifie que les valeurs sont assez concentrées autour de la
moyenne et si l’écart-type est élevé, cela veut dire au contraire que les valeurs sont plus
dispersées autour de la moyenne.
Coefficient de variation
Tous les indicateurs de dispersion que nous avons vu jusqu’à présent dépendent des
unités de mesure de la variable. Ils ne permettent pas de comparer des dispersions de
distributions statistiques. Le coefficient de variation, qui est un nombre sans dimension,
permet cette comparaison lorsque les valeurs de la variable sont positives. Il s’écrit
σx
CV =
x̄
Si CV < 0, 5 alors la dispersion n’est pas importante et on dit que la variable est
homogène.
Si CV > 0, 5 alors la dispersion est importante et on dit que la variable est hétérogène.
Introduction
• On s’intéresse maintenant à l’étude simultanée de deux variables, notées X et Y ,
observées sur le même échantillon (le même ensemble d’individus).
• L’objectif essentiel des méthodes présentées dans cette partie est de mettre en
évidence une éventuelle variation simultanée des deux variables, que nous appellerons
alors liaison. C’est en effet l’un des objectifs fondamentaux de la statistique que de
mettre en évidence des liaisons entre variables, ces liaisons exprimant certaines relations
entre les phénomènes représentés par ces variables. Par exemple, dans un groupe
d’hommes adultes, on peut penser qu’il existe une liaison entre la taille et le poids.
Remarques :
• Les deux variables observées peuvent être aussi bien quantitatives que qualitatives.
• Dans le cas d’une variable quantitative, on pourra faire des calculs d’indicateurs
(moyenne, écart-type, etc.) en fonction des modalités de l’autre variable.
Exemples
• Au près des étudiants pris au hasard parmi deux groupes G1 et G3 , on observe les
notes de macroéconomie X et de statistique Y .
• Une entreprise mène une étude sur la liaison entre les dépenses mensuelles en publicité
X et le volume des ventes Y qu’elle réalise.
• On suppose qu’on souhaite étudier la relation entre le sexe (Féminin, Masculin) et le
statut d’activité (Inactif, actif) de 20 personnes.
• On s’intéresse à une éventuelle relation entre la variable X (Salaire mensuel) et Y (La
profession).
Les séries statistiques à deux variables peuvent être présentées de deux façons.
Présentation 1 :
On suppose que, suite à une étude faite, on s’intéresse à deux caractères sur une
population donnée. À chaque individu de cette population, on associe donc un couple
(xi , yi ) de nombres réels où la variable xi est la valeur de la première variable pour
l’individu considéré et où la variable yi est la valeur de la seconde variable.
L’ensemble de ces couples forme une série statistique à deux variables ou encore série
statistique double.
Les résultats peuvent être résumés dans un tableau :
Présentation 2 :
Cette présentation d’une série à deux variables peut être sous forme d’un tableau de
contingence, qui peut être défini comme :
1 Un tableau à double entrée ou à deux dimensions.
2 Un tableau avec deux variables X et Y , tel que les n modalités de X sont désignées
par x1 , x2 , ..., xi , ..., xk et les m modalités de Y sont désignées par y1 , ..., yj , ..., ym .
3 Un tableau avec k lignes et m colonnes comme illustré dans le tableau ci-dessous,
tel que n et m sont les nombres de modalités de la variable X et de la variable Y
respectivement.
Tableau de contingence :
X \Y d1 ou y1 ··· dj ou yj ··· dm ou ym Total=ni• ou fi•
c1 ou x1 n11 ou f11 ··· n1j ou f1j ··· n1m ou f1m n1• ou f1•
.. .. .. .. .. .. ..
. . . . . . .
ci ou xi ni1 ou fi1 ··· nij ou fij ··· nim ou fim ni• ou fi•
.. .. .. .. .. .. ..
. . . . . . .
ck ou xk nk1 ou fk1 ··· nkj ou fkj ··· nkm ou fkm nk• ou fk•
Total=n•j ou f•j n•1 ou f•1 ··· n•j ou f•j ··· n•m ou f•m N ou 1
Tableau de contingence :
Avec dm = [lm , lm+1 [ et ck = [hk , hk+1 [ sont les classes des variables statistiques Y et X
respectivement dans le cas continue.
Nous notons par fij la fréquence du coulpe (xi , yi ). Cette fréquence est donnée par :
k X m
nij X
fij = , avec N = nij .
N i=1 j=1
Distributions Marginales :
Sur la marge du tableau de contingence, on peut extraire les données seulement par
rapport à X et seulement par rapport à Y .
Effectifs marginaux et fréquences marginales par rapport à Y : nous avons, pour
j = 1, ..., m
k k
X n•j X
n•j = nij , et f•j = = fij .
i=1
N i=1
Distribution Marginale de X :
On présente la distribution marginale de X comme suite :
X ni• ou fi•
c1 ou x1 n1• ou f1•
.. ..
. .
ci ou xi ni• ou fi•
.. ..
. .
ck ou xk nk• ou fk•
Distribution Marginale de Y :
On présente la distribution marginale de Y comme suite :
Y d1 ou y1 ··· dj ou yj ··· dm ou ym
Total=n•j ou f•j n•1 ou f•1 ··· n•j ou f•j ··· n•m ou f•m
Proposition :
k
X m
X k
X m
X
ni• = n•j = N, et fi• = f•j = 1.
i=1 j=1 i=1 j=1
X Effectifs=ni•
Homme n1• = 80
Femme n2• = 120
• Disctribution Marginale de Y
X Effectifs=ni•
Homme n1• = 30
Femme n2• = 20
•Distribution Marginale de Y
Salaire 6000 7400 7500 8200 8207 8900 9100 9900 9950 10750
Age 15 26 20 43 47 37 52 34 50 44
Solution :
En utilisant les hypothèses, nous considérons les classes suivantes,
Pour l’âge : [15, 25[; [25, 35[; [45, 55[.
Pour le salaire (×1000) : [6, 7[; [7, 8[; [8, 9[; [9, 10[; [10, 11[.
Pour les classes nous avons :
xmax − xmin 52 − 15
Nombre de classe (âge) = = = 3, 7 ≈ 4 classes.
Aâge 10
Solution :
Age\Salaire × 1000 [6, 7[ [7, 8[ [8, 9[ [9, 10[ [10, 11[ ni• fi•
[15, 25[ 1 1 0 0 0 2 0,2
[25, 35[ 0 1 0 1 0 2 0,2
[35, 45[ 0 0 2 0 1 3 0,3
[45, 55[ 0 0 1 2 0 3 0,3
n•j 1 2 3 3 1 10 1
f•j 0,1 0,2 0,3 0,3 0,1 1
n12 1 n21 0 n45 0
De ce fait nous avons f12 = = = 0, 1, f21 = = = 0, f45 = = =
N 10 N 10 N 10
n33 2
0, et f33 = = = 0, 2.
N 10
Solution :
Enfin, les deux distributions marginales de X et de Y sont donnés, respectivement, par
Solution :
Y =Salaire×1000 n•j f•j dj le centre
[6, 7[ 1 0,1 6,5
[7, 8[ 2 0,2 7,5
[8, 9[ 3 0,3 8,5
[9, 10[ 3 0,3 9,5
[10, 11[ 1 0,1 10,5
Et
m m
1 X X
ȳ = n•j yj = f•j yj , Moyenne marginale de Y .
N j=1 j=1
Exemple
Nous calculons x̄ et ȳ pour l’Exercice C) traité précédemment. Nous avons la moyenne
marginale d’âge
1
x̄ = 40 + 60 + 120 + 150 = 37 ans.
10
Et la moyenne marginale du salaire
1
ȳ = 6, 5 + 15 + 25, 5 + 28, 5 + 10, 5 × 1000 = 8600 DH.
10
Et
m m
1 X
Var (y ) = y¯2 − (ȳ )2 , avec y¯2 =
X
n•j yj2 = f•j yj2 .
N j=1 j=1
Exemple
Nous calculons Var (x ) et Var (y ) pour l’Exercice C) traité précédemment.
4
X
Var (x ) = fi• ci2 −(x̄ )2 = 0, 2×202 +0, 2×302 +0, 3×402 +0, 3×502 −(37)2 = 121
i=1
p √
Et σ(x ) = Var (x ) = 121 = 11.
5
X h
Var (y ) = f•j di2 − (ȳ )2 = 0, 1 × (6, 5)2 + 0, 2 × (7, 5)2 + 0, 3 × (8, 5)2 + 0, 3 ×
j=1
i
(9, 5) + 0, 1 × (10, 5)2 − (8, 6)2 × 1000 = 1290
2
p √
Et σ(y ) = Var (y ) = 1290 = 35, 92.
X /yj yj
x1 n1j
.. ..
. .
xi nij
.. ..
. .
xk nkj
k
fi/j (xi − x¯j )2 = x¯j2 − (x¯j )2 .
X
Var (Xj ) =
i=1
Covariance
On appelle Covariance de la série statistique double de variables X et Y le nombre réel :
k X m k X m
1 X 1 X
Cov (x , y ) = σxy = xy − x̄ ȳ = nij xi yj − x̄ ȳ = nij (xi − x̄ )(yj − ȳ ).
N i=1 j=1 N i=1 j=1
Remarque
• La covariance est un paramètre qui donne la variabilité de X par rapport à Y .
• La covariance est une notion qui généralise la variance, En effet,
Cov (x , x ) = σx2 = V (x ).
• Dans le cas où nous avons un tableau des données brutes "représentation 1" (nous
n’avons pas d’effectifs), nous avons les formules suivantes :
n n n
1 X 1 X 1 X
x̄ = xi , ȳ = yj , et xy = xi yi .
N i=1 N j=1 N i=1
Exemple :
Si on consulte le tableau de contingence de l’Exemple C), on peut conclure que les
deux variables X et Y ne sont pas indépendantes car l’égalité N × nij = ni• × n•j n’est
pas vérifiée pour i = 1 et j = 2 c-à-d (10 × 0 6= 2 × 1.)
Statistique à deux Variables 145 / 212
Représentation graphique - Nuage de points
Définition 1
Si à chaque individu de la population on associe le point Ai de coordonnées (xi , yi ) dans
un même repère, l’ensemble des points obtenus est appelé le nuage de points associé à
cette série statistique.
Définition 2
En notant x̄ et ȳ les moyennes respectives des séries X et Y , le point G de coordonnées
(x̄ , ȳ ) est appelé point moyen du nuage.
Exemple D)
L’étude du coût de maintenance annuel d’une installation de chauffage dans un
immeuble de bureaux, en fonction de l’âge de l’installation, a donné les résultats
suivants :
Age xi (années) 1 2 3 4 5 6
Coût yi (kDH) 7,55 9,24 10,74 12,84 15,66 18,45
Proposition
La droite de régression notée D(y /x ) de Y en X à pour équation y = ax + b. Avec
Cov (x , y )
a= et b = ȳ − ax̄
V (x )
.
Ou bien la droite de régression notée D(x /y ) de X en Y à pour équation x = a0 y + b 0 .
Avec
Cov (x , y )
a0 = et b 0 = x̄ − a0 ȳ
V (y )
.
Exemple
Pour calculer la droite de régression de l’Exemple D), nous cherchons :
1+2+3+4+5+6
x̄ = = 3, 5,
6
7, 55 + 9, 24 + 10, 74 + 12, 84 + 15, 66 + 18, 45
ȳ = = 12, 42,
6
12 + 22 + 32 + 42 + 52 + 62
x¯2 = = 15, 17,
6
(7, 55)2 + (9, 24)2 + (10, 74)2 + (12, 84)2 + (15, 66)2 + (18, 45)2
y¯2 = = 168, 04,
6
Var (x ) = x¯2 −x̄ 2 = 15, 17−12, 25 = 2, 92, Var (y ) = y¯2 −ȳ 2 = 168, 04−154, 26 = 13, 78.
y = 2, 17x + 4, 83.
Statistique à deux Variables 154 / 212
Statistique à deux variables :
Proposition
Le coefficient de corrélation est compris entre [−1, 1] ou encore |ρxy | 6 1.
Remarque
Le coefficient ρxy mesure le degré de liaison linéaire entre X et Y .
1 Plus le module de ρxy est proche de 1 plus X et Y sont liées linéairement.
2 Plus le module de ρxy est proche de 0 plus il y a l’absence de liaison linéaire entre
X et Y .
3 Le coefficient de corrélation ρxy permet de justifier le fait de l’ajustement linéaire.
On adopte les critères numériques suivants :
(a) Si |ρxy | < 0, 7 alors l’ajustement linéaire est refusé (droite refusée).
(b) Si |ρxy | > 0, 7 alors l’ajustement linéaire est accepté (droite acceptée).
Exemple
La droite de réegression de l’exemple précédent a pour équation y = 2, 17x + 4, 83.
En utilisant ce modèle estimer le coût de maintenance pour une installation de 7 ans, de
8 ans, puis de 10 ans.
Avant de répondre à cette question, on doit vérifier est ce que l’ajustement linéaire est
accepté ou pas.
Déterminons Le coefficient de corrélation ρxy :
Cov (x , y ) 6, 30
ρxy = =√ √ = 0, 99 > 0, 7.
σx σy 2, 15 13, 78
Remarque
Dans la suite, on supposera que les valeurs observées sont positives. Plus les fréquences
cumulées des masses s’éloigneront des fréquences cumulées des effectifs, plus la
distribution sera inégalitaire.
Remarque
La diagonale du carré représente la courbe de concentration d’une distribution qui serait
parfaitement égalitaire (y =x) : 10% des effectifs représentent 10% de la masse 20% des
effectifs représentent 20% de la masse etc.
Remarques
Plus la courbe de concentration est éloignée de la diagonale du carré qui représente la
distribution égalitaire, plus la distribution est inégalitaire.
La surface comprise entre la diagonale du carré et la courbe de concentration est
appelée surface de concentration. Quand la distribution est égalitaire, la courbe de
concentration est confondue avec la diagonale du carré.
Une distribution B plus inégalitaire qu’une distribution A aura une surface de
concentration plus élevée que celle de A.
On mesure alors l’inégalité au moyen de la surface de concentration à partir de laquelle
on définit le coefficient de Gini.
Exemple
On étudie les salaires de 50 employés d’une entreprise.
xi ci ni fi Fi ni ci gi Gi
[600; 1200[ 900 15 0,3 0,3 13500 0.191 0,191
[1200; 1800[ 1500 25 0,5 0.8 37500 0,532 0,723
[1800; 2100[ 1950 10 0,2 1 19500 0,277 1
Totale X 50 1 X 70500 1 X
Exemple
Exemple
Droite rouge = répartition parfaitement équitable.
Plus la courbe de Lorentz est éloignée de la droite rouge et plus la concentration est
forte (répartition de moins en moins équitable).
la surface orange (la surface comprise entre la diagonale OB et la courbe OMB) est
la surface de concentration.
Indice de Gini
On se sert du coefficient ou indice de Gini pour comparer des distributions inégales :
revenus, répartition des impôts etc. L’indicateur de concentration (noté IG ), appelé
coefficient de concentration ou indice de Gini est défini par :
Surf de concentration
IG = ∈ [0, 1]
Surf Demi-carré
Pour la distribution la plus égalitaire, la surface de concentration est nulle. Cela
correspond à IG = 0.
Pour la distribution la plus inégalitaire, la surface de concentration est égale à la surface
du demi-carré. Cela correspond à IG = 1.
Le coefficient de Gini est donc compris entre 0 et 1. Plus la distribution est inégalitaire
plus le coefficient se rapproche de 1 ; plus elle est égalitaire plus il est proche de 0.
S
IG = ∈ [0, 1]
Surf Demi-carré
1×1 1
• On a Surf Demi-carré est ègale à 2 = 2
donc
IG = 2S
IGini = 2S = 0, 14
Donc
3
X (Fi − Fi−1 ) × (Gi + Gi−1 )
S(OABM) =
i=1
2
3
X
IGini = 2( 12 − S(OABM)) = 1 − (Fi − Fi−1 ) × (Gi + Gi−1 )
i=1
Les caractéristiques de concentration et de forme 170 / 212
1-Les caractéristiques de concentration
Définition
Les caractéristiques de forme permettent de préciser l’allure de la courbe des fréquences
sans avoir besoin de la tracer. On repère généralement deux mesures de la forme d’une
série : celle de l’asymétrie a pour objet de nous renseigner sur la façon régulière ou non
dont les observations se répartissent de part et d’autre d’une valeur centrale. Celle de
l’aplatissement a pour objet de faire apparaître si une faible variation de la variable
entraîne ou non une forte variation des fréquences relatives.
Définition
Une courbe non symétrique est dite omlique : l’obliquité se repère du côté de la
croissance la plus forte de la courbe des fréquences
Coefficient d’asymétrie
Une distribution statistique est symétrique si les observations repérées par leurs
fréquences sont également dispersées de part et d’autre d’une valeur centrale. On utilise
un certain nombre de coefficients, c’est-à-dire de nombres sans dimension permettant les
comparaisons, pour mesurer l’asymétrie. Ces coefficients ne sont généralement valables
que si la distribution contient un nombre assez élevé d’observations, et qu’elle ne
présente pas plusieurs modes.
1. Le coefficient de Pearson
Un premier coefficient mesure l’écart relatif du mode et de la moyenne à un indicateur
de dispersion. Si nous retenons l’écart type, nous obtenons le premier coefficient de
Pearson :
moyenne - mode x̄ − Mod
D1 = =
écart type σx
D1 est un nombre sans dimension.
•D1 = 0 la courbe est symétrique par rapport au mode
•D1 > 0 la courbe est étalée à droite
•D1 < 0 la courbe est étalée à gauche.
1. Le coefficient de Pearson
Le second coefficient de Pearson (D2 ) estime l’asymétrie par le rapport de l’écart entre
la moyenne et la médiane à l’écart type.
2. Le coefficient de Yule
Le statisticien britannique Yule propose une mesure de l’asymétrie en comparant
l’étalement vers la gauche et l’étalement vers la droite, tous deux repérés par la position
des quartiles (Q1 , Me, Q3 ).
Q3 + Q1 − 2Me
S=
Q3 − Q1
Si S = 0 ↔ symétrie (quartiles équidistants)
Si S > 0 ↔ oblique à gauche (étalement vers la droite)
Si S < 0 ↔ oblique à droite (étalement vers la gauche)
3. Le coefficient de Fisher
Sir Ronald Fisher, biologiste-statisticien britannique, propose, une vingtaine d’années
plus tard, le coefficient suivant
k
µ3 1X
γ1 = avec µ 3 = ni (xi − x̄ )3
σx3 n i=1
Si γ3 = 0 ↔ symétrie
Si γ3 > 0 ↔ oblique à gauche
Si γ3 < 0 ↔ oblique à droite
avec Q1 = 1, Q2 = Med = 2 et Q3 = 4.
On a par ailleurs déterminé que la taille moyenne des 1500 ménages était égale à 2.67 et
que la variance des tailles des ménages s’élevait à 2.27.
Le diagramme en bâtons et la boîte à moustaches mettent clairement en évidence une
asymétrie gauche de la Distribution. Mesurons à présent la force de cette asymétrie à
l’aide des trois coefficients d’asymétrie que nous avons étudiés.
Remarque :
Comme nous pouvions nous y attendre au vu de l’asymétrie gauche, les trois coefficients
d’asymétrie sont positifs. Il ne faut pas s’étonner qu’ils n’aient pas la même valeur,
puisqu’ils ne mesurent pas l’asymétrie de la même façon.
Définition
On considère qu’une courbe des fréquences est plus ou moins aplatie, par référence à la
courbe des fréquences de la Loi Normale (loi de Gauss-Laplace). Une distribution est
dite aplatie si une faible variation de la variable entraine une forte variation de la
fréquence relative fi (et inversement).
En grec :« Platos » se traduit par « large »,« Leptos » se traduit par « mince » et «
Kurtosis » se traduit par « bosse »
1. Coefficient aplatissement de Pearson
k
µ4 1X
β2 = avec µ 4 = ni (xi − x̄ )4
σx4 n i=1
• β2 est d’autant plus proche de 1 que la courbe est platicurtique.
• β2 est égale à 3 pour une distribution mezzocurtique (normale).
• β2 est supérieur à 3 et d’autant plus grand que la courbe est leptocurtique.
Exercice
Reprenant l’Exercice E) et calculons le Coefficient d’aplatissemnt de Pearson et de
Fisher,
Taille de ménage xj Effectif nj xj − x̄ (xj − x̄ )4 nj (xj − x̄ )4
1 380 -1,67 -7,77 -2955,626
2 455 -0,67 -0,21 -91,687
3 245 0,33 0,01185 2,905
4 230 1,33 3,129 719,67
5 100 2,33 29,472 2947,29
6 75 3,33 122,963 9222,22
7 10 4,33 351,52 3515,21
8 5 5,33 807,065 4035,327
Total 1500 17395,31
Exercice
Le moment centré d’ordre 4 vaut : µ4 = 17395,31
1500 = 11, 60. √
L’écart-type est égal à la racine carrée de la variance, soit σx = 2, 27 = 1, 5067.
Le coefficient d’aplatissement de Pearson est donc égal à
µ4 11, 60
β2 = 4
= = 2, 25.
σx (1, 5067)4
γ2 = β2 − 3 = 2, 25 − 3 = −0, 75.
2014 2015
Production 524 540
Indice 100 103
L’année de référence est 2014 et l’on compare la production de 2015 à celle de 2014. On
donne la valeur 100 à l’indice pour l’année de référence. La valeur 103 pour l’indice de
2015 est obtenue en faisant le rapport production en 2015 / production en 2014, soit
540/524, et en le multipliant par 100. Que nous dit cet indice ? Que la production des
Tomates a augmenté de 3% de 2014 à 2014.
V1
I1,0 = × 100
V0
Il est appelé indice élémentaire : c’est l’indice relatif à la variable V entre la situation
courante et la situation de base.
Remarque
On voit ainsi que si les prix ne changent pas entre 0 et t (c’est-à-dire si pti = p0i ),l’indice
synthétique de LASPEYRES des prix demeure égal à 100.
Période 0 Période t
Produit 1 p01 = 10 q01 = 4 pt1 = 14 qt1 = 8
Produit 2 p02 = 6 q02 = 12 pt2 = 5 qt2 = 9
Dans notre exemple, le prix du bien 1 a augmenté (de 10 à 14) et le prix du bien 2 a
baissé. L’indice, qui synthétise ces deux variations contraires, nous permet de conclure à
une « inflation », c’est-à-dire une augmentation du niveau général des prix égale à
3, 57%.
Dans notre exemple, le prix du bien 1 a augmenté (de 10 à 14) et le prix du bien 2 a
baissé. L’indice, qui synthétise ces deux variations contraires, nous permet de conclure à
une « inflation », c’est-à-dire une augmentation du niveau général des prix égale à
17,6(contre 3, 57% quand on utilise la formule de LASPEYRES).