Vocabulaire de la Statistique Descriptive
Vocabulaire de la Statistique Descriptive
Définition:
La statistique descriptive: est un ensemble de méthodes permettent de décrire
et d’analyser de façon quantifiée, des phénomènes observés.
Variable ou caractère : ce qui est observé ou mesuré sur les individus d’une
population.
On suppose que la variable prend toujours une seule valeur sur chaque unité.
Les variables sont désignées par simplicité par une lettre (X, Y, Z).
Une variable statistique ou aléatoire est notée par une lettre majuscule X, Y ,
et les valeurs ou les modalités qu’elle prend par des lettres minuscules x1 ,
x2 ,..., y1 , y2 ,...
x1 = M , x2 = M , x3 = D, x4 = C, x5 = C, . . . ., x20 = M .
Vocabulaire de la statistique descriptive 11
1 1 1 1 1 2 2 2 2 2
2 2 2 2 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 4
4 4 4 4 4 4 4 4 4 5
5 5 5 5 5 6 6 6 8 8
Donner le tableau statistique: Calculer les fréquences relatives, les effectifs
cumulés et les fréquences cumulées.
Vocabulaire de la statistique descriptive 13
xj nj Nj fj Fj
1 5 5 0.10 0.10
2 9 14 0.18 0.28
3 15 29 0.30 0.58
4 10 39 0.20 0.78
5 6 45 0.12 0.90
6 3 48 0.06 0.96
8 2 50 0.04 1.00
Total 50 1.0
Vocabulaire de la statistique descriptive 14
Une variable quantitative continue peut prendre une infinité de valeurs
possibles. Le domaine de la variable est alors R ou un intervalle de R. En
pratique, une mesure est limitée en précision. La taille peut être mesurée en
cm ou en mm. On peut alors traiter les variables continues comme des
variables discrètes. Cependant, pour faire des représentations graphiques et
construire le tableau statistique, il faut procéder à des regroupements en
classes. Le tableau regroupé en classe est souvent appelé distribution groupée.
− +
cj , cj designe la classe j, on note:
• c−
j : la borne inférieure de la classe j.
• c+
j : la borne supérieure de la classe j.
c− +
j +cj
• cj = 2 : le centre de la classe j.
−
• aj = c+
j − cj : l’amplitude de la classe j.
Les classes peuvent être d’égale amplitude ou non; on choisit, soit le nombre de
classes, soit l’amplitude des classes.
En général, le nombre de classes est compris entre 5 et 20; il dépend du nombre
n d’observations et de l’étalement des données.
Exemple:
On mesure la taille en centimetres de 50 élèves d’une classe:
152 152 152 153 153
154 154 154 155 155
156 156 156 156 156
157 157 157 158 158
159 159 160 160 160
161 160 160 161 162
162 162 163 164 164
164 164 165 166 167
168 168 168 169 169
170 171 171 171 171
Vocabulaire de la statistique descriptive 17
Le tableau statistique:
− +
cj , cj nj Nj fj Fj
[151.5; 155.5[ 10 10 0.20 0.20
[155.5; 159.5[ 12 22 0.24 0.44
[159.5; 163.5[ 11 33 0.22 0.66
[163.5; 167.5[ 7 40 0.14 0.80
[167.5; 171.5[ 10 50 0.20 1.00
Total 50 1.00
Les représentations graphiques 18
Variables discrètes:
Soient x1 , x2 , ...,xp les valeurs possibles d’une variable quantitative discrète X,
et n1 , n2 , ...,np les effectifs correspondants.
Diagramme en batôns:
Est constitué par les segments qui relient le point (xi , 0) au point (xi , ni ) pour
i = 1, ..., p.
On peut remplacer les effectifs ni par les fréquences fi en (%).
Variables continues:
Polygone de fréquences:
Il permet de représenter sous forme de courbe, la distribution des fréquences
absolues ou relatives. Il est obtenu en joignant, par des segments de droite, les
milieux des côtés supérieurs de chaque rectangle de l’histogramme. Pour
fermer ce polygone, on ajoute à chaque extrémité une classe de fréquence nulle.
Variables Qualitatives:
Soit X une variable qualitative pouvant prendre k modalités x1 , x2 , ...,xk
. Le tableau statistique d’une variable qualitative peut être représenté par
deux types de graphique. Les effectifs sont représentés par un diagramme en
barres et les fréquences par un diagramme en secteurs (ou camembert):
Sd Sd Sd Sd P P P P P P P P P P P Se Se
Se Se Se Se Se Se Se Se Se Se Se Se Su Su Su Su Su
Su Su Su Su U U U U U U U U U U U U
Moyenne géométrique:
Si xi ≥ 0, on appelle moyenne géométrique la quantité:
n
! n1
Y 1
G= xi = (x1 × x1 × ... × xn ) n
i=1
Indicateurs 26
Médiane: La médiane est plutôt une moyenne de position.
La médiane est la valeur, observée ou possible, dans la série des données
classées par ordre croissant (ou décroissant) qui partage cette série en deux
parties comprenant exactement le même nombre de données de part et d’autre
de M e.
On distingue 3 cas.
Série II : 6 observations classées par ordre croissant, 6, 6, 14, 16, 18, 18.
Moyenne arithmétique 13, médiane 15.
Série III : les deux séries précédentes réunies, 2, 5, 6, 6, 8, 11, 14, 14, 16, 18,
18.
Moyenne arithmétique 10.72, médiane 11
Indicateurs 28
Exemple:
xi ni fi F (x) N (x)
2 2 0.066 0.066 2
8 3 0.1 0.166 5
9 4 0.133 0.3 9
10 4 0.133 0.433 13
11 5 0.167 0.6 18
12 3 0.1 0.7 21
13 6 0.2 0.9 27
15 1 0.033 0.933 28
18 2 0.067 1 30
Indicateurs 30
c− +
1) Il faut déterminer la classe médiane: c’est la première classe i , ci dont la
fréquence cumulée est supérieure ou égale à 0.5. Puis
Exemple:
classe ni N (x)
[0, 5[ 2 2
[5, 10[ 7 9
[10, 15[ 18 27
[15, 20[ 3 30
M e = 11.666
Indicateurs 32
Mode:
Le mode est la valeur de la variable statistique la plus fréquente que l’on
observe dans une série d’observations.
Si la variable est une variable discrète, le mode s’obtient facilement. Si la
variable est une variable continue, on définit une classe modale.
• Le mode n’existe pas toujours et quand il existe, il n’est pas toujours unique.
• Si après regroupement des données en classes, on trouve deux ou plusieurs
modes différents, on doit considérer que l’on est en présence de deux ou
plusieurs populations distinctes ayant chacune leurs caractéristiques propres;
dans ce cas, la moyenne arithmétique n’est pas une caractéristique de tendance
centrale.
Indicateurs 33
Exemple:
Série I : pas de mode.
Exemple: M o = 12.115.
Indicateurs 35
M o = 11.09
Indicateurs 36
Quantiles:
Cette notion est très utilisée dans les sciences humaines.
Les quantiles sont des caractéristiques de position partageant la série
statistique ordonnée en k parties égales.
Pour k = 4, les quantiles, appelés quartiles, sont trois nombres Q1 , Q2 , Q3 tels
que:
25% des valeurs prises par la série sont inférieures à Q1 ,
25% des valeurs prises par la série sont supérieures à Q3 ,
Q2 est la médiane M e , Q3 − Q1 est l’intervalle interquartile, il contient 50%
des valeurs de la série.
Indicateurs 37
Soit la série statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27, 28,34 contenant 12
observations
Q1 = 15.5, Q2 = 20.5, Q3 = 26
Soit la série statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27 contenant 10
observations
Q1 = 15, Q2 = 18.5, Q3 = 24
Indicateurs 38
Caractéristiques de dispersion:
Ces caractéristiques quantifient les fluctuations des valeurs observées autour de
la valeur centrale et permettent d’apprécier l’étalement de la série. Les
principales sont : l’écart-type ou son carré appelé variance et l’étendue.
Variance et écart-type:
La variance, notée V ar(X) ou σ 2 , est appelée aussi écart quadratique moyen
ou variance empirique. La racine carrée de la variance est appelée écart-type.
C’est la moyenne de la somme des carrés des écarts par rapport à la moyenne
arithmétique.
Indicateurs 39
ou bien
n
2 1X 2
V ar(X) = σ = xi − x2
n i=1
Cas 2 : n données réparties en k classes, la classe i étant d’effectif ni :
k
2 1X
V ar(X) = σ = ni (ci − x)2
n i=1
ou bien
k
2 1X
V ar(X) = σ = ni c2i − x2
n i=1
Indicateurs 40
1
P n 2 2
V ar(X) = n x
i=1 i − x
1 2 2 2
V ar(X) = 8 (2 + 3 + 4 + 42 + 52 + 62 + 72 + 92 ) − 52
V ar(X) = 4.5
Indicateurs 41
Plus σ est petit, plus les données sont regroupées autour de la moyenne
arithmétique et plus la population est homogène;
Etendue:
Est la quantité :
E = xmax − xmin
Elle ne tient compte que des valeurs extrêmes de la série; elle ne dépend ni du
nombre, ni des valeurs intermédiaires.
Séries statistiques à deux dimensions 43
Chacune des deux variables peut être, soit quantitative, soit qualitative. On
examine deux cas.
yi xi yi xi
60 155 75 180
61 162 76 175
64 157 78 173
67 170 80 175
68 164 85 179
69 162 90 175
70 169 96 180
70 170 96 185
72 178 98 189
73 173 101 187
La covariance:
La covariance est définie:
n
1X
cov(x, y) = (xi − x̄) (yi − ȳ)
n i=1
La corrélation:
Le coefficient de corrélation est la covariance divisée par les deux écart-types
marginaux:
cov(x, y)
r(x, y) =
σx σy
Le coefficient de détermination est le carré du coefficient de corrélation:
2 cov(x, y)2
r (x, y) =
σx2 σy2
Pour l’exemple précédent calculer la corrélation entre les deux variables.
Séries statistiques à deux dimensions 48
Préciser une liaison éventuelle entre deux variables statistiques pour lesquelles
on dispose d’une série d’observations jointes. Par exemples:
• La taille et le poids d’un groupe d’individus.
• Le salaire et le solde bancaire moyen des clients d’une banque.
• La consommation et le revenu d’un groupe d’individus.
On dispose d’une série de n observations, des deux variables X et Y ,
représentées par un nuage de points dans lequel un point i à pour coordonnées
(xi , yi ).
Les nuages de points associés à des séries statistiques peuvent présenter
plusieurs formes:
le nuage présente un caractère linéaire, une allure d’une courbe qui n’est pas
une droite ou n’a pas de structure particulière.
Ajustement linéaire 50
Le modèle:
Soit Y une variable quantitative, qu’on veut expliquer par une autre variable
quantitative X.
Y est appelée la variable à expliquer.
X est appelée la variable explicative.
L’ajustement linéaire est la recherche de la meilleur droite résumant les
observations: on cherche une relation linéaire
yi = β0 + β1 xi + ei , 1 ≤ i ≤ n
cov(x, y)
βˆ1 =
V ar(x)
βˆ0 = y − βˆ1 x
R2 = r2 (x, y).
Variables qualitatives:
Si les deux variables X et Y sont qualitatives, alors les données observées sont
une suite de couples de variables
(x1 , y1 ),..., (xi , yi ),..., (xn , yn ),
chacune des deux variables prend comme valeurs des modalités qualitatives.
Les valeurs distinctes de X et Y sont notées respectivement
x1 , ..., xj , ..., xJ
et
y1 , ..., yk , ..., yK .
Séries statistiques à deux dimensions 56
Le Tableau de contingence
Les données observées peuvent être regroupées sous la forme d’un tableau de
contingence:
Les nj. : et n.k sont appelés les effectifs marginaux. Dans ce tableau,
• nj. : représente le nombre de fois que la modalité xj apparaı̂t,
• n.k : représente le nombre de fois que la modalité yk apparaı̂t,
• njk : représente le nombre de fois que les modalités xj et yk apparaissent,
ensemble. On a les relations
J
X
njk = n.k , ∀k = 1, ...K
j=1
K
X
njk = nj. , ∀j = 1, ...J
k=1
K
X J
X J X
X K
n= n.k = nj. = njk
k=1 j=1 j=1 k=1
Séries statistiques à deux dimensions 58
Exemple:
On s’intéresse à une éventuelle relation entre le sexe de 200 personnes et la
couleur des yeux. Le Tableau ci-dessous reprend le tableau de contingence.
On cherche souvent une interaction entre des lignes et des colonnes, un lien
entre les variables. Pour mettre en évidence ce lien, on construit un tableau
d’effectifs théoriques qui représente la situation où les variables ne sont pas liées
(indépendance). Ces effectifs théoriques sont construits de la manière suivante:
nj. .n.k
n∗jk =
n
Les effectifs observés njk ont les mêmes marges que les effectifs théoriques n∗jk .
Enfin, les écarts à l’indépendance sont définis par
e2jk
Le Tableau des n∗ :
jk