Statistique descriptive continue: calculs et distribution
Statistique descriptive continue: calculs et distribution
Edition 2017
Objectifs
Pour chaque notion étudiée (moyenne, médiane, écart-type, ...), le lecteur doit se préoccuper de
savoir la calculer
1° à partir de données brutes, sans ordinateur;
2° à partir de données groupées, sans ordinateur;
3° à partir de données brutes, avec Mathematica;
4° à partir de données groupées, avec Mathematica.
Packages de l’auteur
◼ On peut consulter le mode d’emploi du package Statistique:
https://www.deleze.name/marcel/sec2/applmaths/packages/aide/Statistique.pdf
◼ Avant d’utiliser le package, il faut le charger en donnant son adresse web:
Needs["Statistique`",
nécessite
"https://www.deleze.name/marcel/sec2/applmaths/packages/Statistique.m"]
◼ Le package Tableaux contient des commandes qui facilitent la présentation des données et
résultats sous la forme de tableaux:
Needs["Tableaux`",
nécessite
"https://www.deleze.name/marcel/sec2/applmaths/packages/Tableaux.m"]
Names["Tableaux`*"]
noms
Pour ne pas oublier d'exécuter ces instructions au début de chaque session de travail, il est con-
seillé de déclarer les instructions Needs comme étant des cellules d'initialisation. Pour ce faire,
sélectionnez les cellules voulues puis passez par le menu
Cell / Cell properties / Initialization cell
§ 2.1 Distribution empirique continue et fonction de densité
Drop[b, 1] + Drop[b, - 1]
c=
2
{49.5, 57., 62., 67., 72., 77., 84.5}
Nombre de classes
k = Length[effectifs]
longueur
Taille de l'échantillon
n = Apply[Plus, effectifs]
remp⋯ plus
140
Fréquences
effectifs
freq =
n
1 1 33 47 13 13 1
, , , , , ,
28 10 140 140 70 140 70
k
fj = 1
j=1
Dans notre exemple, la fréquence de la 4-ème classe - c'est-à-dire la fréquence de l'événement "la
47
masse appartient à l'intervalle [64.5; 69.5[" - est de 140
, ce que l'on peut noter
47
f4 = f64.5; 69.5 =
140
La signification de l'événement "la masse est de 66 kg" doit être précisée. Déterminons sa
fréquence. S'il s'agit de f([65.5; 66.5[) on peut estimer sa valeur en répartissant les effectifs uniformé-
ment sur toute la largeur de la classe
66.5 - 65.5 1 47
f65.5; 66.5 = f64.5; 69.5 = f4 =
69.5 - 64.5 5 700
S'il s'agit de l'événement "la masse vaut exactement un 66 kg", commençons par de petits inter-
valles autour de 66 :
66.05 - 65.95 0.1 47
f65.95; 66.05 = f64.5; 69.5 = f4 =
69.5 - 64.5 5 7000
66.005 - 65.995 0.01 47
f65.995; 66.005 = f64.5; 69.5 = f4 =
69.5 - 64.5 5 70 000
En prenant une suite d'intervalles emboîtés dont les largeurs tendent vers 0, on peut conclure que
la fréquence d'un événement réduit à un point est nulle:
f ({66}) = 0
On peut intuitivement interpréter ce dernier résultat comme suit : "Il n'y a quasiment aucune chance
pour qu'une personne pèse exactement 66.000 000 000 ... kg.
Généralisons. La fréquence d'un événement A peut être écrite sous la forme
effectif de A nA
f (A) = =
effectif total n
A l'intérieur d'une classe, lorsqu'on distribue la fréquence uniformément sur toute la largeur de la
classe, on a
x - bj-1
bj-1 ≤ x < bj ⟹ fbj-1 ; x = fj
bj - bj-1
33 + 47
f 59.5; 64.5 [64.5; 69.5[ = f59.5; 69.5 = =
140
33 47
+ = f[59.5; 64.5[ + f[64.5; 69.5[
140 140
Plus généralement,
En conséquence, lorsqu'on calcule la fréquence d'un intervalle, il importe peu que l'intervalle soit
ouvert ou fermé
f[a; b] = f {a} + f] a; b[ + f {b} = 0 + f] a; b[ + 0 = f] a; b[
Bornes des classes 44.5 54.5 59.5 64.5 69.5 74.5 79.5 89.5
1 19 13 99 25 69
Fréquences cumulées 0 1
28 140 35 140 28 70
Pour satisfaire l'hypothèse que les effectifs sont uniformément distribués dans chaque classe, on
interpole linéairement entre ces points. On obtient ainsi une fonction F qui est continue et affine par
morceaux.
1.0
0.8
0.6
0.4
0.2
La fréquence cumulée (on dit aussi fonction de répartition empirique) est une fonction
F : ℝ⟶ℝ
qui vérifie
pour les x ϵ {b0 , b1 , ..., bk }, on a
nombre d' éléments inférieurs ou égaux à x
F (x) = = f - ∞;
effectif total
x
c'est-à-dire
F (b0 ) = 0 = f] - ∞; b0 ]
F (b1 ) = f1 = f] - ∞; b1 ]
F (b2 ) = f1 + f 2 = f] - ∞; b2 ]
... . ... . ...
F (bk-1 ) = f1 + f2 + ... + fk-1 = f] - ∞; bk-1 ]
F (bk ) = 1 = f] - ∞; ∞[
Pour x ≤ b0 , F (x) = f] - ∞; b0 ] = 0
x-b0
Pour b0 ≤ x ≤ b1 , F (x) = f] - ∞; b0 ] + f] b0 ; x] = F (b0 ) + b1 -b0
f1
x-b1
Pour b1 ≤ x ≤ b2 , F (x) = f] - ∞; b1 ] + f] b1 ; x] = F (b1 ) + b2 -b1
f2
... .. . ... . ...
Pour bk-1 ≤ x ≤ bk , F (x) = f] - ∞; bk-1 ] + f] bk-1 ; x] = F (bk-1 ) + bx-b
-b
k-1
fk
k k-1
Pour bk ≤ x F (x) = f] - ∞; ∞[ = 1
En d'autres termes, F(x) représente la fréquence de l'événement "être inférieur ou égal à x".
F est aussi appelé fonction fréquence cumulée continue.
On remarquera que la distribution F est une fonction d'une variable réelle dont la représentation
graphique est immédiate.
Il n'en est pas de même de la fonction fréquence f dont l'argument n'est pas un nombre réel mais un
événement. La fréquence d'un intervalle peut se déduire de la distribution
Plus simplement - mais abusivement - on note aussi f ] a, b]. Dans notre exemple numérique,
f] 60, 70] = F (70) - F (60)
F(70)
FREQUENCE CUMULEE
f]60; 70]
F(60)
40 50 60 70 80 90
La densité de fréquence
La fréquence cumulée étant une fonction affine par morceaux, intéressons-nous à la pente de
chacun des morceaux. Situons-nous à l'intérieur de la classe numéro j et désignons la pente par hj .
F (bj ) - F (bj-1 ) fj f] bj-1 ; bj ]
hj = = =
bj - bj-1 bj - bj-1 bj - bj-1
Le nombre hj a une double interprétation
* d'une part,
fj f] bj-1 ; bj ]
hj = =
bj - bj-1 bj - bj-1
f2
Pour b1 ≤ x ≤ b2 , h (x) = h2 = b2 -b1
... .. . ... . ...
fk
Pour bk-1 ≤ x ≤ bk , h (x) = hk = bk -bk-1
Pour bk ≤ x h (x) = 0 = 0
Histogramme
Nous verrons ci-après que la surface comprise entre l'axe des abscisses et le graphique de la
fonction h(x) = densité de fréquence a une signification statistique importante. C'est la raison pour
laquelle on représente le graphique de la fonction h avec des rectangles et que l'on grise ces rectan-
gles. Cette représentation est appelée histogramme:
histogramme[b, freq, AxesLabel → {None, "Densité"}]
titre d'axe aucun
Densité
0.06
0.05
0.04
0.03
0.02
0.01
Dans le but d'interpréter le graphique précédent, répondons à la question : "Quelle est la fréquence
de l'événement la masse appartient à l'intervalle [61; 63[ ?".
0.06
0.05
h3
0.04
0.03
DENSITE
0.02
0.01
L'axe vertical est l'axe des densités; il est gradué en fréquence par kg
f3 33 1
h3 = =
5 kg 700 kg
Conformément à la relation fréquence = densité * amplitude, on a
33 66
f] 61; 63] = h3 * (63 kg - 61 kg) = 2 kg =
700 kg 700
Du point de vue géométrique, pour le rectangle marqué en noir,
aire = hauteur * largeur
L'aire en noir représente donc la fréquence de l'événement la masse appartient à l'intervalle [61; 63[.
Retenons le résultat suivant. Dans un histogramme,
* les hauteurs des rectangles représentent des densités;
* les aires des rectangles représentent des fréquences.
En particulier, la somme des aires d'un histogramme est égale à 1.
Selon cette interprétation,
f {61} = f] 61; 61] = aire du rectangle de hauteur h3 et de largeur 0
0.06
0.05
h3
0.04
0.03
DENSITE
0.02
0.01
61
Il s'ensuit que
f {61} = 0
f[61; 63] = f] 61; 63[ = f[61; 63[
0.06
0.05
DENSITE
0.04
0.03
0.02
0.01
0.06
0.05
DENSITE
0.04
0.03
0.02
0.01
a b
La fonction de distribution empirique contient toutes les informations sur la manière dont on se
représente les données.
—
f] a, b] = h (b - a)
—
où h = densité moyenne sur l'intervalle [a, b]. Donc,
— f] a, b]
h[a,b] =
b-a
En mots:
fréquence de l' intervalle
(densité moyenne sur l' intervalle) =
amplitude de l ' intervalle
En mots:
la densité moyenne sur l'intervalle [a, b] est égale à la pente moyenne de la fonction F sur l'intervalle
(on dit aussi le taux d'accroissement de F sur l'intervalle [a, b]).
Densité ponctuelle (prolongement pour lecteurs avertis)
Téléchargez le cahier :
https://www.deleze.name/marcel/sec2/applmaths/csud/statistique_1/annexes/2-1_densite_ponctuelle.pdf
Moyenne
Pour calculer la moyenne de données groupées en classes, on peut utiliser la formule suivante
dans laquelle les cj désignent les centres des classes et les fj les fréquences des classes
correspondantes
k
—
m = x = cj fj
j=1
Cette formule est exacte alors même que l'on suppose que la densité est uniforme dans chaque
classe.
m = c.freq
66.3036
Ecart-type
Pratiquement, on peut utiliser la formule approximative suivante
k
s≈ (cj - m)2 fj
j=1
Cette formule n'est pas tout à fait exacte car elle suppose que les effectifs sont concentrés aux
centres des classes alors que les densités sont uniformes dans chaque classe.
s= (c - m)2 .freq
6.68198
Classe modale
On appelle classe modale la classe dont la densité est maximale. (Attention : il ne s'agit pas néces-
sairement de la classe dont la fréquence est maximale !)
Dans notre exemple, la classe modale est l'intervalle [64.5; 69.5[.
Dans le cas où plusieurs classes sont de densité maximale, on dit que la distribution est
multimodale.
Avec Mathematica,
h = densites[b, freq]
{0.00357143, 0.02, 0.0471429, 0.0671429, 0.0371429, 0.0185714, 0.00142857}
{4}
1
Médiane (ou quantile interpolé )
2
1 1
La médiane est le nombre me = Q 1 tel que F(me) = 2 . Le quantile 2
auquel il correspond est dit
2
N[freqCum]
valeur numérique
x 64.5 me 69.5
F(x) 0.371429 0.5 0.707143
1
FREQUENCE CUMULEE
1
2
44.5 Q1 89.5
2
0.07
0.06
0.05
DENSITE
0.04
0.03
0.02
0.01
44.5 Q1 89.5
2
Intervalle interquartile
3 1
L'intervalle interquartile représente la différence entre les quantiles 4
et 4
(voir la figure qui suit):
FREQUENCE CUMULEE
4
1
4
44.5 Q1 Q3 89.5
4 4
3 1
interQuartile = quantileCb, freq, - quantileCb, freq,
4 4
8.7296
0.07
0.06
0.05
DENSITE
0.04
0.03
0.02
0.01
44.5 Q1 Q3 89.5
4 4
Masse de l'oeuf
[g] Nombre d'oeufs
28 - 37 3
38 - 47 51
48 - 52 74
53 - 57 112
58 - 62 92
63 - 72 62
73 - 82 6
Données brutes
Dans l'exemple "Masses corporelles d'étudiants" présenté dans le § 2.1, les données étaient
groupées. Voici maintenant les observations originelles, appelées données brutes, à partir
desquelles le groupement a été établi
x = {69, 59, 70, 72, 67, 49, 69, 67, 62, 65, 60, 68, 71, 75, 62, 77, 74, 59, 65, 62,
67, 74, 54, 63, 54, 69, 61, 72, 65, 54, 62, 71, 71, 74, 80, 61, 80, 67, 65, 65,
69, 69, 77, 62, 73, 61, 58, 77, 59, 73, 73, 66, 62, 57, 55, 61, 62, 67, 57, 55,
61, 67, 79, 69, 64, 70, 68, 68, 59, 67, 67, 64, 77, 73, 67, 57, 66, 68, 72, 78,
75, 62, 55, 64, 62, 71, 66, 67, 70, 68, 52, 77, 60, 65, 61, 57, 58, 70, 69, 66,
76, 69, 67, 63, 77, 77, 69, 72, 66, 60, 65, 62, 65, 61, 66, 72, 73, 76, 61, 63,
66, 64, 65, 61, 64, 61, 70, 66, 60, 65, 67, 56, 67, 66, 73, 70, 73, 73, 68, 64};
140
Valeurs extrêmes
{Min[x], Max[x]}
minimum maximum
{49, 80}
Groupement
Nous expliquons ici comment on peut passer des données brutes aux données groupées du § 2.1.
On divise l'intervalle des modalités en classes d'égale entendue, sauf peut-être aux deux
extrémités. Pour extraire l'essentiel de l'information sans qu'elle soit brouillée par des complications
inutiles, le nombre de classes est choisi ni trop grand (rarement au-delà de 15 classes), ni trop petit
(rarement au-dessous de 5 classes).
Comme bornes des classes, nous avons choisi
b = {44.5, 54.5, 59.5, 64.5, 69.5, 74.5, 79.5, 89.5};
effectifs
freq =
n
1 1 33 47 13 13 1
, , , , , ,
28 10 140 140 70 140 70
Paramètres empiriques
Calculons la moyenne des données brutes, puis la moyenne des données groupées
mB = Mean[x]; N[mB]
valeur m⋯ valeur numérique
66.2786
mG = c.freq; N[mG]
valeur numérique
66.3036
Pour comparer les deux moyennes, on peut calculer l'erreur relative due au groupement :
mG - mB
mB
0.000377196
6.33817
6.68198
Calculons la médiane des données brutes, puis la médiane des données groupées
1
meBrut = InterpolatedQuantilex,
2
66
1
meGr = quantileCb, freq,
2
66.4149
Calculons l'intervalle interquartile des données brutes, puis l'intervalle interquartile des données
groupées
3 1
interQuartBrut = InterpolatedQuantilex, - InterpolatedQuantilex, ;
4 4
N[interQuartBrut]
valeur numérique
8.5
3 1
interQuartGr = quantileCb, freq, - quantileCb, freq,
4 4
8.7296
Erreur de groupement
On peut observer ci-dessus comment le groupement des données peut modifier la moyenne, l'écart-
type, la médiane et l'écart interquartile. On appelle erreur de groupement l'erreur induite par le
groupement des données. Une autre manière de grouper les données donnerait probablement des
résultats encore différents.
L'erreur de groupement est due au fait que l'hypothèse
les données brutes sont réparties uniformément dans chaque classe
n'est vérifiée que d'une manière approximative.
https://www.deleze.name/marcel/sec2/applmaths/csud/statistique_1/annexes/2-4_donnees_exercice.nb
Exercice 2 - R [Révision]
D'une table de mortalité (Suisse 1988-1993), on a extrait les données suivantes pour 100000
personnes de sexe masculin:
a) [Méthode libre] Pour chaque classe d'âge, calculez la fréquence de décès et la densité de
décès.
b) [Avec Mathematica] Dessinez l'histogramme.
c) [Sans ordinateur] Calculez la fréquence de décès entre 77 et 84 ans.
d) [Avec Mathematica] Calculez l'âge moyen de décès et l'écart-type.
e) [Sans ordinateur] Ecrivez les formules pour calculer l'âge moyen de décès et l'écart-type.
Remplacez les symboles par les valeurs numériques pour montrer comment elles
s'appliquent ici.
1
f) [Sans ordinateur] A quel âge 4
des hommes sont-ils décédés ?
https://www.deleze.name/marcel/sec2/applmaths/csud/statistique_1/annexes/supplement_2-1.pdf
Liens
Vers les corrigés des exercices :
https://www.deleze.name/marcel/sec2/applmaths/csud/corriges/statistique_1/2-stat_I-cor.pdf
Vers la page mère Applications des mathématiques
https://www.deleze.name/marcel/sec2/applmaths/csud/index.html