Chapitre 1 : Statistique Descriptive
Partie 2 : Résumés numériques sur des variables
quantitatives
Khalil EL WALED
Résumé de cours pour la spécialité : PCEM2
K. EL WALED Résumés numériques 1 / 24
Plan
1 Introduction
2 Mesures de tendance centrale ou de position
Moyenne
Médiane
Mode
Quartiles et déciles
3 Mesures de dispersion
Étendue - Écart moyen absolu - Écart médian absolu
Ecart inter-quartiles - Box-plot (Boite à moustaches)
Variance et écart-type
K. EL WALED Résumés numériques 2 / 24
Plan
1 Introduction
2 Mesures de tendance centrale ou de position
Moyenne
Médiane
Mode
Quartiles et déciles
3 Mesures de dispersion
Étendue - Écart moyen absolu - Écart médian absolu
Ecart inter-quartiles - Box-plot (Boite à moustaches)
Variance et écart-type
K. EL WALED Résumés numériques 3 / 24
Mesures
Les informations contenues dans les variables quantitatives peuvent
être résumées au moyen d’indicateurs numériques.
Type d’indicateurs
Mesures de tendance centrale ou de position fournissent un ordre de
grandeur des valeurs de la série statistique et la position
où se situent ces valeurs
I Moyenne
I Médiane
I Mode
I Quartiles et déciles
Mesures de dispersion rendent en compte de l’éparpillement des
données autour des valeurs centrales
I Écart moyen absolu et écart médian absolu
I Écart inter-quartile
I Variance et écart-type
K. EL WALED Résumés numériques 4 / 24
Plan
1 Introduction
2 Mesures de tendance centrale ou de position
Moyenne
Médiane
Mode
Quartiles et déciles
3 Mesures de dispersion
Étendue - Écart moyen absolu - Écart médian absolu
Ecart inter-quartiles - Box-plot (Boite à moustaches)
Variance et écart-type
K. EL WALED Résumés numériques 5 / 24
Moyenne
Définition
X : Variable statistique, x1 , · · · , xn observations.
Moyenne = La somme des valeurs divisées par leur nombre.
Calcul
1
Pn
Données brutes : x̄ = n i=1
xi
Données agrégées d’une variable discrète à K modalités :
ni est l’effectif de la i ème classe,
K K
(
1X X
x̄ = ni xi = fi xi où fi est la fréquence de la même classe.
n
i=1 i=1 n effectif total
Données agrégées d’une variable continue de K classes :
K K
1X X
x̄ = ni ci = fi ci où ci est le centre de la i ème classe.
n
i=1 i=1
K. EL WALED Résumés numériques 6 / 24
Moyenne - Exemples
Variable discrète : Nb de pièces des appatements d’un immeuble
Modalités xi Effectifs ni ni xi
1 10 10
2 7 14 124
Alors x̄ = 45
≈ 2.76
3 12 36
4 16 64
Total 45 124
Variable continue : Notes des étudiants
Classe Effectifs ni Centres ci ni ci Fréquences fi fi ci
[0; 5[ 6 2.5 15 0.1 0.25
[5; 8[ 21 6.5 136.5 0.36 2.34
[8; 12[ 8 10 80 0.14 1.4
[12; 15[ 10 13.5 135 0.17 2.3
[15; 20[ 14 17.5 245 0.24 4.2
Total 59 611.5 1 10.5
x̄ = 611.5
59
≈ 10.4
K. EL WALED Résumés numériques 7 / 24
Médiane
Définition
C’est la valeur possible de la variable (observée ou non) qui sépare la série
d’observations en deux ensembles d’effectifs égaux.
50% des observations sont inférieures à la médiane et 50% sont supérieures
à elle.
C’est le point au milieu de la série ordonnée.
Calcul - Variable discrète
On ordonne les observations en liste croissante
x(1) ≤ x(2) ≤ · · · ≤ x(n)
Si le nombre d’observations n est impair, il y a une seule valeur au
milieu de la série ordonnée qui sera la médiane : M = x( n+1 )
2
Sinon, il y a deux valeurs au milieu de la série et donc la médiane sera
x( n ) +x( n +1)
leur moyenne : M = 2
2
2
K. EL WALED Résumés numériques 8 / 24
Médiane - exemples
Répartition des hôtels à Paris en 2010 en fonction de nombre d’étoiles
Classement d’hôtel 0 1 2 3 4 5
Effectifs 30 100 500 590 148 62
Effectifs cumulées 30 130 630 1220 1368 1430
x( n ) +x( n +1) x(715) +x(716) 3+3
n = 1430 pair, alors M = 2
2
2
= 2 = 2 =3
Nb d’enfants en millier de 0 à 18 ans par famille en France (2012).
Nombre d’enfants 1 2 3 4 et plus Total
Effectifs 3 479,9 2 978 987,2 277,9 7 723
Effectifs cumulés 3 479,9 6 457.9 7 445.1 7 723
n = 7 723 impair, alors M = x( n+1 ) = x(3862) = 2.
2
K. EL WALED Résumés numériques 9 / 24
Médiane - Variable continue (interpolation linéaire)
Classe médiane : M ∈ [x1 ; x2 [
A(x1 ; F1 ), B(x2 ; F2 ) et N(M; 0, 5)
Hypothèse : La répartition à
l’intérieur de chaque classe est
uniforme.
A, N et B sont alignés ;
pente (AN)= pente (AB)
0, 5 − F1 F2 − F1
=
M − x1 x2 − x1
0,5−F1
Donc M = x1 + (x2 − x1 ) F2 −F1
M est une valeur approchée de la
médiane
K. EL WALED Résumés numériques 10 / 24
Médiane - Variable continue (exemple)
Notes Fi
[0; 5[ 0.1
[5; 8[ 0.46
0.5
M∈ [8; 12[ 0.6
[12; 15[ 0.77
[15; 20[ 1
Classe médiane : [8; 12[
A(8; 0, 46), B(12; 0, 6) et N(M; 0, 5)
0, 5 − 0, 46 0, 6 − 0, 46
=
M −8 12 − 8
Donc M ≈ 9, 14
K. EL WALED Résumés numériques 11 / 24
Comparaison entre la moyenne et la médiane
Soit x1 , ..., xn une série statistique, alors
I La moyenne réalise le minimum de la fonction suivante en x
n
X
f : R → R, f (x) = (xi − x)2
i=1
.
I La médiane réalise le minimum de la fonction suivante en x
n
X
g : R → R, g (x) = |xi − x|
i=1
.
La moyenne est très affectée par les valeurs extrêmes, et ce n’est pas
le cas pour la médiane qui est plus robuste que la moyenne.
K. EL WALED Résumés numériques 12 / 24
Mode
Le mode rend compte de l’endroit où les données sont les plus
concentrées
Le mode d’une variable discrète est la(les) valeur(s) la(les) plus
fréquente(s).
Pour une variable continue, on parle d’une classe modale qui est celle
de plus grande densité.
Lorsque la médiane égale à la moyenne et au mode, la distribution des
fréquences est dit symétrique. Sinon, elle est dit asymétrique.
K. EL WALED Résumés numériques 13 / 24
Quartiles et déciles
Quartiles
Quartiles : Ce sont les trois valeurs qui divisent la série statistique en quatre groupes
d’effectifs égaux.
variable discrète : d’abord, on ordonne la série statistique puis
I ordre de Q1 est le premier entier ≥ n4 .
I Q2 = M
I ordre de Q3 est le premier entier ≥ 3n
4
Variable continue : Méthode d’interpolation linéaire avec F (Q1 ) = 0.25 et F (Q3 ) = 0.75.
Déciles
Déciles : ce sont les neuf valeurs qui divisent la série statistique en dix groupes d’effectifs
égaux.
Le calcul des déciles est similaire au calcul des quartiles.
Quantiles
Le quantile d’ordre τ de la variable Y est la valeur q dont la fréquence cumulée égale à τ
K. EL WALED Résumés numériques 14 / 24
Quartiles - Variable continue (exemple)
ClasseNotes Fi
[0; 5[ 0.1
[5; 8[ 0.46
[8; 12[ 0.6
[12; 15[ 0.77
[15; 20[ 1
Q1 ∈ [5; 8[
0.25−0.1 0.46−0.1
Q1 −5 = 8−5 Donc Q1 ≈ 6.25
Q3 ∈ [12; 15[
0.75−0.6 0.77−0.6
Q3 −12 = 15−12 Donc Q3 = 14.65
K. EL WALED Résumés numériques 15 / 24
Déciles - Variable continue (exemple)
ClasseNotes Fi
[0; 5[ 0.1
[5; 8[ 0.46
[8; 12[ 0.6
[12; 15[ 0.77
[15; 20[ 1
D1 = 5
D9 ∈ [15; 20[
0,9−0.77 1−0.77
D9 −15 = 20−15 , donc D9 ≈ 17.83
K. EL WALED Résumés numériques 16 / 24
Plan
1 Introduction
2 Mesures de tendance centrale ou de position
Moyenne
Médiane
Mode
Quartiles et déciles
3 Mesures de dispersion
Étendue - Écart moyen absolu - Écart médian absolu
Ecart inter-quartiles - Box-plot (Boite à moustaches)
Variance et écart-type
K. EL WALED Résumés numériques 17 / 24
Étendue - Écart moyen absolu - Écart médian absolu
Étendue
C’est la différence entre la plus grande et la plus petite valeur observée
Elle n’est fonction que des deux valeurs extrêmes
Écart moyen absolu
C’est la moyenne de la valeur absolue des écarts à la moyenne
1 Pn
c-à-d : Em = n i=1 |xi − x̄|
Écart médian absolu
C’est la moyenne de la valeur absolue des écarts à la médiane
1 Pn
c-à-d : EM = n i=1 |xi − M|
NB : Si les données sont agrégées, on multiple la valeur absolue de chaque
modalité par l’effectif associé
K. EL WALED Résumés numériques 18 / 24
Exemple
Étendue, Em et EM
Classe Effectifs Centres |ci − x̄| ni |ci − x̄| |ci − M| ni |ci − M|
[0; 5[ 6.00 2.50 7.99 47.94 6.64 39.84
[5; 8[ 21.00 6.50 3.99 83.79 2.64 55.44
[8; 12[ 8.00 10.00 0.49 3.92 0.86 6.88
[12; 15[ 10.00 13.50 3.01 30.10 4.36 43.60
[15; 20[ 14.00 17.50 7.01 98.14 8.36 117.04
Total 59 263.89 262.8
x̄ ≈ 10.49 et M ≈ 9.14
Étendue =20-0=20
Em = 263.89/59 ≈ 4.47
262.8
EM = 59 ≈ 4.45
K. EL WALED Résumés numériques 19 / 24
Ecart inter-quartiles - Box-plot (Boite à moustaches)
Ecart inter-quartiles
Au moins, 50% des observations ∈ [Q1 ; Q3 ].
Ecart inter-quartiles = la longueur de l’intervalle [Q1 ; Q3 ]
IQ = Q3 − Q1
Box-plot (Boite à moustaches)
On peut aussi se limiter par D1 et D9 au lieu de max et min
K. EL WALED Résumés numériques 20 / 24
Exemple : Notes des étudiants
Au moins, 50% des notes ∈ [6.25; 14.65]
IQ = Q3 − Q1 ≈ 8.4
Boxplot des notes
K. EL WALED Résumés numériques 21 / 24
Variance et écart-type
Variance et écart-type
1
Pn
Variance = la moyenne des carrés des écarts à la moyenne V = n i=1
(xi − x̄)2
1
Pn 2
Propriété : V = n
x
i=1 i
− x̄ 2 (La moyenne des carrés - le carré de la moyenne)
Données agrégées d’une variable discrète de K modalités :
1
PK PK
V = n
ni (xi − x̄)2 = fi (xi − x̄)2
1
Pi=1
K 2
2
Pi=1
K 2
2
= n i=1
ni xi − x̄ = fx
i=1 i i
− x̄
Données agrégées d’une variable continue de K classes :
1
PK PK
V = n
ni (ci − x̄)2 = fi (ci − x̄)2 .
1
Pi=1
K 2
2
Pi=1
K 2
2
= n i=1
ni ci − x̄ = fc
i=1 i i
− x̄
(
ni est l’effectif de la i ème classe, et n est l’effectif total,
où fi est la fréquence de la même classe.
ci est le centre de la i ème classe
√
Écart-type : C’est la racine carrée de la variance : σx = v
K. EL WALED Résumés numériques 22 / 24
Variance et écart-type - Exemple
Notes
Classe Effectifs Centres ci − x̄ (ci − x̄)2 ni (ci − x̄)2 fi fi (ci − x̄)2
[0; 5[ 6.00 2.50 -7.99 63.84 383.04 0.10 6.38
[5; 8[ 21.00 6.50 -3.99 15.92 334.32 0.36 5.73
[8; 12[ 8.00 10.00 -0.49 0.24 1.92 0.14 0.03
[12; 15[ 10.00 13.50 3.01 9.06 90.60 0.17 1.54
[15; 20[ 14.00 17.50 7.01 49.14 687.96 0.24 11.79
Total 59 0 1497.85 1 25.5
Calcul
x̄ ≈ 10.49
1497.85
V = 59 ≈ 25.4
√
σ= 25.5 ≈ 5
K. EL WALED Résumés numériques 23 / 24
Variance et écart-type
La variance indique de quelle manière la série statistique se disperse
autour de sa moyenne.
La variance est toujours positive ou nulle
Une variance de zéro signale que toutes les valeurs sont identiques
Une petite variance est signe que les valeurs sont proches les unes des
autres
Une variance élevée est signe que celles-ci sont très écartées
La variance n’a pas la même unité que les observations
l’écart-type est la racine carrée de la variance, cet indicateur
s’exprimant dans la même unité que les observations.
K. EL WALED Résumés numériques 24 / 24