I - RAPPELS
1 L’effectif d’une classe statistique est le nombre d’éléments de la population
observés dans cette classe.
2 La fréquence d’une classe statistique est le rapport de l’effectif de cette classe à
l’effectif total de la population. (la fréquence peut être exprimée en
pourcentage)
effectif de xi ni
f i = fréquence de xi = =
effectif total N
où x i est une valeur donnée de la variable et n i l’effectif correspondant.
EXEMPLE 1:
Dans un service de maintenance, on a
Nombre d’interventions xi 3 5 6 7 8 9
répertorié le nombre d’interventions par jour
sur un mois. Nombre de jours ni 2 4 9 6 3 1
On a obtenu la distribution suivante:
EXEMPLE1 (FICHIER EXCEL) Fréquences f i (%)
REPRESENTATIONS GRAPHIQUES
CAS DE DISTRIBUTIONS QUANTITATIVES
Les graphiques correspondant à des distributions quantitatives sont normalement
réalisés en portant en abscisse la variable observée, et en ordonnée l’effectif ou la
fréquence.
1 Dans le cas d’une variable continue, on utilise un histogramme : L’AIRE DE
CHAQUE RECTANGLE EST PROPORTIONNELLE A L’EFFECTIF .
Exemple 2:
Dans une succursale de banque, on a noté le montant des 2000 versements effectués au guichet pendant
la journée.
Montant (en €) ]0 ; 500[ [500 ; 750[ [750 ; 1000[ [1000 ; 1500[ [1500 ; 3000[
effectif 440 320 400 480 360
L’axe des abscisses a été gradué en prenant pour unité 250 €.
Chaque rectangle a une base égale à l’amplitude de la classe [a i ; a i + 1 [
La hauteur h de chaque rectangle est telle que h × base = effectif × k où k est l’aire unitaire (aire du
rectangle représentant un effectif égal à 1).
1
Par exemple la hauteur h du rectangle représentant la classe ]0 ; 500[ est telle que h × 2 = 440 × 60
440
×0,8
soit en cm : h = 120 ≈ 2,9
Dans le cas où la répartition est faite dans des classes de même amplitude, les
hauteurs des rectangles sont alors proportionnelles aux effectifs.
EXEMPLE3 (FICHIER EXCEL)
Montant (en €) ]0 ; 500[ [500 ; 1000[ [1000 ; 1500[ [1500 ; 2000[ [2000 ; 2500[ [2500 ; 3000[
effectif 440 720 480 120 180 60
800
700
600
500
400 Série1
300
200
100
0
]0 ; 500[ [500 ; 1000[ [1000 ; 1500[ [1500 ; 2000[ [2000 ; 2500[ [2500 ; 3000[
2 Dans le cas d’une variable discrète, le graphique représentant la répartition
est un diagramme à bâtons : LA HAUTEUR EST PROPORTIONNELLE A L’EFFECTIF
EXEMPLE1 (FICHIER EXCEL)
Nombre de jours
10
0
3 5 6 7 8 9 Nombre d'interventions
II - PARAMETRES DE TENDANCE CENTRALE
Trois paramètres de tendance centrale de la distribution sont utilisés : le mode, la
médiane et la moyenne :
LE MODE
Le mode ou valeur modale est la valeur que la variable statistique prend le plus
souvent. C’est à dire la valeur du caractère ou de la classe qui a le plus grand
effectif. Sur le graphique des répartitions des effectifs ou des fréquences, cela
correspond à la barre « la plus haute ».
Dans l’exemple 1 le mode est de 6 interventions.
Attention : Si on fait des regroupements en classes la classe modale dépend du
découpage retenu.
Dans l’exemple 2 la classe modale est [1000 ; 1500[ par contre si on avait effectué le regroupement par
tranche de 500€ la classe modale serait [500 ; 1000[
LA MEDIANE
La médiane d’une série statistique est une valeur de la variable telle qu’il y ait
autant d’observations ayant une valeur supérieure à la médiane que d’observations
ayant une valeur inférieure à la médiane.
1. Lorsque les observations sont toutes données, pour calculer la médiane de la
série statistique on distingue deux cas suivant que l’effectif de la population est
pair ou impair :
Dans une série de données :
⎯1 si l'effectif total est impair =2 n + 1 où n est un entier, la médiane est la valeur
classée au rang n + 1.
⎯2 si l'effectif total est 2 n où n est entier, la médiane est la demi somme des valeurs
de rang n et n + 1.
Dans l’exemple 1 le nombre de journées d’intervention est 25, nombre impair, la médiane est le nombre
d’interventions de la treizième journée c’est à dire 6 interventions. En effet il y a 12 jours avec un nombre
d’interventions inférieur ou égal à 6 et 12 jours avec un nombre d’interventions supérieur ou égal à 6.
2. Dans le cas d’un regroupement par classe de données on détermine la classe
médiane puis on calcule la médiane par interpolation linéaire.
[x A ; x B [ est l’intervalle médian y A et y B sont les effectifs cumulés (ou les
fréquences cumulées) correspondants respectivement aux valeurs x A et x B.
On note A et B les points de la courbe des effectifs cumulés (ou des fréquences
cumulées) d’abscisses respectives x A et x B .
y −y
y − y A = B A ( x − xA )
L’équation de la droite (AB) est xB − xA .
La médiane est l’abscisse x M du point M de la droite (AB) dont l’ordonnée y M est
la moitié de l’effectif total (ou 0,5 dans le cas des fréquences cumulées).
x −x
xM = B A ( yM − y A ) + x A
Médiane yB − y A
Dans l’exemple 2 la classe médiane est [750 ; 1000[ . La médiane est calculée par interpolation linéaire.
Effectifs
Courbe des Effectifs cumulés
2000
1000
A
Montant
0
0 500 1000 1500 2000 2500 3000
1160 − 760 400
y − 1160 = ( x − 750 ) y − 1160 = ( x − 750 )
L’équation de la droite (AB) est 1000 − 750 soit 250
⎛ 250 ⎞
xM = ⎜ ⎟ × (1000 − 760 ) + 750
La médiane est obtenue pour un effectif de 1000: ⎝ 400 ⎠ soit M e = 900
LA MOYENNE
La moyenne d'une série statistique est le quotient de la somme de toutes les valeurs
de cette série par l'effectif total.
n
N = ∑ ni
L’effectif total est N = n1 + … + np on le note i =1 .
Les fréquences sont notées fi
x=
1
(
n1 × x1 + n2 × x2 + L + n p × x p )
• La moyenne est donnée par la relation : N
p
∑n i xi
somme des produits " effectif × valeur " p
x= = x = ∑ fi xi
i =1
N effectif total ou i =1
Dans l’exemple 1 le nombre moyen d’interventions par jour est 6,2
2 × 3 + 4 × 5 + 9 × 6 + 6 × 7 + 3 × 8 + 1× 9
x= = 6, 2
25
Dans l’exemple 2 le calcul du montant moyen s’effectue en utilisant les centres des classes comme
valeurs de la variable x i
440 × 250 + 320 × 625 + 400 × 875 + 480 × 1250 + 360 × 2250
x= = 1035
2000
PROPRIETES DE LA MOYENNE
1. Linéarité de la moyenne
Si on multiplie chaque valeur de la série par un réel a (a ≠ 0), alors la moyenne est
multipliée par a.
Preuve :
On note N = n1 + … + np l’effectif total, m est la moyenne de la série de valeurs axi
m=
1
N
(n 1 × a × x1 + L + n p × a × x p = ) a
N
(n × x L + n
1 1 p )
× xp = ax
Si on ajoute à chaque valeur de la série le réel b, alors la moyenne augmente de b.
Preuve :
On note N = n1 + … + np l’effectif total, m est la moyenne de la série de valeurs xi + b
⎡( n1 × x1 + L + n p × x p ) + ( n1 × b + L + n p × b ) ⎤
1 ⎡ 1
⎢ n1 × ( x1 + b ) +L + n p × ( x p + b ) ⎦⎥ =
m= ⎤
N ⎣ N⎣ ⎦
m=
1
N 1
(
n × x1 + L + n p × x p + ) 1
N
(n × b + L + n
1 p ×b )
m=
1
N
(
n1 × x1 L + n p × x p + b × ) N
1
(n 1 )
+ n2 + L + n p = x + b
On regroupe ces deux propriétés dans l’énoncé suivant :
Si une série de valeurs x i a pour moyenne x , la série de valeurs ax i + b a pour
moyenne a x + b. On parle de linéarité de la moyenne.
2. Ecarts à la moyenne
« La moyenne des écarts à la moyenne » est nulle.
Preuve : Il suffit d’appliquer la propriété précédente en prenant b = x
3. Moyennes partielles
Si une série est partagée en deux séries d’effectifs N et P, et de moyennes x et y
N × x + P× y
z=
alors la moyenne de la série totale est N+P .
Preuve :
Série X Série Y
Série Z x1 … xk y1 … yj
effectifs n1 … nk p1 … pj
On note N et P l’effectif total respectif des séries partielles X et Y, la série Z a pour effectif total N + P.
Les moyennes des séries X et Y sont:
x=
N
1
( n1 x1 + L + nk xk )
et
y=
1
P
(p y +L+ p y )
1 1 j j
.
Nx + Py
=
(n
1
) (
× x1 + L + n p × x p + p × y1 + L + p j × y j
1
)=z
N+P N+P
IV - PARAMETRES DE DISPERSION
Les caractéristiques de position (Mode, Médiane, Moyenne) sont insuffisants
comme on peut le voir dans l’exemple suivant
Vérifier que la moyenne, la médiane et le mode de ces deux séries de données sont identiques.
Série X 35 75 85,5 99,9 100 104,5 124 138,5 185
effectifs 12 29 48 65 44 50 27 17 8
Série Y 28,25 42,5 62,5 99,9 100 114 139,5 195,5 288,45
effectifs 18 48 52 55 40 32 35 24 10
Plusieurs paramètres de dispersion peuvent être utilisés : l’étendue, écarts
interdéciles, écarts interquartiles et écart-type.
1. L’ETENDUE
L’étendue est la différence entre les deux valeurs extrêmes observées.
L’étendue de la série X est : 185 – 35 = 150 , celle de la série Y est : 288,45 – 28,25 = 260,2.
2. LES QUANTILES
1) Les quartiles au nombre de trois (Q1, Q2 et Q3) partagent l’ensemble étudié de n
éléments préalablement classés par valeurs croissantes, en 4 sous ensembles.
2) Les déciles au nombre de neuf (D1, D2 … D9) partagent l’ensemble étudié de n
éléments préalablement classés par valeurs croissantes, en 10 sous ensembles.
Les valeurs d’une série d’effectif n sont rangées par ordre croissant : x 1 ≤ x 2 ≤ ... ≤
xn
1 Le premier quartile Q1 de la série est la valeur x i dont l’indice i est le plus petit
n
entier supérieur ou égal à 4 .
2 Le deuxième quartile Q2 de la série est la valeur x i dont l’indice i est le plus
2n n
=
petit entier supérieur ou égal à 4 2 .
3 Le troisième quartile Q3 de la série est la valeur x i dont l’indice i est le plus petit
3n
entier supérieur ou égal à 4 .
4 Le premier décile D1 de la série est la valeur x i dont l’indice i est le plus petit
n
entier supérieur ou égal à 10 .
5 Le neuvième décile D9 de la série est la valeur x i dont l’indice i est le plus petit
9n
entier supérieur ou égal à 10 .
L’intervalle interquartile est égal à la différence entre le troisième et le premier
quartile. Il contient au moins 50% des observations.
L’intervalle interdécile est égal à la différence entre le neuvième et le premier
décile. Il contient au moins 80% des observations.
L’intervalle qui sépare deux quantiles extrêmes améliore la notion d’étendue en
éliminant les valeurs extrêmes.
Exemples
300
= 75
Dans la série X l’effectif est de 300, le rang du premier quartile est 4 soit Q1 = 85,5 .On calcule
de même Q2 = 99,9 et Q3 = 104,5. L’intervalle interquartile est : Q3 – Q1 = 104,5 – 85,5 = 19.
Les déciles sont : D1 = 75 … D9 = 124 . L’intervalle interdécile est : D9 – D1 = 124 – 75 = 49.
⎛ 314 ⎞
⎜ = 78, 5 ⎟
Dans la série Y l’effectif est de 314, l’indice du premier quartile est 79 car ⎝ 4 ⎠ et 79 est le plus
petit entier supérieur ou égal à 78,5 ainsi Q1 = 62,5.
⎛ 3 × 314 ⎞
⎜ = 235, 5 ⎟
⎝ 4 ⎠d’où l’indice 236 du troisième quartile et Q3 = 114.
L’intervalle interquartile est : Q3 – Q1 = 114 – 62,5 = 51,5.
Les indices des premier et neuvième déciles sont respectivement 32 et 283 ainsi : D1 = 42,5 et
D9 = 195,5 L’intervalle interdécile est : D9 – D1 = 195,5 – 42,5 = 153.
3. BOITES A MOUSTACHES
La représentation graphique de la dispersion d’une série statistique se fait à l’aide de graphiques
appelés « boîte à moustaches » ou « box-plot ».
Pour une catégorie donnée, on construit, en face d’un axe permettant de repérer les quantiles de la
variable étudiée, un rectangle dont la longueur est égale à l’intervalle interquartile, la médiane est
représentée par un trait. Deux traits repèrent le premier et neuvième décile. Les observations
n’appartenant pas à l’intervalle interdécile sont représentées à l’aide de points. (On se contente
parfois des valeurs extrêmes)
Graphiques boîtes à moustaches des séries X et Y
200
Intervalle interdécile
Intervalle interquartile
100
0
Série X série Y
4. VARIANCE ET ECART TYPE
La moyenne des écarts à la moyenne étant nulle elle ne peut pas servir d’ indicateur
de dispersion.
1. Théorème
p
S ( x) = ∑ ni ( xi − x )
2
La moyenne x est le nombre qui minimise la somme i =1
Preuve :
( )
S ( x) = n1 ( x1 − x ) + L + n p ( x p − x ) = n1 x1 − 2 x1 x + x 2 + L + n p x p − 2 x p x + x 2 ( )
2 2 2 2
(
S ( x) = n1 x1 + L + n p x p
2 2
) − 2x ( n x + L + n x ) + x (n + L + n )
1 1 p p
2
1 p
p p
S ( x) = N x 2 − 2 x ∑ ni xi + ∑ ni xi 2
On note N = n1 + … + np l’effectif total d’où i =1 i =1 .
Ainsi la somme S se présente sous la forme d’un polynôme du second degré en x dont le coefficient N de
x 2 est positif
p
2∑ ni xi
x= i =1
La somme S est donc minimale pour 2N soit x = x.
Pour obtenir un indicateur de dispersion on utilise la somme des carrés des écarts à
la moyenne.
2. LA VARIANCE
La variance est la moyenne des carrés des écarts à la moyenne. C’est un nombre
positif.
On note N = n1 + … + np l’effectif total et fi la fréquence
∑n (x )
p 2
( ) ( ) −x
2 2
n1 x1 − x + L + np xp − x i =1
i i
V ( x) = =
N N ou
( )
p
V ( x) = ∑ fi xi − x
2
i =1
Pour simplifier les calculs de la variance on préfère utiliser les formules :
p
n1 × x + L n p × x p
2 2 ∑n × x
i =1
i
2
i
V ( x) = − x 2= −x
1 2
N N ou
⎡ 2⎤
p
V ( x) = ⎢ ∑ fi xi ⎥ − x 2
⎣ i =1 ⎦
Preuve avec les effectifs (la démonstration avec les fréquences étant similaire):
( ) ( ) ( ) ( )
2 2
n1 x1 − x + L + np xp − x n1 x1 − 2 x1 x + x 2 + L + n p x p − 2 x p x + x 2
2 2
V ( x) = =
N N
V ( x) =
(n x 1 1
2 2
)
+ L + np xp − 2x ( n1 x1 + L + np xp ) + x 2( n1 + L + np )
N
⎛ ⎞
(n x )
p p
− 2 x ⎜ ∑ ni xi ⎟ + x ∑ ni
+ L + np xp
( ) ( )
2 2 2
n1 x1 + L + n p x p − 2 x N x + N x 2
1 1 2 2
V ( x) = ⎝ i =1 ⎠ i =1
=
N N
p
( ) ∑n x
2
n1 x1 + L + n p x p −N x
2 2 2
i i
V ( x) = = i =1
−x 2
N N
Exemple
Série X 35 75 85,5 99,9 100 104,5 124 138,5 185
effectifs 12 29 48 65 44 50 27 17 8
nixi2 14700 163125 350892 648700,65 440000 546012,5 415152 326098,25 273800
3178480,4 44620,1
− 100 =
2
V(x) = 300 75 et l’arrondi à 10 – 3 près de V(x) est : 594,935
Série Y 28,25 42,5 62,5 99,9 100 114 139,5 195,5 288,45
effectifs 18 48 52 55 40 32 35 24 10
niyi2
V(y) =
3. L’écart type
Pour des raisons de concordance des unités on utilise la racine carrée de la
variance.
L’écart type d’une série est égal à la racine carrée de la variance sx = V ( x)
Vérifier à l’aide de la calculatrice que l’écart type de la série X est 24,391 et celui de la série Y: 55, 281.