Partie I: Bio-Statistique I
Statistique Descriptive
Chapitre 2: Les paramètres (Description
Numérique)
Chapter 02: the measures (Numerical description)
Chargé du Module: Dr Cheraitia Hassen
1.paramètres de position (tendance centrale) (Location or Central Tendency measures)
Leur objectif est de fournir un ordre de grandeur de la série étudiée, c’est-à-dire d’en situer le
centre, le milieu, la valeur dominante. Les mesures de position sont des façons de résumer un
ensemble de données en une seule valeur. Les trois caractéristiques les plus usuelles sont :
- la moyenne (Mean) - Le mode (Mode) - La médiane (Median)
1.1.Moyenne arithmétique (Average, Mean) : Soit l’ensemble de mesure d’une même variable
X: , la moyenne arithmétique notée est définie par :
Exemple: la moyenne arithmétique des valeurs 8,5,3,6,2
Lorsque les valeurs se répètent respectivement 1,2,…,n fois, on obtient la moyenne
arithmétique pondérée (Weighted mean) en comptant chaque valeur autant de
fois qu’elle se présente: ceci revient à pondérer la valeur par l’effectif qui lui
correspond. On aura
n: est l’effectif total de l’échantillon :
Exemple 2: si les valeurs 8,5,3,6, et 2 se reproduisent respectivement 1,4,2,2,1 fois ,
la moyenne arithmétique est
Si les valeurs sont groupé dans des classes dont les centres , la
moyenne arithmétique est donnée par:
Exemple 3: soit la distribution
classe Effectif Centre de classe
8 - 10 1 9 9
10 - 12 2 11 22
12 - 14 4 13 52
14 - 16 6 15 80
16 - 18 5 17 85
18 - 20 2 19 38
n= 20 296
Exercice: calculer la moyenne de la série X (poids de nouveau-nés) et (Répartition
de 150 grenouilles )
1.2.La médiane (the Median)
La médiane est le quantile d’ordre 1/2. Elle partage donc la série des observations
en deux ensembles d’effectifs égaux.
Si la série possède un nombre impair de valeurs, la médiane sera valeur
Si la série compte un nombre pair de valeurs, la médiane sera la demi somme de la
et la valeurs
Exemple 1 : dans la série de 15 valeurs suivantes : 1,2,4,4,4,5,6,7,8,8,9,9,10,11,12.
n= 15 est impair
la médiane Exemple 2: 4,5,8,8,9,11,12,14,17,19.
n=10 est pair
la médiane
Médiane (caractère quantitatif discret)
Exemple
n=150 pair, la médiane est donc
Nombre de trématodes Nombre de Fréquence Pourcentage
par grenouille grenouilles relative
correspondantes
0 11 0.0733 7.33 11 150
1 22 0.1466 14.66 33 139
2 45 0.30 30 78 117
3 40 0.2666 26.66 118 72
4 19 0.1266 12.66 137 32
5 11 0.0733 7.33 148 13
6 2 0.0133 1.33 150 2
Médiane par interpolation (caractère quantitatif Continu)
Avec: : la borne inférieure de la classe médiane (classe médiane: la classe
correspondante à égale ou supérieure à ) (lower class limit of the interval that
contains the median)
: : l’amplitude de la classe médiane (interval width)
l’effectif de la classe médiane
: l’effectif cumulé jusqu’à ( avant n/2) (cumulative frequencies for all classes before
the median class)
• Exemple: on considère la série statistique suivante
classes EFFECTIF
[ 38 – 40 [ 11 11
[ 40 – 42 [ 28 39
[ 42 – 44 [ classe médiane 16 55
[ 44 – 46 [ 25 80
[ 46 – 48 [ 15 95
[ 48 – 50 [ 5 100
Montrer que la médiane est égale à 43.375
La médiane Graphiquement (le cas continue):
la médiane est le point d’intersection de deux graphiques cumulés croissant et
décroissant
• Exercice: calculer la médiane de l’exemple de trématodes (150 grenouilles)
1.3.Les quantiles (quantiles)
Définition: On appelle quantile d’ordre , la valeur noté , tel que la proportion des
observations qui lui sont inférieures ou égales vaut , et la proportion des observations qui
lui sont supérieures vaut
- les quartiles (quartiles) partagent la série en quatre groupes de même effectifs : , , . on
peut constater que .
- Les déciles (deciles) partagent la série en 10 groupes de même effectifs : , ,…, on peut
constater que .
- Les centiles (percentiles) partagent la série en 100 groupes de même effectifs : , ,…, . on
peut constater que .
Détermination des quantiles: Soit la série ordonnée par ordre croissant
suivante:
Le quantile est calculé comme suit:
Exemple:
Les quartiles: , ,
Les déciles : , ,
Exemple :calculer les 03 quartiles
Série 01: 1,2,4,4,4,5,6,7,8,8,9,9,10,11,12. n=15
Série 02: 4,5,8,8,9,11,12,14,17,19. n=10
(Lower quartile)
(Middle quartile)
45.6 (upper quartile)
classes EFFECTIF
[ 38 – 40 [ 11 11
[ 40 – 42 [ 28 39
[ 42 – 44 [ 16 55
[ 44 – 46 [ 25 80
[ 46 – 48 [ 15 95
[ 48 – 50 [ 5 100
1.4.Diagramme de TUKEY (ou boîte à moustaches) (Box-plot)
Est un graphique permettant de résumer un caractère quantitatif par ses valeurs
extrêmes et ses quartiles. L’idée est la suivante:
. Sur un axe horizontal, on place les valeurs extrêmes et les quartiles, et on place un
rectangle dont la longueur est l’interquartiles (interquartile range
) et dont la largeur est proportionnelle à la racine carrée de la taille de la
population. Enfin, on partage ce rectangle par un segment vertical au niveau de la
médiane et on ne garde que partie « utile » de l’axe
Son intérêt est de permettre une comparaison visuelle immédiate de séries
statistiques portant sur le même paramètre dans des populations différentes.
1.4.Le Mode (the Mode)
Le mode d’une série est la valeur la plus fréquente de la série
La classe modale : est la classe qui a le plus grand effectif
Remarque: une variable peut avoir plusieurs modes
Exemple 1 : le mode de la série {4 , 2, 4, 3, 2, 2} est 2
Exemple 2: le mode de la série {4 , 2, 4, 3,3, 2,3, 2} est 2 et 3 (bimodale)
• Cas d’une variable discontinue
Le mode est 15 ans et 16 ans et on écrit
• Cas d’une variable continue
On considère la distribution statistique d’une population d’étudiants selon leur
taille (en cm): L’effectif ou la fréquence les plus élevés montrent que le classe
modale est [170;180[
• Le mode est calculé par la formule suivante
Avec :
: la borne inferieure de la classe modale
: différence entre l’effectif de la classe modale et l’effectif de la classe précédente
: différence entre l’effectif de la classe modale et l’effectif de la classe suivante
: l’amplitude de la classe modale
Exemple 1:Calculer le Mode de l’exemple : nouveau né
classe Limites de la Centre de effectif Fréquence relative Pourcentage
classe (kg) classe
1 2.2-2.5 2.35 5 0.031 3.1 5
2 2.5-2.8 2.65 11 0.068 6.8 16
3 2.8-3.1 2.95 24 0.148 14.8 40
4 3.1-3.4 3.25 40 0.248 24.8 80
5 3.4-3.7 3.55 42 0.259 25.9 122
6 3.7-4.0 3.85 20 0.124 12.4 142
7 4.0-4.3 4.15 13 0.08 8 155
8 4.3-4.6 4.45 6 0.037 3.7 161
Exemple 2.Calculer le Mode de l’exemple :
Soit la distribution d’une population des étudiants répartis suivant leur poids (en
kg) .La classe modale, à laquelle est associée l’effectif corrigée le plus grande, est la
classe [70;
Poids75[
en kg Effectif ni Amplitude Coefficient de Effectif corrigé
ai correction (Hauteur)
50-55 2 5 5/5=1 2
55-60 3 5 5/5= 1 3
60-70 4 10 10/5= 2 2
70-75 5 5 5/5=1 5
75-85 6 10 10/5=2 3
85-95 4 10 10/5=2 2
Total 24
• Le mode graphiquement (cas continue)
Exercice : calculer le mode de l’un des exemples précédents
Récapitulatif
2. Paramètres de dispersion (Scale or Variability measures )
2.1. variance et écart type (variance and standard deviation)
La variance d’une série est la moyenne arithmétique des carrés des écarts des
valeurs de la série à leur moyenne
Proposition: (formule de Koenig) La variance est donnée aussi par
Exemple
Calculer la moyenne, la variance et l’écart type pour la série statistique suivante:
1,2,3,6
1 -2 4 1
2 -1 1 4
3 0 0 9
6 3 9 36
Somme 12 14 50
La formule de Koenig:
le cas d’une variable discrète (discontinue)
Où:
Proposition: (formule de Koenig) La variance est donnée aussi par
Cas d’une variable continue
est appelé l’écart type de la série
Exemple: dans 10 lots de glandes séricigènes de ver à soi, on a noté la
consommation d’oxygène suivante en ml/h. Calculer la variance par
deux méthodes
N° de lot 1 2 3 4 5 6 7 8 9 10
Consommation 83 53 94 105 101 79 58 104 109 114
d’oxygène
Application numérique
1 83 83 23.1361 1920.2963 1 83
2 53 106 14.5161 769.3533 4 212
3 94 282 7.8961 742.2334 9 846
4 105 420 3.2761 343.9905 16 1680
5 101 505 0.6561 66.2661 25 2525
6 79 474 0.0361 2.8519 36 2844
7 58 406 1.4161 82.1338 49 2842
8 104 832 4.7961 498.7944 64 6656
9 109 981 10.1761 1109.1949 81 8829
10 114 1140 17.5561 2001.3954 100 11400
somme 900 5229 7536.51 37917
Exemple 2:
Calculer la variance et l’écart type de la distribution statistique suivante
Classes
[ 38 – 40 [ 39 11
[ 40 – 42 [ 41 28
[ 42 – 44 [ 43 16
[ 44 – 46 [ 45 25
[ 46 – 48 [ 47 15
[ 48 – 50 [ 49 5
Somme
2.2.L’étendu d’une série statistique (the range)
L’étendue d’une série statistique est la différence entre la plus grande et la plus
petite valeur de caractère (de variable):
Ecart absolue à la moyenne :
Ecart absolue à la médiane :
L’écart moyen à la moyenne :
L’écart moyen à la médiane :
: dans le cas des tableaux avec répétitions
2.3. Ecart interquartile
Est une caractéristique de dispersion très simple qui permet d’éliminer l’influence
des valeurs extrêmes. Il est de très loin préférable à l’étendue mais ne prend en
compte que 50% de l’effectif total. Si on souhaite prendre en compte un
pourcentage plus important de l’effectif (80%) on pourra par exemple utiliser l’
inter-décile.
Ecart interquartile:
Ecart semi-interquartile :
2.4.Paramètres de dispersion relatives
Un paramètre de dispersion relative est une mesure de l'écart relatif des valeurs
d'une distribution à une valeur centrale. C'est donc un rapport :
Exemple:
Le coefficient de variation :
Ecart moyen relative:
le coefficient interquartile relatif:
Le CV permet d’apprécier la représentativité de la moyenne par rapport à
l’ensemble des observations. Il mesure le degré d’homogénéité de la série. Il faut
qu’il soit le plus faible possible (en pratique < 15%).
Remarque: Si , On dit que les valeurs de la variable sont concentrées
Si On dit que les valeurs de la variable sont dispersées
3.Paramètres de forme (shape parameters)
Il existe des indices mesurant la symétrie (ou l’asymétrie) et l’applatisement d’une
distribution
3.1.Les moments
On appelle moment d’ordre par rapport à la valeur La quantité:
Cas particuliers:
Si , alors
Si
Si , alors la quantité devient et est appelée moment centré d’ordre
Dans ce cas :
3.2.Coefficient d’asymétrie
Si une distribution est symétrique on a :
Ce coefficient est défini par:
3.3.Coefficient d’aplatissement
Le coefficient est défini par
Le coefficient est nul pour une loi normale. Lorsqu'il est négatif, on parle de
distribution étalée (on dit parfois platicurtique). Lorsqu'il est positif, on parle de
distribution pointue (on dit parfois leptocurtique).