STATI1
STATI1
1. Statistique descriptive
1.1. Un peu d'histoire
Comment interpréter « l'avalanche de chiffres » de la réalité sans outils théoriques ?
L'humanité a mis fort longtemps avant de découvrir des procédés de calcul efficaces et
des représentations pertinentes. Depuis, ces outils ont envahi tous les domaines de la
connaissance. Il semble que les premiers paramètres de position qui aient été utilisés
soient le mode, valeur apparaissant le plus fréquemment, et le « milieu de l'intervalle
défini par les valeurs extrêmes ». La moyenne arithmétique apparaît clairement dans
l'œuvre de l'astronome danois Tycho Brahé (1546-1601) qui, en constituant un
ensemble de données sur le mouvement des planètes, permit à Kepler de formuler ses
lois. En 1722, Roger Cotes, qui dispose d'observations qui ne sont pas toutes aussi
fiables, propose d'utiliser une moyenne pondérée dont les coefficients sont inversement
proportionnels à la dispersion des erreurs d'observations. On peut noter que la médiane
voit naître son intérêt à la même époque, en 1757. La variance naît au 19 éme siècle avec
les moindres carrés. Gauss lui préfère l'écart-type.
La représentation graphique quantitative trouve son origine dans la construction de
cartes géographiques. Les plus anciennes datent d'environ 6000 ans, gravées sur des
tablettes d'argile, en Mésopotamie. Les graphiques statistiques sont plus récents.
William Playfair (1759-1823) publiera à Londres des ouvrages dans lesquels on trouve
des graphiques de grande qualité (voir ci-contre) et entre autres le premier diagramme
en barres connu ainsi que, un peu plus tard, le premier diagramme en secteurs.
1.2. Vocabulaire
En statistique, on désigne par population tout ensemble d'objets de même nature. Ces
Exemples de caractère d'une objets présentent tous un certain caractère qu'il s'agit d'étudier pour en révéler les
population : tendances principales. Lorsque la population est trop vaste pour l'étudier dans son
• durées de vie d'ampoules ensemble, on en prélève au hasard un échantillon que l'on étudie. La taille de cet
• poids de poulets d'élevage échantillon devra bien sûr être suffisamment grande pour pouvoir tirer des conclusions
• notes de math des élèves sur la population totale. Le caractère étudié est soit de nature discrète (il ne peut
d'une classe prendre que des valeurs réelles isolées, par exemple les notes entre 1 et 6 évaluées au
demi-point), soit de nature continue (il peut prendre toute valeur d'un certain intervalle
réel, comme la vitesse d'une voiture).
Les tableaux et les graphiques donnent une bonne idée de la manière dont un
caractère est distribué, mais on cherche souvent à illustrer cette distribution de manière
beaucoup plus sommaire par quelques nombres caractéristiques. Parmi ceux-ci, les
mesures de tendance centrale (aussi appelées paramètres de position) jouent un rôle
essentiel. La plus connue est la moyenne, mais on utilise aussi la médiane ou le mode.
Les mesures de tendance centrale ne suffisent pas à donner une idée de la manière dont
les valeurs sont distribuées au voisinage de ces valeurs centrales. Aussi est-il utile
d'introduire une mesure de la dispersion. La plus utilisée est l'écart-type. Dans le cas
continu, l'intervalle semi-interquartile est aussi très fréquent.
Tableau 1
Notes Élèves
Observations i Valeurs xi Effectifs ni
Les premières statistiques sont 1 0 1
probablement les recensements 2 1 1
effectués à propos des individus et 3 2 2
de leurs biens, il y a 4'500 ans 4 3 5
en Mésopotamie et en Égypte. 5 4 7
6 5 8
7 6 2
De nos jours, les sondages d'opinion Effectif total :
7
sont courants. Les statistiques
n= ∑ n i =26
sont très utilisées par les assurances. i =1
N
Notation : ∑ xi = x1 + x2 +…+x N
i =1
Exercice 1.1 Avec les données du tableau ci-dessus, calculez les expressions suivantes :
5 6 4 4 4
a. ∑ xi b. ∑ nk c. ∑ n i xi d. ∑ ni⋅∑ x j
i=2 k =1 i =1 i =1 j =1
Les deux représentations graphiques les plus courantes sont l'histogramme (diagramme
Représentations
en bâtons) et le diagramme à secteurs (communément appelés « camemberts »).
graphiques
Les deux graphiques de gauche ci-dessous sont dessinés d'après les données présentées
dans le tableau 1.
9
8
7
6
5
Effectifs
4
3
2
1
0
0 1 2 3 4 5 6
Notes
Histogramme
La moyenne est la plus connue des mesures de tendance centrale. Elle s'obtient en
Moyenne
divisant la somme des valeurs par le nombre de valeurs (n) :
(mesure de tendance
7
centrale)
∑ n i xi
i=1
x=
n
En utilisant les données du tableau 1, on trouve :
Remarque La moyenne est influencée par toutes les valeurs et est malheureusement très sensible
aux valeurs extrêmes, au point d'en perdre parfois une bonne partie de sa
représentativité, surtout dans des échantillons de petite taille. Ainsi la moyenne des six
salaires mensuels suivants
3'500 4'200 4'600 5'000 6'200 36'500
est égale à 10'000 (!), alors qu'un seul salaire dépasse cette moyenne.
Si l'on désire se faire une idée de la manière dont les valeurs du caractère s'écartent de
Variance et écart-
la moyenne x de ce caractère, on calcule la moyenne des écarts quadratiques :
type
(mesure de dispersion)
∑ ni xi – x 2 ∑ ni x 2i
La deuxième expression est
= = – x2
n n
plus agréable pour les calculs.
est la variance de l'échantillon. L'écart-type est la racine carrée de la variance.
Vos calculatrices comprennent
des touches spéciales pour σ= √ ν
calculer efficacement la
moyenne et l'écart-type. En utilisant les données du tableau 1, on trouve :
Consultez votre mode
100 438
– 3.846 =16.846 – 14.793=2.053 . D'où = =1.433 .
2
d'emploi ! x= =3.846 ; =
26 26
Remarque Quand on calcule la variance d'un échantillon (et non de la population entière), le
dénominateur est n–1.
Exercice 1.2 Les trois élèves suivants ont 4 de moyenne. Et pourtant, ils sont très différents. Calculez
l'écart-type de leurs quatre notes. Que constatez-vous ?
a. 4 4 4 4 b. 2 2 6 6 c. 2 3 5 6
1 1 44
Avec les données du tableau 1, x = x n x n 1= x 13 x14 = =4 .
2 2 2
2 2
Remarque La médiane n'est pas affectée par les valeurs extrêmes de la distribution.
Méthode de calcul
Intervalle semi-
1. Trier les données dans l'ordre croissant.
interquartile
2. Diviser les données en deux groupes de taille égale : le groupe A avant la médiane et
(mesure de dispersion) le groupe B après la médiane (si l'échantillon de départ a une taille impaire, rajouter
la médiane en tête du groupe B).
3. Calculer la médiane du groupe A, que l'on appellera Q1.
4. Calculer la médiane du groupe B, que l'on appellera Q3.
Remarque : Q – Q1
5. L'intervalle semi-interquartile (isi) vaut : isi= 3
par convention, Q2 =x 2
Groupe A Groupe B
0122333334444 4445555555566
Q1=3 Q3=5
5–3
isi= =1
2
Le mode est par définition la valeur la plus fréquente dans une série de données.
Mode
(mesure de tendance En lisant le tableau 1, on constate que, dans cet exemple, le mode vaut 5.
centrale)
Remarques Le mode n'est pas affecté par les valeurs extrêmes de la distribution.
Selon la série de données, il peut y avoir plusieurs modes.
Exercice 1.3 Lors d'une journée, on a relevé les âges de 20 personnes venant se présenter à l'examen
théorique du permis de conduire :
Utilisez les touches spéciales de 18 19 19 23 36 21 57 23 22 19
votre machine pour calculer la 18 18 20 21 19 26 32 19 21 20
moyenne et l'écart-type. Calculez la moyenne, la médiane, le mode, la variance, l'écart-type et l'intervalle semi-
interquartile de ces valeurs.
Exercice 1.5 Le professeur de maths m'a dit : « C'est bien ; disons plutôt que c'est pas mal : tu as 4.5
de moyenne sur les cinq notes du semestre ». Sachant qu'aux quatre premières j'ai eu
5.2, 3.1, 4.4 et 4.2, quelle est ma note à la dernière épreuve ?
Exercice 1.6 41'250'000 personnes d'un pays ont atteint leur taille définitive (1.67 mètres en
moyenne). Si l'on vous dit que, dans ce pays, la femme moyenne mesure 1.61 mètres et
l'homme moyen 1.74 mètres, sauriez-vous en déduire de combien le nombre de femmes
dépasse le nombre d'hommes dans ce pays ?
Exercice 1.7 Chaque élève de la classe est prié de relever le prix de trente articles différents choisis
(exercice de classe) au hasard, soit en se promenant dans un grand magasin, soit en parcourant un
catalogue de vente par correspondance. Il notera ensuite combien de fois apparaît
chaque premier chiffre significatif (le chiffre tout à gauche, 0 excepté), i.e. combien de
fois le prix des articles commence par un 1, par un 2, …, et par un 9.
Exercice 1.8 Déchiffrez le texte ci-dessous, sachant que chaque lettre du code remplace toujours la
même lettre du texte original, écrit en français.
G'UY G'MUJVX. GX VCB AVBM MDXA ICVAX QCUV IMBVX DXYBV GXR
siècle, une technique dite
analyse des fréquences :
LMWBABXYR, GXR APMGNXXYR XJ GXR MRJVCGCWUXR. GX VCB QVBJ GM
comme chaque symbole
correspond à une seule lettre, QMVCGX XJ NBJ MUZ RMWXR NX FMFEGCYX : JCUJ PCLLX KUB GBVM AXJJX
les fréquences d'apparition
doivent être semblables. XAVBJUVX XJ LX IXVM ACYYMBJVX RCY XZQGBAMJBCY VXDXJBVM GM
Ainsi, la lettre « e » est la plus
utilisée en français, donc la QCUVQVX, LXJJVM GX ACGGBXV N'CV M RCY ACU XJ, ACLLX JVCBRBXLX NMYR
lettre qui la remplace dans le
message codé doit l'être aussi. GX VCEMULX, BG ACLLMYNXVM. MGCVR DBYVXYJ JCUR GXR RMWXR NU VCB,
Cependant, cette technique ne
marche que si le message
LMBR BGR YX QUVXYJ QMR GBVX G'XAVBJUVX XJ IMBVX ACYYMBJVX MU VCB
chiffré est assez long pour
G'XZQGBAMJBCY. GX VCB FMGJPMRMV IUJ NCYA JVXR XIIVMEX, GM ACUGXUV
avoir des moyennes
significatives.
NX RCY DBRMWX APMYWXM XJ RXR WVMYNR IUVXYJ FCUGXDXVRXR. GM
18 18
17 17
16 16
15 15
14 14
13 13
12 12
11 11
10 10
9 9
8 8
7 7
6 6
5 5
4 4
3 3
2 2
1 1
0 0
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
Dans le cas continu, le mode se trouve dans la classe ayant le plus grand effectif (la
Mode
classe modale).
b
Il se calcule sur l'histogramme ainsi : mode = a + c⋅
b+d
2⋅4
Ci-dessous : mode = 49 =50.14...
43
Il est souvent intéressant de faire figurer dans un tableau statistique, pour chaque valeur
Fréquences et
(ou pour chaque classe) xi que peut prendre le caractère, la proportion fi des individus
fréquences qui présentent cette valeur xi . Ces proportions sont appelées fréquences.
cumulées n
Si n est l'effectif total, alors par définition f i = i .
n
La fréquence cumulée F(x) est la proportion des individus qui présentent des valeurs xi
inférieures ou égales à x. Elle se calcule en additionnant toutes les fréquences fi
correspondant aux xi tels que xi x.
Tableau 3
Classes Centres des Effectifs Fréquences Fréquences
(temps) classes xi ni fi cumulées F(xi+1)
[43-45[ 44 2 2/40 = 0.050 2/40 = 0.050
[45-47[ 46 3 3/40 = 0.075 5/40 = 0.125
[47-49[ 48 7 7/40 = 0.175 12/40 = 0.300
[49-51[ 50 11 11/40 = 0.275 23/40 = 0.575
[51-53[ 52 8 8/40 = 0.200 31/40 = 0.775
Ce tableau représente les vitesses de [53-55[ 54 6 6/40 = 0.150 37/40 = 0.925
40 voitures mesurées dans un village. [55-57[ 56 3 3/40 = 0.075 40/40 = 1.000
40 1
On voit que l'intervalle [Q1; Q3] contient le 50% des valeurs de l'échantillon.
Dans le cas continu, la moyenne et l'écart-type se calculent comme dans le cas discret
Moyenne et écart-
en utilisant comme valeurs les centres de classes. Ces mesures changeront légèrement
type
selon la manière dont on aura formé les classes.
Remarque Si on utilise la moyenne pour mesurer la tendance centrale, on lui associera l'écart-type
pour mesurer la dispersion. Si par contre on utilise la médiane, on lui associera
l'intervalle semi-interquartile.
Exercice 1.9 Lors d'un contrôle de police sur l'autoroute, un agent a relevé les vitesses suivantes
(arrondies à l'entier inférieur ou égal) :
117 134 130 113 127 125 98 110 124 122 126 101
106 121 121 104 124 117 109 128 134 146 111 139
123 124 130 123 120 133 111 143 145 111 110 119
114 104 126 99 140 105 119 134 128 119 137 109
122 130 92 104 113 130 120 84 166 138 129 119
a. Groupez ces données par classes : [80-90[, [90-100[, etc.
b. Dessinez le diagramme à secteurs correspondant.
c. Calculez le mode, la médiane et l'intervalle semi-interquartile.
Exercice 1.10 Les salaires mensuels payés aux ouvriers d'une entreprise se répartissent comme suit :
Exercice 1.11 Au concours de Mathématiques sans Frontières, le nombre de points obtenus par les
écoles de Suisse se répartit selon l'histogramme suivant :
Exercice 1.12 Après avoir constaté que la moyenne de classe était (une fois de plus) catastrophique, le
prof de maths décide de monter tout le monde d'un demi-point. Laquelle de ces mesures
statistiques ne changera pas : la moyenne, l'écart-type, le mode ou la médiane ?
Soit la série des températures mensuelles moyennes à Nottingham de 1920 à 1939. Les
Exemple
240 données proviennent de : http://robjhyndman.com/tsdldata/data/anderson15.dat .
Ces données ont été regroupées par mois et représentées sous forme de boîtes à
moustaches :
√
n
n
Moyenne x= ∏ xi
géométrique i=1
Notation : On peut l'illustrer avec le cas suivant : si l'inflation d'un pays est de 5% la première
N
année et de 15% la suivante, l'augmentation moyenne des prix se calcule grâce à la
∏ x1⋅x2⋅…⋅x N moyenne géométrique des coefficients multiplicateurs 1.05 et 1.15 soit une
i=1 augmentation moyenne de 9.88%.
Le 30 mars 2014, Philippe Perrenoud a été réélu grâce à ce particularisme bernois qui
La moyenne
prévoit que la minorité du Jura bernois a droit à un siège au Conseil d'État, et qu'il est
géométrique en
occupé par le candidat qui obtient la meilleure moyenne géométrique.
politique Cette moyenne s'obtient en prenant la racine carrée de la multiplication des scores que
les candidats francophones obtiennent dans l'ensemble du canton et dans le Jura
bernois.
Exercice 1.14 On suppose qu'à l'issue d'une manifestation, la police annonce 10'000 manifestants, et
les organisateurs 100'000. Quel est le nombre de manifestants ?
On se dit que les organisateurs et la police trichent de la même façon : si x est le
nombre de manifestants réel, alors, si les organisateurs annoncent k fois plus de
manifestants, la police en annonce k fois moins.
n
Moyenne x= n
harmonique ∑ 1x
i=1 i
Exercice 1.15 Un avion a fait le trajet de A vers B, contre le vent, à la vitesse moyenne de 700 km/h et
le trajet retour à 900 km/h. Quelle a été sa vitesse moyenne ?
Exercice 1.16 On change 100 euros en dollars au taux de 0.70 euro pour un dollar et 100 euros au
taux de 0.80 euro pour un dollar. Quel est le taux de change moyen ?
√
n
Moyenne 1
x= ∑ x2
n i= 1 i
quadratique
Elle est utilisée pour calculer l'écart-type (voir page 3).
Si un rectangle a pour côtés 3 et 7, le carré qui a même diagonale que le rectangle a
pour côté la moyenne quadratique de 3 et 7, c'est-à-dire 5.38.
Moyenne pondérée ∑ p i xi
i=1
x= n
∑ pi
i=1
Ce tableau, si l'on excepte la dernière ligne, ne montre aucune discrimination envers les
femmes. Au contraire, le taux d'admission des filles dans le principal département (A)
est nettement supérieur à celui des garçons. L'explication de ce paradoxe apparent vient
quand on regarde le nombre de candidatures dans ces départements. Les femmes
semblent avoir tendance à postuler en masse à des départements très sélectifs. Dans
ceux-ci, leur taux d'admission est à peine plus faible que celui des hommes. Dans les
autres, elles sont plus largement sélectionnées que les hommes. Quand on fait la
moyenne globale, ce sont les départements sélectifs qui ont plus de poids, puisqu'elles y
postulent en masse.
En complément de ce chapitre, vous trouverez des exercices avec un tableur sur la page :
www.apprendre-en-ligne.net/madimu/tableur/