Statistique descriptive : variables et graphiques
Statistique descriptive : variables et graphiques
Stéphane Ducay 1
S2 STS toutes mentions 2015-2016 Probabilités et Statistique Statistique descriptive à une variable
Le nombre d’individus étant généralement grand, voire très grand, une série brute est difficilement lisible
et interprétable. Il est indispensable de la résumer. Pour cela, on commence par un tri à plat, décompte des
modalités ou valeurs obtenues, qui nous servira de base à la construction de tableaux et de graphiques.
On désigne par n i l’effectif (ou fréquence absolue) de chaque valeur ou modalité x i ou de chaque classe
C i , c’est-à-dire le nombre de fois où l’on a observé la valeur ou la modalité ou la classe dans l’échantillon.
On a évidemment n i n.
On désigne par f i n i la fréquence (ou fréquence relative ou proportion) de chaque valeur ou modalité
n
x i ou de chaque classe C i , c’est-à-dire la proportion de fois où l’on a observé la valeur ou la modalité ou la
classe dans l’échantillon. (Pourcentage 100 f i ).
On peut remarquer que f i ni 1 ni 1 n 1.
n n n
La distribution des effectifs et/ou fréquences est en général donnée comme suit :
Valeur ou modalité x i Effectif n i Fréquence f i Classe C i Effectif n i Fréquence f i
x1 n1 f1 C1 n1 f1
x2 n2 f2 C2 n2 f2
xp np fp Cp np fp
n 1 n 1
Lorsque l’on veut comparer les résultats de plusieurs échantillons (éventuellement de tailles différentes),
il est utile d’utiliser les fréquences. C’est ce que nous ferons en général.
Cas des classes C i x i 1 , x i . (Remarquer que C i est fermée à droite et ouverte à gauche.)
Dans ce cas, la fréquence cumulée F i f 1 f i correspond à la fréquence des valeurs observées
inférieures ou égales à x i .
Le polygone des fréquences cumulées est la ligne brisée obtenue en reliant les points de coordonnées
x i , F i . On écrira alors F x Fr X x fréquence des valeurs inférieures ou égale à x.
3.1. Le mode
Le mode est la valeur ou la modalité ou la classe ayant la plus grande fréquence d’observation. Dans le
dernier cas, on parle aussi de classe modale.
3.2. La médiane
Si la série brute des valeurs observées x 1 , x 2 , . . . , x n est triée par ordre croissant : x 1 x 2 . . . x n , la
médiane M est la valeur du milieu, telle qu’il y ait autant d’observations "au-dessous" que "au-dessus",
c’est-à-dire que :
- si n est impair, soit n 2p 1, alors M x p 1 ;
- si n est pair, soit n 2p, alors toute valeur de l’intervalle médian x p ; x p 1 répond à la question ;
xp xp1
afin de définir M de façon unique, on choisit souvent M , soit le centre de l’intervalle médian.
2
Par exemple :
- dans la série 2, 3, 7, 9, 11, il y a n 5 2p 1 valeurs donc p 2 et on prendra la p 1 -ème
3 ème valeur, soit M 7 ; 3 valeurs lui sont inférieures ou égales et 3 supérieures ou égales ;
- dans la série 2, 3, 6, 7, il y a n 4 2p valeurs donc p 2 et on pourra prendre
x2 x3 3 6
M 4, 5 (mais on pourrait prendre toute valeur de l’intervalle 3, 6 ).
2 2
De manière générale, on définira la médiane M comme toute valeur telle qu’au moins 50% des
observations lui sont inférieures ou égales et au moins 50% des observations lui sont supérieures ou égales.
Dans le cas où il y aurait un intervalle borné non-vide de valeurs répondant à ces deux contraintes, une
pratique courante désigne le centre de cet intervalle comme unique médiane.
Pour une variable quantitative continue, on définira la médiane M comme étant la valeur (abscisse)
correspondant à la fréquence cumulée F 0, 5. On l’obtiendra en général par lecture graphique (valeur
approchée) sur la courbe des fréquences cumulées, ou par une formule d’interpolation linéaire (valeur exacte).
Stéphane Ducay 3
S2 STS toutes mentions 2015-2016 Probabilités et Statistique Statistique descriptive à une variable
4. Paramètres de dispersion
Deux distributions peuvent, tout en ayant des caractéristiques de tendance centrale voisines, être très
différentes. Ainsi la moyenne annuelle des températures dans une zone océanique peut être égale à la
moyenne annuelle des températures dans une zone continentale, pourtant les distributions sont très
différentes. Dans le premier cas les variations de température autour de la moyenne sont assez faibles, dans le
second cas elles sont beaucoup plus importantes.
Il est donc nécessaire de mesurer la dispersion des valeurs autour des tendances centrales.
4.1. L’étendue
L’étendue (ou amplitude), notée R (Range), d’une série statistique est la différence entre la valeur
maximum et la valeur minimum de la série. Facile à déterminer, l’étendue ne dépend que des 2 observations
extrêmes qui sont parfois le fait de situations exceptionnelles. Il est donc difficile de considérer l’étendue
comme une mesure stable de la dispersion.
5. D’autres paramètres
5.1. Le coefficient de variation
Le coefficient de variation est le rapport de l’écart-type à la moyenne : V s x . On peut l’exprimer en
x
pourcentage en le multipliant par 100.
Il donne une mesure relative de l’écart type qui permet de prendre en compte l’ordre de grandeur de la
moyenne.
Le coefficient d’aplatissement ou Kurtosis de Pearson est la moyenne des puissances quatrièmes des
observations centrées : 4 1 ni xi x 4.
n
Le coefficient d’aplatissement ou Kurtosis de Pearson (relatif) est la moyenne des puissances quatrièmes
4
des observations centrées réduites : K 1
n ni xisx x 4
.
s 4x
Interprétation : il permet d’etudier la forme plus ou moins pointue ou aplatie du diagramme des effectifs.
Fisher propose d’étudier K K 3, ce qui permet de faire référence à une distribution particulière, celle
de la loi normale (ou gaussienne, étudiée dans le dernier chapitre de ce cours) pour laquelle K vaut 3.
Les logiciels statistiques vous donnent la valeur de K . Si K 0, alors la distribution est plus aplatie que
dans une distribution normale ; si K 0, alors elle l’est moins.
Stéphane Ducay 5
S2 STS toutes mentions 2015-2016 Probabilités et Statistique Statistique descriptive à une variable
0.4 1.0
f F
0.8
0.3
0.6
0.2
0.4
0.1
0.2
0.0 0.0
-1 0 1 2 3 4 5 6 7 8 9 10 -1 0 1 2 3 4 5 6 7 8 9 10
x x
Stéphane Ducay 6
S2 STS toutes mentions 2015-2016 Probabilités et Statistique Statistique descriptive à une variable
0.03 1.0
h F
0.8
0.02
0.6
0.4
0.01
0.2
0.00 0.0
60 80 100 120 140 160 180 60 70 80 90 100 110 120 130 140 150 160 170 180
x x
7. Exercices
Exercice 1.
On a interrogé des personnes au hasard et on a obtenu les résultats suivants
Personne n° Nom Prénom Age Salarié Niveau étude Département de naissance Sexe
1 PASCAL Béatrice 22 Non Primaire 80 F
2 NOIROT Claudine 25 Oui Universitaire 78 F
3 LAFFITE Jean 30 Oui Secondaire 93 M
4 LAFFON Gilles 25 Non Primaire 80 M
5 DAURIAC André 30 Oui Universitaire 32 M
6 FAURE Céline 22 Non Universitaire 64 F
7 BENAZET Eric 24 Non Secondaire 40 M
8 DUMAS Elvia 29 Non Secondaire 76 F
9 MARTINEZ Alexis 25 Oui Universitaire 80 M
10 DUPONT Adrien 23 Non Universitaire 75 M
11 CATHALA Agnès 22 Non Primaire 78 F
12 PEREZ Eliane 24 Oui Secondaire 13 F
13 MARTIN Albert 25 Oui Universitaire 33 M
14 SIMON Gabriel 24 Oui Primaire 76 M
15 ROQUES Adrien 25 Non Secondaire 45 M
16 DUMAS Elvire 28 Oui Secondaire 75 F
17 MARTIN Alain 25 Oui Secondaire 21 M
18 SANCHEZ Henri 27 Oui Primaire 11 M
19 PONS Adeline 22 Non Universitaire 34 F
20 DUPUY Paul 27 Oui Universitaire 73 M
1) Combien y a-t-il d’individus ? de variables ?
2) Pour chaque variable, préciser sa nature (autrement dit son type).
3) Représenter les résultats sur le Niveau d’étude à l’aide d’un diagramme circulaire.
4) Représenter les résultats sur le Niveau d’étude à l’aide d’un diagramme en barres.
5) a) Représenter les résultats sur l’Age à l’aide d’un diagramme adapté.
b) Déterminer le mode, la moyenne et la médiane de l’Age des individus étudiés.
Exercice 2.
Cinquante éprouvettes d’acier spécial sont soumises à des essais de résistance. Pour chacune, on note le
nombre de chocs nécessaires pour obtenir la rupture. Les résultats obtenus sont les suivants :
2 2 3 5 2 1 4 2 3 5
3 2 3 3 4 1 2 4 2 2
4 2 3 2 3 3 2 2 4 2
1 4 2 3 2 2 3 1 3 3
2 3 2 2 3 4 3 2 3 2
1) Préciser la population étudiée, la variable étudiée et sa nature, la taille de l’échantillon.
2) Représenter ces résultats sous forme d’un tableau valeurs/effectifs (tri à plat).
3) Tracer sur le même graphique le diagramme et le polygone des fréquences de cette distribution. En
déduire le mode et donner sa signification.
4) Tracer le diagramme des fréquences cumulées (croissantes). Déterminer les quartiles.
5) Déterminer la moyenne et l’écart-type de cette série statistique.
Stéphane Ducay 8
S2 STS toutes mentions 2015-2016 Probabilités et Statistique Statistique descriptive à une variable
Exercice 4.
Le croisement d’une souris noire et d’une souris blanche donne des descendants de couleur noire ou
blanche. On a effectué 30 croisements ayant donné chacun 50 descendants. Pour chacun des 30 croisements,
le nombre de descendants noirs obtenu est donné dans le tableau suivant :
24 28 25 24 26 21 23 21 25 26 18 25 26 29 25
22 25 26 32 25 23 24 25 25 27 29 19 24 27 26
1) Calculer la moyenne et l’écart-type de cette série. Déterminer la médiane.
2) Ranger ces données en classes d’intervalles de longueur 2, borne supérieure incluse, entre 18 et 32.
Faire un tableau.
3) Tracer sur le même graphique l’histogramme et le polygone des fréquences de cette distribution. En
déduire la classe modale.
4) Tracer le polygone des fréquences (ou effectifs) cumulées croissantes. En déduire la valeur de la
médiane et l’intepréter dans le contexte étudié.
5) Déterminer la moyenne et l’écart-type de cette série statistique. Comparer avec les résultats du 1).
6) Si nous avions rangé ces données en classes d’intervalles de longueur 4, aurions-nous trouvé les mêmes
résultats ?
Exercice 5.
On admet le résultat suivant, inégalité de Bienaymé-Tchebichev (version statistique descriptive).
Pour tout réel t 0, la fréquence des observations se trouvant dans l’intervalle x t s x ; x t s x
est au moins égale à 1 12 .
t
Autrement dit, au moins 1 12 100 % des observations se trouvent dans l’intervalle
t
x t s x ; x t s x . En pratique :
- soit on se donne t, et alors on obtient le pourcentage d’observations dans l’intervalle correspondant à
t : par exemple, pour t 2, on a 1 12 3 0. 75, et donc au moins 75 % des observations dans
t 4
l’intervalle x 2s x ; x 2s x ;
- soit on se donne un pourcentage souhaité, et alors on obtient l’intervalle recherché : par exemple,
pour avoir au moins 95 % des observations dans l’intervalle, on cherche t tel que 1 12 0. 95, ce qui
t
donne t 1 20 , et donc l’intervalle x 20 s x ; x 20 s x .
0. 05
Remarquons aussi que seul le cas t 1 est utile ; en effet, pour 0 t 1, on a 1 12 0. En particulier,
t
on n’obtient pas de résultat intéressant pour t 1, c’est-à-dire pour l’intervalle moyen x s x ; x s x .
Stéphane Ducay 9
S2 STS toutes mentions 2015-2016 Probabilités et Statistique Statistique descriptive à une variable
Exercice 6.
Pour une série statistique données, les trois quartiles, ainsi que les valeurs extrèmes de la série, peuvent
être représentées graphiquement à l’aide de boîtes à moustaches (ou à dispersion, Box plots en anglais). Ce
sont des représentations graphiques d’un caractère quantitatif résumé par ses valeurs extrêmes x min et x max , et
ses quartiles Q 1 , Q 2 M et Q 3 . Sur une échelle horizontale (ou verticale) :
- on trace un rectangle qui s’étend du premier au dernier quartile ;
- on partage ce rectangle par un segment tracé au niveau de la médiane ;
- on ajoute les "moustaches", c’est-à-dire des segments s’étendant de la valeur minimale au premier
quartile, et du dernier quartile à la valeur maximale.
xmin Q1 M Q3 xmax x
xmin Q1 M Q3 xmax x
Ces représentations permettent de comparer facilement différentes séries statistiques selon cinq
paramètres de position (valeurs extrêmes et quartiles) et d’illustrer leur dispersion en mettant en évidence
l’intervalle interquartile et l’étendue de chacune d’elles.
De plus, pour tenir compte de la taille de la série (nombre d’observations), on trace des rectangles d’une
largeur proportionnelle à la racine carrée de celle-ci.
(Les 9 déciles et le 99 centiles partagent la série en 10 et 100 séries de même taille.)
Le tableau suivant donne la répartition des 100 techniciens supérieurs d’une grande entreprise de Picardie
selon leurs salaires mensuels bruts (en euros) :
Salaires mensuels Nombre de techniciens
1731; 1962 13
1962; 2193 35
2193; 2424 21
2424; 2655 13
2655; 2886 9
2866; 3117 5
3117; 3348 3
3348; 3579 1
Stéphane Ducay 10
S2 STS toutes mentions 2015-2016 Probabilités et Statistique Statistique descriptive à une variable
Exercice 7.
On désire comparer les distributions (groupées) des bénéfices nets hebdomadaires en euros de 2 magasins,
sur 100 semaines comprenant toutes 6 jours d’ouverture.
Magasin 1 Magasin 2
Bénéfice Nb de semaines Bénéfice Nb de semaines
1) Comparer les moyennes et les écart-types
1000 10 11000 8
des deux distributions.
2000 25 12000 24
2) Calculer les coefficients de variation
3000 37 13000 38
des deux ditributions et analyser les résultats.
4000 21 14000 20
5000 7 15000 10
Exercice 8.
Une enquête menée auprès de 1500 ménages d’une certaine région géographique rurale s’est intéressée à
la variable correspondant à la taille du ménage, c’est-à-dire au nombre de personnes constituant le ménage.
Les données recueillies peuvent être présentées sous la forme du diagramme en bâtons et de la boîte à
moustaches ci-après.
500 455
450
400 380
350
300
245 230
250
200
150 100
100 75
50 10 5
0
1 2 3 4 5 6 7 8
On a par ailleurs déterminé que la taille moyenne des 1500 ménages est égale à 2,67, que la variance des
tailles des ménages s’élève à environ 2,2678 et que le coefficient d’asymétrie de Fisher est égal à environ
0,829. Ces résultats sont-ils cohérents avec les diagrammes ci-dessus ?
Exercice 9.
1) A l’aide d’un tableur, on a effectué les calculs suivants sur deux séries statistiques :
Pour chacune des deux séries, construire le diagramme des effectifs et déterminer les paramètres
statistiques suivants : moyenne, écart-type, mode, médiane, quartiles, écart interquartile, coefficient de
variation, coefficient d’asymétrie et coefficient d’aplatissement.
Vérifier la cohérence entre les diagrammmes et les paramètres obtenus.
2) Montrer que la série suivante est moins aplatie qu’une distribution normale, c’est-à-dire que K 0.
Revenus ]0,100] ]100,200] ]200,300]
ni 3 5 2
Stéphane Ducay 11