STATISTIQUES
DESCRIPTIVES
Rappels
Philippe Nanopoulos
2021
CONCEPTS DE BASE
L’analyse statistique d’un phénomène requiert de définir au départ:
1. La population sur laquelle va porter l’étude
2. Les variables qui doivent les caractériser
3. La nature de chacune de ces variables
4. Les échelles sur lesquelles sont mesurées ces variables
LA POPULATION
Définition: L'ensemble des individus possédant les informations désirées
pour répondre aux objectifs de l'étude
Le terme individus doit être entendu au sens large unités statistiques,
objets, sujets, éléments, cas, unités d’analyse etc….
• ….. mais le définition de la population doit être précise
• Une enquête réalisée auprès de l’ensemble des individus qui composent
la population (cible, de référence) recensement
• Une enquête réalisée auprès d’une partie seulement des individus qui
composent la population sondage sur un échantillon
• Le nombre d’individus retenus est appelé taille ou effectif
LES VARIABLES
Définition: Ce sont les attributs des individus qui font l’objet de l’étude
(caractères, caractéristiques)
• Ces attributs ont des modalités (ou valeurs) qui varient d’un individu à
l’autre ou d’un groupe d’individus à une autre variables
• Une variable a toujours au moins 2 valeurs possibles (sinon constante)
• Notation: X, Y, Z,…..
LA NATURE DES VARIABLES
• La nature d’une variable est déterminée à partir des « valeurs » qu’elle
peut prendre pour chaque individu
• On distingue les variables qualitatives des variables quantitatives
4 ECHELLES DE MESURE PRIMAIRES
On distingue 4 types d'échelles de mesure primaires qui respectent à
des degrés divers les propriétés des nombres:
• Echelles Nominales
• Echelles Ordinales
• Echelles d’Intervalles
• Echelles de Proportions
STATISTIQUE DESCRIPTIVE
OBJECTIFS
Rendre plus intelligible l’information contenue dans les
données collectées (tableaux, graphiques)
Dégager les caractéristiques essentielles des données
collectées (tendance centrale, dispersion)
Apporter de l’information par rapport aux objectifs de
l’étude 1ère étape
de tout
Détecter les erreurs de saisie/codage travail
d’analyse
DISTRIBUTION DES FREQUENCES
Fréquence absolue et Fréquence relative
FREQUENCE LECTURE DE LA FREQUENCE
STATUT FREQUENCE FREQUENCE
ABSOLUE ou PRESSE ABSOLUE ou
MARITAL RELATIVE RELATIVE
EFFECTIFS QUOTIDIENNE EFFECTIFS
Célibataire 183 52.3 Très souvent 76 21.7
Assez souvent 49 14.0
Marié 94 26.9
Assez rarement 12 3.4
Veuf 22 6.3
Très rarement 73 20.9
Divorcé 51 14.5
Jamais 140 40.0
TOTAL 350 100
TOTAL 350 100
DISTRIBUTION DES FREQUENCES
FREQUENCE ABSOLUE
NOMBRE D'ENFANTS FREQUENCE RELATIVE
ou EFFECTIFS
0 110 31.4
1 74 21.1
2 38 10.9
3 15 4.3
4 20 5.7
5 56 16.0
6 0 0.0
7 13 3.7
8 9 2.6
9 13 3.7
10 2 0.6
TOTAL 350 100
DISTRIBUTION DES FREQUENCES CUMULEES
Variables ordinales et échelles d’intervalle et de ratio
FREQUENCE FREQUENCE
NOMBRE FREQUENCE FREQUENCE
CUMULEE CUMULEE
D'ENFANTS ABSOLUE RELATIVE
ABSOLUE RELATIVE
0 110 31.4 110 31.4
1 74 21.1 184 52.5
2 38 10.9 222 63.4
3 15 4.3 237 67.7
4 20 5.7 257 73.4
5 56 16.0 313 89.4
6 0 0.0 313 89.4
7 13 3.7 326 93.1
8 9 2.6 335 95.7
9 13 3.7 348 99.4
10 2 0.6 350 100.0
TOTAL 350 100
TRANSFORMATION D’UNE VARIABLE QUANTITATIVE
Lorsqu’une variable quantitative a trop de valeurs distinctes,
la distribution des fréquences n’est pas très claire
Mises en classes de valeurs (entre 4 et 10 classes généralement)
FREQUENCE FREQUENCE
AGE
ABSOLUE RELATIVE
18-24 67 19.1
Mutuellement
25-34 89 25.4 exclusives
35-44 106 30.3 Collectivement
45-54 33 9.4 exhaustives
55-64 28 8.0
65-74 23 6.6
75 et plus 4 1.2
TOTAL 350 100
REPRESENTATIONS GRAPHIQUES
Variables nominales et ordinales
AGE
120
FREQUENCE ABSOLUE
100
80
60
40
20
0
18-24 25-34 35-44 45-54 55-64 65-74 75 et plus
REPRESENTATIONS GRAPHIQUES
STATUT MARITAL
14.6%
Célibataire
Marié
6.3% Veuf
Divorcé
52.3%
26.9%
REPRESENTATIONS GRAPHIQUES
NOMBRE D'ENFANTS
FREQUENCE CUMULEE RELATIVE
100
90
80
70
60
50
40
30
20
10
0
0 1 2 3 4 5 6 7 8 9 10
REPRESENTATIONS GRAPHIQUES
Le cas des séries chronologiques (ou temporelles)
RESUMER UN GRAND NOMBRE DE DONNEES
Comment résumer un grand nombre de données
(observations) à l’aide d’un nombre réduit d’indicateurs?
Les indicateurs de tendance centrale et de dispersion
RESUMER UN GRAND NOMBRE DE DONNEES
INDICATEUR INDICATEUR
NATURE DE LA
DE TENDANCE DE
VARIABLE
CENTRALE DISPERSION
FREQUENCES
NOMINALE MODE
RELATIVES
ORDINALE MEDIANE FRACTILES
VARIANCE
METRIQUE MOYENNE
ECART-TYPE
INDICATEURS DE TENDANCE CENTRALE
MODE: C’est la modalité pour laquelle les observations sont
les plus nombreuses
INDICATEURS DE TENDANCE CENTRALE
Les distributions présentent parfois un pic principal, et un ou plusieurs
pic secondaires. On parle alors de distribution bimodale ou, en général,
multimodale. Cette particularité est souvent l'indication que la
population examinée est en fait composée de plusieurs sous-populations
distinctes.
INDICATEURS DE TENDANCE CENTRALE
MEDIANE: Valeur (ou modalité) qui divise les observations
en 2 groupes d’effectifs égaux X X
5 1
6 3
3
12
4
14
5
18
5
23
???
28 8
29 8
34 8
40 9
46 9
10
INDICATEURS DE TENDANCE CENTRALE
MOYENNE ARITHMETIQUE: Rapport entre la somme des observations
et leur nombre
Pour une série brute x1 , x2 , .... , xn ,
Pour une série groupée ( xi , ni ) , i = 1, ... , K ,
MOYENNE PONDEREE: La moyenne des nombres x1 , x2 , ... , xn ,
pondérée par les poids p1 , p2 , ... , pn (nombres positifs de somme 1) est
égale à :
RELATION ENTRE LES INDICATEURS DE TENDANCE
CENTRALE
• Dans le cas d'une distribution symétrique, les trois indices
sont sensiblement égaux :mode ~ médiane ~ moyenne
RELATION ENTRE LES INDICATEURS DE TENDANCE
CENTRALE
Dans le cas d'une distribution asymétrique, étalée à droite,
on a l'ordre : mode < médiane < moyenne
RELATION ENTRE LES INDICATEURS DE TENDANCE
CENTRALE
Dans le cas d'une distribution asymétrique, étalée à
gauche, on a l'ordre : mode > médiane > moyenne
INDICATEURS DE DISPERSION
•Une mesure simple de la dispersion des données consiste à
calculer leur étendue, c'est-à-dire l'intervalle entre la plus
grande et la plus petite valeur : Etendue = max - min
•Les quantiles: valeurs (ou modalités) qui partagent la
population en groupes d’effectifs égaux (Quartiles – Déciles
- Centiles)
Intervalles inter-quantiles
INDICATEURS DE DISPERSION
BOITE A MOUSTACHE (BOX-PLOT)
(Exemple: Longueur des prénoms)
INDICATEURS DE DISPERSION
INDICATEURS DE DISPERSION
VARIANCE
ECART-TYPE
Faites des graphiques !!!!!
Le quartet d’Anscombe
I II III IV
x y x y x y x y
10 8.04 10 9.14 10 7.46 8 6.58
8 6.95 8 8.14 8 6.77 8 5.76
13 7.58 13 8.74 13 12.74 8 7.71
9 8.81 9 8.77 9 7.11 8 8.84
11 8.33 11 9.26 11 7.81 8 8.47
14 9.96 14 8.1 14 8.84 8 7.04
6 7.24 6 6.13 6 6.08 8 5.25
4 4.26 4 3.1 4 5.39 19 12.5
12 10.84 12 9.13 12 8.15 8 5.56
7 4.82 7 7.26 7 6.42 8 7.91
5 5.68 5 4.74 5 5.73 8 6.89
Propriété Valeur
Moyenne des x 9
Variance des x 10
Moyenne des y 7.5
Variance des y 3.75
Corrélation entre les x et les y 0.816
Équation de la droite de régression linéaire y=3 + 0,5x 29
Faites des graphiques !!!!!
30