Statistiques Descriptives et Variables
Statistiques Descriptives et Variables
Statistiqu e
descriptive
1
2. Niveaux de mesure
3. Représentations tabulaires
4. Représentations graphiques
5. Mesures statistiques
3
1. T Y P E S D E VA R I A B L E S
Variables
qualitatives
Variables pouvant
être nommées
Niveau
Groupe sanguin; Sexe;
d’instruction;
État civil ; Statut
Degré de 4
région
satisfaction
1. T Y P E S D E VA R IA B L E S (S U I T E )
Variables
quantitatives
Variables pouvant
être quantifiées
Discrètes Continues
Comptées Mesurées
fratrie; la parité;
TAS; le poids; la taille
Nombre de
malades admis 5
2. N I V E A U X D E MESURE
(ÉCHELLES)
8
M O D IF I C A T I O N D E T Y P E DE
VA R I A B L E
En pratique, dans le cas des mesures, on effectue
en réalité des observations discontinues en raison
de la nécessité d'arrondir les données alors que
celles-ci sont fondamentalement continues (mise
en classe).
Une variable qualitative Peut être décomposé
en
variables binaires
Couleur des cheveux (brun, blond, autre)
décomposée en Brun (oui, non); Blond (oui, non);
9
Autre (oui, non)
I M P O R TA N T
10
LA S TAT I S T I Q U E D E S C R I P T I V E
1. Niveaux de mesure
3. Représentations tabulaires
4. Représentations graphiques
5. Mesures statistiques
12
EXEMPLE 1
Groupe sanguin d’un échantillon de taille n=100
N° GS N° GS N° GS N° GS N° GS N° GS N° GS N° GS N° GS N° GS
1 A 11 B 21 A 31 O 41 O 51 A 61 O 71 O 81 AB 91 A
2 O 12 A 22 O 32 AB 42 A 52 AB 62 A 72 A 82 A 92 O
3 B 13 O 23 A 33 A 43 O 53 A 63 O 73 O 83 O 93 A
4 O 14 A 24 O 34 O 44 B 54 B 64 O 74 A 84 A 94 O
5 A 15 AB 25 AB 35 A 45 A 55 A 65 O 75 A 85 B 95 B
6 B 16 A 26 O 36 O 46 O 56 O 66 A 76 O 86 A 96 A
7 B 17 A 27 A 37 A 47 O 57 O 67 O 77 B 87 O 97 O
8 A 18 AB 28 AB 38 A 48 A 58 A 68 A 78 O 88 A 98 O
9 O 19 A 29 O 39 O 49 O 59 AB 69 AB 79 AB 89 O 99 O
13
10 AB 20 O 30 AB 40 AB 50 AB 60 O 70 AB 80 O 90 O 100 AB
3.1. T A B L E A U D ’E F F E C T I F S
(FRÉQUENCE A B S O LU E )
Nature de la variable
Les observations varient d’un sujet à un autre
Grouper les données par catégorie
Distribution des fréquences absolues
14
3.2. T A B L E A U D E FRÉQUE N CES
R E L AT I V E S
La part de chaque catégorie / total
des observations
15
E XEMPLE 2
Le tableau suivant présente les âges d’un échantillon de taille n=100
20,9 33,4 24,2 22,1 18,9 21,9 20,5 21,9 37,3 18,7
33,7 19,6 24,3 27,1 20,7 22,2 19,2 26,5 27,4 18,7
22,8 51,3 22,9 20,6 32,8 27,3 23,5 23,8 22,4 44,4
18,1 23,9 41,5 20,4 21,3 19,3 24,2 22,3 23,1 20,8
22,9 21,3 25,6 33,7 24,2 24,5 21,2 21,5 25,8 29,7
23,3 28,1 19,6 23,7 26,3 30,1 29,7 24,8 24,7 24,8
16
26
23,5 22,9 25,2 23,6 21 30,9 21,7 28,3 22,1
EXEMPLE 2: RANGEMENT DES
DONNÉES
18,7 20,4 21,3 22,2 23,1 24,2 25,3 27,1 29,7 33,7
18,7 20,5 21,5 22,3 23,1 24,2 25,3 27,3 29,7 34,3
18,9 20,6 21,5 22,3 23,3 24,2 25,6 27,4 30,1 36,1
19,1 20,7 21,5 22,4 23,5 24,3 25,8 27,9 30,3 37,3
19,3 20,9 21,9 22,7 23,5 24,6 26,3 28,3 31,7 44,4
22
T A B L E AU DES FRÉQUENCES
A B S O LU E S ET C UM UL É ES
(S U I T E )
Exemple 1
23
Exercice
On étudie les revenus (mensuels en dirhams) d’un
ensemble de familles d’un quartier de casa.
Salaires Effectifs
[6000 – 7000[ 10
[7000 – 9000[ 50
[9000 – 10 000[ 200
[10 000 – 13 000[ 20
[13 000 – 17 000[ 10
[17 000 – 30 000[ 5
Total 295
Déterminer:
•L’effectif cumulé croissant,
•La fréquence relative et la fréquence relative cumulée
croissante.
• Combien de familles ayant un revenu inférieur
à 13 000MDH.
RÈGLES GÉNÉRALES DE
L A P R É S E N T AT IO N
TA B U L A IR E
U n bandeau de titre pour indiquer la nature
des informations figurant dans les colonnes;
Ce bandeau est limité par deux trais
horizontaux;
U n trait horizontal sous la dernière ligne
26
E X E M P L E 3: B I VA R I É E
3 261
Total 1500
DISTRIBUTION DES EFFECTIFS DES 2
VA R I A B L E S
Sur le tableau
D IST R IB U TIO N DES FRÉQUE N CES
R E L AT I V E S
CAO
Nbre de séance >1(%) ≤1(%) Total(%)
0 24,5 8,1 32,6
1 15,7 7,3 23,0
2 12,3 14,6 27,0
3 6,5 10,9 17,4
Total 59,1 40,9 100,0 29
I N T E R P R É TAT I O N
Parmi les 1500 enfants à l’âge de 12 ans inclus
dans l’étude, 10,9% sont des enfants qui ont
assisté à 3 séance d’IEC et qui ont un indice CAO
≤1.
30
R É PA R T I T I O N CONDITIONNELLE
Nombre de séances
CAO Effectif 0 1 2 3 Total
>1 886 41,5% 26,6% 20,9% 10,9% 100,0%
≤1 614 19,7% 17,9% 35,7% 26,7% 100,0%
Total 1500 32,6% 23,1% 26,9% 17,4% 100,0%
31
E XEM PLE 4
33
T A B L E AU B I VA R I É
1. Niveaux de mesure
3. Représentations tabulaires
4. Représentations graphiques
5. Mesures statistiques
34
4. R E P R É S E N TAT I O N S G R A P H IQ U E S
1) Diagramme en bâton
2) Diagramme circulaire
3) Histogramme
4) Polygone de fréquence
35
4.1. D I A G R A M M E E N B ÂT O N S
Exemple 1
Groupe
ni fi (%)
sanguin
A 35 35
B 9 9
O 40 40
AB 16 16
Total 100 1
Nombre de malade effectif
E XEMPLE 5 1 5
2 1
3 7
Dans 224 dispensaires, on
4 25
prend note du nombre de
5 35
personnes malades visitant
6 45
chaque dispensaire pendant
7 32
24 heures.
8 28
9 16
10 12
11 3
12 1
Total 224
4.1.D I A G R A M M E E N BÂTO N S :
EXEMPLE
Nombre de dispensaires
4
5
3 5
0 32 28
2 5
4
1 5
0 16 12
3 5 7 5 3 1
0
2 1 2 3 4 5 6 7 8 9 10 11 12
0
1
Distribution
0 du nombre de malades consultés dans 224
39
dispensaires durant une journée
0
4.2. D I A G R A M M E C I R C U L A I R E
Pour les variables qualitatives nominales
Angle au centre proportionnel à ni (ou fi): Mesure
de l’angle =fi x 360°
Exemple 1: AB
Groupe
sanguin
ni fi (%) A
A 35 35
B 9 9
O 40 40
AB 16 16
Total 100 1
40
O
B
4.3. H I S T O G R A M M E
41
E XEMPLE 2 Âge (en classe ) fi
18 à moins de 20 0,1
20 à moins de 22 0,18
22 à moins de 24 0,23
24 à moins de 26 0,14
26 à moins de 28 0,10
28 à moins de 30 0,08
30 à moins de 32 0,04
32 à moins de 34 0,05
34 à moins de 36 0,01
36 à moins de 38 0,02
38 à moins de 58 0,05
42
4.4. P O LY G O N E DES FRÉQUENCES
42
E XEMPLE 2
Âge (en classe ) fi
18 à moins de 20 0,1
20 à moins de 22 0,18
22 à moins de 24 0,23
24 à moins de 26 0,14
26 à moins de 28 0,10
28 à moins de 30 0,08
30 à moins de 32 0,04
32 à moins de 34 0,05
34 à moins de 36 0,01
36 à moins de 38 0,02
38 à moins de 58 0,05
43
Exemple 6
D I ST R I B U T I O N D U POIDS À LA NAISSANCE DES GARÇONS ET
D E S F I L L E S DA N S U N E M AT E R N I T É
Classe fi fi 0,45
aucun
4 e CAO<=1
12
5 séanc 0 CAO>1
4 e
2
10
0
1
0
Pourcentag
séanc
séances
pourcentage
8
3 e
3 0
séances 6
5 0
3 4
0
0
e
2
0
2 0
5 0 Nbre
2 d 1 séance d'IE 3
e
2 C
0 CAO>1
1 CAO≤1
Représentation de la
5 prévalence de carie par nbre
Répartition
1 du nbre de séance
de séance d’IEC assisté 49
d’IEC
0 selon la classification
CAO 5
0
Règles générales de la présentation
graphique
Le titre est situé sous le graphique.
En dehors des traits représentant les axes aucun trait
n’est utile.
Les unités de mesures des informations présentées en
abscisses et en ordonnées doivent être clairement
indiquées.
Éviter de mettre en abscisse l’information représentant
l’identifiant des sujets de l’étude
Éviter des fonds colorés ou hachurés
50
Éviter les graphiques en 3 dimensions
Cas pratique
Cas pratiques type de variable Graphiques
possibles
Cas 1 En effectifs arrêtés en ????, sur 4,137 millions de
fonctionnaires, 1,830 relevaient de la fonction publique
d’Etat, 1,460 de la fonction publique territoriale, et 0,847
millions de la fonction publique hospitalière. (rapport du
conseil Economique et social / 12 déc. ????)
Cas 2 En ????, dans la fonction publique territoriale, la part des
titulaires est de 59,8% et celle des non titulaires de 40,2%
(rapport du conseil Economique et social / 12 déc. ????)
Cas3 En ????, les filières d’emploi dans la fonction publique
territoriale sont les suivantes :
- filière technique (ingénieurs, techniciens, contrôleurs de
travaux, contremaîtres, agents techniques) : 45,4%
- filière administrative : 21,9%
- filière médico-sociale : 18,8%
- filière sécurité (police municipale, sapeurs-pompiers
professionnels) : 4,2%
- filière culturelle : 4%
- filière animation : 2%
- filière sportive : 1,2%
(rapport du conseil Economique et social / 12 déc. ????)
Cas4 En ????, le taux de féminisation dans la fonction publique
territoriale est de 60%, contre 56% dans la fonction publique
d’état et 45% pour l’ensemble de la population salariée.
(rapport du conseil Economique et social / 12 déc. ????)
Cas5 Les taux de réussite à la session de juin sont les suivants
pour le bac SMS/ST2S :
2007 : 82% 2008 : 84% 2009 : 91% 2010 : 88%
(stat. LEGT KOEBERLE)
Cas6 En ????, les taux d'admission dans les IFSI de la région
sont les suivants : Rouffach 31%, Mulhouse 31%, Colmar
28%, Sélestat 21%, Strasbourg CHU 28%, St Vincent de
Paul 44%, St Dié 18%
PLAN
Introduction
1. Niveaux de mesure
3. Représentations tabulaires
4. Représentations graphiques
5. Mesures statistiques
51
5. M E S U R E S S TAT I S T I Q U E S
1) Mesures de tendance centrale
⚫ Moyenne
⚫ Médiane
⚫ Mode
DISPERSION
3) Mesure de dispersion
⚫ Étendue
⚫ Quartiles
52
⚫ Variance et Ecart-type
5.1 .M E S U R E S DE
TENDANCE CENTRALE:
M OY E N N E
Notée X dans l’échantillon et dans la population
Paramètre central qui concerne bien évidemment
uniquement des variables quantitatives (discrètes ou
continues).
Suivant la forme de présentation des observations,
différentes formules de calcul peuvent être employées :
53
L A M OY E N N E (SUITE)
Observations non groupées:
Somme des observations divisé par le
nombre
d’observations
Observations groupées :
multipliée
division par par l’effectif
l’effectif de classe: addition 54
total étudié et
M OY E N N E D E S O B S E R VAT I O N S N O N
GROUPÉES
N° Poids Poids ni ni x xi
1 12 xi
2 19 12 2 24
3 23 14 1 14
4 19 19 3 57
5 19
23 1 23
6 28
24 2 48
7 24
28 1 28
8 24
Total 194
9 14
10 12
Moyenne 19,4
Total 194
n i xi 56
effectif total
MOY E N N E DES
O B S E R VAT I O N S G R O U P É E S
EN CLASSES
N° Poids
1 12 Classe Ci Effectif Centre Ni x Ci
2 19 ni de la
classe
3 23
Ci
4 19 10 à 14 3 12 36
5 19 15 à 19 3 17 51
6 28
20 à 24 3 22 66
7 24
25 à 29 1 27 27
8 24
Total 180
9 14 Moye 18
10 12 n
Total 194
centre C effectif
i
total des effectifs
Ci
57
Moyenne 19,4
E XEMPLE 6
Nombre d’enfants observés dans 21 ménages
xi ni ni x xi 1
2
1 1 1
1
2 6 12 0
Effectifs
3 11 33 8
6
4 2 8
4
5 1 5
2
Total 21 59 1 2 3 4 5
0
Nom bre
d'enfants
59
X 2,8 58
enfants Distribution du nbre d'enfant dans 59 ménages
21
E XEM PLE 2
Classes d’âge ni ci fi Fi ci*fi
18 - 20 10 19 0,1 0,1 1,9
20 - 22 18 21 0,18 0,28 3,78
22 - 24 23 23 0,23 0,51 5,29
24 - 26 14 25 0,14 0,65 3,5
26 - 28 10 27 0,1 0,75 2,7
28 - 30 8 29 0,08 0,83 2,32
30 - 32 4 31 0,04 0,87 1,24
32 - 34 5 33 0,05 0,92 1,65
34 - 36 1 35 0,01 0,93 0,35
36 - 38 2 37 0,02 0,95 0,74
38 - 58 5 48 0,05 1 2,4
Total 100 Moyenne 25,87 59
M OY E N N E
A VA N TA G E S INCONVENIENTS
Simple à calculer Sensibilité aux valeurs
extrêmes
Linéarité :
ax a
Additivité : x
Utilisation large
x pour
y les X 174
problèmes d’inférence
statistique
La moyenne de
l'échantillon est le
meilleur estimateur de la
moyenne de la population. X
181cm60
EXEMPLE
Dépenses annuelles (Dh) en médicament, en
personnel, en carburant et autres dans une formation
sanitaire
Type de dépense Dépense
Médicament 20000
Carburant 15000
Personnel 225000
Autres 13000
Total 273000
On calcul la P O S I T I O N de la médiane:
Position(mé) = (n+1) / 2 Taille de
l’échantillo
n
62
MESURES DE TENDANC E
CEN TRALE: MÉDIANE
c'est-à-dire que :
M = x(p+1)
38 à moins de 58 1
E XEMPLES
Exemple 6:
xi ni Fi
3 enfants
1 1 0,05
2 6 0,33
3 11 0,86
4 2 0,95
5 1 1 66
Exercice:
Distribution UNIMODALE
BIMODALE 67
A 35
O 40
personnes
AB 16
Total 100
Groupe O
xi ni
1 1
Exemple 6: Nombre d’enfants 2 6
observés dans 21 ménages 3 11
3 enfants 4 2
5 1 68
EXEMPLES
4
Effectif
1 2
2
1
0 1
8
Effectifs
6 0
4 10 à 14 15 à 19 20 à 24
2 25 à 29
0 Poids
1 2 3 4 5 Répartition de 194 enfants selon leur poids
Nom bre
d'enfants
Distribution du nombre d'enfant dans 59 ménages
MOD
A VA N TA G E S E INCONVENIENTS
Faible sensibilité aux Extrême sensibilité
valeurs extrêmes aux choix des
intervalles de classe
Si la population est très
Ne se prête pas aux
hétérogène calculs.
([Link]. distribution
bimodale), il vaut mieux Mo(ax ) a Mo(x)
deux modes qu'une
moyenne ou qu'une médiane Mo(x y ) Mo(x)
Mo(y )
La statistique se base
peu sur le mode 70
Exercice
Distribution symétrique
moyenne = médiane = mode
Mo Me X X Me
Mo
Asymétrique à droite: Asymétrique à
moyenne > médiane > mode mode > médiane
gauch e :
7 1
> moyenne
5. M E S U R E S S TAT I S T I Q U E S
1) Mesures de tendance centrale
⚫ Moyenne
⚫ Médiane
⚫ Mode
2) Limites des M T C
3) Mesure de dispersion
⚫ Étendue
⚫ Quartiles
⚫ Variance et Ecart-type
77
5.2. L I M I T E S DES MESURES DE
TC
Exemple : Dans le service d'urgence d'un
hôpital on note à la tête de chaque heure le
nombre d'arrivées de malades ou de blessées
(l'observation a durée 12 heures).
résultats sont Les données dans
suivant: le tableau
78
2) L I M I T E S D E S M E S U R E S D E T C ( S U I T E )
X = 6; Mod=5 ; Med=5 79
L I M IT E S D E S M E S U R E S D E T C
Le service d’urgence traite en moyenne 6 patients
par heure.
La dispersion du nombre d’arrivées de cas urgents
est en général très grande, il se peut très bien que,
durant une certaine heure, il n’y ait qu’un seul arrivé
ou aucun et que durant l’heure suivante il y en ait 12
ou 17. c’est le cas observé dans cette exemple.
La demande moyenne d’un service est un indice
inadéquat des ressources nécessaires à cette
prestation
80
5.2. L I M I T E S DES MESURES DE TC
(SUITE)
Que concluez-vous?
81
II.5. M E S U R E S S TAT I S T I Q U E S
2) Limites des M T C
3) Mesure de dispersion
⚫ Étendue
⚫ Quartiles
⚫ Variance et Ecart-type
DISPERSION 77
TENDANCE
CENTRALE
5.3. M E S U R E S DE DISPERSION
Mod Étendue
e
Médian Quartiles
e
Moyenn Variance et Ecart-type
e 78
MESURES D E D IS P E R S IO N :
E TENDUE
Mod Étendue
e
Avantage: C’est l’écart entre
On juge intuitivement la les valeurs extrêmes
variabilité des données
Désavantages:
Exemples: Ne considère que 2 valeurs
Exemple2: 57,2- 18,1=39,1 Extrême sensibilité aux
Exemple6: 5-1=4 choix des intervalles de 79
classe
MESURES DE D IS P E R S IO N :
Q UA RTI L ES
Médiane Quartiles
25% Q1 Q2 Q3
81
Q U A R T IL E S :
EXEMPLES
Exemple 6:
Q1 = 2
xi ni Fi
Q3 = 3
1 1 0,05
2 6 0,33
3 11 0,86
4 2 0,95
5 1 1 82
Q UA RT I L ES
A VA N TA G E S LIMITES
Peu sensibles Il faut calculer 2
aux valeurs valeurs
extrêmes.
Se prête mal aux
E c h elle : calculs :
Q(ax ) a Q(x)
Est la mesure la plus Q(x y ) Q(x)
appropriée pour des Q(y )
distributions fortement Extrapolation
dissymétriques difficile de
l'échantillon à la
population 83
L ’É T E N D U E IN T E R Q UA R T IL E
Q=Q3- Q1
donne une idée de l'asymétrie
Q est bien une mesure de dispersion, puisque plus les
observations sont concentrées, plus Q 1 et Q 3 sont
rapprochés et donc plus Q est petit
Q est plus utilisé dans les cas de données groupées.
Est la mesure la plus appropriée pour des
distributions fortement dissymétriques
Moins utilisé
MESURES DE D IS P E R S IO N :
E C A R T -T Y P E
2 i1
i
( X - ) 2
N
N N
2
x Nx
2
i
i1
2 91
V A R IA N C E E T É C A R T -T Y P E :
EXEMPLES
Exemple 6: Xi ni (Xi-X)² ni *(Xi-X)²
X =2,8 1 1 3.27 3.27
² = 0,73 et 2 6 0.66 3.93