Cours d’Epidémiologie
Niveau: 6ème Année Médecine et
4ème Année Pharmacie
DESCRIPTION DES DONNEES
Prof. Abdoulaye TOURE, PharmD, PhD
Dr Kadio Jean-Jacques Olivier KADIO, PharmD, MPH, PhD Cand.
Epidemiology- Biostatistic & Public Health
Types de variables
1. Données qualitatives
Caractérisation des données qualitatives
La fréquence absolue est le nombre d’individus par classe. Ce
dénombrement donne lieu à une représentation des données
sous forme de tableau.
Exemple : On a dénombré sur un ensemble de 180 sujets, les
individus qui appartenaient aux différents groupes sanguins
A+ A- B+ B- AB+ AB- O+ O-
80 10 20 5 5 2 50 8
Sur les classes ainsi formées, seules les opérations suivantes sont
permises : réaliser des classes disjointes à partir d’une seule
classe, ou bien regrouper certaines classes.
Caractérisation des données qualitatives
La seule relation qui puisse être utilisée sur ces données est
la relation d’appartenance à une même classe.
• Exemple (suite) : sur l’exemple ci-dessus, on pourrait
regrouper les classes correspondant aux rhésus + ou -, ou
ignorer le rhésus pour former les groupes A, B, AB, O
A B AB 0
90 25 7 58
Caractérisation des données qualitatives
• Fréquences relatives
• On peut définir les fréquences relatives qui sont, pour
chaque classe, le rapport de son effectif au nombre
total d’individus de la série des mesures.
• La somme des fréquences relatives est égale à 1.
• Parfois, les résultats sont exprimés en pourcentage,
chacune des fréquences relatives étant multipliée par
100
A B AB 0
50 14 4 32
Caractérisation des données qualitatives
• Fréquences cumulées (relatives et absolues)
• Les fréquences cumulées sont utilisées pour les données
ordinales qui présentent des classes ordonnées.
Exemple: sur un échantillon de 500 malades cancéreux, on a noté
le stade de la maladie. On peut résumer ou présenter ces données
par des fréquences relatives.
Stade Nombre de Fréquence relative (%) Fréquence relative
malades cumulée (%)
1 350 70 70
2 110 22 92
3 30 6 98
4 10 2 100
Ce tableau permet de dire, par exemple, que 92% des sujets
examinés ont un stade inférieur ou égal à 2.
Caractérisation des données qualitatives
• On peut représenter les effectifs absolus ou relatifs des classes
par des secteurs de cercle dont la surface est proportionnelle
à l’effectif.
• Le diagramme « camembert » ainsi construit est bien adapté
à la représentation des données qualitatives « pures »
Résidence Quartier 1 Quartier 2 Quartier 3 Quartier 4
Malnutrition 50 10 28 12
12
28 50
10
Quartier 1 Quartier 2
Quartier 3 Quartier 4
Caractérisation des données qualitatives
• Mode
• Sur l’exemple de la Figure précédente, la classe caractérisée
par le stade 1 est la classe qui contient le plus grand nombre
de sujets ; c’est le mode ou classe modale.
• Le mode est la classe (catégorie) qui offre la plus grande
fréquence
Caractérisation des données qualitatives
• Diagramme en bâtons
• Pour les données ordinales, on peut également représenter
les fréquences absolues, relatives ou cumulées par un
diagramme en bâtons.
• Exemple : l’exemple de l’échantillon des 500 cancéreux dont
on a noté le stade est représenté sur la Figure
1. Données quantitatives
Caractérisation des données quantitatives
Caractérisation des données quantitatives
Boite à Moustache
Caractérisation des données quantitatives
Histogramme
Caractérisation des données quantitatives
• Le contour polygonal joignant les milieux des bases
supérieures des rectangles s’appelle le polygone des
fréquences
Caractérisation des données quantitatives
• Si on augmente le nombre des classes, de même largeur,
recouvrant l’étendue de l’échantillon, l’intervalle de chaque
classe devenant très petit, on peut admettre, à condition que la
population soit « infinie », que l’histogramme et le polygone
des fréquences se « rapprochent », et que leur limite commune
est une courbe continue.
Quand le nombre de classes tend vers l’infini, le polygone des
fréquences devient une ligne continue : la courbe des fréquences.
Méthodes numériques permettant de
résumer une variable
1. Statistiques résumant la tendance centrale (position)
Moyennes
Médiane
Quantiles
Mode
2. Statistiques résumant la dispersion
Variance
écart-type
coefficient de variation
Paramètres de position et de dispersion d’une variable
quantitative
Echantillon Population
μ = (∑X) / N
Moyenne m = (∑X) / n
(∑X)2 (∑X)2
∑X2 - ∑X2 -
Variance n N
S2 = σ2 =
n-1 N
Ecart type S= S2 σ= σ2
Coefficient de S σ
CV = m .100 CV = μ . 100
variation
Paramètres de position et de dispersion d’une variable
qualitative
Echantillon Population
Pourcentage P = k/n P = K/N
Variance S2 = p (1 – p) σ2 = P (1 – P)
Ecart type S= S2 = p (1-p) σ= σ2 = P (1-P)
Estimation d’un paramètre sur un échantillon
V. quantitatives V. qualitatives
Variance S2 p (1- p)
S2 m = n S2 = n
p
S P (1-P)
Ecart type Sm = S 2 = Sp = Sp 2
m =
n n
Intervalle de
m-1,96 Sm< µ <m + 1,96 Sm p - 1,96 Sp< P < p + 1,96 Sp
confiance à 95%
µ = m ± 1,96 Sm P = p ± 1,96 Sp
Cas général de
S P = p ± Zα P (1-P)
l’intervalle de µ = m ± Zα
confiance n n
Exercice d’application
Exo: lors d’une enquête sur la prévalence de l’hypertension artérielle dans un village de la
Guinée les données ci-dessous ont été recueillies. Sexe Age HTA
F 37 0
M 57 1
F 20 0
F 28 0
F 39 1
M 53 1
F 64 1
F 53 0
M 60 0
M 40 0
F 68 1
F 40 0
F 19 0
F 25 0
Quelle est la moyenne d’âge de ces sujets ? F 18 0
Quel est l’âge moyen de la population cible de cette étude ?
Quelle est la prévalence de l’hypertension artérielle chez ces sujets ?
Quelle est la prévalence de l’hypertension artérielle dans la population cible de cette étude ?
Présentez l’âge et le sexe sous forme de graphique.
Exercice d’application
• Exemple: lors d’une enquête sur la durée de sommeil des enfants de 1
à 3 ans effectuée sur un échantillon de 540 enfants d’un département
on a trouvé une moyenne du temps de sommeil par nuit de 11,7
heures. L’écart type est de 1,3 heures. On veut connaitre la moyenne
générale du temps de sommeil chez tous les enfants du département.
L’écart –type de moyenne est:
1,3 Sm = 0,056 heures
Sm =
540
L’intervalle de confiance est 11,7 ± 1,96x0,056 = 11,7 ± 0,11 heures
La moyenne du temps de sommeil est comprise entre 11,6 et 11,8 heures
22
Exercice d’application
Exemple : lors d’une enquête sur la durée de sommeil des enfants de 2
à 3 ans effectuée sur u échantillon de 540 enfants d’un département on
a trouvé 86 enfants présentant des troubles du sommeil. On veut
connaître la proportion de troubles du sommeil chez tous les enfants du
département.
La proportion d’enfants des troubles du sommeil dans l’échantillon est de
86/540 = 15,9%
L’écart type Sp = [0,159 (1- 0,159)/540] = 0,016
L’intervalle de confiance à 95% est: 0,159 ± 1,96x0,016 = 0,159 ± 0,031
La proportion d’enfants présentant des troubles de sommeil chez les
enfants de 2 à 3 ans est comprise entre 12,8 % et 19,0%.
23