Cours 5
Cours 5
Statistiques descriptives
Santé Publique 1
2024-2025
Pr Aissaoui Hanane
Faculté de médecine et de pharmacie d’Oujda
1
Objectifs
2
10/11/2024
Plan
I. Introduction: (Partie1)
II. Variables :
✓ Définitions
✓ Variable quantitative
✓ Variable qualitative
III. Organisation des données
Tri des données
✓ Regroupement en classe
✓ Transformation de variables
✓ Effectifs et fréquence
✓ Distribution
IV. Description des données.
Les tableaux
Les graphiques
Paramètres de position et de dispersion
V. Exercices d’applications
VI. Conclusion
3
Introduction
• La statistique est une méthode scientifique qui recueil, ordonne, analyse et
interprète des données numériques.
• Nombreux domaines:
Sciences médicales
Sociales
économiques et technique…
• Outils pour comprendre des phénomènes complexes et prendre des décisions
éclairées.
10/11/2024
Introduction
Statistique descriptive
Statistique inférentielle
Introduction
Introduction
• Aucune hypothèse de type probabiliste n’est faite sur les données considérées.
• Pour une meilleure lisibilité : c’est donné sont représenté en plus d’un texte,
sous formes de graphiques et de tableaux.
• Statistique descriptive =Statistique exploratoire =Analyse descriptive des
données.
Introduction
Statistique descriptive ; quel intérêt ?
Introduction
Variables:
Variable=
Caractéristique ou facteur susceptible de prendre une valeur différente
selon les unités statistiques étudiés au sein d’une population .
10/11/2024
Variables:
Définitions :
• Unité statistique = unité d'observation ou de mesure pour laquelle des
données sont recueillies ou dérivées, c’est l’élément de base pour
compiler et tabuler les données statistiques.
Exemples : Individus/ foyers et ménages
/établissements/écoles/consultations….
Variables:
Définitions :
• Population = c’ est l’ensemble complet d'unités statistiques qui partagent
certaines caractéristiques et qui sont étudiées pour répondre à une
question de recherche ou pour obtenir des informations spécifiques.
Exemples :
Population des habitants d’une ville X.
Population des malades dans un hôpital X…
10/11/2024
Population
Unités statistiques
Unité statistique
10/11/2024
Population
Variables:
Exemples de variables :
variables
Variables:
Types de variables :
Selon les valeurs quelles sont susceptibles de prendre et on peut les
classer en deux groupes :
Variables:
Variable quantitative
Valeurs numériques
Exploitables arithmétiquement….
Variables:
• Variables Quantitatives Continues:
Peuvent prendre n’importe quelle valeur numérique dans l’intervalle des
observations = Infinité de valeurs théoriques possibles = L’ensemble des valeurs
possibles appartient à l’ensemble des nombres réels ℝ.
Les unités décimales utilisées dépendent de leur utilité pratique et de la
précision de l’instrument de mesure.
10/11/2024
Variables:
NB : La discrétisation d’une variable continue
La discrétisation d'une variable continue : est le processus par lequel une
variable prend des valeurs sur un continuum (c'est-à-dire qu'elle peut prendre
n'importe quelle valeur dans une certaine plage) est transformée en une variable
discrète, c'est-à-dire une variable qui ne peut prendre qu'un nombre fini de
valeurs distinctes.
Cela se fait généralement en regroupant les valeurs continues dans des
intervalles ou des catégories discrètes.
Cela peut être utile pour diverses raisons, notamment pour simplifier l'analyse
statistique, réduire la complexité des données, ou rendre les données plus faciles
à interpréter.
Variables:
NB : La discrétisation d’une variable continue
➢ Âge : "enfants" (0-12 ans), "adolescents" (13-18 ans), "adultes jeunes" (19-30
ans), "adultes d'âge moyen" (31-50 ans), et ainsi de suite.
➢ Poids : "poids normal", "surpoids" et "obésité", en utilisant des plages de
valeurs basées sur l'indice de masse corporelle (IMC).
10/11/2024
Variables:
• Variables quantitatives discrètes:
Numériques Discontinues, le plus souvent nombres entiers, aucune
valeur intermédiaire possible .
Résultat d’un dénombrement;
Variables:
• Variables quantitatives temporelles :
Variables quantitatives particulières qui utilisent les unités de mesure de temps.
2 groupes :
✓ Les variables de durée : sec, min, h, jours, mois… elles sont de nature continue
✓ Les variables servent à définir un instant donné (début ou fin d’un événement) :
Type date Type horaire.
10/11/2024
Variables:
Variable qualitative
Variables:
• Variables qualitative ordinals:
Classes qui Peuvent être ordonnées selon une échelle de valeurs
On peut coder les variables qualitatives ordinales dont le but de
faciliter leur traitement informatique sans pouvoir les manipuler
arithmétiquement.
10/11/2024
Variables:
• Variables qualitatives nominales ou catégorielles:
Elles sont nommées mais pas ordonnées = pas d’hiérarchisation des
classes ou des catégories.
Ordre de présentation arbitraire.
Variables:
Variables binaires:
Type particulier de variables qualitatives nominales, elles ne peuvent
prendre que 2 valeurs, on les appelle aussi :
✓ Variables dichotomiques : car elles partagent la population en 2
parties.
✓ Variables booléennes : elles peuvent prendre les valeurs vraie/ faux
ou oui/non.
✓ Variables de Bernoulli : codées respectivement 1 et 0.
10/11/2024
Variables:
Variables: QUIZ
• Question 1
Parmi les options suivantes, laquelle est une variable qualitative
nominale ?
A. Taille en centimètres
B. Groupe sanguin (A, B, AB, O)
C. Température corporelle
D. Âge en années
10/11/2024
Variables: QUIZ
• Question 2
La variable "nombre d'enfants dans une famille" est :
A. Qualitative nominale
B. Quantitative discrète
C. Quantitative continue
D. Qualitative ordinale
Variables: QUIZ
• Question 3
Quel type de variable représente la note d’un étudiant (par exemple, une
note sur 20) ?
A. Quantitative discrète
B. Quantitative continue
C. Qualitative nominale
D. Qualitative ordinale
10/11/2024
Variables: QUIZ
• Question 4
Variables: QUIZ
• Question 5
Une variable quantitative continue se distingue par :
A. Un nombre limité de valeurs entières
B. Un nombre illimité de valeurs dans un intervalle
C. Des catégories sans ordre
D. Des catégories avec un ordre
10/11/2024
Variables: QUIZ
• Question 6
Parmi les exemples suivants, lequel représente une variable qualitative
nominale ?
A. Nombre de pages dans un livre
B. Température d'un liquide
C. Sexe (Homme/Femme)
D. Années d'expérience dans un métier
Variables: QUIZ
• Question 7
Les variables qui permettent de classer des éléments sans ordre
spécifique sont appelées :
• A. Variables quantitatives continues
• B. Variables quantitatives discrètes
• C. Variables qualitatives ordinales
• D. Variables qualitatives nominales
10/11/2024
Variables: QUIZ
• Question 8
Parmi les choix suivants, lequel est un exemple de variable quantitative
continue ?
• A. Nombre d'étudiants dans une classe
• B. Distance parcourue en kilomètres
• C. Couleur des yeux
• D. Code postal
Variables: QUIZ
• Question 9
La variable "classe sociale" (basse, moyenne, haute) est :
A. Qualitative nominale
B. Qualitative ordinale
C. Quantitative discrète
D. Quantitative continue
10/11/2024
Variables: QUIZ
• Question 10
Si l'on mesure le poids d'un patient en kilogrammes, la variable est :
• A. Quantitative discrète
• B. Quantitative continue
• C. Qualitative nominale
• D. Qualitative ordinale
Les bornes sont choisies pour leur pertinence (par exemple, l’âge de la
majorité, l’âge adulte, la retraite), et non pour une amplitude égale ou
un nombre de sujets constant par classe.
Transformation de variables:
X’ = ax en cas de valeurs brutes qui sont toutes des multiples d’un nombre
de grande ou de faible taille
X’ = x+b lorsque certaines valeurs sont négatives et d’autres positives
X’ = x-b lorsque toutes les valeurs de la variable sont comprises dans un
intervalle de petite ou de grande taille par rapport à leur valeur
Transformation de variables:
X’= ax+b combinaison des 2 précédentes
X’= 1/x lorsque la valeur brute est une fraction, comme c’est souvent le cas
des résultats biologiques exprimés en dilution.
X’= log(x) : lorsque la distribution de la variable s’étire de façon exponentielle
vers une de ses extrémités.
10/11/2024
Effectifs et fréquence:
• Effectif : le nombre de sujets dans chaque classe .
• Il s’exprime par un nombre entier n il n’a de sens que si N effectifs
totales est présenté.
• La fréquence= fréquence relative : rapport de l’effectif n de la classe
sur le total N de le série étudiée (en %), le totale de fréquence de
chaque classe et de 100 %. à condition que les classes sois exclusives .
10/11/2024
Effectifs et fréquence:
• Effectif et fréquences sont deux indicateurs équivalents.
• Effectifs cumulés : lorsque la variable statistique est quantitative,
ajouté à l’effectif de chaque classe l’effectif des classes précédentes.
• La fréquence cumulée : obtenues en divisant les effectifs cumulés par
le total de la série
A. Tableaux
B. Diagrammes
A. Tableaux:
A. Tableaux:
• 2) Tableaux de fréquence :
Il sert à présenter un ensemble de données sous forme agrégée.
Un tableau correct doit présenter le total des effectifs de la série
étudiée et le totale des fréquences pour bien montrer que les classes
sont exclusives.
Il est important de représenter le totale des pourcentages en lignes et
en colonnes, surtout si les effectifs ne figurent pas sur le tableau.
A. Tableaux:
Tableau 2 : Répartition selon l’âge des participants à l’enquête « tabagisme actif » du 12
au 30 aout 2024 à Oujda ; N = 335
10/11/2024
A. Tableaux:
Tableaux brute de données ou tableau de fréquences ?
A. Tableaux:
A. Tableaux:
Problème des données manquantes
• Il est essentiel de choisir une méthode de traitement des
données manquantes adaptée à la nature des données et à
l'objectif de l'analyse
• Stratégies couramment employées :
Ne rien faire (Si les valeurs manquantes ≤ 5 %)
Utiliser uniquement les enregistrements pour lesquels les
données sont complètes
Utiliser une méthode de repondération
Imputer une valeur (Les méthodes courantes d’imputation : la
moyenne, le ratio, la régression... )
A. Tableaux:
Problème des données aberrantes :
Identification des données aberrantes
Visualisation : Utilisez des graphiques comme les boîtes à moustaches , les diagrammes de
dispersion , ou les histogrammes pour repérer visuellement les valeurs extrêmes.
Méthodes statistiques :Z-score : Calculez le score Z pour chaque observation ,IQR (Interquartile
Range)
Algorithmes de détection : comme le DBSCAN ,ou l'Isolation Forest .
Traitement des données aberrantes
• Suppression : Si les valeurs aberrantes sont clairement des erreurs de saisie ou ne sont pas
pertinentes, elles peuvent être supprimées.
• Imputation : Remplacez les valeurs aberrantes par la moyenne, la médiane ou des valeurs
prédictives basées sur les autres données (si elles représentent des erreurs ou des valeurs
extrêmes non attendues).
• Transformation des données : Appliquez des transformations logarithmiques ou d'autres
méthodes pour réduire l'impact des valeurs aberrantes sans les supprimer.
• Segmentation : Parfois, il peut être utile de traiter séparément les données avec des valeurs
extrêmes, surtout si elles représentent un sous-groupe de la population (exemple : données
financières).
10/11/2024
A. Tableaux:
Dans tous les cas il faut :
• Tenter de récupérer le maximum des données manquante (revoir dossier,
contacter patients…).
• Effectuer si possible une double saisie par 2 opérateurs différents afin de
détecter les erreurs de saisie,(certains logiciels de saisie permettent de
détecter automatiquement les discordances ).
• Prévoir un code spécial pour les données aberrantes et les données
manquantes, (afin qu’elles ne soient pas compatibilisées dans les calculs; de
nombreux logiciels le font automatiquement) .
• Prévoir une règle de décision sur les données manquantes ou aberrantes.
• Règle la plus honnête = présenter les données manquantes dans les
tableaux: Les fréquences et autres paramètres seront alors calculés en
prenant comme dénominateur le sous total des données disponibles.
A. Tableaux:
Les critères de qualités d’un tableau :
1) Il existe toujours un bandeau de titre pour indiquer la nature des informations
figurant dans les colonnes, ce bandeau a un trait horizontal au-dessus et au-
dessous, la tête de colonne permet d’indiquer la nature de la variable figurant
dans cette colonne.
2) Un trait horizontal figure au-dessous de la dernière ligne.
3) En dehors de ces traits permettant de souligner les bandeaux, aucun autre trait
n’est utile, en particulier aucun trait vertical.
4) Les chiffres sont alignés par colonne : sur le dernier chiffre de droite (s’il s’agit
d’entiers) ou sur la virgule (s’ils sont exprimés avec une décimale)
5) Pour une même variable, le même nombre de chiffres après la décimale est
employé ; en français, le séparateur décimal est la virgule, dans le système anglo-
saxon, c’est le point.
6) Les totaux, s’il y a lieu, doivent être donnés.
7) Le séparateur des milliers est un espace (et non un point comme dans le système
Anglo-saxon) ; on peut également ne pas marquer la séparation.
8) Le titre d’un tableau figure au-dessus du tableau.
10/11/2024
A. Tableaux:
A. Tableaux:
10/11/2024
B. Graphiques :
Les graphiques sont Les images des études statistiques. Alors que Les
tableaux sont l’écritures de l’étude.
Lorsque on est en face d’une série statistique comportant un grand nombre
de termes, il devient difficile d’analyser directement l’ensemble des données,
dans ce cas les graphiques donne une vision synthétique du phénomène
étudié.
Moins précis par rapports aux tableaux , mais ils illustrent une tendance
générale.
Parfois pour pouvoir passer le message, il faut accepter la perte d’information
au bénéfice de la clarté.
B. Graphiques :
• Critères de qualité des graphiques :
1)Titre général : au-dessous du graphique.
2) Axes : Indiquent les variables et leurs unités (ou les effectifs)/
Doivent inclure les indications répétitives (% par ex)
3)Étiquettes : ne doivent comporter ni unités ni %
4) Pas de trait en dehors des axes.
5)Eviter les diagrammes en secteur (camembert) et les graphiques à
trois dimensions.
10/11/2024
B. Graphiques :
• Il est déconseillé : L’utilisation de graphes 3D /n’importent aucun
élément supplémentaire à la démonstration et brouillent le message.
• Les superpositions de multiples graphes sur un même graphiques.
• Colorisation abusive.
• Un graphique doit être : Simple Compréhensible Légendé (titres, axes,
unités) Honnête
• Un graphique élémentaire comporte en ordonnées les effectifs et les
fréquences et en abscisses les valeurs de la variable.
• Suivant le type de variable aléatoire, le mode de représentation
graphique va être différent
B. Graphiques :
10/11/2024
B. Graphiques :
B. Graphiques :
1. Variable qualitative :
Nominale : le plus souvent en utilisent un diagramme en barre
verticales(disjointes) et horizontales, camembert (nombre de secteurs
ou classes faible de 2 à 3 max).
10/11/2024
B. Graphiques :
1. Variable qualitatives :
Ordinales : diagrammes en barre disjointes;
B. Graphiques :
1. Variable qualitatives :
Autres : la pyramide des âges (distribution par: Age et Sexe) ;
10/11/2024
B. Graphiques :
1. Variable quantitative :
Discrète :
Les Histogrammes ;
B. Graphiques :
1. Variable quantitative :
Continue:
Pour une variable quantitative continue, si les bornes (valeur minimale
et maximale) sont connues, le choix se porte sur l’histogramme ou le
polygone de fréquence.
10/11/2024
B. Graphiques :
Histogramme : (barres verticales contiguë)
Adapté aux variables continue discrétisé.
L’histogramme est un graphique où l’axe des abscisses représente les valeurs
de la variable regroupées en classes, et l’ordonnée représente l’effectif ou la
fréquence de chacune des classes.
L’échelle des abscisses désigne :
Soit les montants de la barre s’il s’agit d’une variable continue
regroupée en classes, dans ce cas les abscisses désignent les bornes
des classes, la largeur de la barre représente l’intervalle de la classe
(amplitude).
Soit le centre de la barre s’il s’agit d’une variable discrète.
B. Graphiques :
10/11/2024
B. Graphiques :
Le polygone de fréquence :
Adapté aux variables quantitatives continue.
Il joint les milieux des sommets des rectangles de l’histogramme.
En abscisses figurent les valeurs de la variable quantitative discrétisée, Chaque point
du polygone représente l’effectif ou la fréquence pour le point central de la classe
de la variable.
Le trait reliant deux points suggère les effectifs ou les fréquences possibles entre
deux valeurs centrales.
Les deux extrémités du polygone de fréquence doivent rejoindre l’axe des abscisses.
La surface comprise sous le polygone représente 100% des observations.
L’intérêt principal de ce type de graphe est de pouvoir représenter sur un même
graphique plusieurs distributions.
Le polygone de fréquence cumulée est la courbe qui joint les valeurs des fréquences
cumulées de chaque classe.
B. Graphiques :
10/11/2024
B. Graphiques :
Paramètres de position
Paramètres de dispersion
Cette tendance centrale fait référence à l'endroit où les données sont centrées.
10/11/2024
Moyenne.
Médiane.
Mode
Moyenne :
✓ C'est la statistique de position la plus couramment utilisée.
✓ Elle fonctionne bien lorsque la distribution est symétrique et
homogène, et qu'il n'y a pas de valeurs aberrantes. Elle est Sensible aux
valeurs extrêmes, dans le cas où la variable est inhomogène, il faut
calculer soit la médiane soit faire une transformation de la variable.
✓ Contrairement à la médiane le calcul de la moyenne nécessite
d’utiliser toutes les données.
✓ Elle est facile à comprendre et à calculer.
10/11/2024
Moyenne :
Calculée résultant de la somme algébrique des valeurs observées dans la série
divisée par le nombre de sujets.
Si on appelle x les différentes valeurs de la variable quantitative étudiée, la ∑x
somme de ces valeur ,et N le nombre de sujets , la moyenne μ d’une série est
égale à :
μ=∑x/n
La moyenne d'un échantillon est désignée par "X̄". La moyenne d'une population
est désignée par "μ".
Lorsque la variable x a subi une transformation non arithmétique telle que
x’=log(x) µ’=∑log(x)/n.
Moyenne :
10/11/2024
Moyenne :
La médiane
Valeur qui partage la série des individus en deux groupes d’effectif égaux,
ainsi la moitié des sujets présente une valeur inférieure à la médiane, l’autre
moitié présente une valeur supérieure à la médiane.
Classer les sujets de l’étude par ordre de croissance de la variable:
Si le nombre est impair la médiane de la série est la valeur de la variable
observée chez le sujet médian.
Si le nombre de sujet est pair la médiane est située entre les deux valeurs qui
partage la série en deux (en prenant la moyenne des deux valeurs centrale).
Paramètre essentiellement descriptive, il ne nécessite pas de connaitre la
totalité des valeurs. On peut en effet la calculer en ne connaissant pas les
valeurs extrêmes
10/11/2024
Le mode :
Le mode : Dans une distribution comprenant de nombreuses données le mode est la valeur
qui revient le plus souvent, on l’appelle souvent mode de la distribution.
C’est un paramètre purement descriptif, Il n’est utilisé que pour définir l’allure générale de la
distribution.
Lorsqu’il existe un seul mode avec un pic très accentués on dit que la distribution est
unimodale .
S’il existe un deuxième pic on dit que la distribution est bimodale. Caractère qualitatif et
caractère discret : le mode est la valeur qui a la fréquence simple la plus élevée.
Caractère quantitatif continu : Dans ce cas, le mode ne peut pas être défini directement, il
faut au préalable établir une partition en classes. Le mode est alors le centre de la classe
modale, c'est à dire de la classe qui a la fréquence moyenne la plus élevée.
Limite : Varie beaucoup selon la largeur choisie pour les classes.
Force :
-N’est pas affecté par les valeurs exceptionnelles.
-Permet de représentés des populations hétérogènes qui présentent plusieurs valeurs dominantes.
10/11/2024
Les extrêmes
L’étendue
Intervalle interquartile et semi interquartile
La variance
L’écart type
Les extrêmes :
L’étendu :
La variance:
La variance = La moyennes des carrés des écart à la moyenne de
chacune des valeurs =écart quadratique moyen Principe .
Résume l’ensemble des écarts de chaque valeur d’une distribution
par rapport à la moyenne .
Si on appelle:
- x chaque valeur de la distribution d’une variable quantitative.
- µ la moyenne
- N le nombre de sujet,
la variance 𝜎 2 est :
10/11/2024
La variance:
• Le dénominateur ici est N car on considère la série étudiée comme une
population exhaustive et non comme un échantillon.
• Lorsque on estime une variance dans un échantillon n on remplace N par (n-1);
• Comme pour le calcule de la moyenne celui de la variance nécessite d’utiliser
toutes les valeurs de la distribution.
• La variance est le meilleur indicateur de la dispersion d’une variable autour de
ça moyenne.
• Plus la variance est faible plus la distribution est resserrée.
• Plus la variance est élevée plus la distribution est étalée.
• Son inconvenant et de s’exprimer par une unité élevée au carré qui n’a pas le
même ordre de grandeur que les valeurs de distribution .
• Afin d’utiliser un paramètre de dispersion plus explicite on utilise sa racine
carrée qu’on l’appel = Ecart-Type.
σ = 60,43
12 6
13 6
14 6
15 8
Si notre population est exhaustive, le dénominateur est égale à N =20. 16 8
Si n= 20 est un échantillon de la population le dénominateur est égale n-1 17 17
donc 20-1 dans cet exemple . 18 20
19 25
20 30
108
10/11/2024
Le coefficient de variation
Paramètre combinat la moyenne et l’écart type;
= × 100
Il exprime la variabilité en terme relatifs.
L’unité de la CV est un nombre sans dimension il est exprimé en
pourcentage.
Le CV exprime le degré de dispersion d’une distribution en fonction
de la valeur moyenne.
Il est utile pour comparer la dispersion de deux variables
quantitatives de nature différente (unité différentes).
10/11/2024
SPSS
111
Exercices d’applications
10/11/2024
Pour représenter la répartition des notes dans une classe, laquelle des
options suivantes serait la plus appropriée si les notes sont des données
continues ?
A) Histogramme
B) Diagramme en bâtons
C) Nuage de points
D) Courbe cumulative
A) Histogramme