0% ont trouvé ce document utile (0 vote)
109 vues61 pages

Cours 5

Ce document présente les objectifs et le plan d'un cours de statistiques descriptives en santé publique, axé sur la compréhension des variables, l'organisation et la description des données. Il aborde les types de variables, leur importance dans l'analyse des données médicales, et les méthodes pour organiser et interpréter ces données à l'aide de tableaux et graphiques. Des exercices pratiques et des quiz sont également inclus pour renforcer l'apprentissage des concepts statistiques.

Transféré par

kzz97mw4nv
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
109 vues61 pages

Cours 5

Ce document présente les objectifs et le plan d'un cours de statistiques descriptives en santé publique, axé sur la compréhension des variables, l'organisation et la description des données. Il aborde les types de variables, leur importance dans l'analyse des données médicales, et les méthodes pour organiser et interpréter ces données à l'aide de tableaux et graphiques. Des exercices pratiques et des quiz sont également inclus pour renforcer l'apprentissage des concepts statistiques.

Transféré par

kzz97mw4nv
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

10/11/2024

1ère Année de Médecine

Statistiques descriptives

Santé Publique 1
2024-2025

Pr Aissaoui Hanane
Faculté de médecine et de pharmacie d’Oujda
1

Objectifs

•Comprendre les notions fondamentales de la statistique descriptive = Définir les


types de variables (quantitatives et qualitatives) et reconnaître leur importance
dans l'analyse des données médicales.
•Savoir organiser et décrire les données = organiser des données sous forme de
tableaux et graphiques, et interpréter la distribution, la fréquence, ainsi que les
mesures de tendance centrale et de dispersion.
•Appliquer les outils de la statistique descriptive en médecine = utiliser les
statistiques descriptives pour analyser des données simples issues d'études
médicales et en tirer des conclusions pertinentes.

2
10/11/2024

Plan
I. Introduction: (Partie1)
II. Variables :
 ✓ Définitions
 ✓ Variable quantitative
 ✓ Variable qualitative
III. Organisation des données
 Tri des données
 ✓ Regroupement en classe
 ✓ Transformation de variables
 ✓ Effectifs et fréquence
 ✓ Distribution
IV. Description des données.
 Les tableaux
 Les graphiques
 Paramètres de position et de dispersion

V. Exercices d’applications
VI. Conclusion
3

Introduction
• La statistique est une méthode scientifique qui recueil, ordonne, analyse et
interprète des données numériques.
• Nombreux domaines:
Sciences médicales

Sociales

économiques et technique…
• Outils pour comprendre des phénomènes complexes et prendre des décisions
éclairées.
10/11/2024

Introduction

Statistique descriptive
Statistique inférentielle

Introduction

• La statistique descriptive = Etude des variations observables de façon la plus


synthétique possible .
• Réunion des données chiffrées Analyser description interprétation
• Objectif : recueillir des observations portant sur des sujets présentant une
certaine propriété et de traduire ces observations par des nombres qui
permettent d’avoir des renseignements sur cette propriété.
10/11/2024

Introduction

• Aucune hypothèse de type probabiliste n’est faite sur les données considérées.
• Pour une meilleure lisibilité : c’est donné sont représenté en plus d’un texte,
sous formes de graphiques et de tableaux.
• Statistique descriptive =Statistique exploratoire =Analyse descriptive des
données.

Introduction
Statistique descriptive ; quel intérêt ?

Résumer les informations : La statistique descriptive simplifie l’interprétation de


grandes quantités de données en les réduisant à des valeurs clés comme la
moyenne, la médiane et les écarts types.
Identifier les tendances : En représentant les données sous forme de
graphiques ou de tableaux, elle aide à visualiser les tendances générales et les
distributions, ce qui facilite la compréhension de phénomènes complexes.
10/11/2024

Introduction

Statistique descriptive ; quel intérêt ?


Prendre des décisions éclairées : La statistique descriptive fournit les bases pour
l’analyse et la prise de décision et orienter les actions ou les recherches
ultérieures.
Comparer les groupes : Elle permet de comparer différents groupes ou
populations en observant les différences dans les paramètres statistiques, ce qui
est essentiel dans des domaines tels que la médecine, où la comparaison des
résultats de différents traitements est cruciale.

Variables:

Variable=
Caractéristique ou facteur susceptible de prendre une valeur différente
selon les unités statistiques étudiés au sein d’une population .
10/11/2024

Variables:
Définitions :
• Unité statistique = unité d'observation ou de mesure pour laquelle des
données sont recueillies ou dérivées, c’est l’élément de base pour
compiler et tabuler les données statistiques.
Exemples : Individus/ foyers et ménages
/établissements/écoles/consultations….

Variables:
Définitions :
• Population = c’ est l’ensemble complet d'unités statistiques qui partagent
certaines caractéristiques et qui sont étudiées pour répondre à une
question de recherche ou pour obtenir des informations spécifiques.
Exemples :
Population des habitants d’une ville X.
Population des malades dans un hôpital X…
10/11/2024

Population

Unités statistiques

Unité statistique
10/11/2024

Population

Variables:
Exemples de variables :

La taille d’un individu;


La couleur des yeux;
La durée d’incubation d’une maladie;
L’opinion des individus est une variable….
10/11/2024

variables

Variables:
Types de variables :
Selon les valeurs quelles sont susceptibles de prendre et on peut les
classer en deux groupes :

Variables quantitatives (qu’on mesure).


Variables qualitatives (qu’on observe et qu’on dénombre).
10/11/2024

Variables:
Variable quantitative

Continue Discrète Temporelle

Valeurs numériques
Exploitables arithmétiquement….

Variables:
• Variables Quantitatives Continues:
Peuvent prendre n’importe quelle valeur numérique dans l’intervalle des
observations = Infinité de valeurs théoriques possibles = L’ensemble des valeurs
possibles appartient à l’ensemble des nombres réels ℝ.
Les unités décimales utilisées dépendent de leur utilité pratique et de la
précision de l’instrument de mesure.
10/11/2024

Variables:
NB : La discrétisation d’une variable continue
La discrétisation d'une variable continue : est le processus par lequel une
variable prend des valeurs sur un continuum (c'est-à-dire qu'elle peut prendre
n'importe quelle valeur dans une certaine plage) est transformée en une variable
discrète, c'est-à-dire une variable qui ne peut prendre qu'un nombre fini de
valeurs distinctes.
Cela se fait généralement en regroupant les valeurs continues dans des
intervalles ou des catégories discrètes.
Cela peut être utile pour diverses raisons, notamment pour simplifier l'analyse
statistique, réduire la complexité des données, ou rendre les données plus faciles
à interpréter.

Variables:
NB : La discrétisation d’une variable continue

➢ Âge : "enfants" (0-12 ans), "adolescents" (13-18 ans), "adultes jeunes" (19-30
ans), "adultes d'âge moyen" (31-50 ans), et ainsi de suite.
➢ Poids : "poids normal", "surpoids" et "obésité", en utilisant des plages de
valeurs basées sur l'indice de masse corporelle (IMC).
10/11/2024

Variables:
• Variables quantitatives discrètes:
Numériques Discontinues, le plus souvent nombres entiers, aucune
valeur intermédiaire possible .
Résultat d’un dénombrement;

Variables:
• Variables quantitatives temporelles :
Variables quantitatives particulières qui utilisent les unités de mesure de temps.
2 groupes :
✓ Les variables de durée : sec, min, h, jours, mois… elles sont de nature continue
✓ Les variables servent à définir un instant donné (début ou fin d’un événement) :
Type date Type horaire.
10/11/2024

Variables:

Variable qualitative

Ordinales Nominales/catégorielles Binaires

Pas de valeur numérique;


Qualités réparties en classes;
On dénombre les effectifs appartenant à chaque classe ;

Variables:
• Variables qualitative ordinals:
Classes qui Peuvent être ordonnées selon une échelle de valeurs
On peut coder les variables qualitatives ordinales dont le but de
faciliter leur traitement informatique sans pouvoir les manipuler
arithmétiquement.
10/11/2024

Variables:
• Variables qualitatives nominales ou catégorielles:
Elles sont nommées mais pas ordonnées = pas d’hiérarchisation des
classes ou des catégories.
Ordre de présentation arbitraire.

Variables:
Variables binaires:
Type particulier de variables qualitatives nominales, elles ne peuvent
prendre que 2 valeurs, on les appelle aussi :
✓ Variables dichotomiques : car elles partagent la population en 2
parties.
✓ Variables booléennes : elles peuvent prendre les valeurs vraie/ faux
ou oui/non.
✓ Variables de Bernoulli : codées respectivement 1 et 0.
10/11/2024

Variables:

Variables: QUIZ

• Question 1
Parmi les options suivantes, laquelle est une variable qualitative
nominale ?
A. Taille en centimètres
B. Groupe sanguin (A, B, AB, O)
C. Température corporelle
D. Âge en années
10/11/2024

Variables: QUIZ
• Question 2
La variable "nombre d'enfants dans une famille" est :
A. Qualitative nominale
B. Quantitative discrète
C. Quantitative continue
D. Qualitative ordinale

Variables: QUIZ
• Question 3
Quel type de variable représente la note d’un étudiant (par exemple, une
note sur 20) ?
A. Quantitative discrète
B. Quantitative continue
C. Qualitative nominale
D. Qualitative ordinale
10/11/2024

Variables: QUIZ
• Question 4

La variable "niveau de satisfaction" (Très satisfait, Satisfait, Insatisfait, Très


insatisfait) est :

A. Qualitative nominale


B. Qualitative ordinale
C. Quantitative continue
D. Quantitative discrète

Variables: QUIZ
• Question 5
Une variable quantitative continue se distingue par :
A. Un nombre limité de valeurs entières
B. Un nombre illimité de valeurs dans un intervalle
C. Des catégories sans ordre
D. Des catégories avec un ordre
10/11/2024

Variables: QUIZ
• Question 6
Parmi les exemples suivants, lequel représente une variable qualitative
nominale ?
A. Nombre de pages dans un livre
B. Température d'un liquide
C. Sexe (Homme/Femme)
D. Années d'expérience dans un métier

Variables: QUIZ
• Question 7
Les variables qui permettent de classer des éléments sans ordre
spécifique sont appelées :
• A. Variables quantitatives continues
• B. Variables quantitatives discrètes
• C. Variables qualitatives ordinales
• D. Variables qualitatives nominales
10/11/2024

Variables: QUIZ
• Question 8
Parmi les choix suivants, lequel est un exemple de variable quantitative
continue ?
• A. Nombre d'étudiants dans une classe
• B. Distance parcourue en kilomètres
• C. Couleur des yeux
• D. Code postal

Variables: QUIZ
• Question 9
La variable "classe sociale" (basse, moyenne, haute) est :
A. Qualitative nominale
B. Qualitative ordinale
C. Quantitative discrète
D. Quantitative continue
10/11/2024

Variables: QUIZ
• Question 10
Si l'on mesure le poids d'un patient en kilogrammes, la variable est :
• A. Quantitative discrète
• B. Quantitative continue
• C. Qualitative nominale
• D. Qualitative ordinale

Organisation des données:


Tri des données;
Regroupement en classes;
Transformation de variable;
Effectifs et fréquences;
Distribution;
10/11/2024

Organisation des données:


Tri des données:
 Organisation cohérente de la masse des données d’une variable
quantitative ou qualitative ordinale.
 Rangement des unités statistiques par ordre croissant ou décroissant
des valeurs de la variable.
 La fonction de tri et disponible sur les logiciels de saisie de données.
Ceci peut être réalisé facilement à l’aide des logiciels de saisie dont la
plupart possèdent la fonction de tri.
10/11/2024
10/11/2024

Organisation des données:


Regroupement en classes:
Regroupement des données soit :
 Par échelle d’amplitude : en divise les valeurs de la série en intervalles
égaux dans ce cas le nombre de sujets par classe et irréguliers=
variable quantitative discrète.
 Par échelle de fréquence : répartition en groupes d’effectifs égaux
dans ce cas les intervalles sont irréguliers = qualitative ordinale.
 Par échelle de convenance : choix de l’opérateur en fonction de la
pertinence des bornes = variables quantitatives ordinale
10/11/2024

Organisation des données:


1) Regroupement en classes par échelle d'amplitude (variable
quantitative discrète) :
• Exemple : Diviser les notes d'un examen en classes de 5 points
chacune (0-4, 5-9, 10-14, 15-19, 20).

Chaque intervalle a la même amplitude, mais le nombre d'élèves dans


chaque classe peut varier, en fonction de la distribution des notes.

Organisation des données:


• 2) Regroupement en classes par échelle de fréquence (qualitative
ordinale) :
• Exemple : Répartir une série d'élèves en trois groupes avec des
effectifs égaux selon leur niveau de performance (faible, moyen,
élevé).

Chaque groupe a le même effectif d’élèves, mais les intervalles de


scores entre les groupes peuvent être irréguliers, reflétant les
différences de performance de manière qualitative.
10/11/2024

Organisation des données:


3) Regroupement en classes par échelle de convenance (variables
quantitatives ordinales) :
• Exemple : Regrouper les âges de patients en classes pertinentes pour
une étude, comme 0-18 ans, 19-35 ans, 36-60 ans, 60 ans et plus.

Les bornes sont choisies pour leur pertinence (par exemple, l’âge de la
majorité, l’âge adulte, la retraite), et non pour une amplitude égale ou
un nombre de sujets constant par classe.

Organisation des données:


10/11/2024

Organisation des données:

Transformation de variables:
X’ = ax en cas de valeurs brutes qui sont toutes des multiples d’un nombre
de grande ou de faible taille
X’ = x+b lorsque certaines valeurs sont négatives et d’autres positives
X’ = x-b lorsque toutes les valeurs de la variable sont comprises dans un
intervalle de petite ou de grande taille par rapport à leur valeur

Organisation des données:

Transformation de variables:
X’= ax+b combinaison des 2 précédentes
X’= 1/x lorsque la valeur brute est une fraction, comme c’est souvent le cas
des résultats biologiques exprimés en dilution.
X’= log(x) : lorsque la distribution de la variable s’étire de façon exponentielle
vers une de ses extrémités.
10/11/2024

Organisation des données:

Organisation des données:

Effectifs et fréquence:
• Effectif : le nombre de sujets dans chaque classe .
• Il s’exprime par un nombre entier n il n’a de sens que si N effectifs
totales est présenté.
• La fréquence= fréquence relative : rapport de l’effectif n de la classe
sur le total N de le série étudiée (en %), le totale de fréquence de
chaque classe et de 100 %. à condition que les classes sois exclusives .
10/11/2024

Organisation des données:

Effectifs et fréquence:
• Effectif et fréquences sont deux indicateurs équivalents.
• Effectifs cumulés : lorsque la variable statistique est quantitative,
ajouté à l’effectif de chaque classe l’effectif des classes précédentes.
• La fréquence cumulée : obtenues en divisant les effectifs cumulés par
le total de la série

Organisation des données:


10/11/2024

Organisation des données:


Distribution
• Distribution d’une série = ensemble des effectifs répartis entre les
classes de la variable étudiée.
• On apprécie une distribution en examinant les fréquences des
effectifs dans toutes les classes.
• Bases d’analyses statistique : Comparaison entre la distribution
observée et des modèles de distribution théorique connus = si la
distribution colle avec un modèle on peut utiliser les propriétés
mathématiques du modèle

Organisation des données:


Si cette distribution suit une forme en cloche (comme la courbe
normale), on peut utiliser les propriétés de cette distribution pour
faire des prédictions ou des analyses plus poussées sur la population
étudiante (on suivant la loi de cette distribution) .
10/11/2024

Organisation des données:


Analyse statistique : Si les notes sont concentrées autour de la
moyenne (distribuées normalement), cela peut indiquer un examen
bien équilibré. Si la distribution est asymétrique (par exemple,
beaucoup de notes faibles), cela peut indiquer une difficulté dans
l'examen.

Description des données :

A. Tableaux

B. Diagrammes

C. Paramètres de position et de distribution


10/11/2024

A. Tableaux:

• 1) Tableau brut de données :


Tableau élémentaire de travail ;

Tableau de données brutes = càd les données ne sont pas


regroupées;

Chaque colonne correspond à une série simple de valeurs ou de


modalités;

Tableau 1 : Tableau brut de donnée statistiques N =


10/11/2024

A. Tableaux:
• 2) Tableaux de fréquence :
Il sert à présenter un ensemble de données sous forme agrégée.
Un tableau correct doit présenter le total des effectifs de la série
étudiée et le totale des fréquences pour bien montrer que les classes
sont exclusives.
Il est important de représenter le totale des pourcentages en lignes et
en colonnes, surtout si les effectifs ne figurent pas sur le tableau.

A. Tableaux:
Tableau 2 : Répartition selon l’âge des participants à l’enquête « tabagisme actif » du 12
au 30 aout 2024 à Oujda ; N = 335
10/11/2024

A. Tableaux:
Tableaux brute de données ou tableau de fréquences ?

Tableau Brut des données Tableau de fréquences

-Au début d'une étude -Synthèse des données


-Conserver une trace -Visualisation des fréquences
-Identifier des erreurs de saisie -Facilitation de l'interprétation
-Effectuer des analyses -Préparation des analyses
exploratoires statistiques

A. Tableaux:

➢ Les données aberrantes par (erreurs de mesures, de saisie…)

➢ Les données manquantes due à (refus de réponse, mesures non faites,


oublis…)
10/11/2024

A. Tableaux:
Problème des données manquantes
• Il est essentiel de choisir une méthode de traitement des
données manquantes adaptée à la nature des données et à
l'objectif de l'analyse
• Stratégies couramment employées :
Ne rien faire (Si les valeurs manquantes ≤ 5 %)
Utiliser uniquement les enregistrements pour lesquels les
données sont complètes
Utiliser une méthode de repondération
Imputer une valeur (Les méthodes courantes d’imputation : la
moyenne, le ratio, la régression... )

A. Tableaux:
Problème des données aberrantes :
Identification des données aberrantes
Visualisation : Utilisez des graphiques comme les boîtes à moustaches , les diagrammes de
dispersion , ou les histogrammes pour repérer visuellement les valeurs extrêmes.
Méthodes statistiques :Z-score : Calculez le score Z pour chaque observation ,IQR (Interquartile
Range)
Algorithmes de détection : comme le DBSCAN ,ou l'Isolation Forest .
 Traitement des données aberrantes
• Suppression : Si les valeurs aberrantes sont clairement des erreurs de saisie ou ne sont pas
pertinentes, elles peuvent être supprimées.
• Imputation : Remplacez les valeurs aberrantes par la moyenne, la médiane ou des valeurs
prédictives basées sur les autres données (si elles représentent des erreurs ou des valeurs
extrêmes non attendues).
• Transformation des données : Appliquez des transformations logarithmiques ou d'autres
méthodes pour réduire l'impact des valeurs aberrantes sans les supprimer.
• Segmentation : Parfois, il peut être utile de traiter séparément les données avec des valeurs
extrêmes, surtout si elles représentent un sous-groupe de la population (exemple : données
financières).
10/11/2024

A. Tableaux:
Dans tous les cas il faut :
• Tenter de récupérer le maximum des données manquante (revoir dossier,
contacter patients…).
• Effectuer si possible une double saisie par 2 opérateurs différents afin de
détecter les erreurs de saisie,(certains logiciels de saisie permettent de
détecter automatiquement les discordances ).
• Prévoir un code spécial pour les données aberrantes et les données
manquantes, (afin qu’elles ne soient pas compatibilisées dans les calculs; de
nombreux logiciels le font automatiquement) .
• Prévoir une règle de décision sur les données manquantes ou aberrantes.
• Règle la plus honnête = présenter les données manquantes dans les
tableaux: Les fréquences et autres paramètres seront alors calculés en
prenant comme dénominateur le sous total des données disponibles.

A. Tableaux:
Les critères de qualités d’un tableau :
1) Il existe toujours un bandeau de titre pour indiquer la nature des informations
figurant dans les colonnes, ce bandeau a un trait horizontal au-dessus et au-
dessous, la tête de colonne permet d’indiquer la nature de la variable figurant
dans cette colonne.
2) Un trait horizontal figure au-dessous de la dernière ligne.
3) En dehors de ces traits permettant de souligner les bandeaux, aucun autre trait
n’est utile, en particulier aucun trait vertical.
4) Les chiffres sont alignés par colonne : sur le dernier chiffre de droite (s’il s’agit
d’entiers) ou sur la virgule (s’ils sont exprimés avec une décimale)
5) Pour une même variable, le même nombre de chiffres après la décimale est
employé ; en français, le séparateur décimal est la virgule, dans le système anglo-
saxon, c’est le point.
6) Les totaux, s’il y a lieu, doivent être donnés.
7) Le séparateur des milliers est un espace (et non un point comme dans le système
Anglo-saxon) ; on peut également ne pas marquer la séparation.
8) Le titre d’un tableau figure au-dessus du tableau.
10/11/2024

A. Tableaux:

A. Tableaux:
10/11/2024

B. Graphiques :
Les graphiques sont Les images des études statistiques. Alors que Les
tableaux sont l’écritures de l’étude.
Lorsque on est en face d’une série statistique comportant un grand nombre
de termes, il devient difficile d’analyser directement l’ensemble des données,
dans ce cas les graphiques donne une vision synthétique du phénomène
étudié.
Moins précis par rapports aux tableaux , mais ils illustrent une tendance
générale.
Parfois pour pouvoir passer le message, il faut accepter la perte d’information
au bénéfice de la clarté.

B. Graphiques :
• Critères de qualité des graphiques :
1)Titre général : au-dessous du graphique.
2) Axes : Indiquent les variables et leurs unités (ou les effectifs)/
Doivent inclure les indications répétitives (% par ex)
3)Étiquettes : ne doivent comporter ni unités ni %
4) Pas de trait en dehors des axes.
5)Eviter les diagrammes en secteur (camembert) et les graphiques à
trois dimensions.
10/11/2024

B. Graphiques :
• Il est déconseillé : L’utilisation de graphes 3D /n’importent aucun
élément supplémentaire à la démonstration et brouillent le message.
• Les superpositions de multiples graphes sur un même graphiques.
• Colorisation abusive.
• Un graphique doit être : Simple Compréhensible Légendé (titres, axes,
unités) Honnête
• Un graphique élémentaire comporte en ordonnées les effectifs et les
fréquences et en abscisses les valeurs de la variable.
• Suivant le type de variable aléatoire, le mode de représentation
graphique va être différent

B. Graphiques :
10/11/2024

B. Graphiques :

B. Graphiques :
1. Variable qualitative :
Nominale : le plus souvent en utilisent un diagramme en barre
verticales(disjointes) et horizontales, camembert (nombre de secteurs
ou classes faible de 2 à 3 max).
10/11/2024

B. Graphiques :
1. Variable qualitatives :
Ordinales : diagrammes en barre disjointes;

B. Graphiques :
1. Variable qualitatives :
Autres : la pyramide des âges (distribution par: Age et Sexe) ;
10/11/2024

B. Graphiques :
1. Variable quantitative :
Discrète :
Les Histogrammes ;

B. Graphiques :
1. Variable quantitative :
Continue:
Pour une variable quantitative continue, si les bornes (valeur minimale
et maximale) sont connues, le choix se porte sur l’histogramme ou le
polygone de fréquence.
10/11/2024

B. Graphiques :
Histogramme : (barres verticales contiguë)
 Adapté aux variables continue discrétisé.
 L’histogramme est un graphique où l’axe des abscisses représente les valeurs
de la variable regroupées en classes, et l’ordonnée représente l’effectif ou la
fréquence de chacune des classes.
 L’échelle des abscisses désigne :
Soit les montants de la barre s’il s’agit d’une variable continue
regroupée en classes, dans ce cas les abscisses désignent les bornes
des classes, la largeur de la barre représente l’intervalle de la classe
(amplitude).
Soit le centre de la barre s’il s’agit d’une variable discrète.

B. Graphiques :
10/11/2024

B. Graphiques :
Le polygone de fréquence :
 Adapté aux variables quantitatives continue.
 Il joint les milieux des sommets des rectangles de l’histogramme.
 En abscisses figurent les valeurs de la variable quantitative discrétisée, Chaque point
du polygone représente l’effectif ou la fréquence pour le point central de la classe
de la variable.
 Le trait reliant deux points suggère les effectifs ou les fréquences possibles entre
deux valeurs centrales.
 Les deux extrémités du polygone de fréquence doivent rejoindre l’axe des abscisses.
 La surface comprise sous le polygone représente 100% des observations.
 L’intérêt principal de ce type de graphe est de pouvoir représenter sur un même
graphique plusieurs distributions.
 Le polygone de fréquence cumulée est la courbe qui joint les valeurs des fréquences
cumulées de chaque classe.

B. Graphiques :
10/11/2024

B. Graphiques :

Un nuage de points est particulièrement


utile pour visualiser la relation entre
deux variables continues, par exemple,
la taille et le poids d'un groupe
d'individus, la température et le
rendement des cultures, ou le revenu et
les dépenses. Il permet d’identifier des
tendances, comme une corrélation
positive ou négative entre les deux
variables.

B. Graphiques : Boite à moustaches


Le diagramme en boîte à moustaches (ou boxplot) est un outil graphique puissant pour résumer la distribution d'une
variable quantitative. Il représente les principales caractéristiques d’un ensemble de données :
•Médiane : la ligne centrale de la boîte, indiquant le centre des données.
•Quartiles : la boîte elle-même montre le premier quartile (Q1) et le troisième quartile (Q3), délimitant l'intervalle
interquartile (IQR) où se situent les 50 % des données centrales.
•"Moustaches" : elles s'étendent jusqu'aux valeurs extrêmes
valeurs aberrantes: représentés par des points au-delà des moustaches, indiquant des valeurs inhabituelles ou extrêmes.
Ce graphique permet de visualiser rapidement la dispersion, la symétrie, les valeurs extrêmes et les éventuelles
asymétries de la distribution des données.
10/11/2024

C. Le calcul de paramètres simples


résumant l’ensemble de la distribution :

Paramètres de position

Paramètres de dispersion

C. Le calcul de paramètres simples


résumant l’ensemble de la distribution :
Paramètres de position :

 Les statistiques de position mesurent la tendance centrale des données, en

fonction des valeurs possibles de la variable quantitative étudiée.

 Cette tendance centrale fait référence à l'endroit où les données sont centrées.
10/11/2024

C. Le calcul de paramètres simples


résumant l’ensemble de la distribution :
Paramètres de position :

 Malgré l'utilisation courante du terme "moyenne", il existe différentes statistiques permettant de

décrire la position centrale d'un ensemble de données :

Moyenne.

Médiane.

Mode

Moyenne :
✓ C'est la statistique de position la plus couramment utilisée.
✓ Elle fonctionne bien lorsque la distribution est symétrique et
homogène, et qu'il n'y a pas de valeurs aberrantes. Elle est Sensible aux
valeurs extrêmes, dans le cas où la variable est inhomogène, il faut
calculer soit la médiane soit faire une transformation de la variable.
✓ Contrairement à la médiane le calcul de la moyenne nécessite
d’utiliser toutes les données.
✓ Elle est facile à comprendre et à calculer.
10/11/2024

Moyenne :
Calculée résultant de la somme algébrique des valeurs observées dans la série
divisée par le nombre de sujets.
 Si on appelle x les différentes valeurs de la variable quantitative étudiée, la ∑x
somme de ces valeur ,et N le nombre de sujets , la moyenne μ d’une série est
égale à :
μ=∑x/n
La moyenne d'un échantillon est désignée par "X̄". La moyenne d'une population
est désignée par "μ".
Lorsque la variable x a subi une transformation non arithmétique telle que
x’=log(x) µ’=∑log(x)/n.

Moyenne :
10/11/2024

Moyenne :

Force : Universellement répandue et acceptée. /Se prête facilement


aux calculs.
Limite : Fortement influencée par les valeurs extrêmes /Représente
mal les valeurs d’une populations hétérogènes (bimodale par exemple
ou fortement asymétrique) .
10/11/2024

La médiane
Valeur qui partage la série des individus en deux groupes d’effectif égaux,
ainsi la moitié des sujets présente une valeur inférieure à la médiane, l’autre
moitié présente une valeur supérieure à la médiane.
Classer les sujets de l’étude par ordre de croissance de la variable:
Si le nombre est impair la médiane de la série est la valeur de la variable
observée chez le sujet médian.
Si le nombre de sujet est pair la médiane est située entre les deux valeurs qui
partage la série en deux (en prenant la moyenne des deux valeurs centrale).
Paramètre essentiellement descriptive, il ne nécessite pas de connaitre la
totalité des valeurs. On peut en effet la calculer en ne connaissant pas les
valeurs extrêmes
10/11/2024

Le mode :
Le mode : Dans une distribution comprenant de nombreuses données le mode est la valeur
qui revient le plus souvent, on l’appelle souvent mode de la distribution.
C’est un paramètre purement descriptif, Il n’est utilisé que pour définir l’allure générale de la
distribution.
Lorsqu’il existe un seul mode avec un pic très accentués on dit que la distribution est
unimodale .
S’il existe un deuxième pic on dit que la distribution est bimodale. Caractère qualitatif et
caractère discret : le mode est la valeur qui a la fréquence simple la plus élevée.
Caractère quantitatif continu : Dans ce cas, le mode ne peut pas être défini directement, il
faut au préalable établir une partition en classes. Le mode est alors le centre de la classe
modale, c'est à dire de la classe qui a la fréquence moyenne la plus élevée.
Limite : Varie beaucoup selon la largeur choisie pour les classes.
Force :
-N’est pas affecté par les valeurs exceptionnelles.
-Permet de représentés des populations hétérogènes qui présentent plusieurs valeurs dominantes.
10/11/2024

C. Le calcul de paramètres simples


résumant l’ensemble de la distribution :
Paramètres de dispersion :

Les extrêmes
L’étendue
Intervalle interquartile et semi interquartile
La variance
L’écart type

Les extrêmes :

Les deux valeurs extrêmes de la distribution :


Minimum
Maximum.
Ils donnent une idée brute de la distribution de part et d’autre de la
médiane.
10/11/2024

L’étendu :

C’est la différence entre les deux valeurs extrêmes, il donne en un seul


chiffre une idée de la distribution autour de la médiane.

Fausses idées de la dispersion si valeurs aberrantes.

Intervalle interquartile et semi interquartile


 Différence entre les valeurs du 1er et du 3eme quartile ils sont de
même nature que l’étendue, mais s’affranchit des valeurs extrêmes,
c’est donc un meilleur paramètre de dispersion.
 L’intervalle semi interquartile est la moitié de l’intervalle interquartile.
Il offre une valeur plus adaptée à la dispersion lorsque la distribution
est dysémitrique
10/11/2024

Tableau 5: le temps d'hospitalisation après une


chirurgie spécifique
Rang Nombre de jours
1 4
2 4
3 4
4 4
5 4
6 4
7 4
8 5
9 5
Calculer 1er quartile ? 10
11
5
5
12 6
Calculer 3eme quartile ? 13 6
14 6
15 8
16 8
17 17
18 20
19 25
20 30
105

La variance:
 La variance = La moyennes des carrés des écart à la moyenne de
chacune des valeurs =écart quadratique moyen Principe .
 Résume l’ensemble des écarts de chaque valeur d’une distribution
par rapport à la moyenne .
 Si on appelle:
- x chaque valeur de la distribution d’une variable quantitative.
- µ la moyenne
- N le nombre de sujet,
la variance 𝜎 2 est :
10/11/2024

La variance:
• Le dénominateur ici est N car on considère la série étudiée comme une
population exhaustive et non comme un échantillon.
• Lorsque on estime une variance dans un échantillon n on remplace N par (n-1);
• Comme pour le calcule de la moyenne celui de la variance nécessite d’utiliser
toutes les valeurs de la distribution.
• La variance est le meilleur indicateur de la dispersion d’une variable autour de
ça moyenne.
• Plus la variance est faible plus la distribution est resserrée.
• Plus la variance est élevée plus la distribution est étalée.
• Son inconvenant et de s’exprimer par une unité élevée au carré qui n’a pas le
même ordre de grandeur que les valeurs de distribution .
• Afin d’utiliser un paramètre de dispersion plus explicite on utilise sa racine
carrée qu’on l’appel = Ecart-Type.

Tableau 5: le temps d'hospitalisation après une


chirurgie spécifique
Rang Nombre de jours
1 4
2 4
 Variance : 3 4
4 4
5 4
6 4
𝟒 𝟖,𝟕 ... (𝟑𝟎 𝟖,𝟕)²
σ = 7
8
4
5
𝟐𝟎 9 5
10 5
11 5

σ = 60,43
12 6
13 6
14 6
15 8
Si notre population est exhaustive, le dénominateur est égale à N =20. 16 8
Si n= 20 est un échantillon de la population le dénominateur est égale n-1 17 17
donc 20-1 dans cet exemple . 18 20
19 25
20 30
108
10/11/2024

Ecart type : (standard déviation)


 Écart type:

 Plus il est élevé plus la dispersion est élevée.


 Plus il est faible plus la dispersion est resserrée .
 Avec avantage de s’exprimé avec la même unité que la moyenne.

Le coefficient de variation
 Paramètre combinat la moyenne et l’écart type;
= × 100
 Il exprime la variabilité en terme relatifs.
 L’unité de la CV est un nombre sans dimension il est exprimé en
pourcentage.
 Le CV exprime le degré de dispersion d’une distribution en fonction
de la valeur moyenne.
 Il est utile pour comparer la dispersion de deux variables
quantitatives de nature différente (unité différentes).
10/11/2024

SPSS

111

Exercices d’applications
10/11/2024

• Quel type de graphique est le plus adapté pour représenter la distribution


d'une variable qualitative (ex : sexe, groupe sanguin) ?
A) Histogramme
B) Diagramme en bâtons
C) Nuage de points
D) Courbe de tendance
B) Diagramme en bâtons

Lequel de ces graphiques est le mieux adapté pour représenter deux


variables quantitatives continues, comme la taille et le poids ?
A) Boîte à moustaches
B) Histogramme
C) Nuage de points
D) Diagramme circulaire
C) Nuage de points
10/11/2024

Pour représenter la répartition des notes dans une classe, laquelle des
options suivantes serait la plus appropriée si les notes sont des données
continues ?
A) Histogramme
B) Diagramme en bâtons
C) Nuage de points
D) Courbe cumulative
A) Histogramme

Quel type de graphique permet de visualiser la dispersion des données en


montrant les quartiles, la médiane et les valeurs extrêmes ?
A) Diagramme en barres
B) Diagramme en secteurs
C) Boîte à moustaches
D) Nuage de points
C) Boîte à moustaches
10/11/2024

Quelle mesure de dispersion est calculée en prenant la racine carrée de la


variance ?
A) Moyenne
B) Médiane
C) Mode
D) Écart-type
D) Écart-type

L’étendue d’un ensemble de données est définie comme :


A) La différence entre le troisième et le premier quartile
B) La différence entre la valeur maximale et la valeur minimale
C) La moyenne des valeurs
D) Le produit des valeurs extrêmes
B) La différence entre la valeur maximale et la valeur minimale
10/11/2024

Quelle est l’utilité principale de la variance dans l’analyse des données ?


A) Identifier la valeur la plus fréquente
B) Calculer la tendance centrale
C) Mesurer la dispersion autour de la moyenne
D) Déterminer la médiane
C) Mesurer la dispersion autour de la moyenne

Dans un ensemble de données où les valeurs sont très proches de la


moyenne, l’écart-type sera :
A) Très élevé
B) Faible
C) Nul
D) Impossible à déterminer
B) Faible
10/11/2024

• Quel est le graphique le mieux adapté pour représenter la distribution?


1)De la fréquence des groupes sanguins ABO d’une série de 1000
donneurs de sang:
Diagramme en barres ou camembert
2)De la répartition par age et par sexe de la population marocaine?
La pyramide des âges
2)Des taux d’incidences de la tuberculeuse selon 20 catégorie socio-
professionnelles.
Diagramme en barres horizontale

Vous aimerez peut-être aussi