Module : Biostatistique
Formation complémentaire
Pôle d’Etudes Doctorales « Sciences Techniques et
Sciences Médicales » (CUEDoc-STSM)
AU : 2024/25 1
2
Partie III
Théorie Statistique de l’Echantillonage
N Population
n
Echantillon
L’échantillonnage consiste à déduire de la connaissance des paramètres d’une population,
les caractéristiques des échantillons prélevés de cette population
→ Prise de décision avant validation de l ’échantillonnage
L’estimation est le problème inverse. Il s’agit d’estimer à partir des caractéristiques
calculées sur un échantillon, la valeur des paramètres de la population mère
N Population
n
Echantillon
Partie III
Théorie Statistique de l’Echantillonage
1. Préambule
2. Méthodes d’échantillonnage
3. Intervalle de Fluctuation
3.1. Définition
3.2. Moyenne
3.2. Proportion
4. Taille de l’échantillon
4.1. Etudes observationnelles
4.2. Etudes expérimentales
1. Préambule
•Définition: L'échantillonnage consiste à sélectionner un sous-ensemble (un
échantillon) d'une population plus large afin d'en étudier les caractéristiques.
•Objectif: L'objectif est de tirer des conclusions sur l'ensemble de la population
en se basant sur l'analyse de cet échantillon.
•Pourquoi ? Il est souvent impossible ou trop coûteux d'étudier l'intégralité
d'une population (par exemple, tous les habitants d'un pays).
2. Méthodes d’échantillonnage
Ces techniques d’étude dépendent de plusieurs critères :
✓Contraintes financières
✓Contraintes administratives
✓Population finie
✓Population infinie
✓Population homogène
✓Population échantillonnée
• Méthodes probabilistes
✓Echantillonnage aléatoire simple
✓Echantillonnage systématique (par intervalle)
✓Echantillonnage stratifié
✓Echantillonnage par grappes
✓Phases multiples
• Méthodes non probabilistes (Raisonnées ou Empiriques)
✓Echantillonnage par quotas
✓Echantillonnage "volontaire"
✓Echantillonnage de convenance
✓Echantillonnage selon le jugement
✓Echantillonnage de boule de neige
✓Echantillonnage structuré aléatoire
Partie III
Théorie Statistique de l’Echantillonage
1. Préambule
2. Méthodes d’échantillonnage
3. Intervalle de Fluctuation
3.1. Définition
3.2. Moyenne
3.2. Proportion
4. Taille de l’échantillon
4.1. Etudes observationnelles
4.2. Etudes expérimentales
Echantillonnage
Sans remise (exhaustif) ou Avec remise
Aléatoire simple Systématique (contrôle de qualité)
Chaque élément de la population a la même chance Les éléments sont sélectionnés selon un intervalle
d'être sélectionné. régulier (par exemple, tous les 10 individus)
1 1
2 2
Stratifié Grapping
La population est divisée en sous-groupes (strates) et un La population est divisée en groupes naturels et
échantillon est tiré de chaque strate un échantillon de grappes est sélectionné.
Est-ce justifié de pratiquer cette forme d’échantillonnage ?
Argumenter ??????
Partie III
Théorie Statistique de l’Echantillonage
1. Préambule
2. Méthodes d’échantillonnage
3. Intervalle de Fluctuation
3.1. Définition
3.2. Moyenne
3.2. Proportion
4. Taille de l’échantillon
4.1. Etudes observationnelles
4.2. Etudes expérimentales
3. Intervalle de Fluctuation=Intervalle de Pari (#Intervalle de Confiance/Crédibilité)
3.1. Définition Statistique Fréquentiste/Bayésienne)
Intervalle dans lequel une grandeur observée se trouve avec une forte probabilité (souvent 95%).
Une valeur en dehors de cet intervalle met en cause la représentativité de l'échantillon→défectueux.
En revanche, sa présence à l'intérieur de l'intervalle ne garantit pas la validité de l'échantillon.
La fréquence f observée dans cet Conformité
Grandeur observée: fréquence f échantillon « doit » appartenir à oui/non de
p est connue l’intervalle de fluctuation considéré l’échantillon
Intervalle de confiance
→ Certitude
La moyenne observée x̄ dans cet Conformité
Grandeur observée: moyenne x̄ échantillon « doit » appartenir à oui/non de
l’intervalle de fluctuation considéré l’échantillon
µ est connue
• Ce terme Zα/2 représente une valeur issue de
la distribution normale standard. Il
correspond au nombre d'écarts-types qu'il
faut s'éloigner de la moyenne pour englober
si α=0,05 une certaine proportion de la distribution.
• Zα/2=Z0,025=1,96
→Outil statistique de construire des IC avec
• Z1−α/2=Z0,975=−1,96 un niveau de confiance donné
• alpha (α): C'est le niveau de signification,
c'est-à-dire la probabilité de rejeter à tort
une hypothèse nulle vraie.
• z-alpha/2: C'est la valeur de la variable
aléatoire Z telle que la probabilité que Z soit
supérieure à Zα/2est égale à α/2. En d'autres
termes, c'est la valeur qui délimite une zone
de probabilité α/2 dans la queue droite de la
distribution normale.
1-α
Risque erreur α=5%
Niveau de confiance 1-α=95%
• Théorème Central Limite (TCL) :
Il stipule (sous certaines conditions) que la somme d'un grand nombre de variables
aléatoires indépendantes et identiquement distribuées (même si ces variables ne
suivent pas une loi normale) tend vers une loi normale lorsque le nombre de ces
variables augmente.
Elle sert de référence pour comparer et calculer des probabilités
associées à n'importe quelle variable aléatoire suivant une loi normale
Standardisation
Le Lien entre le Théorème Central Limite (TCL) et la Loi Normale Centrée Réduite (NCR)
Lorsque on applique le TCL, on obtient une distribution normale. Pour faciliter les calculs et les
comparaisons, on transforme cette distribution normale en une loi normale centrée réduite.
Erreur Type (Standard Error - SE)
La variable aléatoire Z TCL ~ Loi NCR
La formule pour calculer cette variable Z est la suivante : Z = (X̄ - μ) / (σ / √n)
Le Théorème Central Limite garantit que la somme (ou la moyenne) d'un grand
nombre de variables aléatoires tend vers une distribution normale, et la loi normale
centrée réduite est l'outil qui permet de standardiser cette distribution pour faciliter
les calculs et les analyses statistiques.
3.2. Fluctuation de la Moyenne d’échantillon x̄
=Quantification de l'incertitude associée à l'estimation de la moyenne d'une population
à partir de la moyenne d'un échantillon. Elle est due au hasard de l'échantillonnage.
• Si la taille de l'échantillon n est suffisamment importante (n ≥ 30), la distribution de la
moyenne observée des valeurs d’un échantillon s’approche d’une loi normale,
quelle que soit la loi de X ( de moyenne μ et variance σ2)
→Application du Théorème Central Limite :
• Si la taille d'échantillon est petite (n < 30)
→Application de la loi de Student (t).
tn-1 tn-1
α = 5%; n=20 → df=19 → tn-1=2.093
3.3. Fluctuation de la Fréquence d’échantillon f
Lorsque la grandeur observée est une proportion d'individus qui satisfait un
critère NB. l'intervalle de fluctuation résulte de la loi binomiale.
▪Si la taille de l'échantillon n est suffisamment importante (n ≥ 30) alors cette
loi binomiale est approchée par la loi normale en vertu du théorème
central limite.
Zα/2 Zα/2
A Condition que proportion p vérifie np ≥ 5 et n(1–p) ≥ 5.
▪Si la taille de l'échantillon n ≥ 25 alors cette loi binomiale est approchée un
intervalle à la formule plus simple pour un intervalle de fluctuation à 95%
A Condition que varie entre 0,2 et 0,8.
Grandeur observée: moyenne x̄
Supposons que la taille moyenne des adultes dans une population soit de 175 cm, avec un
écart-type de 10 cm.
Si nous prélevons un échantillon de 100 adultes, Déterminer l'intervalle de fluctuation à 95
% pour la taille moyenne de l'échantillon
Conditions → OK (n ≥ 30)
l’Intervalle de fluctuation à 95 % :175 ± (1,96 * (10 / √100)) = 175 ± 1,96
Cela signifie que nous pouvons nous attendre à ce que la taille moyenne de
l'échantillon représentatif se situe entre 173,04 cm et 176,96 cm, avec une probabilité
de 95 %.
Grandeur observée: moyenne x̄
On ensemence 100 boites de pétri avec un cm3 d’une solution comprenant 4 bactéries/cm3.
Notons que ce nombre de colonies suit une loi de Poisson.
Quelle est la valeur que vous attendez à trouver la moyenne de 100 nombres de colonies
comptés 9 jours plus tard?
Conditions → OK (n ≥ 30)
Le nombre de colonies suit une loi de Poisson de paramètre 4 →μ=σ2=4
I= [4 – 1,96 *2/10; 4 + 1,96 *2/10] = [3,6; 4,4]
C’est l’intervalle de Pari de 100 valeurs d’un échantillon pour un risque α de 5%.
Grandeur observée: fréquence f
Conditions
→OK (n =723 ≥ 25) Conditions → OK
→OK (f= 384/723 = 53.11% (entre 0,2 et 0,8) 0,8 ≥ p ≥ 0,2
c asymptotique
c asymptotique
Grandeur observée: fréquence f
Zα/2
Conditions → OK
(n ≥ 30)
np ≥ 5
n(1–p) ≥ 5
Partie III
Théorie Statistique de l’Echantillonage
1. Préambule
2. Méthodes d’échantillonnage
3. Intervalle de Fluctuation
3.1. Définition
3.2. Moyenne
3.2. Proportion
4. Taille de l’échantillon
4.1. Etudes observationnelles
4.2. Etudes expérimentales
4. Taille de l’échantillon
La détermination de la taille d'échantillon pour une étude est une étape cruciale. Elle garantit
que l'étude aura suffisamment de puissance pour détecter un effet s'il existe réellement, tout
en étant économiquement viable.
Plusieurs facteurs influencent la taille d'échantillon nécessaire :
• La question de recherche : Plus la question est spécifique, plus l'échantillon devra être
grand.
• La nature la variable étudiée : Qualitative/Quantitative
• La nature et la variabilité de la variable étudiée : Plus la variable est dispersée, plus
l'échantillon devra être grand
• Le niveau de précision souhaité : Une marge d'erreur plus faible nécessite un échantillon
plus grand.
• Le niveau de confiance : Un niveau de confiance plus élevé (par exemple, 95% plutôt que
90%) nécessite un échantillon plus grand.
• Le type d'étude : observationnelles (rétrospectives, transversales, prospectives),
Expérimentales comme le cas des essais cliniques, qui ont des formules de calcul
spécifiques.
• Les ressources disponibles : Le budget, le logistique, le temps et le personnel limitent
souvent la taille de l'échantillon.
4.1. Etudes observationnelles
Méthodes de calcul de la taille d'échantillon :
Il existe plusieurs méthodes pour calculer la taille d'échantillon, mais elles
reposent toutes sur des formules statistiques qui prennent en compte les
facteurs mentionnés ci-dessus.
•Logiciels statistiques : Des logiciels comme Stata, Excel, SAS, R…
permettent de calculer la taille d'échantillon en fonction des
caractéristiques spécifiques de l'étude.
•Études pilotes : Une étude pilote peut fournir des données préliminaires
sur la variabilité de la variable étudiée, ce qui permet d'affiner le calcul de
la taille d'échantillon.
•En ligne : Calculateur de taille d'échantillon
https://fr.surveymonkey.com/mp/sample-size-calculator/
https://www.qualtrics.com/fr/gestion-de-l-experience/etude-marche/calcul-taille-echantillon/
Exemple : Etudiants FSM
La Taille d’échantillon dépend de :
•la taille de la population N
•la précision (seuil de confiance)
•la Marge d’Erreur (e ) acceptée Taux de participation
Les Proportions → Si N EST CONNUE si p n'est pas définie on
prends par défaut 0,5
→ Si N EST INCONNUE
α/2
n
α/2
Les moyennes → N n’a pas d’influence
Echantillon Population
N.B.
Les Proportions
Un événement ayant une probabilité de réalisation de 40 %, en
prenant un niveau de confiance de 95 % et une marge d'erreur
de 5 %, Déterminer taille d'échantillon :
n =? 1,96² × 0,4 × 0,6 / 0,05² = 368,79
N EST INCONNUE
soit 370 individus.
n = 1,96² × 0,4 × 0,6 / 0,05² = 368,79
Les Proportions
Un événement ayant une probabilité de réalisation de 40 %, en
prenant un niveau de confiance de 95 % et une marge d'erreur
de 5 %, la taille d'échantillon devra être :
n = 1,96² × 0,4 × 0,6 / 0,05² = 368,79 soit 369 individus.
N, ME et α sont fixes Si N est connue et p inconnue → 0,5 par défaut
e
maximum maximum maximum
e : la ME donnée en % → Les valeurs les plus courantes sont 1%, 2% et 5%
NB. Plus que Zα/2 augmente Plus que n augmente Plus que e diminue
Les Moyennes
En prenant un niveau de confiance de 99 % et une marge d'erreur de
5%, quelle est la taille nécessaire d’un échantillon d’étudiantes de la
FSM pris au hasard pour faire une étude sur l’obésité. Sachant que
σ=1,3 kg.m-1
n = ???
n = (1,96 × 1,3)²/ 0,05² = 2596,9216
Les Moyennes
En prenant un niveau de confiance de 95 % et une marge d'erreur de
5%, quelle est la taille nécessaire d’un échantillon d’étudiantes de la
FSM pris au hasard pour faire une étude sur sur l’obésité. Sachant que
σ=1,3 kg.m-1
Déterminer cette taille d’échantillon dans le cas d marge d’erreur =
2% et dans le cas d’un niveau de confiance = 99%
n = (1,96 × 1,3)²/ 0,05² = 2596,92
Si e est seulement 2 %
n = (1,96 × 1,3)²/ 0,02² = 16230,1
Si niveau de confiance est 99 %
n = (2.576 × 1,3)²/ 0,05² = 3501,79
e : la ME donnée en % → Les valeurs les plus courantes sont 1%, 2% et 5%
NB. Plus que Zα/2 augmente Plus que n augmente Plus que e diminue
4.2.Etudes expérimentales
MA
Formule
Différence de moyenne attendue
entre les 2 groupes → Δ = m1 -m2
Partie IV
Théorie Statistique de l’Inférence