1
L'échantillonnage probabiliste - Mon échantillon est-il représentatif ?
Il existe plusieurs méthodes mais toutes ont en commun le même préambule: le « champ de
l’enquête ». Il convient de définir initialement l’univers de référence ou la population mère
c'est-à-dire l’intégralité des individus que l’on souhaite étudier (individus, familles,
entreprises, etc.).
La mise en place de l’échantillon probabiliste consiste en la sélection aléatoire (par hasard)
d’un groupe d’individu appelé échantillon.
Les quatre méthodes les plus répandues se différencient par leur mode d’extraction aléatoire
et les étapes préalables pour y parvenir :
Échantillonnage probabiliste simple
Échantillonnage probabiliste systématique
Échantillonnage probabiliste stratifié
Échantillonnage en grappes et à plusieurs degrés
Échantillonnage probabiliste simple
Définition
L’échantillonnage probabiliste simple est basé sur la volonté de donner à chaque individu
de l’univers une chance égale de figurer dans l’échantillon. Cette égalité, lorsque la taille
de l’échantillon est suffisamment grande, permet d’affirmer avec un risque d’erreur connu que
les compositions de l’univers et de l’échantillon seront comparables (taille mise à part).
Mise en œuvre
Dans un premier temps, chaque individu de l’univers concerné reçoit un numéro
d’identification de 1 à n. Il faut donc disposer en principe d’une liste exhaustive et nominale
des personnes concernées.
On tire ensuite au sort le nombre de cas désiré au hasard.
La taille de l’échantillon dépend de la marge d’erreur – ou intervalle de confiance – que l’on
veut tolérer. Dans le cas de proportions, la formule suivante permet de calculer l’intervalle de
confiance :
2
Atouts et limites de la méthode
L’échantillonnage aléatoire simple assure l’indépendance des erreurs, c’est-à-dire l’absence
d’auto-corrélations parmi les données relatives à un même caractère.
L’une des principales limites de cette méthode est la nécessité de disposer d’une liste
exhaustive de la population mère.
Échantillonnage probabiliste systématique
Définition
L’échantillonnage probabiliste systématique se différentie du probabiliste simple par sa
procédure de sélection des individus. Plutôt que de tirer au hasard les individus, ils sont
sélectionnés selon une procédure systématique.
Mise en œuvre
Soit n, le nombre d’individus que doit comporter l’échantillon (la taille de l’échantillon) et
N celui de la population mère. L’entier voisin de N / n sera noté r et appelé raison de
sondage ou pas de sondage.
Pour constituer l’échantillon, il convient alors de :
choisir au hasard un entier naturel d entre 1 et r (cet entier sera le point de départ) :
l’individu dont le numéro correspond à d est le premier individu,
pour sélectionner les autres, il suffit d’ajouter à d la raison de sondage : les
individus choisis seront alors ceux dont les numéros correspondent à :
o d+r
o d + 2r
o d + 3r
Exemple
Étudier les déplacements par train sur 365 jours en prenant un échantillon de taille 60 (N=365
jours et n=60). La raison est alors de 365 / 60 = 6. Dans ce cas précis, il existe en conséquence
6 échantillons possibles :
1, 6, 12, …. 360
2, 7, 13, …. 361
3, 8, 14, …. 362
4, 9, 15, …. 363
3
5, 10, 16, …. 364
6, 11, 17, …. 365
Atouts et limites de la méthode
La sélection est facile puisque un seul individu est choisi au hasard.
Elle permet dans certains cas d’obtenir une bonne précision en répartissant l’échantillon
dans l’ensemble de la liste. Attention toutefois s’il existe une périodicité pouvant alors
engendrer un biais. Cette méthode est très utilisée dans les contrôles de qualité.
Nb. Si la population est distribuée au hasard dans la base de sondage, un échantillonnage
systématique donnera des résultats similaires à ceux d’un échantillonnage aléatoire simple.
Échantillonnage probabiliste stratifié
Définition
L’échantillonnage probabiliste stratifié vise à assurer au sein de l’échantillon une certaine
proportion de différents sous-groupes existants dans la population mère (ex. par région,
typologie de commune...).
Ce nombre peut être proportionnel c’est-à-dire conforme à celle de la population mère ou
non proportionnel selon les comportements que l’on souhaite faire ressortir.
En effet, selon les objectifs de l’enquête, les échantillons peuvent être stratifiés non pas en
proportion de leur nombre au sein de la population mais d’un autre critère qui les caractérise.
Par exemple, pour les villes où la sélection s’effectuera en fonction du nombre d’habitants ou
encore pour les entreprises en fonction du nombre de salariés.
Mise en œuvre
Les individus au sein de la population mère sont séparés et affectés à leur sous-groupe
d’appartenance (mutuellement exclusif).
Le nombre d’individus au sein de l’échantillon est défini pour chaque sous-groupe (de façon
proportionnelle ou non comme décrit ci-dessus).
Dans chacun des sous-groupes, on sélectionne aléatoirement les individus composant
l’échantillon.
Pour être en mesure de réaliser un échantillonnage probabiliste stratifié, en plus de disposer
initialement de l’information, les variables retenues doivent être :
Simples à utiliser
Faciles à observer
Étroitement reliées au thème de l'enquête
4
Exemple
Procéder à la stratification de l’échantillonnage par région pour que chacune d’elles soit
représentée proportionnellement à son nombre d’habitants.
Atouts et limites de la méthode
L’échantillon final intégrera la juste proportion de chacun des sous-groupes.
La limite étant bien entendu de disposer d’une information exhaustive, actuelle et de qualité.
Échantillonnage en grappes et à plusieurs degrés
Définition et mise en œuvre
La base de sondage disponible n’est pas toujours de qualité suffisante pour procéder aux
méthodes préalablement décrites. Il convient alors de déterminer un processus logique
adapté à la réalité du phénomène permettant de mettre en place des sous-ensembles
relativement homogènes appelés grappes (unités primaires).
Dans les méthodes précédentes, l’unité statistique était choisie individuellement alors que
l’échantillonnage en grappes entraîne la division de la population.
A l’instar de la différence existante entre échantillonnage probabiliste simple et stratifié, il est
possible soit de sélectionner au hasard un certain nombre de grappes pour représenter la
population, soit d’introduire un ou plusieurs critères dans la sélection.
L’échantillonnage en grappe peut comporter plusieurs degrés.
La sélection des sous-ensembles initiaux constitue alors le premier degré de l’échantillonnage,
la réalisation d’un nouvel échantillonnage au sein des grappes un second degré … Il peut ainsi
en exister plusieurs en fonction de l’étendue de la population mère et des objectifs de l’étude.
Exemple
Dans le cadre d’enquêtes Face à Face au domicile des répondants, il conviendra donc de :
Sélectionner un certain nombre de zones géographiques à partir desquels les
enquêteurs débuteront un trajet préalablement défini,
Ensuite, ils interrogeront systématiquement la 10ème boite aux lettres rencontrée sur
leur parcours.
Atouts et limites de la méthode
La méthode ne nécessite pas une liste globale de la population puisque seuls les individus
inclus dans les grappes comptent. Elle permet de limiter l’échantillon à des groupes compacts
ce qui permet de réduire les coûts de déplacement, de suivi et de supervision.
En revanche, la sélection des grappes de façon purement aléatoire - sans prise en compte
d’autres critères - peut entraîner un phénomène dit « effet de grappes » si les groupements
5
d’unités choisis aléatoirement se ressemblent. Cela impliquerait alors l’amplification de
l’importance de tel ou tel caractère dans l’échantillon.
TNS ILRES procède ainsi notamment dans les sondages sorties des urnes où rien ne
garantirait une bonne homogénéité des bureaux de votes s’ils étaient sélectionnés
aléatoirement sans la mise en place de typologie de bureaux de votes en fonction du profil des
habitants.