0% ont trouvé ce document utile (0 vote)
67 vues84 pages

Manuel de Sondage : Théorie et Pratique

Transféré par

wilfriedtamufi01
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
67 vues84 pages

Manuel de Sondage : Théorie et Pratique

Transféré par

wilfriedtamufi01
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Manuel de Théorie et pratique de sondage

Exercices avec résolutions


Page 1 sur 84

INTRODUCTION

Le statisticien utilise quatre méthodes pour étudier un univers


statistique. Parmi ces méthodes, la plus scientifique et la moins couteuse est
l’enquête par sondage. Par cette méthode on étudie seulement une partie de
la population choisie au hasard, mais absolument représentative de l’univers.
La constitution de cette partie de la population appelée échantillon, se fait
selon une procédure qui garantit sa représentativité et donc l’extrapolation des
résultats au niveau de tout l’univers1.
Si la statistique accepte de renoncer à une analyse exhaustive de
la population, sa première préoccupation doit être la représentation de la
partie analysée (sous ensemble ou échantillon).

En effet, selon E. Maurice, le problème capital est celui de la


méthode de prélèvement de l’échantillon sur laquelle on cherche une
information.

L’approximation avec laquelle les résultats peuvent être attendus


avec erreur d’échantillonnage devrait être aussi bonne que possible d’une
estimation par le calcul. Mais cette condition n’est parfaitement réalisée que
dans le cas de sondage aléatoire.

La théorie de sondage pose deux types de problèmes :

1. L’échantillon doit être représentatif de la population : c’est la « théorie


de l’échantillonnage » ;
2. Les techniques numériques utilisées sur les observations doivent
conduire à des résultats fiables en donnant une bonne représentation du
paramètre inconnu de la population : c’est la « théorie de l’estimation et
de tests ».

Nous pouvons dire en définitive que la théorie de sondage est un


outil mathématique permettant à partir d’observations expérimentales
partielles de tenter d’atteindre une réalité inaccessible.
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 2 sur 84

L’analyse de la méthode d’enquête par sondage repose sur deux


choses :

1. Coûts plus réduits


2. Plus grande vitesse d’exécution.

On choisit donc les unités d’individus que l’on considère comme


fortement représentatives de certaines catégories de la population.

OBJECTIFS DU COURS

Outre les statistiques de l’état civil, les recensements généraux de


la population, les recensements administratifs et autres sources de données
statistiques, les enquêtes par sondage sont l’un des moyens dont les
chercheurs (statisticiens, démographes, économistes, sociologues,…) se servent
pour obtenir les données nécessaires à leurs analyses.

Elles permettent de prendre en compte diverses contraintes liées


à l’environnement au moment de l’enquête et de choisir une procédure de
collecte réduisant les coûts et fournissant une quantité d’informations
suffisantes pour évaluer et/ou expliquer les caractéristiques désirées d’une
population avec une certaine précision.

L’objet de ce cours est de fournir aux étudiants les rudiments


nécessaires à la compréhension de la démarche menant à l’obtention de telles
données.

A l’issue du cours, l’étudiant devrait pouvoir :

- Définir et distinguer les notions de population et d’échantillon ;


- Définir et distinguer l’enquête par sondage des autres méthodes de
collecte de données ;
- Distinguer les différents types d’échantillonnage et être en mesure d’en
faire un usage approprié en regard de tous les avantages et inconvénient
respectifs ;
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 3 sur 84

- Déterminer si un échantillon est représentatif ou non de la population


étudiée ;
- Etre en mesure de construire un échantillon probabiliste pour la
réalisation d’une enquête ;
- Etre en mesure d’estimer les paramètres d’une population à partir de
l’information sur un échantillon ;
- Etre en mesure de lire et de comprendre les résultats d’une enquête par
sondage.

Bref : à la fin du cours, on espère que chaque étudiant peut


organiser une enquête en appliquant les méthodes par sondage.
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 4 sur 84

CHAPITRE I. GENERALITES

1.1. Définitions et but

On appelle sondage une enquête portant sur une fraction


(appelée généralement échantillon) de la population à laquelle on s’intéresse
dans le but d’estimer une ou plusieurs caractéristiques de cette dernière ou
encore sa distribution. Cette enquête partielle ne sera appelée sondage que si
la fraction retenue a été choisie de manière à être représentative de la
population. D’où la nécessité de définir avec précision ce que peut être qualifié
représentatif.

Les enquêtes par sondage ont souvent pour but de fournir des
données complémentaires à celles de recensement.

Un sondage a également pour but d’étudier une population mais


par l’intermédiaire d’un échantillon c’est-dire un groupe d’individus issus de la
population. On doit dans ce cas analyser dans un premier temps les résultats
de l’échantillon puis par une méthode statistique étendre ceux-ci dans
l’ensemble de la population (inférence statistique).

1.2. Historique et exemples des sondages

L’utilisation de la méthode de sondage date vraisemblablement


vers le 17ème siècle. On trouve au 18ème siècle quelques exemples
d’utilisation rationnelle de sondage. En Angleterre par exemple avec la
détermination de la population à partir de nombre des maisons multiplié par le
nombre moyen d’occupants par maison. Mais NEYMAN en 1934 semble être le
précurseur de la méthode de sondage aléatoire.

A partir de 1935 à 1940 cette technique s’est développée et a


trouvée un nombre de domaines d’application de plus en plus important et
diversifié. On peut citer : la démographie, les études des marchés, les enquêtes
d’opinion, le contrôle de fabrication…
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 5 sur 84

En Afrique cette technique est assez récente et en RDC c’est vers


1955-1957 qu’on a trouvé les enquêtes de la population (EDOZA).

1.3. Concepts de base


1.3.1. Recensement et sondage

Un recensement consiste à une enquête exhaustive de la


population sur base d’un questionnaire où figurent différentes questions
relatives aux divers paramètres que l’on cherche à étudier.

Les recensements sont nécessaires pour la prise des décisions


politiques ou économiques qui tiennent compte de l’enquête entre tous les
individus de la population.

Le recensement se justifie surtout pour des raisons de légalité, de


justice, et pour nous économistes : c’est pour avoir des bases de sondages. Un
recensement apporte une information complète relativement aux questions
posées et constitue un document historique de première importance qui peut
être utilisé ultérieurement pour toute étude portant sur le même sujet.

1.3.2. Population ou Univers statistique

C’est l’ensemble d’individus que l’on veut étudier (individus au


sens large) c’est-à-dire on parlera aussi de la population de villages, de champs,
de ménage ou d’évènements (naissances, décès, migrations).

Exemple : Population des étudiants de l’UPN


Population Congolaise
Les entreprises etc…

1.3.3. Unités statistiques

Les unités statistiques sont les éléments composant l’univers. Elles


peuvent être de différents types :
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 6 sur 84

- Individus au sens large du terme ;


- Villages ;
- Ménages etc…

1.3.4. Echantillon

On appelle échantillon un sous-ensemble d’unités statistiques


prélevé dans l’univers, dont on veut connaître certaines caractéristiques. C’est
à partir des résultats observés sur l’échantillon qu’on va « extrapoler » pour
produire des estimations sur cet univers.

Démonstration par une figure


Univers
Echantillon

1.3.5. Variables

Les études statistiques portent sur les valeurs prises par certaines
variables (caractères) ou chacune des unités statistiques. Ces variables peuvent
être quantitatives ou qualitatives.

Parmi les variables qualitatives, on distingue les variables


dichotomiques qui ne présentent que deux modalités, par exemple le sexe ou
le fait d’être en vie ou décéder.

1.4. Estimateur, variable aléatoire, variance, moyenne et biais


1.4.1. Estimateur

Un estimateur est une « formule mathématique » qui permet de


calculer l’estimation d’une grandeur à partir des données observées sur
l’échantillon tiré.
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 7 sur 84

1.4.2. Variable aléatoire

Une variable aléatoire est une variable qui peut prendre un


certain nombre de « valeur » avec, pour chaque valeur, une probabilité
correspondante : on a donc une « distribution » de la variable aléatoire.

1.4.3. Moyenne, variance

La variance d’une variable y donne une idée de la dispersion de y


autour de sa moyenne. Elle vaut :

 
2
1 N
V (Y )   Y  Y
N  1
N
Où Y est la moyenne de Y sur l’univers Y = 1 Y
N  1
Y est la valeur de pour l’unité statistique . Et N le nombre total des unités
Y
statistiques de l’univers.

1.4.4. Biais

On dit qu’un estimateur A d’une grandeur G est sans biais si


E(A)=G, c’est-à-dire si « en moyenne »les résultats fournis par cet estimateur
sont égaux à la grandeur qu’on cherche à estimer. Dans le cas contraire, on a
un estimateur biaisé.

1.5. Base de sondage

Le sondage aléatoire nécessite de donner à toute unité


statistique de l’univers une probabilité non nulle d’être sélectionnée ; d’où la
nécessité de disposer d’une base de sondage afin de pouvoir accéder à
l’ensemble des unités statistiques.
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 8 sur 84

CHAPITRE II. METHODES EMPIRIQUES

2.1. INTRODUCTION

Il est assez naturel, surtout lorsqu’on ne dispose pas de base de


sondage, de vouloir constituer à partir des informations dont on dispose, un
échantillon « représentatif » de la population que l’on veut étudier.

Toute méthode où une unité est choisie afin de rendre


l’échantillon représentatif de la population est dite méthode de sondage
raisonné. Elle s’appuie essentiellement sur la personne procédant à la sélection
et consiste à faire preuve d’imagination de bon sens et d’objectivité.

L’avantage principal de ces méthodes se situe au niveau de leur


prix de revient qui est nettement moins élevé.

Leur principal inconvénient est de pouvoir être critiquées par les


personnes déçues des résultats parce qu’on n’a pas une base de sondage. Dans
ces conditions il n’y a pas moyen de calculer l’intervalle de confiance, car la
moyenne de l’échantillon est confondue à celle de la population.

2.2. Méthodes des quotas

Bien qu’encore peu utilisée dans le pays en développement, cette méthode est
présentée en raison de son caractère spécifique ; elle pourrait trouver des
champs d’application dans ces pays.

Cette méthode suppose à imposer à l’échantillon de respecter certains quotas


(c’est-à-dire des répartitions selon certains critères) afin de « représenter » au
mieux l’univers.
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 9 sur 84

Exemple 1:
Supposons qu’un chercheur veut installer divers point de vente dans une
province donnée. Notre chercheur a la répartition de personnes de cette
province selon le sexe, l’âge, le milieu d’habitation et la catégorie sociale. C’est
le résultat d’un dernier recensement dont la population s’élève à 4080000
personnes.

SEXE AGE HABITATION CATEGORIE SOCIALE


Masculin : 50% 10-14 : 15% Cadres : 10%
Urbain : 79%
Féminin : 50% 15-19 : 14% Employés : 30%

20-24 : 12% Ouvriers : 40%

25-34 : 18% Rural : 21%


Etudiants : 20%
35-65 : 41%
Total 100% 100% 100%

Si on fixe un taux de sondage de 1/10000

1) Quelle sera la taille de l’échantillon ?


2) Calculez les quotas de son échantillon ?
3) S’il décide d’utiliser trois enquêteurs un en milieu rural et deux en milieu
urbain, calculez les quotas de chaque enquêteur.

2.3. Méthodes des UNITES-TYPES

Cette méthodes consiste à diviser la population (univers) en un


certain nombre des sous-ensembles relativement homogènes et à représenter
chacun deux par unité-type.

On choisit donc les unités d’individus que l’on considère comme


fortement représentatives de certaines catégories de la population.
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 10 sur 84

La méthode des unités-types a été utilisée en Tunisie, au Bénin et


en Côte d’Ivoire.
Exemple : Enquête du secteur informel
Supposons que la liste des activités de production et de service
collectées auprès des communes de la ville de Kinshasa est la suivante :

Activités Nombres d’entreprises Echantillon


Ni ni
Classe1 : Industries manufacturières
- Moulin, décortiqueuse 383
- Boulangerie 383
- Tailleur 957
- Matelassier 111
- Tisseur filet 80
- Marcquinier 99
- Menuisier 718
- Savonnerie 96
- Briqueterie 191
- Ferrailleur, atelier métallique 239
- Ferrailleur, atelier chaudronnier 239
- Bobinage 191
- Scripteur sur bois 96
- Ivoiriste 96
- Bijouterie 287
Classe 2 : Banque assurance, service fourni
aux entreprises
- Décorateur, Sérigraphe 287
Classe 3 : Service fourni à la collectivité
- Cinéma, Vidéo 191
- Garage 283
- Tôlier 239
- Réparation électronique 239
- Réparation montre 191
- Quado 383
- Studio photo 191
- Coiffeur 383
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 11 sur 84

- Cordonnier 383
- Blanchisseur 239
Total 7176
On décide de tirer 375 activités proportionnellement au nombre d’entreprises
de chaque sous-ensemble. Quelle sera la taille de l’échantillon de chaque sous-
ensemble.
2.4. LA METHODE DES ITINERAIRES

La méthode des itinéraires tient à indiquer à l’enquêteur un


itinéraire à suivre et des points où il doit s’arrêter pour interroger une unité
d’échantillon. C’est une méthode intéressante dans le pays où il n’y a pas de
fichiers et où l’habitat est dense. Elle s’apparente au sondage « systématique ».

Elle permet de traduire dans l’échantillon les caractéristiques


géographiques de la population.

Ses résultats sont en général plus précis qu’un sondage aléatoire


simple pour un coût analogue ou légèrement inférieur.

Enfin, en cas d’absence (d’un individu) à « un point de


l’itinéraire », on indique à l’enquêteur de s’arrêter au point suivant. Ceci résout
le problème des non-réponses.

2.5. LES AUTRES METHODES

2.5.1. METHODE DE « BOULE DE NEIGE »

La méthode consiste à se procurer d’un échantillon d’individus


possédant une caractéristique commune relativement rare dans la population.

Exemple : exploitant agricole possédant une charrue, et, au cours de


l’enquête, on leur pose la question supplémentaire : Connaissez-vous des
exploitants possédant une charrue ? Si oui, donnez leurs noms et
adresses.
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 12 sur 84

L’expérience montre que ce procédé fournit assez facilement le nombre


d’unités souhaitées. On doit cependant être attentif pour éviter les
doubles comptes.
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 13 sur 84

CHAPITRE III. LE SONDAGE ALEATOIRE SIMPLE

3.1. Introduction

Dans les méthodes aléatoires, le théorème de base de la théorie de sondage


est la loi faible des grands nombres de Bernoulli. Cette loi établit le passage de
la théorie des probabilités à la théorie statistique et rend compte de la
convergence des fréquences et des probabilités.
𝐸(𝑦) = ∑ 𝑝𝑖 𝑦𝑖 = 𝜇𝑖 𝑒𝑡 𝐸(𝑦) = ∫ 𝑦𝑓(𝑡)𝑑𝑡.
En ce qui concerne la théorie de Tschebycheff.
𝑙𝑖𝑚𝑛→∞ 𝑃(𝑌 − 𝐸(𝑌) < 𝜀) = 1
Le sondage aléatoire simple (SAS) consiste à tirer au hasard dans
une population finie, les unités d’échantillon avec des probabilités non nulles
fixées à l’avance.

L’application de cette méthode suppose l’existence d’une base de


sondage (qui est exhaustive sans omission ni répétition, de tous les individus de
la population). Dans cette méthode, chaque unité a la même probabilité
d’appartenir à l’échantillon.
3.2. Procédé du choix aléatoire simple
y
Si l’espérance mathématique E (𝑦̅) = 𝑌̅ où 𝑌̂ = N𝑦̅ = N  i
n

i 1 n
𝑌̅ = estimation
𝑦̅ = estimateur ou 𝑌̅̂
𝑦̅ n n
Rapport pour la population R 𝑅̂ = =  yi x
𝑥̅ i 1 i 1
i

L’estimateur est sans biais si son espérance mathématique est


égale à l’estimation.
On distingue deux sortes de tirage :
- Tirage avec remise ou bernoullien ou indépendant (non exhaustif)
- Tirage sans remise ou exhaustif ou dépendant (le plus utilisé en pratique)
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 14 sur 84

1. Tirage avec remise ou bernoullien

Cette méthode bien que rarement utilisée a cependant deux


avantages : elle permet d’obtenir plus simplement la première approximation
de la précision d’un sondage raffiné en calculant la précision du sondage
bernoullien de même effectif. Sa compréhension permet de saisir plus
facilement le mécanisme des méthodes de sondage plus raffinées.
Remarques : Pour chaque type de tirage, la probabilité qu’un individu
appartienne à l’échantillon est p=1/N.
En effet, pour des tirages avec remise, le principe se déduit de la
manière suivante :
1. Chaque individu reçoit un numéro de 1 à N l’identifiant sans erreur ;
2. On choisit les unités selon une méthode appropriée ‘table de nombre
aléatoires, tirage systématique) ;
3. On recommence n fois l’opération
A chaque tirage l’unité 𝑈𝛼 à la probabilité 1/N d’être sélectionnée.
Par conséquent 𝑌𝑖 connue par sondage vaut 𝑌𝛼 inconnue avec probabilité
P= 1/N.
2. Tirage sans remise (exhaustif)
Pour le tirage exhaustif, on procède comme le tirage avec remise
mais en supprimant le double compte jusqu’à obtenir n unités différentes.

1. Au 1𝑒𝑟 tirage l’unité 𝑈𝛼 a la probabilité de P (𝑈𝛼 )=1/N


2. Au 2é𝑚𝑒 tirage on a :
1 1 1
1𝑁−1 1
𝑃(𝑈𝑖 ≠ 𝑈𝛼 ) = 𝐶𝑁−1 = =
𝑁𝑁−1 𝑁𝑁−1 𝑁
3. Au 3é𝑚𝑒 tirage on a :
1 1
1 𝐶𝑁−1 𝐶𝑁−1 1
𝑃(𝑈𝑘 ≠ 𝑈𝑖 ≠ 𝑈𝛼 ) = =
𝑁𝑁 − 1𝑁 − 2 𝑁
Par récurrence, on peut dire que ∀𝛼 on a :
1
𝑃(𝑈𝑖 = 𝑈𝛼 ) = avec𝐶𝑁𝑛 (façon de tirer des n individus parmi N)
𝑁
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 15 sur 84

Les probabilités que les individus 𝑈𝛼 interviennent chacune une


fois au cours de n tirage est :
𝑛 𝑛−1
𝐶𝑁−1 𝐶𝑁−1 𝑛 𝑛−1 (𝑁−1)!
𝜋𝛼 = 1 − 𝑛 = 𝑛 = Où 𝑐𝑁−1 =
𝐶𝑁 𝐶𝑁 𝑁 (𝑛−1)!(𝑁−𝑛)!
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 16 sur 84

3.3. NOTATIONS

a. Sur l’univers
Unités statistiques 𝛼 = 1 … … … … … … . . , 𝑁

1 N
Moyenne de la variable Y :𝑌̅ = Y
𝑁 1 
où 𝑌𝛼 est la valeur de Y pour l’unité 𝛼

1 N
Variance de Y : 𝑉(𝑌) =
𝑁 
1
(𝑌𝛼 − 𝑌̅)2

On utilise souvent la notation 𝜎 2 pour la variance : 𝑉(𝑌) = 𝜎 2


1
Par ailleurs, on définit aussi : 𝑆 2 = (𝑌𝛼 − 𝑌̅)2
𝑁−1

Cov (Y,Z) =
1 N

 Y
N i 1 Y 
Z 
Z 
Cov (Y, Z)

V Y V Z 

b. Sur l’échantillon
Unités statistiques i= 1……………, n
1 n

𝑛y
𝑦̅= moyenne de la variable y calculée sur l’échantillon : 𝑦̅est une variable
i
i 1

aléatoire.
E(y) espérance mathématique de la variable aléatoire 𝑦̅
𝑉(𝑦̅)Variance de la variable aléatoire 𝑦̅ (qui, rappelons-le, est la variance de
l’estimateur 𝑌̅et non, la variance de la variable y calculée sur les unités de

l’échantillon). V y   E y  Y ²  S
N  n  S 1  f 
2 2

n N n
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 17 sur 84

c. Taux de sondage (fraction de sondage)

𝑛
𝑓=
𝑁
d. L’utilisation de la notation ^
On utilisera parfois la notation ^ pour les estimateurs produits à
partir de l’échantillon. Par exemple, pour estimer un total T(Y), on utilisera un
estimateur qu’on notera : 𝑇̂(𝑌)
En résumé nous avons la situation suivante :
Population Echantillon
Indice 𝛼 = 1,2, … … … … … … … , 𝑁 i= 1,2,…………….. , n
Unité statistique 𝑈𝛼 i
𝑁 𝑛

Sommation ∑ 𝑌𝛼 ∑ 𝑦𝑖
Variable à étudier 𝛼=1 𝛼=1
𝑌𝛼 𝑦𝑖 (aléatoire)

𝑁 𝑛
Moyenne 1 1
𝑌̅ = ∑ 𝑌𝛼 𝑦̅ = ∑ 𝑦𝑖
𝑁 𝑛
𝛼=1 𝑖=1

Variance 𝑁
1
𝑉(𝑌) = 𝜎 = ∑(𝑌𝛼 − 𝑌̅)2
2
𝑆 2 (𝑁 − 𝑛) 𝑆 2 𝑛
𝑁 𝑉𝑎𝑟(𝑦̅) = 𝐸(𝑦̅ − 𝑌̅)2 = = (1 − )
𝛼=1 𝑛 𝑁 𝑛 𝑁
Ou à estimer par
𝑛
 
1 N 2 1
𝑆 2 = 𝑁−1  Y   Y 2
𝑠 = ∑(𝑦𝑖 − 𝑦̅)2
 1 𝑛−1
𝑖=1
𝑁 𝑆2
𝑆2 = 𝜎2 𝐸(𝑠 2 ) = [𝑛(𝑁 − 1) − (𝑁 − 𝑛)] = 𝑆 2
𝑁−1 (𝑛 − 1)𝑁

NB : En théorie de sondage on s’intéresse aux deux premiers moments d’une


variable (moyenne et variance). On ne suppose rien sur la distribution de la
variable étudiée, mais 𝑌̅ et 𝜎 2 doivent exister.

3.4. Estimation d’une Moyenne


Pour estimer la moyenne 𝑌̅ d’une variable Y sur l’univers (𝑌̅ est
bien sûr inconnue) il semble naturelle d’utiliser l’estimateur :
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 18 sur 84

1 n
𝑦̅ =
𝑛 y
i 1
i
moyenne calculée sur les unités de l’échantillon.

a. 𝑦̅ est un estimateur sans biais de la grandeur 𝑌̅


Cette propriété, qui signifie qu’en moyenne les valeurs fournies
par l’estimateur tombent de part et d’autre peut s’écrire :
E (𝑦̅) = 𝑌̅
b. Variance de 𝑦̅
𝑉(𝑌)
Dans le cas avec remise : v (𝑦̅) =
𝑛
𝑛 1 𝑁
Dans le cas sans remise : v (𝑦̅) = (1 − ) V(Y)
𝑁 𝑛 𝑁−1
𝑛 1 Facteur d’exhaustivité
= (1 − ) 𝑆 2
𝑁 𝑛
𝑁−𝑛 𝑉(𝑌)
=( )
𝑁−1 𝑛

𝑁−𝑛 𝜎 2
=( )
𝑁−1 𝑛

𝑆2 𝑛
On peut aussi écrire V (𝑦̅) = (1-f) où f =
𝑛 𝑁
𝑆2
V ( 𝑇̅ (𝑦)) = V (N𝑌̅) = 𝑁 2 (1- f)
𝑛
Si f est trop petit on a :
𝑠2
V (𝑦̅) ≈ ceci explique que la précision du sondage ne dépend que de n. Et
𝑛
que la variance de l’estimateur sera d’autant plus faible que la taille de
l’échantillon sera importante.

Par ailleurs, comme N-n/N-1 est toujours inférieur à 1, la variance


de l’estimateur sans remise est plus faible que celle de l’estimateur avec remise
pour une même variable étudiée. Cependant, quant N est grand, le coefficient
N-n/N-1 est souvent proche de 1 ; les deux variances sont équivalentes.

2 𝑁 2 𝑆²(𝑁−𝑛) 𝑁2 𝑆 2 𝑛
V (𝑌̂) = E(𝑌̂ − 𝑌̅) = = (1 − 𝑁)
𝑛 𝑁 𝑛

𝑁𝑆 𝑁𝑆 𝑛
L’erreur standard 𝑦̂ égal 𝜎𝑌 = √(𝑁 − 𝑛)⁄𝑁 = √1 − 𝑁
√𝑛 √ 𝑛
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 19 sur 84

̅ suit la loi normale


3.4.1. Pour un échantillon suffisamment grand, 𝒚

A partir d’une certaine taille d’échantillon (n≥ 30), la distribution


de la variable aléatoire y (c’est-à-dire l’ensemble des estimations fournies par
tous les échantillons obtenus avec le tirage équiprobable de taille n) s’ajuste
sur une loi normale (courbe « en cloche » de Gauss) dont les caractéristiques
sont liées aux valeurs E (𝑦̅) et V (𝑦̅) étudiées ci-dessus.

Ce résultat fondamental vient de « théorème central limite » et,


ceci doit être souligné, il est indépendant de la forme de la distribution de la
variable Y dans l’univers.
3.4.2. Estimation par intervalle de confiance

On sait d’après la notion des probabilités, que la loi de probabilité


de la moyenne des gros échantillons est normale quel que soit la loi de la
variable dans la population mère.

𝑦̅− 𝑌̅
𝑦̅ N (𝑦̅, 𝜎(𝑦̅) ) N(0,1)
𝜎(𝑦
̅)

Par lecture de la table de la loi normale centrée réduite, on peut


déterminer un intervalle.

[(𝑦̅ – 𝜇𝜎(𝑦̅) )(𝑦̅ + 𝜇𝜎(𝑦̅) )]

Tel que P[(𝑦̅ – 𝜇𝜎(𝑦̅) ) < 𝑌̅ < (𝑦̅ + 𝜇𝜎(𝑦̅) )] = 1-∝


1-∝ = niveau de confiance fixé en avance
∝ = seuil critique (toujours en %)
𝑛 1
Pour l’approximation normale p ± [t √1 − √𝑝𝑞⁄(𝑛 − 1) + ]
𝑁 2𝑛
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 20 sur 84

1−𝛼

�/2
𝛼/2
𝛼 = 𝜇𝜎(𝑦) 𝑦̅ 𝛼 = 𝜇𝜎(𝑦)

3.5. Estimation d’un total


Les estimations de totaux sont en général des estimations
d’inventaire (effectifs de migrants, de classes d’âges,…). Le total d’une variable
Y est estimé, à partir de l’échantillon, par l’estimateur de sa moyenne multiplié
par l’effectif de l’univers.
T̂ (Y) = N𝑦̅
1 n 𝑁 n
On va apparaitre dans N, T̂ (Y) = N
𝑛 y
i 1
i
=
𝑛 y
i 1
i
la « pondération » de

chaque unité de l’échantillon N/n, encore appelée coefficient d’extrapolation


(qui permet d’étendre à l’univers la donnée observée sur cette unité).
La variance de cet estimateur vaut :
V (𝑇̂ (Y)) = 𝑁 2 V (𝑦̅)
V (𝑁𝑦̅) peut être estimée à partir de l’échantillon :
𝑁2 2
- Dans le cas avec remise par 𝑠
𝑛
𝑛 𝑠2
- Dans le cas sans remise par 𝑁 2 (1 − )
𝑁 𝑛

3.6. Estimation des valeurs des moyennes pour les sous populations

Soit le jèmedomaine contient 𝑁𝑗 et soit 𝑛𝑗 le nombre d’unités dans


l’échantillon aléatoire simple de taille n, appartenant à ce domaine si yjk(k=
1,2,…...,nj) des valeurs observées dans ces unités, alors la valeur moyenne pour
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 21 sur 84

njy
la population servant la jèmedomaine y, est estimée par la formule 𝑦̅𝑗 =  jk

n
k 1 j

suivant les échantillons dans lesquels n et nj ne changent pas.


Dans l’ensemble d’échantillons avec n et njla probabilité que
l’échantillon comporte une certaine série nj unités appartenant au domaine j
𝑛−𝑛𝑗
∁𝑁−𝑁
𝑗 1
sur le total Nj unités est égale 𝑛−𝑛𝑗 𝑛𝑗 = 𝑛𝑗
∁𝑁−𝑁 ∁𝑁 ∁𝑁
𝑗 𝑗 𝑗

𝑦̅𝑗 Estimateur sans biais de𝑌̅𝑗

𝑆𝑗 𝑛𝑗 Nj y jk Y j  2

L’erreur standard 𝑦̅𝑗 égal


√ 𝑛𝑗
√1 − ( )
𝑁
où 𝑆𝑗2 =  1
𝑗 k 1 N j

𝑠𝑗 𝑛𝑗
L’erreur standard 𝑦̅𝑗 est √1 − ( ) où
√ 𝑛𝑗 𝑁 𝑗
2
 y  y 
nj  jk j 
𝑠𝑗2 =  1
k 1 n j

3.7. Estimation d’une proportion


a. Principe

Une proportion sur l’univers est la moyenne d’une variable


indicatrice :
𝑌∝ = 1 si l’unité ∝ a la caractéristique correspondant à la proportion
𝑌∝ = 0 si non.
L’estimation d’une proportion est donc l’estimation de la moyenne
de cette variable.
Une des caractéristiques d’une telle variable est que sa variance
s’écrit de manière simple :
N

Y
1 𝑁∝
Si P est la proportion recherchée, P =  = où 𝑁∝ est le nombre d’unités
𝑁 1
𝑁

correspondant à la caractéristique étudiée. Le calcul montre que : V(Y) = P (1-p)


Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 22 sur 84

Démonstration

 
1 N

 Y Y
2
𝑌̅ = P et V(Y) =
𝑁 1

1
= [𝑁∝ (1 − 𝑃)2 + (𝑁 − 𝑁∝ )𝑃 2 ]
𝑁

V Y 
V(Y) = P(1 − 𝑃) V y  
n

Dans ce cas, si l’on a une idée de l’ordre de grandeur de P (mais


sa véritable valeur est inconnue et c’est l’enquête par sondage cherche à
estimer de manière précise), on pourra anticiper la précision en fonction du
nombre de questionnaires puis qu’on aura a priori un ordre de grandeur de la
variance de Y.

3.8. Estimation d’un ratio

L’estimation d’un ratio peut être délicate, et révéler des pièges.


Prenons un exemple : supposons que l’univers soit univers de ménages (la base
de sondage est une liste de ménage), et que certaines caractéristiques comme
le nombre d’enfant de moins de cinq ans ne soient pas connues.
Comment estimer le poids moyen des enfants de moins de cinq
ans à partir d’un échantillon de ménages tiré de façon aléatoire simple.
Remarquons que l’unité statistique utilisée pour le sondage est le
ménage et non l’individu.

Pour faire, la procédure sera la suivante :


- On estime le nombre total d’enfants de moins de cinq à partir de nombre
d’observation ;
- On estime ensuite le poids total des enfants de moins de cinq ans de
l’univers ;
- Le ratio (ou quotient) de ces deux masses est l’estimation du poids
moyen des enfants de moins de cinq ans dans la population.
Ceci revient en fait à estimer (même si la première estimation 𝑦̅
peut paraitre « artificielle ») :
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 23 sur 84

- 𝑦̅ poids moyen « cumulé » par ménage des enfants de moins de cinq ans
y vivant ;
- 𝑥̅ nombre moyen d’enfants de moins de cinq ans par ménage.
L’estimateur final est𝑦̅⁄𝑥̅ , l’estimateur du poids moyen des
enfants de moins de cinq ans.
Cet estimateur n’est plus, contrairement aux estimateurs
proposés précédemment, sans biais, car, en général, E(𝑦̅⁄𝑥̅ ) n’est pas égal à
E(𝑦̅)/𝐸(𝑥̅ ).
On peut considérer, quand l’échantillon est de taille
suffisamment importante, que ce biais est « négligeable » par rapport à l’erreur
aléatoire.
Pour estimer un ratio, on passe en général par l’estimation de
deux masses.

3.9. Coefficient de variation sur l’échantillon

Le coefficient de variation nous permet de mesurer la précision


ou l’erreur relative d’un sondage.

𝜎
C.V.= au niveau de la moyenne
x
𝑝𝑞
√𝑣̂𝑝 √𝑛 1 𝑞
C.V.= ≈ = √ au niveau de la population
𝑝 𝑝 √𝑛 𝑝
On remarque que le coefficient de variation est étroitement lié à
la valeur de q et inversement lié à la racine carré de la taille de l’échantillon.
Cet indice (C.V) est très commode mais son interprétation a une portée très
limitée s’il ne s’accompagne pas de l’information continue dans les données
𝜎
originales de et de p ou de s et de𝑦̅.
𝑝

3.10. Détermination de la taille de l’échantillon

Mathématiquement p doit être dans l’intervalle (𝑝 ± 5) avec la


probabilité 19/20. Etant donné que p est supposés distribuer normalement
𝑄
avec la probabilité 19/20, elle sera dans l’intervalle(𝑝 ± 5). Plus loin, 𝜎𝑛 = √𝑃
𝑛
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 24 sur 84

𝑄 4𝑃𝑄
Par conséquent, nous pouvons supposer 2√𝑃 = 5 où n =
𝑛 25

3.10.1. Formule pour n de l’échantillon pour estimer les proportions

P(𝑝 − 𝑃/≥ 𝑑) = ∝

𝑁−𝑛 𝑃𝑄 𝑠 2 𝑁−𝑛 𝑃𝑄 𝑁−𝑛


𝜎𝑝 = √ √ 𝜎𝑝2 = E(𝑝 − 𝑃)2 = ( )= (𝑁−1 )
𝑁−1 𝑛 𝑛 𝑁 𝑛

𝑁−𝑛 𝑃𝑄
d=t√ √
𝑁−1 𝑛

𝑠2=
n


 yi  y
i 1
 estimateur sans biais de la variance
2

n 1
𝑛 1 𝑛 𝑝𝑞
Lorsqu’il s’agit p, 𝑉̂ (𝑝̂ )=(1 − ) pq ou 𝑉̂ (𝑝̂ )=(1 − ) estimateur sans
𝑁 𝑛−1 𝑁 𝑛−1
biais de la variance de p.
N

 Y Y
𝑆 2 = 1
  = Y
2 N

1
2

 NY
2

=
1
(𝑁𝑃 − 𝑁𝑃2 )=
𝑁
PQ
N 1 N 1 𝑁−1 𝑁−1

Erreur quadratique de 𝑦̅ =
 f yi  y i
  2

nn  1

Formule pour n de l’échantillon pour estimer les proportions


P(|𝑝 − 𝑃| ≥ 𝑑)= ∝ou P y  Y /  d      - une certaine petite probabilit é

𝑁−𝑛 𝑃𝑄 N n S
d= t √ √ ou t
𝑁 𝑛 N n

 tS 
2

2  
ou  
𝑡 𝑃𝑄
2
n = 1 𝑡𝑑2𝑃𝑄
d
1  tS 
2
1+ ( 2 −1)
𝑁 𝑑
1 
N d 
 
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 25 sur 84

Dans la pratique, on peut remplacer P par son estimateur p et si N est grand, on


passe par la formule intermédiaire :

 tS   NtS  NS 
2 2 2
2
𝑡 2 𝑝𝑞 𝑑2
ou    S
𝑝𝑞
𝑛0 = = V = 2 n   
𝑑2
d V  
𝑉 𝑡 o
V
d
𝑛0 𝑛0
n= ≈ 𝑛
1+(𝑛0 −1)/𝑁 1+( 𝑁0 )

Exemple :
d = 0,05 ; p= 0,5 ; ∝ = 0, 05 ; t = 2
𝑡 2 𝑝𝑞
𝑛0 =
𝑑2
4∗0,5∗0,5
𝑛0 = = 400
0,0025

Si N = 3200
𝑛0
n=
1+(𝑛0 −1)/𝑁
400
n= 399 = 356
1+
3200

On l’applique aussi si d, p et q sont exprimés en%


3.10.2. Dans le cas des variables continues
Pr ( |𝑦̅ − 𝑌̅| ≥ 𝑑)= ∝

∝ : une certaine probabilité très petite


𝑁−𝑛 𝑆
𝜎𝑦̅ = √
𝑁 √𝑛

𝑁−𝑛 𝑆
Par conséquent d= t√ ce qui donne
𝑁 √𝑛

𝑡𝑆 2
( )
𝑑
n= 1 𝑡𝑆 2
1+ ( )
𝑁 𝑑

𝑡𝑆 2 𝑆2 𝑛0
𝑛0 = ( ) = si très petit, dans le cas contraire ;
𝑑 𝑉 𝑁

𝑡 2𝑠2 4∗85,6
1ère approximative 𝑛0 = = = 95
𝑑2 (1,9)2
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 26 sur 84

95
n= 95 = 78
1+
490
𝑛0 𝑛0 𝑛0
Dans le cas contraire n = = ≈
1+𝑛0 /𝑁 1+(𝑛0 −1)/𝑁 1+(𝑛0 /𝑁)
Dans le cas de la valeur sommée
𝑁𝑠 2 (𝑁𝑠)2
n=( ) =
𝑑 𝑉

3.10.3. Dans le cas de variables discontinues

Dans le cas d’un échantillon aléatoire simple.


Pr ( |𝑦̅ − 𝑌̅| ≥ 𝑑)= ∝
𝑠12 2
n=
𝑉
(1 + 𝑛 )
1

Estimation de P pour 𝜎 2 donnée


𝑝1 𝑞1 3−8𝑝1 𝑞1 1+3𝑝1 𝑞1
n= + +
𝜎2 𝑝1 𝑞1 𝜎𝑛1

𝜎 2 (1−2𝑝)
𝑃̂= p+
𝑝𝑞

Estimation de P pour le coefficient de variation donné, égal √𝐶


𝑃̂= p - 𝐶𝑝/𝑞

Exemple : 𝑛1 = 400 𝑝1 = 0,103 √𝐶 = 0,1 C = 0,01


0,895 3 1
n= + + = 925
0,01∗0,105 0,0940 0,01∗42

Le choix simultané donne np = 88 ; p= 88/925 = 0,0951 𝐶𝑝/𝑞 = 0,0011


𝑝̂ = 0,0940 où 9,4%
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 27 sur 84

3.11. Méthode de tirage

Du point de vue théorique, ce point a eu déjà ses explications

avec les deux tirages(avec remise et sans remise) au point 3.2 de ce même

chapitre.

a. Méthode simple

L’idée est de numéroter les unités statistiques, et de procéder à


un tirage au hasard de numéros entre 1 et N. Pour ce faire, on utilise une table
de nombre aléatoire qu’on parcourt dans un sens bien défini au départ (par
exemple ligne ou colonne par colonne).

b. Méthode de tirage systématique

Pour cette méthode, on procède par « sauts » dans la liste des


unités statistiques.
EXERCICES D’APPLICATION

N°1 : On dispose de la liste de huit (8) communes et leur taille en


ménages :
Communes A B C D E F G H
Tailles 12 23 31 11 47 11 39 26
On demande de :
1. Tirer un échantillon de 15 ménages selon la méthode de sondage
simple ;
2. Tirer un échantillon de 30 ménages selon la méthode de sondage
systématique.
Décrire la procédure de tirage à chaque fois.
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 28 sur 84

N°2 : A l’aide d’une table de nombres aléatoires, tirer un échantillon


aléatoire simple de 9 unités dans une population de 453 unités (taux de
sondage t= 1/50).
Utilisez pour cela la table de Kendall et de Smith.
Supposons maintenant que l’on veuille tirer cette fois-ci un autre
échantillon de façon systématique au taux de sondage t=1/25 à partir de la
même population de 453 unités. Décrire la procédure de tirage et tirez cet
échantillon.

N°3 : Un échantillon de 315 ménages est choisi dans une zone urbaine
comprenant 15762 ménages. Chacun des ménages choisis doit indiquer s’il est
propriétaire ou locataire de son logement et s’il dispose de l’eau courante. Les
réponses se répartissent comme suit :
Approvisionnement en eau Propriétaire Locataire
Logements avec eau courante 153 121
Logements sans eau courante 10 31

1. Estimer la proportion de ménages locataires de la zone considérée qui


dispose de l’eau courante et calculer l’erreur type de cette estimation.
2. Estimer le nombre total, dans la zone considérée, de ménages locataires
disposant de l’eau courante dans la zone et calculer l’erreur type de cette
estimation.
3. Calculer l’intervalle de confiance à 95% de l’estimation du nombre total de
ménage locataires disposant de l’eau courante.
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 29 sur 84

N°4 : Soit une population agricole constituée de 6763 exploitations parmi


lesquelles on veut tirer 30 directement. Faites un tirage aléatoire simple à un
degré avec probabilités égales et sans remise à l’aide d’une table aléatoire et
du tirage systématique.
Tableau 1 : Répartition de nombres d’exploitations agricoles par village
N° Nombre Cumul des N° des
village d’exploitation exploitations exploitations
0 47
1 84
2 37
3 64
4 96
5 43
6 76
7 99
8 98
9 44
10 117
11 102
12 100
13 45
14 80
15 70
16 60
17 92
18 41
19 108
20 31
21 47
22 42
23 37
24 96
25 48
26 43
27 76
28 33
29 147
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 30 sur 84

30 44
31 39
32 34
33 50
34 90
35 80
36 35
37 90
38 92
39 123
40 36
41 31
42 141
43 126
44 111
45 32
46 48
47 43
48 38
49 66
50 98
51 44
52 39
53 68
54 50
55 45
56 120
57 35
58 30
59 92
60 123
61 36
62 93
63 94
64 42
65 37
66 64
67 48
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 31 sur 84

68 86
69 38
70 99
71 98
72 44
73 78
74 68
75 50
76 45
77 40
78 105
79 60
80 138
81 123
82 108
83 31
84 94
85 42
86 37
87 32
88 96
89 86
90 76
91 33
92 88
93 39
94 34
95 45
96 35
97 46
98 123
99 36
Total 6763
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 32 sur 84

b) On suppose que le tirage nous a fourni l’échantillon ci-après, en face des


numéros de village et exploitation est indiquée la valeur de la variable
correspondante (nombre de champs d’exploitation).
Tableau 2 : Répartition des champs par exploitation

N° village N° d’exploitation Nombre de champs


04 59 4
04 79 3
08 19 4
08 69 7
11 18 8
22 5 4
22 10 5
22 22 3
25 44 1
27 6 5
27 20 8
29 58 3
41 14 2
43 119 1
44 79 2
46 30 4
51 38 3
53 58 4
54 10 4
56 55 3
61 14 1
62 14 4
71 21 2
74 44 4
74 67 2
77 29 3
80 1 1
80 85 1
80 136 2
81 84 3

Total 100
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 33 sur 84

Question
1. Combien des villages ont été retenus dans ce tirage ?
2. Trouver un estimateur sans biais de nombre de champs par exploitation.
En déduire un estimateur du total de champs de la population agricole.
3. Calculer la variance de chacun des estimateurs ;
4. Déterminer des intervalles de confiance à 95% et 99% pour la moyenne
et le total ;

5. Soit P la proportion des exploitations de l’univers ayant 5 champs et plus.


Quel est l’estimateur de P dans l’échantillon. Cet estimateur sera noté p ;
6. Calculer la variance de p et donner son estimation ;
7. Déterminer l’intervalle de confiance à 95% pour p ;
8. Au vu de ces résultats, déterminer la taille de l’échantillon d’une
prochaine enquête avec une erreur de sondage de 5%.
N°1. L’exercice propose de retrouver sur un exemple les résultats de la théorie
pour un sondage aléatoire simple sans remise de taille fixe. On considère pour
cela tous les échantillons possibles de taille 2 pris dans une population de taille
N = 5. On connaît par ailleurs les valeurs de la variable d’intérêt Y pour chaque
unité de la population, à savoir respectivement : 8, 3, 11, 4 et 7.

1. Calculer la moyenne 𝑌̅et la dispersion 𝑆𝑦2 du caractère d’intérêt sur la


population.
2. Lister tous les échantillons possibles de taille 2.
3. Pour chacun de ces échantillons, calculer l’estimateur Yˆ de la moyenne
de la variable d’intérêt ainsi que l’estimateur de sa variance 𝑉̂ (𝑌̅̂)
4. Vérifier que 𝑌̅̂ estime sans biais la vraie moyenne.

5. Calculer la variance𝑉̂ (𝑌̅̂).

6. Vérifier que 𝑉̂ (𝑌̅̂)coïncide avec la formule de la variance donnée par la


théorie.

7. Vérifier que 𝑉̂ (𝑌̅̂)estime sans biais la vraie variance 𝑉̂ (𝑌̅̂).


Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 34 sur 84

N°2. On veut estimer la surface moyenne cultivée dans les fermes d’un canton
rural. Sur 2010 fermes que comprend ce canton, on en tire 100 par sondage
aléatoire simple. On mesure k Y la surface cultivée par la ferme k en hectares et
on trouve :

. keS Yk 2  154593ha 2 et keS Yk2  154593ha 2

1. Donner la valeur de l’estimateur sans biais classique de la moyenne


1
Y  YK
N keS
2. Donner un intervalle de confiance à 95% pour𝑌̅.

N°6. 145 ménages de touristes séjournant en France dans une région donnée
ont dépensé 830 € en moyenne par jour. L’écart type estimé de leurs dépenses
s’élève à 210 €. Sachant que 50 000 ménages de touristes ont visité la région
où a été effectuée l’enquête, que peut-on dire de la dépense totale journalière
de l’ensemble de ces ménages ? On supposera pour cela que l’échantillon est
issu d’un plan aléatoire simple à probabilités égales.

N°3. Une entreprise de promotion immobilière désire estimer le nombre


d’espaces de stationnement requis pour une nouvelle tour devant abriter des
bureaux. Elle décide de procéder à un sondage aléatoire simple sans remise.
Elle sait que le nouveau bâtiment abritera 5 000 personnes et que, dans des
entreprises de même type que celles devant emménager dans les futurs locaux,
la proportion de personnes se rendant à leur bureau en utilisant les moyens de
transport en commun est toujours supérieure à 75%. Quelle doit être la taille
de l’échantillon pris au sein des futurs occupants des bureaux pour pourvoir
estimer le nombre d’espaces de stationnement à prévoir avec une marge
d’erreur symétrique d’au plus 150 places au niveau de confiance 90% ?
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 35 sur 84

CHAPITRE IV. SONDAGES STRATIFIES (STRACTIFICATION A PRIORI)

IV.1. Généralités

La stratification est une deuxième méthode pour améliorer


l’efficacité d’un sondage.
La stratification est un des procédés pour améliorer la précision
des estimations. Elle consiste à découper l’univers en sous-ensembles ou
strates qui soient : aussi homogènes que possible à l’intérieur et hétérogènes
entre eux. Il suffirait d’opter sur un échantillon assez faible pour avoir une
précision convenable.
Le problème qui se pose est de savoir quels critères ou quels
caractères des unités de la population qu’il convient de retenir pour effectuer
précisément cette stratification.
Le critère connu de stratification devra en quelque sorte être à la
caractéristique destinée à être observée.
P
P= population
𝑃1 𝑃2 𝑃3 𝑃4
𝑃1 , 𝑃2 ……sous population
𝑠1 𝑠2 𝑠3 𝑠4 ou strate

Echantillon

VI.2. Objectifs

La stratification peut avoir comme objectif principal :


- Soit d’augmenter la précision d’ensemble ;
- Soit d’obtenir une précision suffisante au niveau de chacune de strate
Ces deux objectifs ne doivent pas être confondus. Une fois que
l’on aura réparti la base de sondage entre les strates, il y aura un choix faire en
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 36 sur 84

ce qui concerne la répartition de l’échantillon entre ces strates. Ce choix


dépendra de l’objectif que l’on juge prioritaire.
On peut également être amené à stratifier la population pour des
raisons techniques : application de méthodes de tirage différentes suivant la
strate (par exemple en milieu sédentaire et en milieu nomade, etc.)

IV.3. Choix des strates

L’idée est de déterminer des strates les plus homogènes


possibles, relativement au sujet qu’on étudie. Deux types de considérations
vont conduire au choix des critères de stratification :
- Disponibilité des critères dans la base de sondage ;
- Pertinence des différents critères pour créer des strates homogènes, ce
qui nécessite une connaissance soit intuitive, soit venant d’études
réalisées antérieurement.
On prendra généralement comme critères :
- Des critères relevant d’une typologie (par exemple la catégorie sociale) ;
- Des critères de taille (prenant par exemple en compte le nombre de
personnes du ménage) ; souvent en les croisant ensemble.
Au niveau des unités de sondage « géographiques », par exemple
les villages, on pourra stratifier selon la région, l’activité dominante des
localités, le caractère sédentaire ou nomade ; on séparera souvent milieu rural
et milieu urbain.
Au niveau des ménages ou des individus, on utilisera les critères
qu’on pense être en corrélation avec le sujet d’étude de l’enquête : par
exemple la catégorie sociale, le niveau d’instruction, la taille du ménage, le
type d’habitat, etc.
Une stratification peut fort bien être très efficace pour l’étude
d’un phénomène, par exemple la mortalité, et l’être très peu pour l’étude
d’autres phénomènes, par exemple l’activité économique ou les mouvements
migratoires. Cette situation se présente avec une acuité particulière lorsqu’un
échantillon est destiné à des études à objectifs multiples, par exemple
« démographie » et « agriculture ».
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 37 sur 84

Lorsque l’on multiplie le nombre de strates, le gain marginal


d’efficacité devient rapidement faible et les résultats de chaque strate ne sont
pas significatifs calculés en raison de la petite taille de l’échantillon (mais au
niveau global, les résultats sont significatifs).
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 38 sur 84

IV.4. NOTATIONS

Population Echantillon
Numéros des strates 1,2,…….h,…k
Nombre d’unités par 𝑁1 𝑁2 , … … … . 𝑁ℎ , … … . . 𝑁𝑘 𝑛1 𝑛2 , … … … . 𝑛ℎ , … … . . 𝑛𝑘
strate
Fraction de sondage 𝑛ℎ
𝑓ℎ =
𝑁ℎ
Total k
k
𝑁 = Nh 𝑛=  n
h1
h1 h
Variable à étudier 𝑌ℎ𝛼 𝑦ℎ𝑖
Moyenne par strate 1 k 1 k
𝑌̅ℎ =  Yh 𝑦̅ℎ =  y
𝑁ℎ h1 𝑛ℎ h1 hi
Total par strate Nh k
𝑌ℎ = 𝑁ℎ 𝑌̅ℎ = Yh 𝑦ℎ = y
h 1
hi
= 𝑛ℎ 𝑦̅𝑛
h )1

Total univers (total de k k


totaux par strate) 𝑌=  𝑦= 
h1 Yh h1 yh
Moyenne générale 𝑌 1 k 𝑦 1 k
(moyenne des moyennes 𝑌̅ = = Y 𝑦̅ = =  y
𝑁 𝑁 h1 h 𝑛 𝑛 h1 h
par strate)
Dispersion ou variance 1 k

 (Y   Y )
2
dans une strate S = 2
𝑁ℎ h 1
h
1 k

𝑛ℎ−1  
𝑠̂ℎ 2 = ( y  y) 2
1 k
hi

𝑁ℎ−1  
h 1
𝑆ℎ 2 = (Y  Y ) 2
𝑺𝟐𝒉estimateur sans biais h 1
h

(beaucoup utilisé)

A partir des éléments des strates on peut calculer les éléments


de la population.

= N  NN
k k
𝜎 2 h
𝜎ℎ2 + h
(𝑌̅ℎ − 𝑌̅)2
h 1 N h

Variance intrastrate ou Variance inter-strates ou


moyenne des variances variance des moyennes
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 39 sur 84

IV.5. FORMULES D’ESTIMATION

IV.5.1. Notations

- On a k states (h= 1, 2, …, k)
k
- Pour la strate h, l’effectif total est 𝑁ℎ (N = N
h 1
h
)
la moyenne de Y est 𝑌̅ℎ

𝑆ℎ2 =   
𝑁ℎ −1  Y  h Y h
1 Nh
h
2

Le nombre d’unités tirées est𝑛ℎ , l’indice des unités de l’échantillon est 𝑖ℎ (𝑖ℎ =
1, …, 𝑛ℎ )
1 nh

𝑛ℎ  y
𝑦̅ℎ = ih
ih1

 yih  y h
1 nh 2
𝑠ℎ2 =
𝑛ℎ −1 ih1

IV.5.2. Estimation du total de Y sur l’univers à partir du sondage stratifié

Pour la strate h le total de Y est estimé par𝑁ℎ 𝑦̅ℎ , l’estimation du


total de Y sur l’univers est donc :
k
𝑇̂(𝑌) = N y
h1
h h

Cette formule peut aussi s’écrire :


𝑘 𝑛ℎ 𝑘 𝑛ℎ
1 𝑁ℎ
𝑇̂(𝑌) = ∑ [𝑁ℎ ∑ 𝑦𝑖ℎ ] = ∑ [ ∑ 𝑦 ]
𝑛ℎ 𝑛ℎ 𝑖ℎ
ℎ=1 𝑖ℎ ℎ=1 𝑖ℎ =1

Toute unité observée de l’échantillon est pondérée par le


𝑁
coefficient ℎ⁄𝑛ℎ (dont la valeur dépend de strate), afin d’extrapoler (ou ‘’
d’étendre’’) les résultats à l’univers : ce coefficient est souvent appelé
coefficient d’extrapolation.
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 40 sur 84

IV.5.3. Estimation de la moyenne de Y sur l’univers à partir du sondage stratifié

Pour cela on utilise l’estimation du total de Y divisée par le


nombre total d’unités de l’univers N (N est connu).
L’estimateur est :
𝑘
1
𝑌̅̂ = ∑ 𝑁ℎ 𝑦̅ℎ
𝑁
ℎ=1

Puisque
𝑇̂(𝑌)
𝑌̅̂ =
𝑁
L’estimation d’une proportion (proportion de femmes par
exemple) se fera comme présenté au chapitre 2, par l’estimation de la
moyenne d’une variable qui vaut 1 si l’unité a la caractéristique étudiée et 0
sinon.

IV.5.4. les estimateurs 𝑻 ̂ sont des estimateurs sans biais du total et de la


̂ (𝒀) et 𝒀
̅
moyenne de Y

𝐸(𝑌̅̂) = 𝑌̅et𝐸 (𝑇̂(𝑌)) = 𝑇(𝑌)

IV.5.5. variance de l’estimateur du total et de l’estimateur de la moyenne


𝑘 𝑘

𝑉 (𝑇̂(𝑌)) = 𝑉 (∑ 𝑁ℎ 𝑦̅ℎ ) = ∑ 𝑁 2 𝑉(𝑦̅ℎ )


ℎ=1 ℎ=1

𝑛ℎ 1 2
Avec 𝑉(𝑦̅ℎ )= (1 − )𝑆
𝑁 ℎ 𝑛ℎ ℎ

(Résultat du sondage aléatoire simple sans remise, chapitre).


Ceci peut être car les tirages dans chaque strate se font de manière
indépendante, et donc les variables aléatoires 𝑦̅ℎ sont indépendantes.
k 𝑛ℎ 1
Alors 𝑉 (𝑇̂(𝑌)) = 
h 1
𝑁ℎ2 (1− )𝑠2
𝑁 ℎ 𝑛ℎ ℎ
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 41 sur 84

k 𝑁ℎ2 𝑛ℎ 1 2
Et 𝑉(𝑌̅̂) =  (1− ) 𝑆
h 1
𝑁2 𝑁 ℎ 𝑛ℎ ℎ

IV.5.6. Estimation de ces variances d’estimation à partir de l’échantillon

k 𝑛ℎ 1
𝑉̂ (𝑇̂(𝑌)) = 
h 1
𝑁ℎ2 (1− )𝑠2
𝑁 ℎ 𝑛ℎ ℎ

k 𝑁ℎ2 𝑛ℎ 1
𝑉̂ (𝑌̅̂) =  (1− )𝑠2
h 1
𝑁2 𝑁 ℎ 𝑛ℎ ℎ

Ces deux estimations de la variance des estimateurs du total et


de la moyenne vont permettre de calculer l’écart-type de ces estimateurs, et
donc, comme au S.A.S, de proposer des intervalles de confiance pour ces
estimateurs.

IV.5.7. Cas particulier : le taux de sondage est le même pour toutes les strates

Les formules présentées ci-dessous sont variables quels que


soient les nombres d’unités tirées par strate ; le taux de sondage 𝑛ℎ ⁄𝑁ℎ peut
donc être variable d’une strate à une autre.
Cas on impose un taux de sondage identique pour toutes les
strates, on qualifie alors le sondage de ‘’stratifié représentatif’’, ou ‘’stratifié
proportionnel’’.
L’estimation de la moyenne vaut alors :
1 k  nh
 1 k  nh 
𝑌̅̂ =  Nh
1
 yih  =   yih 
𝑁 h 1  nh ih 1  𝑛 h 1 ih 1 

Puisque 𝑛ℎ ⁄𝑁ℎ = 𝑛⁄𝑁(où n est le nombre total de questionnaire ; c’est donc la


moyenne simple calculée sur l’échantillon qui permet d’estimer la moyenne sur
l’univers ; on a un sondage dit ‘’autopondéré’’.
𝑛 1 Nh
La variance de l’estimateur 𝑌̅̂ vaut 𝑉(𝑌̅̂ )= (1 − )
𝑛  N
𝑆ℎ2
𝑁
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 42 sur 84

On montre que, dans ce cas, cette variance est liée ç la variance


de l’estimateur 𝑦̅ issu du sondage aléatoire simple obtenu à partir du même
nombre d’unités tirées par la population :
𝑛 1 k
𝑉(𝑦̅) = 𝑉(𝑌̅̂ )+ (1 − )
Nh ̅
𝑛  N
(𝑌ℎ − 𝑌̅)2
𝑁 h 1

Ceci veut dire que le sondage stratifié représentatif a une


variance d’estimateur toujours inférieure ou égale à celle du sondage ‘’simple’’,
et d’autant plus inférieure que les strates ont des moyennes différentes de la
moyenne générale. On perçoit intuitivement ce résultat en se souvenant que le
tirage stratifié a consisté à forcer le hasard ‘’général’’ et à imposer à
l’échantillon de ‘’représentatif’’ l’univers strate par strate, donc à concentrer
les valeurs observées autour des moyennes de chaque strate.
IV.6. Répartition de l’échantillon entre les strates

Choix des strates


Introduction
Deux types de considérations vont conduire au choix des critères de
stratification :
- Disponibilité des critères dans la base de sondage ;
- Pertinence de différents critères pour créer des strates
homogènes, ce qui nécessite une connaissance soit intuitive, soit
venant des études réalisées antérieurement. On prendra
généralement comme critères :
- Des critères relevant d’une typologie (par exemple le catégorie
sociale) ;
- Des critères de taille (prenant par exemple en compte le nombre
de personnes du ménage).
IV.6.1. La répartition proportionnelle

La répartition représentative ou proportionnelle consiste à


utiliser le même taux de sondage par toutes les strates. On dira que le sondage
est représentatif ou proportionnel.
Si 𝑓 = 𝑓ℎ
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 43 sur 84

𝑛 𝑛ℎ
𝑓= 𝑒𝑡 𝑓ℎ =
𝑁 𝑁ℎ

C’est-à-dire :
𝑛 𝑛ℎ
= → 𝑛𝑁ℎ = 𝑁𝑛ℎ
𝑁 𝑁ℎ
Divisions partout par 𝒏𝑵
𝑛𝑁ℎ 𝑁𝑛ℎ 𝑁ℎ 𝑛ℎ
→ = = =
𝑛𝑁 𝑛𝑁 𝑁 𝑛
𝑁ℎ
𝑛ℎ = ∙𝑛
𝑁
IV.6.2. Répartition optimale au sens de Neyman
n h
 cons tan te  k
n
NS h h
N S
h 1
h h

Ici il faut faire une répartition de manière que dans chaque strate
on minimise la variance.
min var( y )

S / C  nh  n

𝑁ℎ2 𝑁ℎ − 𝑛ℎ 2
𝑉(𝑦̅) = 2 ( )𝑆
𝑁 𝑁ℎ − 1 ℎ
En résolvant par la méthode de Lagrange, on aura :
𝑛ℎ 𝑁ℎ 𝑆ℎ 𝑁ℎ 𝑆ℎ
= → 𝑛ℎ = ∙𝑛
𝑛 ∑ 𝑁ℎ 𝑆ℎ  𝑁ℎ 𝑆ℎ

NB : 𝑠ℎ ce sont les écarts-types provenant d’une enquête antérieure.


𝑁ℎ
La répartition proportionnelle est optimale si :𝑛ℎ = 𝑛
𝑁
𝑁 ℎ 𝑆ℎ
𝑛ℎ = 𝑛 on égalise les deux, nous aurons :
∑𝑁ℎ 𝑆ℎ
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 44 sur 84

𝑁ℎ 𝑁 ℎ 𝑆ℎ
𝑛= 𝑛 la simplification des termes semblables donne :
𝑁 ∑𝑁ℎ 𝑆ℎ
𝑆ℎ 1
= → 𝑆ℎ 1
∑𝑁ℎ 𝑆ℎ 𝑁 =
∑𝑁ℎ 𝑆ℎ 𝑁

∑𝑁ℎ = 𝑁

Exemple : une entité est divisée en deux régions présentant les caractéristiques
retenues dans le tableau ci-après, on veut estimer la population totale à partir
1
d’un sondage sur deux villages pour . L’univers est donc l’ensemble de
50è𝑚𝑒
villages.
Régions Nombre de Pop. 𝑆ℎ 𝑌ℎ
villages 𝑁ℎ Totale
1 3000 956000 100 319
2 1000 605000 200 605
Total 4000 1561800

TD : a. Faites la répartition proportionnelle


b.faites la répartition optimale au sens de Neyman.
Solution a : répartition proportionnelle

𝑁ℎ 1
𝑛ℎ = 𝑛ouƒ= =0,02→ 𝑛 = ƒ. 𝑁
𝑁 50
=0,02x400
=80
3000
𝑛1 = 𝑥80 = 60
4000

1000
𝑛2 = 𝑥80 = 20
4000
Pour faire la preuve il faut que 𝑛1 + 𝑛2 𝑠𝑜𝑖𝑒𝑛𝑡 é𝑔𝑎𝑙𝑒 à 𝑛, d’où :
60+20=80

Solution b : répartition optimale


Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 45 sur 84

𝑁ℎ 𝑆ℎ
𝑛ℎ = 𝑛
∑𝑁ℎ 𝑆ℎ
Régions 𝑁ℎ 𝑆ℎ y 𝑁ℎ 𝑆ℎ

1 3000 100 319 300000
2 1000 200 605 200000

4000 390 500000

300000
𝑛1 = 𝑥80 = 48
500000

200000
𝑛2 = 𝑥80 = 32
500000
Preuve : 48+32=80
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 46 sur 84

EXERCICES D’APPLICATION

N°1A. Une population agricole est divisée en trois strates comme l’identique le
tableau suivant :
STRATE A STRATE B STRATE C
N° Nbre
N° village Nbre d'exploit N° village Nbre d'exploit village d'exploit
0 47 30 44 70 99
1 84 31 39 71 98
2 37 32 34 72 44
3 64 33 50 73 78
4 96 34 90 74 68
5 43 35 80 75 50
6 76 36 35 76 45
7 99 37 90 77 40
8 98 38 92 78 105
9 44 39 123 79 60
10 117 40 36 80 138
11 102 41 31 81 123
µ12 100 42 141 82 108
13 45 43 126 83 31
14 80 44 111 84 94
15 70 45 32 85 42
16 60 46 48 86 37
17 92 47 43 87 32
18 41 48 38 88 96
19 108 49 66 89 86
20 31 50 98 90 76
21 47 51 44 91 33
22 42 52 39 92 88
23 37 53 68 93 39
24 96 54 50 94 34
25 48 55 45 95 45
26 43 56 120 96 35
27 76 57 35 97 46
28 33 58 30 98 123
29 107 59 92 99 36
60 123
61 36
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 47 sur 84

62 93
63 94
64 42
65 37
66 64
67 48
68 86
69 38
TOTAL 2103 2631 2029

On effectue un tirage avec probabilité égale et sans remise de 30


exploitations avec stratification. Quelle est la répartition de l’échantillon si :

A. On tire dans chaque strate un nombre d’exploitation proportionnelle à sa


taille.
B. On fait une répartition optimale.

1. B. On suppose que le tirage a donné les résultats du tableau ci-après :

H N° Village N° d’Exploitation Nombre de champs 𝒀𝒉𝒊


STRATE A 24 49 03
10 16 07
19 24 08
08 80 04
05 36 03
11 16 03
17 68 04
01 27 02
15 26 02
Total 36
STRATE B 55 12 02
43 83 04
41 04 03
37 51 04
43 80 03
68 70 01
43 01 08
51 19 03
39 12 06
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 48 sur 84

52 24 02
32 57 06
69 12 01
Total 43
STRATE C 98 09 05
73 68 02
70 16 01
85 21 01
98 97 04
78 73 03
97 29 01
71 94 03
90 51 01
Total 21
100

a. Quel est le nombre moyen de champs par exploitation ?


b. Calculez sa variance.
c. Quel est pour chaque strate le nombre moyen de champs par village ?
d. Quel est le nombre de champs dans toute la population (ou pour tout
le village) ?
N° 2. Une population est divisée en quatre strates présentées au tableau ci-
après :
STRATES 𝑵𝒉 ̅𝒉
𝒀 𝑺𝒉
1 100 12 3
2 150 15 4
3 200 20 5
4 550 50 6
Total 1000

On demande :
1. Déterminez la taille de l’échantillon ;
2. Faites la répartition proportionnelle ;
3. Faites la répartition optimale au sens de Neyman ;
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 49 sur 84

4. Calculez la moyenne et le total.

T.P. N°2.
N°3. Dans une population de taille N partitionnée en h strates, on sélectionne
un échantillon de taille n suivant un plan stratifié. Dans chaque strate h, on tire
𝑛ℎ individus parmi 𝑁ℎ selon un sondage aléatoire simple sans remise de taille
fixe.
Préalable : montrer la formule de décomposition de la variance :
1. Pour une variable d’intérêt Y, donner les estimateurs du total 𝑇(𝑌) et de
la moyenne.
2. Montrer que ces deux estimateurs sont sans biais et calculer leur
variance.
3. On considère l’allocation proportionnelle de l’échantillon : on décide de
𝑛 𝑛
tirer dans chaque strate h un nombre d’individus 𝑛ℎ tel que : ℎ =
𝑁ℎ 𝑁

a. Comment s’écrivent alors les estimateurs du total et de la moyenne?


b. Que vaut leur variance ?
2 2
c. Montrer alors, que si on suppose : 𝜎𝑦2 ≈ 𝑆𝑦2 et 𝜎𝑦ℎ ≈ 𝑆𝑦ℎ pour tout h,
l’allocation proportionnelle est toujours meilleure qu’un sondage
aléatoire simple.

4. Le point de vue envisagé maintenant est celui d’une allocation optimale


H
afin de satisfaire un souci de précision. Sous la contrainte que n
h 1
h n

a) Quelle est l’allocation des 𝑛ℎ qui minimise la variance de l’estimateur du


total ?
b) Que vaut alors la variance ?
c) Comment peut-on interpréter le choix des allocations optimales ?
IV.7. Efficacité de la stratification

La stratification est efficace si la variance dans le cas de la


stratification est plus faible que la variance de l’estimation issue de
l’échantillon non stratifié.
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 50 sur 84

1èrcas : Fraction de sondage constante (l’échantillon auto-pondéré). Si N est le


nombre total d’unités de sondage et n le nombre d’unités dans l’échantillon, on
1 𝑁−𝑛
a : échantillon non stratifié :𝜎𝑦̅2 = 𝜎𝑦̅2 ; échantillon stratifié. La formule
𝑛 𝑁−1
générale étant avec 𝑦̅ la moyenne générale à partir de l’échantillon stratifié
𝑁𝑖 2 1 2 𝑁𝑖 − 𝑛𝑖
𝜎𝑦̅2 = ∑( ) 𝜎
𝑁 𝑛𝑛 𝑖𝑦̅ 𝑁𝑖 − 1

En résumé, lorsque l’on stratifie, il faut toujours garder en


mémoire les remarques suivantes :
1. Plus les strates sont homogènes, plus les renseignements numériques
recherchés seront précis ;
2. Lorsque l’on est certain de l’homogénéité d’une strate, il y a plus
d’avantage à la subdiviser à nouveau ;
3. Si l’on recherche des estimations numériques par strate, un nombre
minimum d’unités de sondage est nécessaire. Inversement, il n’est pas
intéressant de tirer des unités au nombre trop important au sein d’une
même strate.
4. Lorsque l’on étudie le plan de sondage, il convient de tenir compte de
toutes les informations disponibles en particulier de celles concernant la
variabilité de chaque strate.

IV.7.1. Echantillon stratifié

2
𝜎𝑖𝑦 est la variance des valeurs individuelles à l’intérieur de la
𝑛𝑖 𝑛𝑁𝑖 1−𝑓 𝑁𝑖 1−𝑓
strate i. = 𝑓 on a 𝑛𝑖 = c’est ainsi que 𝜎 2 = ∑ 2
𝜎𝑖𝑦 = 𝜎𝑤2 en
𝑁𝑖 𝑁 𝑖 y' 𝑛 𝑁 𝑛
𝑁𝑖 1−𝑓
posant 𝜎𝑤2 = ∑ 𝜎𝑦2 et 𝜎𝑦2 = ∑ 𝜎𝑦2 , autrement dit 𝜎𝑤2 est la variance à
𝑁 𝑛
𝑁𝑖
l’intérieur des strates, variance obtenue en pondérant par la variance de la
𝑁
𝑁𝑖 𝑁𝑖
strate i. Etant donné que 𝜎𝑦2 =∑ 2
𝜎𝑖𝑦 +∑ (𝑌̅𝑖 − 𝑦̅)2 → 𝑌𝑖𝑗 − 𝑦̅ = 𝑌𝑖𝑗 − 𝑌̅𝑖 −
𝑁 𝑁
𝑦̅
2 2 2
(𝑌𝑖𝑗 − 𝑦̅) = (𝑌𝑖𝑗 − 𝑌̅𝑖 ) +(𝑌̅𝑖 − 𝑦̅)2 +2(𝑌𝑖𝑗 − 𝑦̅) (𝑌𝑖𝑗 − 𝑦̅𝑖 )en sommant pour la
strate i on a :
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 51 sur 84

  Y Y 2 =∑𝑗 (𝑌𝑖𝑗 − 𝑌̅𝑖 )


2
+ 𝑁𝑖 (𝑌̅𝑖 − 𝑦̅𝑖 )2 + 2(𝑌̅𝑖 − 𝑦̅)∑𝑗 (𝑌𝑖𝑗 − 𝑌̅𝑗 )
j

ij

2
∑𝑗 (𝑌𝑖𝑗 − 𝑌̅𝑖 ) = 0par définition, ∑𝑖 ∑𝑗 (𝑌𝑖𝑗 − 𝑦̅) =N𝜎𝑥2 par définition ∑𝑖 ∑𝑗 (𝑌𝑖𝑗 −
2
𝑌̅𝑖 ) + ∑𝑁𝑖 (𝑌̅𝑖 − 𝑌)2 N𝜎𝑦2 = ∑𝑁𝑖 (𝑌̅𝑖 − 𝑦̅)2
𝑁 𝑁𝑖
𝜎𝑦2 = 𝑖 𝜎𝑖2 +∑ (𝑌̅𝑖 − 𝑦̅)2 donc, au prix de l’approximation faite :
𝑁 𝑁
1−𝑓 𝑁𝑖 1−𝑓 2
𝜎𝑦̅2′ = [𝜎𝑦2 − ∑ (𝑌̅𝑖 − 𝑌̅)2 ]et comme 𝜎𝑦 = 𝜎𝑦̅2
𝑛 𝑁 𝑛
𝑁𝑖
∑ (𝑌̅𝑖 − 𝑦̅)2
𝑁
𝜎𝑦̅2′ = 𝜎𝑦̅2 [1 − ]
𝜎𝑦2

𝜎𝑦̅2′ est donc inferieur à 𝜎𝑦̅2 à moins que es moyennes par strate 𝑌̅𝑖
ne soient égales. Autrement dit : l’échantillon stratifié sera toujours plus
efficace que l’échantillon de même effectif non stratifié, l’efficacité est d’autant
plus grande que les moyennes par strate sont plus différentes entre elles.
𝑁
Posons 𝜎𝑦2̅ ′ = ∑ 𝑖 (𝑌̅𝑖 − 𝑌̅)2 . Cette quantité est la variance vraie des moyennes
𝑁
2 2 2
𝜎𝑦
̅ −𝜎̅ ′ 𝜎𝑦
𝑦 ̅
de strates = 2. En d’autres termes, la diminution relative de la variance
𝜎𝑦2 𝜎𝑦
2
𝜎𝑦
̅
due à la stratification est mesurée par .
𝜎𝑦2

En fait, on ne connait pas 𝜎𝑦2 et 𝜎𝑦̅2′ mais il est possible de les estimer à l’aide de
l’échantillon stratifié lui-même, en remplaçant :
𝑁
𝜎𝑦̅2 =∑𝑖 𝑖 (𝑌̅𝑖
𝑁
− 𝑌̅)2 par ∑ 𝑖 (𝑦̅𝑖 − 𝑦̅)2 et 𝜎𝑦2 =  Y ij Y par
𝑛
𝑛
1
𝑁
i j

 
2

1
y y
𝑛−1  ij
i j
  2
 s . Mais ce procédé n’est correct que pour les grands
2

échantillons.
𝑛−1
On démontre en effet que : 𝜎𝑦̅2 est estimée par (𝑠 2 − 𝑠𝑤2 ) avec
𝑛
1
𝑠𝑤2 = ∑(𝑦𝑖𝑗 − 𝑦̅𝑖 ) qui estime correctement𝜎𝑤2 . La diminution relative de la
𝑛−𝑘
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 52 sur 84

𝑠 2 −𝑠𝑤
2
variance due à la stratification est donc plus correctement estimée par 𝑠 2
𝑠2 + 𝑤

y  y lorsque n est suffisamment grand.


𝑛−1

n
i 2
i
n i
expression qui se réduit à 2
s
Application numérique

1. Soit à tirer 12 unités de sondage au hasard dans un domaine d’étude de


répartition en trois strates sensiblement égales (fraction de sondage est
1
de ) en raison de 4 unités par strate pour obtenir un échantillon auto-
10
pondéré.
Strate (i) Ni Valeurs obtenues Yi Moyenne par strate (𝒚
̅𝒊 )
I 40 2 1,5 2,5 2,5 2,125
II 40 3 3,5 3 3,5 3,25
III 40 4 5 4 4,5 4,375

Le total général 𝑠𝑦𝑖𝑗 = 39. La moyenne générale est ̅𝑦 = 3. Il s’agit de

calculer : 𝑠𝑤2 et 𝑠 2 
i j
y  y = y  y + ∑𝑛 (𝑦̅ − 𝑦̅)
ij
2 i j

ij
2

𝑖 𝑖
2

(𝑛 − 1)𝑠 2 = (𝑛 − 𝑘)𝑠𝑤2 + ∑𝑛𝑖 (𝑦̅𝑖 − 𝑦̅)2 (𝑛 − 𝑘)𝑠𝑤2 sera calculé par différence.

1. Calcul de ∑𝑛𝑖 (𝑦̅𝑖 − 𝑦̅)2 =4[(2,125 − 3,25)2 + (3,25 − 3,25)2 +


(4,375 − 3,25)2 ]= 10,125
Calcul de (𝑛 − 1)𝑠 2
Strate Carrés des valeurs Totaux
I 4 2,25 6,25 6,25 18,75
II 9 12,25 9 12,25 42,50
III 16 25 16 20,25 77,25

Somme de la Somme des carrées des A diviser


variabilité écarts par
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 53 sur 84

Entre strates 10,125 k-1=2


A l’intérieur des 1,625 n-k=9 𝑠𝑤2 = 0.181
strates
Au total 11,750 n-1=11 𝑠 2 = 1,068

La diminution relative de la variance due à la stratification est estimée par :


𝑠 2 − 𝑠𝑤2 1,068 − 0,181 0,994
2 = 1 = = 0,835
𝑠2 +
𝑠𝑤
1,068 + 0,181 1,191
𝑛−1 11

𝑛−1 1−𝑓 2 9
La variance de l’échantillon stratifié : 𝑆𝑤2 est estimée par 𝑠 = 𝑋
𝑛 𝑛 𝑤 10
12

0,181= 0,0136.
La variance n’est que de 16,5% de celle d’une estimation sans stratification.
Donc l’efficacité est considérable. Le coefficient de variation.
0,0136 100
√ = 0,036 𝑜𝑢 3,6%. Sans stratification, le coefficient de aurait été √
3,25 3,25
fois plus grand, soit 1,5 fois plus grands environ.
Fraction de sondage variable
𝑛𝑖 𝑛
= Dans le cas du tirage avec remise. Pour le tirage sans remise, il faut
𝑁𝑖 𝜎𝑖 ∑𝑁𝑖 𝜎𝑖
prendre.
𝑁𝑖 𝑁𝑖
𝜎𝑖 = √ au lieu de 𝜎𝑖 . Les résultats de strate doivent être pondérés par qui
𝑁𝑖 −1 𝑛𝑖
n’est plus constant, et que d’autre part, pour le calcul d’erreurs, il n’est plus
possible d’utiliser le tableau d’analyse de variance.
Il faut avoir des idées préalables sur la variance des 𝜎𝑤2 peuvent se traduire par
une baisse d’efficacité par rapport à l’échantillon auto-pondéré.
Valeur vraie de la variance
𝑛
1 𝑁𝑖2 𝜎𝑖2 (1− 𝑖 ) 𝑛𝑁𝑖 𝜎𝑖
𝑁𝑖
Cas de tirage sans remise 𝜎𝑦̅2 = ∑ et en remplaçant 𝑛𝑖 par , on
𝑁2 𝑛 ∑𝑁𝑖 𝜎𝑖
a
1 𝑁𝑖 𝜎𝑖∑𝑁𝑖 𝜎𝑖 𝑛𝑁 𝜎
𝜎𝑦̅2 = 2
∑ (1 − ∑𝑁𝑖 𝜎𝑖 ).
𝑁 𝑛𝑖 𝑖 𝑖
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 54 sur 84

1 [∑𝑁𝐼 𝜎𝐼 ]2 1 𝑁 2 1 𝑁
Exemple : 𝜎𝑦̅2 = 2
[ − ∑𝑁𝑖 𝜎𝑖2 ]= (∑ 𝑖 𝜎𝑖 ) − ∑ 𝑖 𝜎𝑖2 soit un domaine
𝑁 𝑛 𝑛 𝑁 𝑁 𝑁
d’étude de 1000 unités au total, décomposé en 4 strates. On se propose
d’extraire un échantillon de n=52 unités.

Ni ̅𝒊
𝒚 𝝈𝒊 𝝈𝟐𝒊 𝑵𝒊 𝝈 𝒊 𝑵𝒊 𝝈𝟐𝒊 Echantillon
Optimal Proportionnel
1 2 3 4 5 6 7 8 9
1 100 12 3 9 300 900 3 5
2 150 15 4 16 600 2400 6 8
3 200 20 5 25 1000 5000 10 10
4 550 50 6 36 3300 19800 33 29
Total 1000 28100 52 52

Dans les strates importantes, l’optimum exige une fraction de sondage plus
élevée au détriment des strates les moins nombreuses.
2. On considère une population de 10 stations-services et on s’intéresse au
prix du litre de supercarburant que chacune d’entre elles affiche. Plus
exactement, sur deux mois consécutifs, mai et juin, les données de prix
figurent dans le tableau ci-dessous :

Prix du litre de supercarburant


Station 1 2 3 4 5 6 7 8 9 10
Mai 5,82 5,33 5,76 5,98 6,20 5,89 5,68 5,55 5,69 5,81
Juin 5,89 5,34 5,92 6,05 6,20 6,00 5,79 5,63 5,78 5,84

On veut estimer l’évolution du prix moyen du litre entre mai et juin. On choisit,
comme indicateur de cette évolution la différence des prix moyens On propose
deux méthodes concurrentes:
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 55 sur 84

- Méthode 1 : on échantillonne n stations (n < 10) en mai et n stations en


juin, les deux échantillons étant totalement indépendants ;
- Méthode 2 : on échantillonne n stations en mai, et on interroge de
nouveau ces stations en Juin (technique de panel).
1. Comparer l’efficacité des deux méthodes.
2. Même question si on souhaite cette fois estimer un prix moyen sur la
période globale mai-juin.
3. Si on s’intéresse au prix moyen de la question 2, ne vaut-il pas mieux
tirer, non pas 2 fois n relevés avec la méthode 1 (n chaque mois) mais
directement 2n relevés sans se soucier des mois (méthode 3) ? Aucun
calcul n’est nécessaire.

IV.8. Stratification a posteriori

IV.8.1. Principe

C’est le même principe que celui présenté à la partie précédente. On


découpe l’univers en strates et on effectue des estimations par strates avant
de concaténer le tout pour obtenir une estimation globale. Par exemple,
dans le cas où on a tiré un échantillon de manière aléatoire simple (c’est-à-
1 n
dire à probabilités égales) : 𝑦̅=
𝑛 y
i 1
i
est l’estimateur brut (avant

redressement) de la moyenne de la variable Y.


Si l’on découpe l’univers en strates h=1,…., k et si l’on connait les effectifs

 NN Y
k
𝑁ℎ des strates, alors : 𝑌̅𝑠𝑝 = h
h
est l’estimateur stratifié a postériori de
h 1

la moyenne de Y (𝑌̅ℎ étant la moyenne simple calculée sur la partie de


l’échantillon se trouvant dans la strate h).
On voit qu’on modifie les pondérations des questionnaires par rapport à
l’estimateur brut.
a. La différence entre la stratification a priori et a posteriori.
On ne maîtrise pas, dans la stratification a posteriori, la répartition des unités
enquêtées entre les strates ; un cas extrême est celui où on ne trouverait pas
d’unité de l’échantillon dans une strate définie a postériori. La stratification a
postériori si elle recale l’échantillon en le pondérant pour l’ajuster sur une
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 56 sur 84

distribution continue, est en général moins efficace qu’une stratification a


priori bien choisie.
b. Exemple
On tire, parmi un univers de 2 536 villages ; un échantillon de 127 villages dont
on veut estimer la population par enquête. L’échantillon est tiré à probabilités
égales et on observe une taille moyenne 𝑦̅ de 377,2 habitants sur l’échantillon
de 127 villages.
L’estimation brute du total de la population à l’enquête est donc :
N𝑦̅= 2 536 x 377,2 = 956 600 habitants.
On s’aperçoit que l’échantillon, relativement à sa répartition géographique, a
plutôt sur représenté les villages de la zone Sud (voir le tableau ci-après).
Tableau. Stratification a postériori : exemple
Zone Village de Village e l’échantillon Taille moyenne des villages de
l’univers l’échantillon
Nord 1 421 65 402,8
Sud 1 115 62 350,4
Total 2 536 127 377,2

Or les villages du sud ont en moyenne une taille plus faible. Comment prendre
en compte une information ? On utilise l’estimateur de la moyenne stratifié a
𝑁1 𝑁2
postériori : 𝑦̅𝑠𝑝 = 𝑦̅1 + 𝑦̅2 et l’estimateur de du total de la population
𝑁 𝑁
vaut donc : N𝑦̅𝑠𝑝 = 𝑁1 𝑦̅1 + 𝑁2 𝑦̅2 = (1 421x402, 8) + (1 115x350, 4) = 963 100
habitants. Soit une estimation légèrement supérieure à l’estimation brute.
c. La pratique
Le critère choisi pour stratifier a postériori doit être corréler avec la variable
d’intérêt (ou les variables d’intérêt) pour que la technique soit efficace.
Par ailleurs, il est essentiel que les effectifs des strates (les 𝑁ℎ ) soient connus
de manière précise et surtout récente : une stratification a postériori ajustant
un échantillon sur une distribution ancienne (et susceptible d’être déformée)
sera déconseiller.
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 57 sur 84

En fin, il est préférable de ne pas avoir de corrections des pondérations trop


importantes : une règle empirique indique d’éviter d’avoir de taux de
correction plus de cinq fois supérieur au taux de correction le plus faible. On
déconseille aussi de stratifier postériori sur des strates trop peu nombreuses
𝑁ℎ
(éviter des strates telles que < 10%)
𝑁

IV.8.2. Estimation par le quotient

IV.8.2.1. Principe

Il est différent du principe relatif à la stratification a postériori. Pour celle-ci, on


se calait sur des effectifs (distribution selon un certain critère) ; ici, on va se
caler par rapport à une valeur moyenne.
On a tiré un échantillon pour lequel on étudie une variable Y, mais on observe
aussi une variable X. pour cette variable X, on connaît la moyenne 𝑋̅ de
manière exacte sur l’univers. On peut observer le résultat 𝑥̅ obtenu sur
l’échantillon et le comparer à 𝑋̅. l’idée est la suivante : pour les variables qui
varient proportionnellement à la variable X, on tient compte du résultat 𝑥̅ et
propose l’estimateur par le quotient de la moyenne de Y :
𝑋̅
𝑦̅𝑞 = 𝑦̅
𝑥̅
Donc, si l’échantillon fournit un résultat 𝑥̅ inférieur à𝑋̅, on pense qu’il est
intéressant e donner un coup de pouce à l’estimation brute 𝑦̅ (et inversement
si ̅𝑥 > 𝑋̅).
L’estimateur par quotient est biaisé, mais si la variable auxiliaire X et la variable
Y étudiée sont approximativement proportionnelles, sa variance est inférieure
à celle de l’estimateur simple ; le biais étant d’un ordre de grandeur dominé
par celui de l’écart-type, l’estimateur par le quotient est alors intéressant.
Mais, ceci, répétons-le, ne s’applique qu’au cas où il existe une relation de
proportionnalité présumée entre les deux variables X et Y.
Exemple
Reprenons l’exemple de la première partie de ce chapitre. On tire, parmi
l’univers de 2 536 villages, un échantillon de 127 villages pour estimer la
population par enquête.
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 58 sur 84

Pour l’ensemble de 2 536 villages, on a l’information de la population au


dernier recensement. La taille moyenne au dernier recensement est de 345,1
habitants (𝑋̅= 345,1). On a constaté, sur l’échantillon que 𝑥̅ = 341,7.
D’autre part la population moyenne, à la date de l’enquête, des villages de
l’échantillon est de 377,2 habitants. On peut donc proposer deux estimations
de la population de l’univers étudié :
- L’estimation brute N𝑦̅= 2 536x377, 2=956 600 habitants
𝑋̅
- L’estimation par le quotient N𝑦̅𝑞 = N𝑦̅ =966 100 habitants.
𝑥̅

Cette deuxième estimation repose sur la constatation que l’estimation issue de


l’échantillon tiré était, au recensement de la population, un peu en dessous de
la valeur moyenne et qu’il existe essentiellement une relation de la
proportionnalité entre la population au recensement et la population actuelle :
le redressement consiste à réévaluer à la hausse « l’estimation brute ».
Pour revenir à la validité de l’application de la méthode, la relation de
proportionnalité supposée entre les deux variables, à savoir la population au
recensement et la population au moment de l’enquête, n’est pas toujours
vérifiée. On a pu constater par exemple, dans certains pays africains, des
évolutions de population dues des raisons climatiques qui ont conduit certains
villages à doubler leur population en quelques années, alors que d’autres,
pendant la même période, voyaient leur population réduite à moitié. Dans ce
cas, on voit les risques qu’il y a à appliquer brutalement une méthode de
redressement…
IV.8.2.3. L’estimateur par la régression

Cette méthode suppose une relation affine entre Y, la variable


d’intérêt et X, la variable auxiliaire, qui n’est plus une relation de simple
proportionnalité comme pour l’estimateur par le quotient : Y= a + b X.
L’idée va être d’estimer le paramètre b, puis d’utiliser la grandeur
𝑋̅ (valeur moyenne de X sur l’univers connue) pour redresser et fournir
l’estimateur par régression de la moyenne : 𝑦̅𝑟𝑒𝑔 = 𝑦̅ + 𝑏̂(𝑋̅ − 𝑥̅ ) où 𝑏̂ est
l’estimation de b par la méthode des moindres carrés ordinaires appliquée à
l’échantillon.
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 59 sur 84

Cette méthode suppose des calculs complexes et peu utilisée en


pratique. On utilise parfois une variante, l’estimation par la différence où la
valeur b est choisi à priori égale à 1 :
𝑦̅𝑑𝑖𝑓𝑓 = 𝑦̅ + (𝑋̅ + 𝑥̅ ) (On ajoute à 𝑦̅ la différence constatée entre𝑋̅ 𝑒𝑡 𝑥̅ )
Dans le cas de la stratification a postériori, il est déconseiller de
créer des strates pour lesquelles le nombre d’observations expérimentales
serait trop petit, on risquerait d’avoir une variable très importante pour le 𝑥̅ et
de pondérer ces variables importantes.
Application numérique

Un recensement antérieur donne une répartition relative des exploitations


agricoles d’une région :
Tranche de superficie Nombre d’exploitation

-1ha 10
1 à 2ha 19
2 à 3ha 25
3 à 4ha 17
4 à 5ha 10
5 ha et plus 19
Total 100

Un sondage aléatoire que l’on a ensuite dépouillé a postériori selon les


tranches de superficie qui fournit les renseignements suivants :
Tranche de superficie Nombre d’exploitation superficie

-1ha 21 16,8

1 à 2ha 30 43,2

2 à 3ha 34 74,0

3 à 4ha 28 89,0

4 à 5ha 18 75,6
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 60 sur 84

5 ha et plus 26 166,1

Total 156
Pour calculer la taille moyenne de l’exploitation, on effectue très simplement le
calcul suivant :
16,8 10 43,2 19
𝑥 𝑥 𝑥 + 𝑒𝑡 …
21 100 30 100

Exemple 2 : On tire dans la population de 2536 villages, un échantillon de 127


villages dont on veut estimer la population par enquête. L’échantillon est tiré à
probabilités égales et on observe une taille moyenne de 377 habitants sur
l’échantillon des 127 villages.
L’estimation « brute » du total de la population à l’enquête est donc :
N𝑌̅ = 2536 x 377,2 = 956579 habitants.

Zone Villages de Villages de Taille moyenne des villages de


l’univers l’échantillon l’échantillon
Nord 1421 65 402,8
sud 1115 62 350,4
Total 2536 127 377,2

On utilise l’estimateur de la moyenne stratifié à posteriori :


𝑁1 𝑁2
𝑦̅𝑠𝑝 = 𝑦̅1 += 𝑦̅2 .
𝑁 𝑁

Et l’estimateur du total de la population vaut donc :


N𝑦̅𝑠𝑝 = 𝑁1 𝑦̅1 + 𝑁1 𝑦̅1 = (1421 x 402,8) + (1115 x 350,4) = 963100 habitants
Soit une estimation légèrement supérieure à l’estimation « brute ».
En conclusion, en matière de stratification :
- Il faut toujours accorder un préjugé favorable à cette méthode qui
améliore le plus souvent la précision de l’estimation d’ensemble ;
- Que l’échantillon au-pondéré simplifie le dépouillement et des
calculs, mais que pour certains strates, la précision individuelle
peut être fort douteuse ;
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 61 sur 84

- Qu’en revanche des calculs sont plus lourds. Dans le cas de petites
strates où d’erreurs de stratification dans l’ignorance de la
variabilité interne des strates rées, on peut perdre en précision par
rapport à l’échantillon auto-pondéré ;
- De plus, qu’une stratification peut être efficace pour un sujet
d’étude donné et au contraire très mauvaise pour un autre sujet,
qu’en conséquence dans une étude à objectifs multiples, on aura
généralement intérêt à adopter l’échantillon auto-pondéré.
- Enfin, en raison de la variabilité du milieu en Afrique, il ne faudra
jamais craindre de sonder avec une fraction de sondage trop
importante, les grosses unités, au risque de sonder avec une
fraction de sondage trop faible, les petites unités (pour éviter ces
modalités, on a intérêt à constituer des unités de sondage de taille
sensiblement égales, soit par le groupement des petites unités,
soit par découpages des grosses unités).
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 62 sur 84

CHAPITRE 5. SONDAGES A PLUSIEURS DEGRES

V.1. Principes et notations

V.1.1. Principes

On utilise une succession de regroupements des unités


statistiques pour tirer l’échantillon.

Villages

Univers régroupé en unités X X X X X


primaires XXXXXX XXXXXX XXXXXX XXXXXX XXXXXX
XX XX XX XX XX

Tirage d’unités primaires


X X
(villages)
XXXXXX XXXXXX
XX XX

Tirage d’unités secondaires


(ménages) X X X X

X X

On tire un échantillon de villages (unités primaires), puis on tire,


parmi les villages tirés, un échantillon de ménages (unités secondaires).
On a dans ce cas un tirage à deux degrés (villages puis ménages).
On peut généraliser à trois degrés, quatre………A chacun des degrés, les
méthodes présentées aux chapitres précédents peuvent être utilisées (par
exemple tirage proportionnel à la taille au premier degré, donc à probabilités
inégales, tirage aléatoire simple au deuxième degré).
Le sondage en grappes est un cas particulier de sondage à
plusieurs degrés (souvent deux degrés) où l’ensemble des unités au dernier
degré de tirage est enquêté voir l’exemple présenté ci-dessus, l’ensemble des
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 63 sur 84

ménages des villages sélectionnés (soit une « grappe » des ménages) qui serait
enquêté. C’est dans ce sens que sera utilisée l’expression sondage en grappe ».

V.1.2. Justification et Caractéristiques

On veut étudier 2000 ménages dans un pays qui en compte


environ 500 000 répartis dans 6000 villages. On dispose seulement d’une liste
des villages avec une estimation de leur population.
Le sondage à plusieurs degrés permet donc de résoudre les deux
problèmes suivants :
- En l’absence d’une base de sondage, on peut se contenter d’un travail
partiel d’établissement de cette base de sondage : seule la connaissance
exhaustive des unités primaires est nécessaire ; on peut se limiter à
recenser, dans l’exemple précédent, les ménages des villages tirés au
premier degré ;
- Globalement, on va réaliser des économies de temps et de frais de
déplacement (au niveau du travail des enquêteurs).
Par contre, le sondage à plusieurs degrés est, en général, moins
précis que le sondage à un seul degré, pour une taille donnée de l’échantillon
(en nombre d’unités statistiques au dernier degré de tirage). Ceci est dû aux
« effets de grappe ».
Les unités statistiques regroupées dans une même unité primaire
(ou dans une même unité secondaire si on a trois degrés du tirage) ont souvent
tendance à se rassembler, à savoir des caractéristiques communes. Le fait de
concentrer l’échantillon sur un échantillon d’unités primaires peut conduire à
une certaine « redondance » de l’information sur ces unités et un certain
« manque de représentativité » de l’ensemble.
On peut établir que la majeure partie de la variance des
estimateurs dans le cas de tirages à plusieurs degrés provient souvent du
premier degré de tirage. L’effet de grappe est abordé de manière plus
approfondie dans le neuvième point de ce chapitre.
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 64 sur 84

V.1.3. Notations

Dans ce chapitre, on se placera essentiellement dans le cas du


sondage à deux degrés et on utilisera les notations suivantes :
 Unités primaires : M dans l’univers (𝛼 = 1, … … . , 𝑀)
m tirées dans l’échantillon (𝑖 = 1, … … , 𝑚)

 Unités secondaires : 𝑁𝛼 dans l’unité primaire 𝛼 (𝛽 = 1, … … , 𝑁𝛼 )


𝑛𝑖 dans l’échantillon pour l’unité primaire 𝑖(𝑗 =
1, … … . . 𝑛𝑖 )

𝑇𝛼 (𝑌)total de Y sur l’unité primaire 𝛼


N
T (Y )   Y
 1

𝑌𝛼𝛽 est la valeur de la variable Y pour l’unité secondaire 𝛽 de l’unité primaire 𝛼.


1 M
s12   (T (Y )  T ) 2
M  1  1
M
Où T  1 T (Y )
M 1

M
 𝑇(𝑌) total de Y sur l’univers : 𝑇(𝑌) = 

T (Y )
1

V.2. Tirage des unités primaires à probabilités égales (tirage à deux degrés)

On se placera dans le cas d’un tirage sans remise au premier


degré, qui est a priori préférable pour la précision.

V.2.1. estimation du total de Y

𝑀 m
Formule : 𝑇̂(𝑌) =  𝑇̂𝑖 (𝑌)
𝑚 i 1
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 65 sur 84

Cette formule estime le total 𝑇(𝑌) où 𝑇̂𝑖 (𝑌) est l’estimateur du


total 𝑇̂𝑖 (𝑌) à partir du plan de sondage choisi au deuxième degré de tirage. Cet
estimateur est sans biais. On retrouve dans cette formule l’estimateur du total
aux deux degrés de tirage.
Si au deuxième degré on a tiré de façon aléatoire simple, la
formule 𝑇̂𝑖 (𝑌) = 𝑁𝑦̅ donne :

𝑇̂𝑖 (𝑌) = N y i
ni

ij
n i j 1

Cas particulier : sondage autopondéré


Si on tire à probabilités égales les unités primaires et si, de plus, le
taux de sondage est le même pour le deuxième degré de tirage (toujours à
probabilités égales) à l’intérieur de toutes les unités primaires tirées :
ni
𝑇̂(𝑌) =  N i  yij (constante)
m
𝑀
Alors, puisque
𝑚 i 1 n i j 1

La pondération utilisée est la même pour toutes les unités


statistiques de l’échantillon (en l’occurrence les unités secondaire) ; le sondage
est dit autopondéré. Dans ce cas, la moyenne simple calculée sur l’ensemble
des unités tirées est utilisée comme estimateur de la moyenne sur l’univers (ce
qui n’est pas le cas si l’on tire au deuxième degré avec des taux de sondage
différents selon les unités primaires).

V.2.2. Variance de l’estimateur du total de Y

2
M  m 2 M M
𝑉̂ (𝑇̂(𝑌)) = 1 
m 
s 
M 1

m   1Z 

Où 𝑍𝛼 est la variance de l’estimateur 𝑇̂𝛼 (𝑌) du total 𝑇𝛼 (𝑌) dans l’unité primaire
𝛼 consécutive au plan de sondage choisi au deuxième degré.
Par exemple, si au deuxième degré, on a tiré, dans chaque unité
primaire𝛼, 𝑛𝛼 unités à probabilités égales sans remise, 𝑍𝛼 est calculé par :

 Y   Y 
𝑁𝛼2 𝑛 1 N
𝑍𝛼 =
𝑛𝛼
(1 − 𝑁𝛼 ) 𝑁
𝛼 𝛼 −1  1
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 66 sur 84

N

Y  N 
1
 Y 
 1

V.2.3. Estimation de la variance de l’estimateur du total de Y

A partir de l’échantillon (d’unités primaires et d’unités


secondaires), la variance de l’estimateur du total de Y est estimée par :
𝑀2 𝑚 𝑀 m
𝑉̂ (𝑇̂(𝑌)) =
𝑚
(1 − ) 𝑠12 +
𝑀 𝑚 
i 1
𝑧̂𝑖

1 m ̂
𝑇 (𝑌) 2
𝑚−1 
Où 𝑠12 = (𝑇̂𝑖 (𝑌) − )
i 1
𝑚

Et 𝑧̂𝑖 est l’estimateur de la variance de l’estimation 𝑇̂𝑖 (𝑌) selon le plan de


sondage au deuxième degré.
Si au deuxième degré de tirage on a tiré à probabilités égales sans remise,

𝑁𝑖2 𝑛𝑖 1
y  y 
n 2

𝑁𝑖 𝑛𝑖 − 1 
i

𝑧̂𝑖 = (1 − ) i
𝑛𝑖 j 1
ij

1 ni
Où 𝑦̅𝑖 =
𝑛𝑖 y j 1
ij

Remarque :
Dans la formule de variance de l’estimateur du total de Y ci-
dessus, le premier terme est en général le plus important. Les deux termes de
cette formule sont d’ailleurs relatifs aux deux degrés de tirage et permettent
de décomposer la variance pour observer la part de chacun de cas de deux
degrés.
Si on augmente m dans cette formule, on voit que les deux
termes diminuent ; si on augmente les nombres 𝑛𝛼 d’unités enquêtées au
second degré, seul le deuxième terme diminue (par l’intermédiaire des𝑍𝛼 ). On
a donc intérêt à avoir plutôt un grand nombre d’unités primaires tirées.
Dans la formule de l’estimateur de la variance de l’estimateur du
total (𝑉̂ (𝑇̂(𝑌))), on a également deux termes qui semblent correspondre à la
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 67 sur 84

décomposition selon les deux degrés de tirage : en fait ce n’est pas le cas,
contrairement à ce qui a pu être dit précédemment pour𝑉 (𝑇̂(𝑌)). Dans le cas
de sondage aléatoire simple au deuxième degré, par exemple le premier terme
2
M  m 2 M M
de la formule 𝑉 (𝑇̂(𝑌)) = 1 
m 
s 
M 1
 serait estimé par :
m   1Z 
𝑀2 𝑚 1 m 𝑀2 m

𝑚
(1 − 𝑀 ) [𝑠12 + 𝑚  i 1
𝑧̂𝑖 ] et le second terme par
𝑚2 
i 1
𝑧̂𝑖

V.2.4. Estimation d’une moyenne et d’un ratio

Pour estimer la moyenne de Y par unité statistique sur l’univers à


partir du total, on ne connait pas en général le nombre total d’unités
secondaires mais plutôt seulement la liste des unités primaires. On est donc
obligé d’estimer ce nombre total à partir de l’échantillon d’unités primaires,
̂ ; on estime la moyenne par𝑇̂(𝑌)⁄ .
soit 𝑁
𝑁̂
Un ratio sera estimé comme le rapport de deux masses estimées.

V.3. Tirage des unités primaires à probabilités inégales (tirage à deux degrés)

On se placera ici, pour simplifier, dans le cadre du sondage avec


remise. 𝐴𝛼 est la probabilité de l’unité primaire 𝛼 d’être tirer à chacun des
tirages d’unités primaires.
V.3.1. Estimateur du total de Y

1 m 𝑇̂𝑖 (𝑌)
𝑇̂(𝑌) =
𝑚 
i 1 𝐴𝑖

𝑇̂(𝑌)est un estimateur sans biais du total de Y sur l’univers ; on


voit qu’on passe par l’estimateur 𝑇̂𝑖 (𝑌) du total de Y pour l’unité primaire𝑖 ,
puis qu’on utilise la formule de l’estimation du total du sondage à probabilité,
m y
𝑛 
1
inégales 𝑇̂(𝑌) = i

i 1 A i
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 68 sur 84

𝑇̂𝑖 (𝑌)tient compte de la méthode de sondage utilisée au deuxième degré de


tirage.

V.3.2. Variance de l’estimateur du total, estimateur de cette variance

La variance de 𝑇̂(𝑌) vaut :

2
1 𝑇𝛼 (𝑌) 1 M
Z

M
𝑉 (𝑇̂(𝑌)) =
𝑚  𝐴𝛼 (
𝐴𝛼
− 𝑇(𝑌)) +
𝑚

1  A
1

Où 𝑍𝛼 est la variance de l’estimateur de 𝑇𝛼 (𝑌) tenant compte du plan de


sondage au deuxième degré.
L’estimateur de cette variance à partir de l’échantillon est :
2
1 m 𝑇̂𝑖 (𝑌)
𝑚(𝑚 − 1) 
𝑉̂ (𝑇̂ (𝑌)) = ( − 𝑇̂(𝑌))
i 1 𝐴 𝑖

V.3.3. cas particulier important

On n’a pas abordé pour l’instant le problème du choix des𝐴𝛼 .


Souvent on décide de tirer les unités avec une probabilité proportionnelle à
leur taille :

𝑁𝛼 M
𝐴𝛼 = (𝑜ù 𝑁 =  N  )
𝑁  1

Dans ce cas il est intéressant de procéder, au deuxième degré, à


un tirage aléatoire simple avec le même nombre 𝑛0 d’unités secondaires dans
chaque unité primaire tirée (quelle que soit sa taille).

La formule d’estimation devient :

m
N  N i n0  N m n0
    y avec∀𝑖
1
𝑇̂(𝑌) = y 
𝑚 i 1
N i  n0 j 1 ij  m n0 i1 j 1 ij
𝑛𝑖 = 𝑛0
Chaque unité enquêtée a le même coefficient d’extrapolation, on
a un sondage dit « autopondéré ».
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 69 sur 84

En pratique on se retrouve rarement exactement dans cette


situation. On tire proportionnellement à une taille qui est connue grâce à des
données qui, même si elles sont récentes, ont pu évoluer : la taille de l’unité
primaire effectivement constatée lors du dénombrement réalisé pendant
l’enquête sera, en général, légèrement différent.
1 m 𝑇̂𝑖 (𝑌)
𝑚 
𝑇̂(𝑌) = . Si le nombre d’unités contenues dans l’unité primaire 𝑖 est,
i 1
𝐴𝑖

au moment de l’enquête,𝑁𝑖′ la pondération de l’unité 𝑗 dans l’unité primaire 𝑖


vaudra alors :
𝑁 𝑁𝑖′

𝑚𝑁𝑖′ 𝑛0

V.3.4. Estimation d’une moyenne et d’un ratio

Pour estimer une moyenne par unité secondaire sur l’univers, il


faudra souvent estimer le nombre total d’unités secondaires qui est inconnue.
Un ratio sera estimé comme le rapport de deux masses estimées.

V.4. Sondage en grappes

V.4.1. Principe

C’est le cas particulier du sondage à plusieurs degrés où


l’ensemble des unités du « dernier degré » est enquêté : par exemple on tire un
échantillon de villages à l’intérieur desquels on va enquêter tous les ménages,
ou tous les individus.
Là encore, l’intérêt de ce type de sondage réside en des couts de
déplacements moindres (si on utilise des unités primaires correspondant à des
regroupements géographiques) et en la non-obligation de disposer d’une base
de sondage complète.

V.4.2. Estimation d’un total dans le cas d’un tirage des grappes à probabilités
égales
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 70 sur 84

Si 𝑇𝑖 (𝑌) est le total de Y observé sur la grappe 𝑖 (ou unité


primaire) sans erreur aléatoire (puisqu’on a enquêté exhaustivement la
grappe) :

𝑀 m
𝑇̂(𝑌) =
𝑚 
i 1
𝑇̂𝑖 (𝑌)est l’estimateur du total de Y sur l’univers.

On est donc ramené à l’estimateur classique proposé au sondage


aléatoire simple. Sa variance peut être estimée à partir de l’échantillon par :

𝑚 1 1 m 2
𝑉̂ (𝑇̂(𝑌)) = 𝑀2 (1 − ) 
𝑀 𝑚 𝑚 − 1 i 1
(𝑇𝑖 (𝑌) − 𝑇̅(𝑌))
1 m

𝑚 
Où 𝑇̅(𝑌) = 𝑇𝑖 (𝑌)
i 1

V.4.3. Estimation d’une moyenne (par unité secondaire) dans le cas d’un tirage
des grappes à probabilités égales

Si on connait le nombre total N d’unités statistiques sur l’univers,


1
on estime la moyenne par 𝑇̂(𝑌).
𝑁
Le problème est plus délicat quand, et c’est fréquemment le cas,
on ne connait pas N.
m
̂=𝑀
On est conduit à estimer N par : 𝑁 N .
𝑚 i 1
i

𝑇̂ (𝑌)
L’estimateur de la moyenne est ̂ . Sa variance, plus complexe à
𝑁
calculer, et celle d’un ratio par la formule de sondage aléatoire simple.

V.4.4. Estimation d’un total dans le cas d’un tirage des grappes à probabilités
inégales

Si 𝑇𝑖 (𝑌) est le total de Y observé sur la grappe 𝑖,


1 m 𝑇̂𝑖 (𝑌)
𝑇̂(𝑌) = 
𝑚 i 1 𝐴𝑖
Est l’estimateur du total de Y sur l’univers (𝐴𝑖 est la probabilité de la grappe 𝑖
d’être tirée à chaque tirage).
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 71 sur 84

V.5. Précision de l’estimation

Soit N grappes dans l’ensemble du domaine d’études (sans remise).

𝑁−𝑛 1
Var (𝑦̅𝐺 ) = Var (𝑦̅𝑖 )
𝑁 𝑛
Pour l’ensemble du domaine d’études
𝑁−𝑛 1 𝑁
𝜎𝑦̅2𝐺 = 𝜎𝑦̅2
𝑁 𝑛 𝑁−1

1
𝑛−1  y i  y
i 1
n
 2
estime
1 N

𝑁−1  Y i Y
j 1
  c’est-à-dire
2 𝑁
𝜎 2.
𝑁−1 𝑦̅

1
𝑛−1
n

 yi  y
i 1
  =𝑆 , la variance de la moyenne des grappes sera estimée par
2
2
𝑏
𝑁−𝑛 1 2
𝑠 plus les grappes se ressemblent c’est-à-dire les 𝑦̅𝑖 voisines de𝑦̅, plus la
𝑁 𝑛 𝑏
précision de𝑦̅ est satisfaite.

𝑛 1 2288 𝑁−𝑛 1 2
f= = , on a 𝑆𝑏2 = = 163,4 et Var (𝑦̅𝐺 ) = 𝑠 = 9,80 (Variance estimée)
𝑁 10 15−1 𝑁 𝑛 𝑏

V.6. Efficacité d’un échantillon en grappes (grappes égales)

Le problème réside dans la précision d’un estimateur basé sur n tirage aléatoire
de n fois et celle résultant d’une estimation basée sur un tirage en grappes
comptant chacun.

𝑁𝜆−𝑛𝜆 1
Dans le premier cas, Var (𝑦̅) = Var (y).

 y  y à
𝑁𝜆 𝑛𝜆
i j 2
1
Dans le deuxième cas, on serait tenté d’estimer Var (y) par ij
𝑛𝜆−1

l’aide des 𝑦𝑖𝑗 de l’échantillon de grappes de n𝜆. Mais ce serait incorrect.


Considérons l’ensemble du domaine, on a 𝑦𝑖𝑗 − 𝑌̅ = 𝑦𝑖𝑗 − 𝑌̅𝑖 + 𝑌̅𝑖 − 𝑌̅

i j

 yij  y   = y Y  + 𝜆  Y Y 
2 i j

ij i
2 i

i
2

 y Y 
i j 2

ij
Si l’on pose 𝜎𝑦2 =
N
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 72 sur 84

2
 yij Y
i j
 
2

𝜆𝑁
𝑆 = =
N  1 𝜆𝑁−1

2
 yij  yi
i j
 
2

𝑆𝑊 = variabilité moyenne à l’intérieur des grappes.


  1N
∑(𝑦̅𝑖 −𝑌̅)²
𝑆𝐵2 = variabilité moyenne entre des grappes.
𝑁−1
On a identiquement (N  1) S 2  (  1) N SW2  ( N  1) S 2B .
2
Plus S 2B est petit, plus 𝑆𝑊 est grand, la relation ci-dessous précise comment
l’hétérogénéité des grappes est une conséquence de leur ressemblance.

Au niveau de l’échantillon quelconque de n  grains, on peut écrire :


n  1s2    1n sW2  n  1sb2 .

En posant
2

i j

 yij  y  
2

2

 y
i j

ij
y² 
, on démontre que les valeurs
s n  1 s W
  1n
de s
2
W
et 𝑠𝑏2 calculées tendent biens vers S
2
W
et 𝑆𝑏2 .

  1N sW2   N  1 sb2


estime𝑆 2 .
2N  1

Efficacité de l’échantillon en grappes

𝑁−1 1 2
La variance de la moyenne de grappes est estimée par S et celle de la
𝑁 𝑛 B

1
var  y 
2 N  n 1  G =
moyenne d’un échantillon aléatoire par s et l’efficacité
N n 1
var y 
2
S cette efficacité peut être estimée par :
S
2
B

1   1N sW  N  1 sb N  n 2   1N sW  N  1 sb


2 2 2 2
𝑁−𝑛

Nn sb
:
𝑁 n N  1 N  1 sb2
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 73 sur 84

On aura intérêt à entreprendre un sondage en grappes, si le rapport s


1
est
s 2
B

important.
1
Si N est très important, N-1, N  peuvent être confondus et l’estimation de
N
 1 2
 sb
2

 sW
2
1   1 sW  1 2
  2 2 et on a s s 
2 2
l’efficacité devient :
 sb
2
2  sb b
 sW

Exemple :

Source des différences Diviseur Somme des carrés Carré moyen

Entre les grappesn-1=14 S  y  y ²  2288 X 3


 i 

   y  y   19788 490   s


2
À l’intérieur des grappesn (n-1)=30 b

n  1 44 Snyij  y ²  26652 660  s


ij i

2
Ensemble. W

606  s
2

Différence par rapport à y  61 Carrés des différences


1 2 3 y y i
1 2 3
y  y
i
2

1 -20 -37 +12 -15 400 1369 144 225


2 -25 +36 +14 -1 625 1296 196 1
3 -29 +18 -17 +2 841 324 289 4
4 -48 -7 +23 -26 2304 49 529 676
5 -40 -17 -24 -11 1600 289 576 121
6 -1 -19 +40 18 1 169 1600 324
7 -2 -28 -21 -3 4 784 441 9
8 -5 +16 +22 +11 25 256 484 121
9 +25 -27 -10 -4 625 729 100 16
10 -29 +56 -6 +7 941 3136 36 49
11 -5 +1 +37 +11 25 1 1369 121
12 +13 +25 -8 +10 169 625 64 100
13 +30 +15 -27 +6 900 225 729 36
14 +7 +10 +25 +14 49 100 625 196
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 74 sur 84

15 +37 -4 +18 +17 1369 16 324 289


26652 2288

n
N  150 n  15 f 
N
 3  660  sb  490
2 2
sW

  1N sW2  2150660  198000


N  1sb2  149490  73010
 1 sb2  449490  220010
271010
Efficacité :  1,3
220010

2
1   1 sW 1 2 660
Formule approchée :     1,23
2  s 2 2 3 3490

Ce résultat signifie qu’un échantillon de 45 champs tiré d’une manière aléatoire


parmi les 450 champs existant aura une variance qui dépasserait de 23% celle de
l’échantillon. Il ne s’agit là bien entendu que d’une simple estimation considéré.

V.7. grappes de taille inégale

 y i i

y   est un rapport de deux sondages aléatoires.


G
 i

Si on connait  moyenne vraie de l’univers de grains par grappes, une autre


estimation.
1 j
y G

n
 i yi

Tirage des grappes avec des probabilités proportionnelles à leur taille.


Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 75 sur 84

Si  i
est le nombre de consommateurs par ménage i et y la
i
moyenne
1 j
générale par ménage et par les n ménages : yt  n  yi . Cette estimation est
sans biais et elle est généralement caractérisée par une bonne précision, cette
méthode de tirage se révèle efficace.

V.8. Sondage systématique

La fraction de sondage égale à 1 N , autrement dit on tire un nombre aléatoire


entre 1 et N, soit k et l’échantillon qui sera constitué par𝑦1𝑘 , 𝑦2𝑘 .

On a tiré une grappe de  éléments parmi les N grappes possibles, mais on a


j

y ik
aussi constitué un échantillon systématique de moyenne y 
k 

On se trouve toutefois devant un cas particulier : on a tiré une


seule grappe et il n’est pas possible de concevoir un calcul direct de la variance
de 𝑌𝑘 . On a alors recours à l’artifice suivant : on suppose que l’on a un sondage
stratégique et que pour chaque, on a tiré deux unités voisines. Avec deux
observations par strate, il est possible de calculer par strate la variance
intérieure moyenne et par suite d’en déduire une estimation de𝜎 2 .

V.9. L’effet de grappes

V.9.1. Principe

Comme on l’a vu précédemment, l’effet de tirer à deux degrés, ou


de tirer des grappes, induit souvent une perte de précision (par rapport à un
sondage simple à partir du même nombre d’unités enquêtées) due au fait que
les unités situées à l’intérieur d’une même unité primaire ont souvent
tendance à se ressembler. On se placera ici dans le cas de tirages à deux
degrés.

V.9.2.Coefficient de corrélation intra grappe


Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 76 sur 84

Il est défini comme :

Y   Y Y   Y 
M N N


  
1 1 1 1
 
Y   Y ²
M N
N 1

  1 1

Où Y est la moyenne de Y par unité secondaire (donc calculée sur


l’ensemble des unités statistiques ; ici, les unités statistiques secondaires-de
l’univers), N est la taille moyenne des unités primaires (donc, le nombre moyen
des unités secondaires par unité primaire).
Ce coefficient, qui ressemble à un coefficient de corrélation
linéaire (mais ne fait intervenir qu’une variable), peut être positif (cas général
quand il y a similitude des unités secondaires à l’intérieur des unités primaires)
ou, parfois négatif. Il est appelé « RHO » dans certains documents.
V.9.3. Conséquences sur la précision du sondage

On montre que, si l’on procède à un tirage à deux degrés ou en


grappes sans stratification ni tirage à probabilités inégales des unités primaires,
si toutes les unités primaires sont de même taille N et la taille de l’échantillon
d’unités secondaires par unité primaire est constante et égale à n :
        
V Tˆ Y   1   n  1 Vsans Tˆ Y  où V T Y  est la variance à partir de l’estimation
ˆ

du total de Y du plan de sondage à deux degrés ou en grappes, et V sas T̂ Y 


la variance de l’estimation du même total à partir d’un plan de sondage
aléatoire simple (à probabilités égales).
La grandeur DEFF qui est le rapport des deux variances
d’estimation permet d’estimer la perte de précision obtenue lors du passage
d’un plan de sondage à l’autre : on l’appelle « effet de sondage ».

DEFF=1+  n  1 , cet effet de sondage est en fait une notion plus


générale qui mesure le rapport de la variance d’un sondage pratiqué à la
variance du sondage aléatoire simple utilisant la même taille de l’échantillon. Si
le sondage affectivement appliqué avait, en plus de deux degrés, utilisé une
stratification des unités primaires ou un tirage à probabilités inégales de celle-
ci, on aurait un effet de sondage plus complexe. Dans ce cas on peut introduire
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 77 sur 84

une grandeur, que certains auteurs appellent ROH (par analogie à ROH) qui est
définie par l’équation : DEFF=1+ROH n  1
C’est le calcul effectif de la variance du sondage pratiqué et de
celui du sondage aléatoire simple qui permet d’obtenir des valeurs de DEFF et
par la suite de ROH pour certains paramètres (dans ce cas, ROH ne plus le
coefficient de corrélation intra-grappes puisqu’il prend en compte, par
exemple, la stratification des unités primaires s’il y en a une). Les valeurs de
DEFF et de ROH sont donc alors obtenues par une démarche « expérimentale »
plus que théorique.
V.9.4. Utilisation des valeurs 𝜹

L’expérience montre que𝛿est souvent compris entre 0 et 0,2 pour


un certain nombre de variables.
Si  =0, la caractéristique étudiée est reportée aléatoirement entre
les unités primaires et le sondage aléatoire simple et le sondage à deux degrés
sont équivalents en précision. Quand  augmente (si par exemple  est proche
de 1, on a une variabilité essentiellement entre les grappes et quasi nulle à
l’intérieur des grappes), le plan de sondage à plusieurs degrés va voir sa
précision se dégrader.
Dans certains cas, on peut avoir une valeur négative de  : par
exemple si l’on veut estimer la proportion d’hommes à partir d’un sondage
d’individus en grappes de ménages, chaque ménage étant systématiquement
composé d’un père, d’une mère, d’un garçon et d’une fille (mais ceci est un
« cas d’école » et en pratique on rencontre très rarement des  négatifs), on
voit que le sondage en grappes sera nettement plus précis qu’un sondage
aléatoire simple d’individus.

Utilisation pratique du coefficient


Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 78 sur 84

On connaît des ordres de grandeur de  pour certains types de


variables et pour les enquêtes « classiques » menées dans le pays en
développement.
  0,002pour le taux de natalité ;

  0,003pour le taux de mortalité ;

  0,02pour le taux de mortalité infantile ;

  0,05 pour les questions concernant la contraception ;

  0,1pour le taux d’activité masculin.

Ces cadres de grandeur seront à confirmer bien entendu en


fonction de contexte de l’enquête qu’on va réaliser ; l’effet de grappes est par
exemple, pour certaines variables comme l’usage de la contraception plus
marqué en milieu rural qu’en milieu urbain.
Ces valeurs de  sont beaucoup plus faibles pour les variables
ayant trait à la mortalité et à la fécondité que pour celle relatives à l’emploi,
aux migrations ou aux phénomènes socio-économiques. Les sondages en
grappes ou à deux degrés seront donc plus appropriés au premier type de
variable.

On peut à partir de différentes tailles n (nombre d’unités


secondaires enquêtées par unité primaire tiré) et différentes valeurs de 
dresser un tableau donnant les valeurs correspondantes de DEFF.

Tableau : valeur de DEFF par différents paramètres

 n
100 300 500
0,002 1,2 1,6 2,0
0,003 1,3 1,9 2,5
0,05 6,0 16,0 26,0

On suppose alors qu’il existe une « probabilité » de l’effet de


sondage, c'est-à-dire que la valeur attendue de DEFF (obtenue à partir de la
Manuel de Théorie et pratique de sondage
Exercices avec résolutions
Page 79 sur 84

formule utilisant les valeurs de n et  qui s’applique bien quand les tailles des
unités primaires Ni sont voisines
80
Notes du cours de la Théorie
et Pratique de sondage

Aperçu sur le sondage à trois degrés

Supposons qu'on tire des communes, puis des districts, puis des ménages.
Le principe d'extrapolation d'un total est simple : on estime le
total pour l’unité à l'intérieur de laquelle on a procédé au troisième degré de
tirage, puis on tient compte du mode de tirage au deuxième degré pour
estimer le total au niveau de la commune tirée, et on extrapole ensuite à
l'univers.
Cette succession d'estimations doit bien sûr être adaptée aux
différentes options qu'on a choisies pour les trois degrés de sondage.
Pour l'estimation d'une moyenne par ménage, la méthode est différente selon
que l'on connait le nombre total de ménages (c'est alors direct à partir du total
estiméI ‘échantillon sur l'univers) ou non (on doit alors estimer le nombre total
de ménages à partir del’échantillon).
81
Notes du cours de la Théorie
et Pratique de sondage
BIBLIOGRAPHIE

1. BEN W. BOL CH. CLOPP J. HUANG MithvoriateStistical, methods for


Business and Economies, 1979.
2. BERTIER P et BONROCHE J, Analyse des données multidimensionnelles,
PUF, 1975.
3. BRUNO SCHERRER, Biostatistique, Gaétan Morin, éditeur, 1984/
4. EDWARD J. KANE, economic statistic and Economies, An Introductionto,
quantitive Economics, 1958, 1 and 2nd Edition.
5. JOHSON, Econometric methods, 2nd Edition. MC GRAW HILL Koga Kusha
Ltd, Tokyo.
6. LAFORGE, HUBERT, Analyse multivariée, Université LAVAL, 1978.
7. MARTEL JM. Décision et inférence Statistique en affaires, Les Presses de
l’Université LAVAL, Quebec, 1973
8. MARTEL JM. ET NODEUA, Probabilités en gestion et en Economie
Gaétant Morin éditeur, Chicoutimi, 1980
9. MORRIS H. DEGRONOT, Optimal Statistical decisions, New York St.
LOUIS FRANCISCO LONDON, Sydney Toronto Mexico Panama, 1979
10.MORRIS H. DEGRONOT, optimal statistical decisions; MC Graw hill
Company New York, St-LOUIS San Francisco London, Sydney Toronto
Mexico Panama, 1970.
11.PIERRE, DAGNELIE, Statistique théorique et appliquée , Tom 1, 1992.
12.RAḯFFA H, Analyse de la décision, Dunod, Paris, 1973.
13.Rémy Clairin et Philippe Brion, manuel de sondage, application aux
pays en développement, 2é édition Paris, novembre 1997.
14.WEIBULL W, A Statistical distribution function of wide applicability, J.
Appli, Mech, 18, 3 (1951).
15.WILLIAM G. COCHRAN, Sampling techniques, Second edition; Jhon
Wiley and sous, Inc, New York-London, 1963.
82
Notes du cours de la Théorie
et Pratique de sondage

Table des matières

INTRODUCTION ....................................................................................................................................... 1
OBJECTIFS DU COURS ............................................................................................................................. 2
CHAPITRE I. GENERALITES ...................................................................................................................... 4
1.1. Définitions et but ......................................................................................................................... 4
1.2. Historique et exemples des sondages......................................................................................... 4
1.3. Concepts de base ......................................................................................................................... 5
1.3.1. Recensement et sondage ..................................................................................................... 5
1.3.2. Population ou Univers statistique ....................................................................................... 5
1.3.3. Unités statistiques ................................................................................................................ 5
1.3.4. Echantillon ............................................................................................................................ 6
1.3.5. Variables ............................................................................................................................... 6
1.4. Estimateur, variable aléatoire, variance, moyenne et biais ...................................................... 6
1.4.1. Estimateur ............................................................................................................................. 6
1.4.2. Variable aléatoire ................................................................................................................. 7
1.4.3. Moyenne, variance ............................................................................................................... 7
1.4.4. Biais ....................................................................................................................................... 7
1.5. Base de sondage ......................................................................................................................... 7
CHAPITRE II. METHODES EMPIRIQUES................................................................................................... 8
2.1. INTRODUCTION................................................................................................................................ 8
2.2. Méthodes des quotas .................................................................................................................. 8
2.3. Méthodes des UNITES-TYPES ...................................................................................................... 9
2.5. LES AUTRES METHODES........................................................................................................ 11
2.5.1. METHODE DE « BOULE DE NEIGE » .............................................................................. 11
CHAPITRE III. LE SONDAGE ALEATOIRE SIMPLE ................................................................................... 13
3.1. Introduction ............................................................................................................................... 13
3.2. Procédé du choix aléatoire simple ............................................................................................ 13
3.3. NOTATIONS ........................................................................................................................... 16
3.4. Estimation d’une Moyenne .................................................................................................. 17
3.4.1. Pour un échantillon suffisamment grand, 𝒚 suit la loi normale ................................. 19
3.4.2. Estimation par intervalle de confiance ........................................................................ 19
3.5. Estimation d’un total ............................................................................................................ 20
3.6. Estimation des valeurs des moyennes pour les sous populations ...................................... 20
3.7. Estimation d’une proportion ................................................................................................ 21
3.8. Estimation d’un ratio ............................................................................................................ 22
83
Notes du cours de la Théorie
et Pratique de sondage
3.9. Coefficient de variation sur l’échantillon ............................................................................. 23
3.10. Détermination de la taille de l’échantillon ...................................................................... 23
3.10.1. Formule pour n de l’échantillon pour estimer les proportions ................................... 24
3.10.2. Dans le cas des variables continues ............................................................................. 25
3.10.3. Dans le cas de variables discontinue ............................................................................ 26
3.11. Méthode de tirage ............................................................................................................ 27
CHAPITRE IV. SONDAGES STRATIFIES (STRACTIFICATION A PRIORI) .................................................. 35
IV.1. Généralité ................................................................................................................................. 35
VI.2. Objectifs.................................................................................................................................... 35
IV.3. Choix des strates ...................................................................................................................... 36
IV.4. NOTATIONS .............................................................................................................................. 38
IV.5. FORMULES D’ESTIMATION ...................................................................................................... 39
IV.5.1. Notations ........................................................................................................................... 39
IV.5.2. Estimation du total de Y sur l’univers à partir du sondage stratifié ................................ 39
IV.5.3. Estimation de la moyenne de Y sur l’univers à partir du sondage stratifié .................... 40
IV.5.4. les estimateurs 𝑻(𝒀) et 𝒀 sont des estimateurs sans biais du total et de la moyenne de
Y ..................................................................................................................................................... 40
IV.5.5. variance de l’estimateur du total et de l’estimateur de la moyenne .............................. 40
IV.5.6. Estimation de ces variances d’estimation à partir de l’échantillon ................................ 41
IV.5.7. Cas particulier : le taux de sondage est le même pour toutes les strates....................... 41
IV.6. Répartition de l’échantillon entre les strates.......................................................................... 42
IV.6.1. La répartition proportionnelle .......................................................................................... 42
IV.6.2. Répartition optimale au sens de Neyman ........................................................................ 43
IV.7. Efficacité de la stratification .................................................................................................... 49
IV.7.1. Echantillon stratifié ........................................................................................................... 50
IV.8. Stratification a posteriori ......................................................................................................... 55
IV.8.1. Principe .............................................................................................................................. 55
IV.8.2. Estimation par le quotient ................................................................................................ 57
IV.8.2.1. Principe ........................................................................................................................... 57
IV.8.2.3. L’estimateur par la régression ....................................................................................... 58
CHAPITRE 5. SONDAGES A PLUSIEURS DEGRES ................................................................................... 62
V.1. Principes et notations ............................................................................................................... 62
V.1.1. Principes ............................................................................................................................. 62
V.1.2. Justification et Caractéristiques......................................................................................... 63
V.1.3. Notations ............................................................................................................................ 64
V.2. Tirage des unités primaires à probabilités égales (tirage à deux degrés) ............................... 64
84
Notes du cours de la Théorie
et Pratique de sondage
V.2.1. estimation du total de Y ..................................................................................................... 64
V.2.2. Variance de l’estimateur du total de Y .............................................................................. 65
V.2.3. Estimation de la variance de l’estimateur du total de Y ................................................... 66
V.2.4. Estimation d’une moyenne et d’un ratio .......................................................................... 67
V.3. Tirage des unités primaires à probabilités inégales (tirage à deux degrés) ............................ 67
V.3.2. Variance de l’estimateur du total, estimateur de cette variance..................................... 68
V.3.3. cas particulier important.................................................................................................... 68
V.3.4. Estimation d’une moyenne et d’un ratio .......................................................................... 69
V.4. Sondage en grappes .................................................................................................................. 69
V.4.1. Principe ............................................................................................................................... 69
V.4.2. Estimation d’un total dans le cas d’un tirage des grappes à probabilités égales ........... 69
V.4.3. Estimation d’une moyenne (par unité secondaire) dans le cas d’un tirage des grappes à
probabilités égales ........................................................................................................................ 70
V.4.4. Estimation d’un total dans le cas d’un tirage des grappes à probabilités inégales ......... 70
V.5. Précision de l’estimation ........................................................................................................... 71
V.6. Efficacité d’un échantillon en grappes (grappes égales) .......................................................... 71
V.7. grappes de taille inégale ........................................................................................................... 74
V.8. Sondage systématique .............................................................................................................. 75
V.9. L’effet de grappes ...................................................................................................................... 75
V.9.1. Principe ............................................................................................................................... 75
V.9.2.Coefficient de corrélation intra grappe .............................................................................. 75
V.9.3. Conséquences sur la précision du sondage ....................................................................... 76
V.9.4. Utilisation des valeurs 𝜹..................................................................................................... 77
Utilisation pratique du coefficient ....................................................................................................... 77
Aperçu sur le sondage à trois degrés ................................................................................................... 80
BIBLIOGRAPHIE ..................................................................................................................................... 81

Vous aimerez peut-être aussi