0% ont trouvé ce document utile (0 vote)
459 vues61 pages

"Cours sur les Plans de Sondage"

Transféré par

cherifmanar0
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
459 vues61 pages

"Cours sur les Plans de Sondage"

Transféré par

cherifmanar0
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Service Universitaire d’Enseignement à Distance

Licence - Troisième année

Enquête et sondage

Université Rennes 2
Place du Recteur H. le Moal
CS 24307 - 35043 Rennes
Tel : 02 99 14 18 21
Mel : [Link]@[Link]
Préambule

Résumé : En présence d’une taille de population très élevée, on a souvent recours à un


plan de sondage pour évaluer une caractéristique précise de cette population. Dit brûtale-
ment, le sondage consiste à mesurer la caractère sur une partie de la population (appelée
échantillon). Le statisticien doit ensuite étendre les tendances observées sur l’échantillon
à la population entière. Une telle procédure soulève plusieurs difficultés telles que le choix
des personnes à sonder ou encore leur nombre. Plusieurs plans de sondage sont présentés
dans ce cours. La mise en oeuvre pratique ainsi que les propriétés mathématiques de ces
différents plans sont étudiés en détail. Les différents concepts sont illustrés par de nombreux
exemples et exercices.

Mots clés : plan de sondage aléatoire - estimateur - biais - variance - plan simple - plans
stratifiés.

Prérequis Les différents thèmes de la statistique abordés en première et deuxième année


de licence sont nécessaires à la compréhension de ce cours. Plus précisement les notions
de variables aléatoires, biais et variance d’un estimateur ainsi que d’intervalle de confiance
doivent être maitrisées.

Objectifs d’apprentissage
• Etre capable de choisir un échantillon de manière judicieuse avant de réaliser le plan
de sondage
• Savoir présenter les résultats d’un sondage, donner par exemple des marges d’erreurs
(ou un niveau de confiance)

Modalités d’apprentissage Ce polycopié est composé de


• Trois chapitres de cours illustrés par des exemples et des exercices en fin de chapitre ;
• Les corrections des exercices se trouvent en Annexe B.
• De propositions de devoirs en Annexe C et D.

Conseils méthodologiques
• Les notations utilisées peuvent paraître complexes. Travailler toujours avec un exemple
en tête et relier les notations avec l’exemple que vous avez choisi.
• Refaire chacun des exemples présentés dans le cours avant de passer aux exercices.
• Le fait d’avoir les corrections des exercices peut s’avérer dangereux. Regarder les uni-
quement pour vérifier vos réponses ou lorsque vous avez passé un temps suffisamment
long sur la question.
• Venez aux stages... Il est en effet difficile de faire des mathématiques uniquement sur
un polycopié. Lors des stages, j’essaie de résumer chacun des chapitres en une heure
et quart environ avant de passer à des exercices “types”.
Tabledesmatières

1 Introduction 3
1.1 Qu’est-cequ’unsondage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Modélisationetnotation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Lesestimateurssontdesvariablesaléatoires . . . . . . . . . . . . . . . . . . 5
1.4 Plandesondageetqualitéd’unestimateur . . . . . . . . . . . . . . . . . . . 6

2 Sondagealéatoiresimple 9
2.1 Définitionduplandesondagealéatoiresimple . . . . . . . . . . . . . . . . . 9
2.1.1 Plansavecousansremise . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.2 Planaléatoiresimple . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.3 Récapitulatif-Notations . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Estimationdelamoyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 Estimationponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.2 Estimationparintervalledeconfiance. . . . . . . . . . . . . . . . . . 14
2.3 Estimationd’uneproportion . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.1 Estimationponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.2 Estimationparintervalledeconfiance. . . . . . . . . . . . . . . . . . 16
2.4 Tailled’échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.1 Casdelamoyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.2 Casdelaproportion . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.5 Exercices. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3 Sondagesstratifiés 23
3.1 Principeetjustification. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2 Plandesondagestratifié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3 Estimateurdelamoyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.3.1 Unexemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.3.2 Casgénéral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.4 Répartitiondel’échantillon. . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.4.1 Planavecallocationproportionnelle. . . . . . . . . . . . . . . . . . . 28
3.4.2 Planavecallocationoptimale . . . . . . . . . . . . . . . . . . . . . . 31
3.5 Exercices. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4 Commentrealiseruneenqueteparquestionnaire´ 39

B Correctiondesexercices

AES-Sondage LaurentRouvière
Chapitre 1

Introduction

1.1 Qu’est-ce qu’un sondage


Il existe deux approches pour connaître les caractéristiques statistiques d’un caractère sur
une population.
• Le recensement est l’approche descriptive. Il consiste à mesurer le caractère sur
toute la population.
• Le sondage est l’approche inférentielle. Lorsque le recensement n’est pas possible
pour des raisons de coût, de temps ou à cause de certaines contraintes (test destructif
par exemple), on a recours à un sondage, c’est-à-dire à l’étude statistique sur un sous-
ensemble de la population totale, appelé échantillon. Si l’échantillon est constitué
de manière correcte, les caractéristiques statistiques de l’échantillon seront proches
de celles de la population totale.

Exemple 1.1 Je désire connaître l’âge moyen de TOUS les étudiants de l'ESSECT.
• Recensement : je demande l’âge à tous les étudiants et je calcule la moyenne... ça
risque d’être long ! ! !
• Sondage : je choisis une partie des étudiants (échantillon), je calcule la moyenne des
âges sur cette partie en espérant que cette moyenne soit “proche” de l’âge moyen de
tous les étudiants.

Nous voyons sur cet exemple que la mise au point d’un sondage nécessite plusieurs choix
pour le statisticien :
• comment choisir les étudiants ?
• combien d’étudiants doit-on choisir ?
• comment doit-on formuler la réponse :
— sous la forme d’une valeur, c’est à dire que l’on donne une estimation de l’âge
moyen sous la forme d’un réel (24.8 ans par exemple) ;
— sous la forme d’un ensemble de valeurs. On pourra par exemple donner une
fourchette ou un intervalle ([23.4 ;26.3] par exemple).
• est-ce que l’estimation est satisfaisante ? Dit autrement suis-je capable de donner
une estimation de l’erreur commise par la prédiction. On pourra par exemple dire
“l’âge moyen des étudiants de l'ESSECT se trouvent dans l’intervalle [23.4 ;26.3] avec
un niveau de confiance de 95%.”.
2
4 Introduction

L’objectif de ce cours consiste à étudier des procédures de sondage pour lesquelles nous
pourrons répondre à ces questions. Nous allons dans ce chapitre présenter le contexte, les
notations ainsi que les critères permettant d’évaluer la qualité d’un sondage. Nous propo-
serons dans les chapitres 2 et 3 différentes méthodes de sondage permettant d’estimer des
moyennes et proportions.

1.2 Modélisation et notation


Nous présentons dans cette partie le cadre d’étude et introduisons les notations qui seront
utilisées tout au long de ce cours.

On s’intéresse à une population U composés d’individus ou unités (étudiants de l'ESSECT


2). Chaque unité est représentée par un numéro allant de 1 à N :

U = {U1 , . . . , UN } = base de sondage.

On souhaite évaluer une caractéristique de la population (l’âge par exemple). On note Xi


la valeur de ce caractère mesuré sur l’individu i (Xi est donc ici l’âge du ième individu). On
peut utiliser un sondage pour estimer l’âge moyen
N
1 X
µ= Xi .
N i=1

Une autre caractéristique souvent étudiée est le total


N
X
T = Xi .
i=1

On peut également s’intéresser à une proportion d’individus qui vérifie un certain critère.
Dans ce cas, Xi prendra deux valeurs :
• 1 si l’individu Ui satisfait le critère ;
• 0 sinon.
La proportion d’individus appartenant à la catégorie qui nous intéresse sera alors :
N
1 X
p= Xi .
N i=1

Exemple 1.2 Considérons le cas d’un sondage électoral. On s’intéresse à la proportion


d’individus votant pour un candidat A. On définit alors Xi la variable qui prend pour va-
leurs :
• 1 si l’individu Ui vote pour un candidat A ;
• 0 sinon.
Le nombre d’individus qui votent pour A est
n
X
Xi ,
i=1
1.3 Les estimateurs sont des variables aléatoires 3

on en déduit que la proportion d’individus qui votent pour A est


N
1 X
p= Xi .
N i=1

Pour différentes raisons (coûts, temps...), on ne peut pas mesurer la caractéristique sur tous
les individus. Par conséquent les paramètres µ, T ou p sont inconnus. On sélectionne alors
un sous ensemble de la population U constitué de n unités de la population (n ≤ N) (voir
Figure 1.1). Ce sous-ensemble est appelé échantillon et sera noté E.

1
0
0
1

1
0
0
1

1
0
0
1

1
0
0
1
1
0
1
0 0
1
1
0
1
0
0
1

Figure 1.1 – Population composée de N = 20 individus (gauche) dans laquelle on sélectionne


un échantillon de n = 8 individus représentés par des ronds noirs (droite).

On désignera par x1 , . . . , xn les valeurs de la caractéristique (âge) observées sur l’échantillon.


Ces valeurs sont connues, et tout le problème consiste désormais à estimer les paramètres
inconnus à partir des valeurs mesurées sur l’échantillon (qui elles sont connues).

Exemple 1.3 Un moyen naturel d’estimer la moyenne µ consiste à prendre la moyenne


observée sur l’échantillon :
n
1X
x̄ = xi .
n i=1
Le total T sera quant à lui estimé par
n
X
t= xi .
i=1

1.3 Les estimateurs sont des variables aléatoires


Considérons l’exemple suivant.
4 Introduction

Exemple 1.4 Nous disposons d’une population composée de N = 5 individus. Nous nous
posons le problème de connaître l’âge moyen µ de ces individus. Pour certaines raisons, on
ne peut demander l’âge qu’à n = 2 individus qui constitueront l’échantillon (bien entendu,
une telle situation ne se produit jamais en réalité...). Le statisticien propose d’estimer l’âge
moyen des 5 étudiants par l’âge moyen µ̂ des deux étudiants de l’échantillon.
Supposons que l’âge des 5 étudiants soit : 15, 25, 18, 14, 20. Si l’échantillon est constitué par
les deux premiers individus, l’estimation de µ sera 15+25
2
= 20. Si maintenant l’échantillon
est constitué des deux derniers individus alors l’estimation vaudra 14+202
= 17. Nous voyons
clairement que la valeur de µ̂ va dépendre des individus présents dans l’échantillon. C’est en
ce sens que nous affirmons que l’estimateur µ̂ est une variable aléatoire (il peut prendre
différentes valeurs suivant l’échantillon choisi).

Ce qui est aléatoire dans un sondage est le fait qu’un individu donné appartienne
ou non à l’échantillon.

Dans la suite, pour les différents plans de sondage que nous étudierons, nous noterons les
estimateurs avec des “chapeaux” (voir la tableau suivant).

Vraie valeur Estimateur


Moyenne µ µ̂
Total T T̂
Proportion p p̂

1.4 Plan de sondage et qualité d’un estimateur


Nous nous plaçons dans le cas de l’estimation de la moyenne µ d’une certaine caractéristique
sur une population. Tous les concepts étudiés dans cette partie sont également valables pour
l’estimation d’un total ou d’une proportion. Nous rappelons que

U = (U1 , . . . , UN )

désigne la population ou la base de sondage et nous noterons

E = (u1 , . . . , un )

un sous-ensemble de u de taille n ≤ N qui constituera l’échantillon. Le problème consiste


à construire un estimateur µ̂ de µ à partir de l’échantillon.

Comment être sûr que µ̂ soit proche de µ.

Eléments de réponse :
• si n est proche de N, alors l’échantillon est proche de la population. n joue donc un
rôle dans la réponse.
• E doit “représenter” U. Si par exemple µ est le revenu annuel moyen de la population
française et que l’échantillon est constitué d’un groupe d’étudiants, il sera difficile
de construire un estimateur µ̂ qui sera proche de µ.
1.4 Plan de sondage et qualité d’un estimateur 5

Plusieurs questions peuvent être posées concernant le choix de E :


• Comment s’assurer que E soit représentatif de U ? En contrôlant la façon dont il est
sélectionné.
• Mais U est inconnu : comment faire pour que E “ressemble” à U ? Le problème est
insoluble. Au mieux, on peut seulement maximiser les chances que E représente U.
• Comment maximiser les chances ? En utilisant un sondage probabiliste.
Définition 1.1 Un plan de sondage est une procédure permettant de sélectionner un
échantillon E dans une population U. Un plan de sondage est dit probabiliste ou aléa-
toire si chaque individu de la population U a une probabilité connue de se retrouver dans
l’échantillon E.
Dans les chapitres à venir, nous nous intéresserons à différents plans de sondage aléatoires.
Pour un plan donné, un estimateur µ̂ de la moyenne µ sera construit sur l’échantillon. La
qualité du sondage est mesurée par la qualité de l’estimateur.
Nous avons vu dans la partie précédente que pour un plan de sondage aléatoire, l’estimateur
µ̂ est une variable aléatoire. On va donc pouvoir calculer son espérance et sa variance. Ces
deux quantités seront utilisées pour mesurer la qualité de l’estimateur.
Définition 1.2 On définit le biais d’un estimateur µ̂ par :
B(µ̂) = E(µ̂) − µ.
Ainsi, on dira que µ̂ est un estimateur sans biais de µ si
B(µ̂) = 0 ⇐⇒ E(µ̂) = µ.
Dit autrement, µ̂ “tombe” en moyenne sur sa cible µ.
Remarque 1.1
• Dire que l’estimateur est sans biais ne veut pas dire que le résultat soit exact. Avant
de réaliser l’échantillon, on ne connaît pas la valeur de µ̂, on sait seulement que c’est
une variable aléatoire qui en moyenne vaut µ.
• Dire que l’estimateur est sans biais revient à dire que la valeur moyenne de µ̂ sur
tous les échantillons possibles est la vraie valeur µ.
Sur la Figure 1.2, nous schématisons cette notion de biais. La vraie valeur de µ est la cible
à atteindre (carré). Les points désignent les différentes valeurs de l’estimateur µ̂ suivant
l’échantillon.
L’estimateur de gauche est sans biais : la valeur moyenne de toutes les valeurs µ̂ est égale
à la cible µ. Ce n’est clairement pas le cas pour l’estimateur associé à la figure de droite.
Pour un estimateur sans biais µ̂, il est aussi utile de savoir comment l’ensemble des valeurs
possibles de µ̂ se répartit autour de la cible µ, si elles en sont proches ou s’il y a un risque
de tomber sur une combinaison malheureuse (un “mauvais” échantillon).
Les deux estimateurs schématisés sur la Figure 1.3 sont sans biais. Nous voyons cependant
que les valeurs de µ̂ pour l’estimateur de gauche sont plus proches de µ que pour celui de
droite. On préférera ainsi l’estimateur de gauche à celui de droite.

La dispersion de µ̂ autour de µ se mesure par la variance de l’estimateur :


6 Introduction

Figure 1.2 – Un exemple d’estimateur sans biais (gauche) et biaisé (droite).

Figure 1.3 – Deux exemples d’estimateur sans biais : à gauche la variance est faible, à droite
elle est élevée.

• à gauche, la variance est faible → les différentes valeurs de µ̂ sont faiblement disper-
sées autour de µ.
• à droite, la variance est élevée → les différentes valeurs de µ̂ sont fortement dispersées
autour de µ.
Le tableau ci-dessous résume la mesure de la qualité de l’estimateur en fonction de son biais
(espérance) et de sa dispersion (variance).

Qualité Biais Dispersion


bonne faible faible
mauvaise élevée élevée

Pour des plans de sondage aléatoires, la difficulté consiste à rechercher des estimateurs sans
biais (éventuellement de biais faible), et de variance minimale.
Chapitre 2

Sondage aléatoire simple

2.1 Définition du plan de sondage aléatoire simple


Le sondage aléatoire simple est le modèle d’échantillonnage en apparence le plus simple que
l’on puisse imaginer : il consiste à considérer que, dans une population d’effectif N, tous les
échantillons de n unités sont possibles avec la même probabilité.

2.1.1 Plans avec ou sans remise


Définition 2.1 Un plan de sondage est dit avec remise si un même individu peut ap-
paraître plusieurs fois dans l’échantillon et si l’ordre dans lequel apparaissent les individus
compte.

Exemple 2.1 P = {1, 2, 3, 4, 5}, n = 3. L’échantillon {1, 1, 2} est différent de l’échan-


tillon {1, 2, 1}.

Dans le cas d’un plan avec remise, il y a N n échantillons possibles.

Définition 2.2 Un plan de sondage est dit sans remise si un même individu ne peut
apparaître qu’une seule fois dans l’échantillon.

Dans l’exemple précédent, l’échantillon {1, 1, 2} n’est donc pas possible.

N!
Dans le cas d’un plan sans remise, il y a CNn = échantillons possibles.
n!(N − n)!

La plupart du temps, nous nous intéresserons aux plans sans remise : interroger deux fois le
même individu n’apporte pas d’information supplémentaire. Cependant, il n’est pas ininté-
ressant de considérer parfois des plans avec remise, ne serait-ce que pour servir d’élément
de comparaison et de référence.

2.1.2 Plan aléatoire simple


Définition 2.3 (Plan simple) Un plan de sondage aléatoire est dit simple, ou à probabi-
lités égales, si chaque échantillon a la même probabilité qu’un autre d’être tiré au sort.
8 Sondage aléatoire simple

Exemple 2.2 Dans le cas d’un plan simple sans remise, un échantillon de taille fixe n a
1 n!(N − n)!
donc une probabilité égale à n = d’être tiré au sort. Si N = 5 et n = 2, cette
CN N!
2×3×2 1
probabilité est donc égale à = .
5×4×3×2 10
Propriété 2.1 (Probabilité d’inclusion) Tous les individus ont la même probabilité d’être
sélectionnés dans l’échantillon et cette probabilité est égale à Nn .

2.1.3 Récapitulatif - Notations


Remarque 2.1 (très importante)
• Les données concernant la population toute entière (Xi pour tous les i, µ, T ,
p...) sont inconnues et déterministes (puisque l’on a pas accès aux informations
concernant toute le population) ;
• En revanche, les valeurs obtenues à partir de l’échantillon sont connues et aléa-
toires. Elles dépendent en effet du hasard puisqu’elles varient d’un échantillon aléa-
toire à un autre, et elles sont connues puisque l’on dispose des informations néces-
saires pour les calculer sur l’échantillon.

Le tableau suivant récapitule les notions relatives à la population et à l’échantillon.

Population U Échantillon E
inconnu, déterministe connu, aléatoire

Taille N n
N n
1 X 1X
Moyenne µ= Xk x̄ = xk
N k=1
n k=1
N
X n
X
Total T = Xk = Nµ t= xk = nx̄
k=1 k=1
N
1 X
Variance σ2 = (Xk − µ)2
N
k=1
N n
2 1 X 1 X
Variance corrigée S = (Xk − µ)2 2
s = (xk − x̄)2
N − 1 k=1 n − 1 k=1
N
= σ2
N −1

Rappels : moyenne et écart-type Pour toute variable aléatoire X, on peut calculer sa


moyenne et son écart-type. P
valeur
Moyenne =
Effectif total
(valeur- moyenne)2 valeur2
P P
Variance = = − moyenne2
Effectif total Effectif total
2.2 Estimation de la moyenne 9


Ecart-type = Variance
On rappelle que l’écart-type donne une idée de la dispersion des données autour de la
moyenne.
Remarque 2.2 (très importante) La moyenne x̄ observée sur l’échantillon est une va-
riable aléatoire qui prend des valeurs différentes d’un échantillon à un autre. On peut donc
calculer son espérance et sa variance (à ne surtout pas confondre avec la variance du ca-
ractère dans la population notée σ 2 ou dans l’échantillon notée s2 ).

2.2 Estimation de la moyenne


2.2.1 Estimation ponctuelle
On va estimer µ par une valeur µ̂.
Problème : Trouver une méthode qui nous permette de donner une estimation de µ à
partir de l’échantillon sélectionné par un plan de sondage aléatoire simple ?
Solution : Dans ce chapitre, nous estimons la moyenne µ par la moyenne observée sur
l’échantillon. On appelle estimateur de µ la “formule” qui nous permet de calculer une
estimation du paramètre inconnu (µ). Dans le cas que nous étudions, l’estimateur de µ, que
nous noterons µ̂ n’est rien d’autre que x̄ :
n
1X
µ̂ = xi = x̄. (2.1)
n i=1

Exemple 2.3 On dispose de N = 5 jetons portant les valeurs -1, 2, 4, 10, 20.
1. Calculer la moyenne et la variance de la valeur sur toute la population (µ = 7,
σ 2 = 55.1, σ = 7.43).
2. On souhaite estimer la moyenne µ calculée précédemment par un sondage aléatoire
simple (ça n’a aucun sens, juste mieux comprendre le problème). On tire un échan-
tillon de taille n = 2 sans remise. Établir la liste de tous les échantillons possibles,
et calculer la moyenne pour chacun d’eux.
Ech µ̂ ou x Ech µ̂ ou x
{−1, 2} 0.5 {2, 10} 6
{−1, 4} 1.5 {2, 20} 11
{−1, 10} 4.5 {4, 10} 7
{−1, 20} 9.5 {4, 20} 12
{2, 4} 3 {10, 20} 15
3. Calculer l’espérance de la variable aléatoire ainsi obtenue.
Soit xi (i = 1, 2) la variable aléatoire correspondant à la valeur du ième jeton dans
l’échantillon. La moyenne empirique des xi est l’estimateur µ̂
x1 + x2
µ̂ = x = .
2
Cet estimateur est une variable aléatoire dont la loi est donnée par :
10 Sondage aléatoire simple

Valeurs de µ̂ ou x 0.5 1.5 4.5 9.5 3 6 11 7 12 15


Probabilités 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1
Les probabilités sont égales car on est dans un plan aléatoire simple (tous les échan-
tillons ont la même probabilité). On déduit ainsi l’espérance et la variance de X.

E(x) = 7, V(x) = 20.7.

Exemple 2.4 Une société bancaire souhaite mener une étude approfondie auprès des par-
ticuliers ayant un compte chez elle : il s’agit de préparer le lancement d’un nouveau produit
financier. La société dispose d’un fichier de N (N grand) clients et l’étude par sondage
doit porter sur n (n < N) d’entre eux. Pour illustrer les propriétés du SAS, nous allons
simplifier à l’extrême : supposons que le fichier comporte N = 5 titulaires de comptes et
prélevons un échantillon d’effectif n = 2. A la date de l’étude, les dépôts sur ces 5 comptes
sont, en millier de francs : 13, 15, 17, 25, 30. La moyenne de ces 5 valeurs est égale à
µ = 20. On suppose que l’organisme chargé de l’enquête ignore ces montants et se fixe pour
objectif d’évaluer leur moyenne à partir de deux valeurs qu’il constatera sur l’échantillon.
1. Établir la liste de tous les échantillons possibles et calculer la moyenne pour chacun
d’eux.
Ech x Ech x
{13, 15} 14 {15, 25} 20
{13, 17} 15 {15, 30} 22.5
{13, 25} 19 {17, 25} 21
{13, 30} 21.5 {17, 30} 23.5
{15, 17} 16 {25, 30} 27.5
2. Calculer l’espérance et la variance de la variable aléatoire ainsi obtenue.
Soit xi (i = 1, 2) la variable aléatoire correspondant à la valeur du i-ème compte
prélevée. La moyenne empirique des xi
x1 + x2
x=
2
est une variable aléatoire dont la loi est donnée par :
Valeurs de x 14 15 19 21.5 16 20 22.5 21 23.5 27.5
Probabilités 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1
On déduit ainsi l’espérance et la variance de X.

E(x) = 20, V(x) = 15.6.

Nous remarquons que pour les exemples 2.3 et 2.4, l’estimateur µ̂ est sans biais. Le théorème
suivant montre que ceci est toujours le cas pour un plan de sondage aléatoire simple.
Théorème 2.1 Soit µ̂ l’estimateur d’une moyenne µ pour un plan de sondage aléatoire
simple défini par (2.1). On a alors
E(µ̂) = µ.
Dit autrement, µ̂ est un estimateur sans biais de µ, c’est à dire qu’il “tombe” en moyenne
sur sa cible µ.
2.2 Estimation de la moyenne 11

On peut utiliser ce résultat pour calculer directement l’espérance de µ̂ dans les exemples
2.3 et 2.4.

Il est aussi utile de savoir comment l’ensemble des résultats possibles (l’ensemble des
moyennes des échantillons) se répartit autour de la cible µ, s’ils en sont proches, ou s’il
y a un risque de tomber sur une combinaison malheureuse (sur un mauvais échantillon).
Pour cela, nous rappelons que la variance de µ̂ est un indice qui permet de mesurer cette
dispersion.

Théorème 2.2 Soit f le taux de sondage f = n/N. Alors

S2  n  S2
V(µ̂) = (1 − f ) = 1− . (2.2)
n N n
On peut aussi écrire
σ2 N − n
V(µ̂) = .
n N −1

On peut vérifier à l’aide de ce résultat les calculs de variance de µ̂ pour les exemples 2.3 et
2.4.

Pour l’exemple 2.3, on a σ = 7.43, N = 5, n = 2 donc

N 5
S2 = σ 2 = 7.432 = 69.
N −1 4
Par conséquent, d’après le Théorème 2.2

S2
 
2 69
V(µ̂) = (1 − f ) = 1− = 20.7.
n 5 2

Remarque 2.3 La formule (2.2) permet de caractériser la précision d’un SAS (plus la
variance est faible, plus l’estimateur est précis).
• Plus la taille n de l’échantillon est grande, plus la variance de µ̂ diminue et donc plus
l’estimateur est précis. A l’extrême, si n = N la variance est nulle. Ceci est “normal”,
car dans ce cas on a réalisé un recensement et on connaît de façon certaine la vraie
moyenne.
• La précision dépend également de la variance de la variable d’intérêt σ 2 (ou S 2 ) dans
la base de sondage. C’est une condition naturelle : plus une population est homogène
(variance faible), plus le sondage y est efficace. A l’extrême, si la variance σ 2 est nulle
(tous les individus ont le même âge), la variance de l’estimateur est nulle et nous
aurons besoin d’une seul individu pour connaître µ de manière parfaite. A l’inverse,
sonder dans une population très hétérogène nécessite des tailles d’échantillons de
taille importante, ou un découpage au préalable en sous populations homogènes (c’est
le principe des sondages stratifiés que nous verrons dans le chapitre 3).

Exemple 2.5 Reprenons l’exemple de la société bancaire. La société dispose d’un fichier
de N = 50 000 clients et l’étude par sondage doit porter sur n = 200 d’entre eux. On note µ
12 Sondage aléatoire simple

le montant moyen des comptes des 5000 clients. On suppose que la variance σ 2 du montant
est connue et vaut 41.6. On a alors

σ2 N − n 41.6 50000 − 200


V(µ̂) = = ≈ 0.21.
n N −1 200 50000 − 1
Pour un échantillon de taille 500, on obtient

σ2 N − n 41.6 50000 − 500


V(µ̂) = = ≈ 0.08.
n N −1 500 50000 − 1

2.2.2 Estimation par intervalle de confiance


On cherche une fourchette de valeurs possibles pour µ à laquelle on puisse associer un
certain degré de confiance (par exemple 95%).

Exemple 2.6 Si une enquête montre que l’on peut affirmer avec un niveau de confiance
de 95% que le temps moyen passé par jour par les français à regarder la télévision se situe
entre 1h30 et 3h00, on dit que [1, 5; 3] est un intervalle de confiance à 95% pour la durée
moyenne passée par jour par les français à regarder la télévision.

Notations :
(1 − α) : niveau de confiance
α : risque
z1− α2 : quantile d’ordre 1 − α2 de la loi normale centrée réduite.

• Si la variance corrigée S 2 est connue :


" r #
h p i (1 − f ) 2
IC1−α (µ) ≃ µ̂ ± z1− α2 Var(µ̂) ≃ µ̂ ± z1− α2 S
n

• Si S 2 est inconnue, on la remplace par une estimation :


n Pn 2

2 1 X 2 n k=1 xk 2
s = (xk − x̄) = − x̄
n − 1 k=1 n−1 n

Preuve : voir Annexe A pour un rappel sur le Théorème central limite et la construction
de cet intervalle de confiance.

Récapitulatif : L’estimation d’une moyenne µ d’un caractère sur une population de taille
se réalise de la manière suivante :
• On prélève “au hasard” n individus parmi les N sur lesquels on mesure le caractère.
On obtientPalors une suite de variables aléatoires x1 , . . . , xn (échantillon).
• µ̂ = x = n1 ni=1 xi est l’estimateur ponctuel de µ.
 2
• Son espérance vaut µ et sa variance vaut 1 − Nn Sn .
 r  r  
n S2 n S2
• µ̂ − z1−α/2 1 − N n , µ̂ + z1−α/2 1 − N n est un intervalle de confiance de
niveau 1 − α pour µ.
2.3 Estimation d’une proportion 13

Exemple 2.7 Reprenons l’exemple de la société bancaire. La société dispose de N = 50000


clients et l’organisme chargé de l’enquête recueille les données relatives à n = 200 clients.
On s’intéresse à nouveau au montant présent sur les comptes des clients. Par conséquent le
paramètre à estimer sera µ : le montant moyen présent sur les comptes des 50000 clients.

Les 200 comptes sondés ont un montant moyen µ̂ = 22.5 et une variance s2 = 42.2.
Calculons l’intervalle de confiance de niveau 1 − α = 0.95. L’intervalle est donné par :
 r r 
 n  s2  n  s2
µ̂ − z1−α/2 1− , µ̂ + z1−α/2 1− .
N n N n

z1−α/2 est la quantile d’ordre 1 − α/2 de la loi N (0, 1). Ici 1 − α = 0.95 donc α = 0.05 et
1 − α/2 = 0.975. z1−α/2 est donc le quantile d’ordre 0.975 de la loi N (0, 1) que l’on lit dans
la table. On trouve z1−α/2 = 1.96.

Un IC de niveau 0.95 est donc


" r r #
42.2 42.2
22.5 − 1.96 , 22.5 + 1.96 = [21.6, 23.4].
200 200

Remarque 2.4 Donner une estimation par intervalle de confiance est doublement pru-
dent ; d’une part, on ne fournit pas une valeur ponctuelle, mais une plage de valeur pos-
sibles ; d’autre part, on prévient qu’il existe un risque faible que la vraie valeur soit en dehors
de la fourchette.

2.3 Estimation d’une proportion


Une proportion peut-être considérée comme un cas particulier de la moyenne.

2.3.1 Estimation ponctuelle


Exemple 2.8 Poursuivons l’exemple de la société bancaire qui souhaite réaliser une en-
quête pour estimer la proportion p de clients prêts à souscrire à un nouveau produit finan-
cier. La société dispose de N = 50000 clients et souhaite réaliser son enquête sur n = 200
clients.

Construisons la variable aléatoire xi qui au ième client interrogé fait correspondre la valeur
suivante :
• xi = 1 si le client i a l’intention de souscrire au produit ;
• xi = 0 sinon.
Remarquons que xi suit une loi de Bernoulli de paramètre p. La proportion p de clients favo-
rables est naturellement estimée par la proportion p̂ de clients interrogés (sondés) favorable.
On remarque que
n
1X
p̂ = xi = x.
n i=1
Sondage aléatoire simple

Ainsi en utilisant les Théorèmes 2.1 et 2.2, on montre que :

E(p̂) = p

et
S2 Np(1 − p)
V(p̂) = (1 − f ) = (1 − f ) .
n n(N − 1)

2.3.2 Estimation par intervalle de confiance


En suivant un raisonnement analogue au cas de la moyenne, on montre qu’un IC de niveau
1 − α pour une proportion p est donné par :
h p p i
p̂ − z1−α/2 V(p̂), p̂ + z1−α/2 V(p̂) ,

avec
S2 Np(1 − p)
V(p̂) = (1 − f ) = (1 − f ) .
n n(N − 1)
D’où l’IC r r
h S2 S2 i
p̂ − z1−α/2 (1 − f ) ; p̂ + z1−α/2 (1 − f ) . (2.3)
n n

Remarque 2.5 V(p̂) dépend de la proportion p qui est inconnue. En pratique dans la
formule (2.3), on remplace V(p̂) par son estimateur

s2 p̂(1 − p̂)
V̂ (p̂) = (1 − f ) = (1 − f ) ,
n n−1
ce qui donne l’intervalle
r r
h p̂(1 − p̂) p̂(1 − p̂) i
p̂ − z1−α/2 (1 − f ) , p̂ + z1−α/2 (1 − f ) . (2.4)
n−1 n−1

Exemple 2.9 (Calcul d’un IC pour une proportion) La banque possède N = 1 000
clients. Sur n = 200 clients interrogés, 30 se déclarent favorable à souscrire au nouveau
produit financier. Déterminer un IC de niveau 0.95 pour p.

1 − α = 0.95 donc z1−α/2 = 1.96. Sur les 200 clients interrogés, 30 sont favorables donc
la proportion de personnes favorable sur l’échantillon est p̂ = 200
30
= 0.15. Un IC de niveau
0.95 est :
s s
0.15(1 − 0.15) 0.15(1 − 0.15) i
 
h 200 200
0.15 − 1.96 1− , 0.15 + 1.96 1−
1 000 200 1 000 200

≈ [0.106, 0.194]
2.4 Taille d’échantillon

2.4 Taille d’échantillon


Jusqu’à présent la taille d’échantillon n était fixée. Cependant, on pose souvent la ques-
tion au statisticien : ”A partir de combien d’élément un échantillon est-il valable ?”. Bien
entendu, il faut définir ce qu’on entend par valable. Dans le contexte qui est le nôtre, nous
conviendrons d’un écart maximum toléré de l’intervalle de confiance. C’est à dire que nous
chercherons la taille d’échantillon minimum n0 de manière à ce que l’intervalle de confiance
ne soit pas trop grand. Plus précisément, nous fixons une demi-longueur h0 pour l’intervalle
de confiance et nous cherchons la taille d’échantillon n0 pour laquelle la demi-longueur de
l’intervalle de confiance vaut h0 .

2.4.1 Cas de la moyenne


Dans le cadre de l’estimation d’une moyenne, on rappelle que l’intervalle de confiance de
niveau 1 − α est donné par :
 
p p
µ̂ − z1−α/2 V(µ̂), µ̂ + z1−α/2 V(µ̂) .

p p
−z1−α/2 V(µ̂) +z1−α/2 V(µ̂)

µ̂

IC
Figure 2.1 – Intervalle de confiance.

La demi longueur de l’IC vaut donc (voir Figure 2.1)


p
z1−α/2 V(µ̂),

ou encore
r
p  n  S2
z1−α/2 V(µ̂) = z1−α/2 1−
r N n
S2
≈ z1−α/2
n
on considère que le taux de sondage n/N est proche de 0.
r
σ2
≈ z1−α/2
n
on approche la variance corrigée par la variance.

Problème : cette demi longueur dépend de la variance de tous les individus qui est incon-
2
nue. Une solution consiste à utiliser un majorant σmax de cette variance σ 2 (ce majorant
16 Sondage aléatoire simple

sera en général déterminé sur la base d’une enquête précédente). La demi longueur de l’IC
sera alors au plus égale à r
σmax
2
z1−α/2
n
2
(on se place dans le pire des cas, c’est à dire celui où la variance vaut σmax ). Par conséquent
la taille d’échantillon minimum n0 telle que la demi longueur de l’IC ne dépasse pas h0 sera
la solution de l’équation s
σmax
2
z1−α/2 = h0 ,
n0
c’est-à-dire
2 2
z1−α/2 σmax
n0 = .
h20

2.4.2 Cas de la proportion


Pour la proportion, on anégligera le taux de sondage et on approchera la demi-longueur de
l’IC par : r
p(1 − p)
z1−α/2 .
n
Ici le problème est que cette demi longueur dépend de la proportion p qui est inconnue.
Cependant une simple étude de fonction montre que

∀p ∈ [0, 1], p(1 − p) ≤ 1/4.

Par conséquent, la demi longueur de l’IC est au plus égale à


r
1
z1−α/2
4n
(on se place dans le pire des cas où p(1 − p) = 1/4)). La taille d’échantillon minimum n0
telle que la demi longueur de l’IC ne dépasse pas h0 est la solution de l’équation
r
1
z1−α/2 = h0
4n0
c’est-à-dire
2
z1−α/2
n0 = .
4h20
2.5 Exercices 17

2.5 Exercices
Exercice 1
Soit une caractéristique X définie sur une population de N = 4 unités.

Individu 1 2 3 4
Valeur de X 11 10 8 11

1. Calculer la valeur des paramètres suivants de la population : la moyenne, la variance,


et la variance corrigée, notées respectivement µ, σ 2 , et S 2 .
2. On tire un échantillon sans remise de taille n = 2 à probabilités égales.
(a) Combien d’échantillons peut-on tirer ?
(b) Pour chaque échantillon possible, calculer la moyenne x̄ et la variance corrigée s2
obtenues sur l’échantillon.
(c) Calculer E(x̄), V(x̄), et E(s2 ).

Exercice 2
Sur la population {1, 2, 3}, on considère le plan de sondage suivant :

n=2
1 1
P({1, 2}) = (c’est-à-dire que l’échantillon {1, 2} a une probabilité d’apparaître)
2 2
1
P({1, 3}) =
4
1
P({2, 3}) =
4
1. Est-ce un sondage aléatoire simple ?
2. Calculer la probabilité pour que l’individu 1 fasse partie de l’échantillon. Même
question pour les individus 2 et 3.
3. Calculer la valeur de l’estimateur de la moyenne pour chaque échantillon possible.
4. Vérifier que cet estimateur est biaisé.

Exercice 3
On veut estimer la superficie moyenne cultivée dans les fermes d’un canton rural. Sur les
2010 fermes que comprend le canton, on en tire 100 par sondage aléatoire simple. On mesure
(en hectares) la surface cultivée xk par la ferme numéro k de l’échantillon et on trouve :

100
X 100
X
xk = 2907 et x2k = 154593.
k=1 k=1

1. Donner la valeur de l’estimateur de la moyenne µ̂ = x̄.


2. Donner un intervalle de confiance à 95% pour µ̂.
18 Sondage aléatoire simple

Exercice 4
Un pépiniériste souhaite estimer la taille moyenne de ses arbustes d’une même variété. Sur
les 10000 plantes de la serre, on en sélectionne 200 par sondage aléatoire simple, puis on
mesure la hauteur de chacune de ces plantes. Les résultats sont les suivants (en m) :
200
X 200
X
xk = 248, x2k = 331.
k=1 k=1

1. Donner un intervalle de confiance à 95% pour la taille moyenne des arbustes.


2. Le pépiniériste a de bonnes raisons de penser que l’écart-type calculé sur la po-
pulation de tous les arbustes se situe entre 0.25 et 0.45 m. En négligeant le taux
de sondage, quelle taille d’échantillon doit-on retenir pour donner un intervalle de
confiance à 95% ayant une demi-longueur d’au plus 2 cm ?

Exercice 5
On souhaite estimer la quantité d’eau moyenne (exprimée en m3 ) consommée annuellement
par les habitants d’une ville donnée de 100 000 habitants. On sélectionne par un plan simple
un échantillon de 250 habitants. Les résultats obtenus sont les suivants :
n
X n
X
xi = 15 125 x2i = 921 310.
i=1 i=1

n
X
1. Traduire en quelques mots l’information contenue dans la formule : xi = 15 125.
i=1

2. Donner un intervalle de confiance à 95% pour la quantité d’eau moyenne consommée


annuellement par les habitants de cette ville.
3. On s’intéresse maintenant à la quantité totale consommée annuellement par l’en-
semble des habitants de la ville. Donner une estimation, puis un intervalle de confiance
à 95% pour cette quantité totale.

Exercice 6
Dans une région qui possède 250 hôtels, on souhaite estimer la proportion d’hôtels deux
étoiles qui ont un parking. On sélectionne par plan simple 50 hôtels deux étoiles de la région.
Parmi les 50 hôtels de l’échantillon, 34 possèdent un parking. Donner une estimation par
intervalle de confiance à 95% de la proportion d’hôtels deux étoiles de la région possédant
un parking. Même question avec un intervalle de confiance à 90%.

Exercice 7
Quelle taille d’échantillon doit-on retenir, si on choisit un sondage aléatoire simple, pour
donner un intervalle de confiance à 95% ayant une demi-longueur d’au plus 2% pour la
proportion de parisiens qui portent des lunettes ?
Indications
1. La taille de la population de la ville de Paris étant très grande, on suppose que le
taux de sondage est négligeable.
2.5 Exercices 19

2. N’ayant manifestement aucune indication a priori sur la proportion recherchée,


on se place dans le cas le plus défavorable qui conduit à une taille d’échantillon
maximale (taille “de précaution”). Montrer que cette taille maximale correspond au
cas où la vraie proportion dans population p est égale à 50% (indication : étudier les
variations de la fonction f (p) = p(1 − p) sur l’intervalle [0, 1]. Montrer qu’elle prend
son maximum pour p = 50%)
3. Trouver la taille d’échantillon recherchée.
Exercice 8
On souhaite réaliser un sondage d’opinion dans le but d’estimer la proportion p d’individus
qui ont une opinion favorable d’une certaine personnalité politique. On suppose que la
taille de la population est très grande, ce qui nous conduit à négliger le taux de sondage.
En admettant que l’on utilise un sondage aléatoire simple, combien de personnes doit-on
interroger pour que l’on puisse donner un intervalle de confiance à 95% pour p ayant une
demi-longueur d’au plus 0.02 ?
Indication : en l’absence d’informations complémentaires, on peut utiliser "l’intervalle de
précaution" consistant à considérer la plus grande demi-longueur possible (c’est-à-dire le
pire des cas).
Chapitre 3

Sondages stratifiés

3.1 Principe et justification


Dans un sondage aléatoire simple, tous les échantillons d’une population de taille N sont
possibles avec la même probabilité. On imagine que certain d’entre eux puissent s’avérer a
priori indésirables. Dans le cas de l’exemple 2.3, nous disposions de 5 jetons : -1, 2, 4, 10
et 20 dont nous souhaitions évaluer la moyenne (µ = 7) à l’aide d’un échantillon de taille
2. Parmi les échantillons à deux unités, on trouve les cas extrêmes {−1, 2} et {10, 20}, qui
sont particulièrement “mauvais”.

Plus concrètement, dans l’étude du lancement d’un nouveau produit financier, on peut
supposer des différences de comportement entre les “petits” et les “gros” clients de la banque.
Il serait malencontreux que les hasards de l’échantillonnage conduisent à n’interroger que les
clients appartenant à une seule de ces catégories, ou simplement que l’échantillon soit trop
déséquilibré en faveur de l’une d’elles. S’il existe dans la base de sondage une information
auxiliaire permettant de distinguer, a priori, les catégories de petits et gros clients, on
aura tout à gagner à utiliser cette information pour répartir l’échantillon dans chaque sous-
population. C’est le principe de la stratification : découper la population en sous-ensembles
appelés strates et réaliser un sondage dans chacune d’elles.

L’intérêt de cette méthode, en comparaison des plans simples, est qu’elle permet d’améliorer
la précision des estimateurs. Elle nécessite l’utilisation d’une information auxiliaire connue
pour l’ensemble de la population.

Exemple 3.1 Reprenons l’exemple initial où nous souhaitions estimer l’âge moyen de
toutes les personnes évoluant sur le site de l'ESSECT. La base de sondage est composée
de l’ensemble des personnes de l'ESSECT. Supposons que nous disposions de la répartition
des éléments de la base suivant les catégories :
• étudiants ;
• enseignants ;
• Administrations.
Dit autrement nous connaissons la répartitions des personnes de l'ESSECT suivant ces 3
catégories (voir Figure 3.1). Il y a fort à parier que la variable âge ne se comporte pas
de la même manière dans ces trois classes (“en moyenne”, on peut en effet penser que la
21 Sondages stratifiés

Administrations
Enseignants

Etudiants

Figure 3.1 – Exemple de répartition des personnels de l'ESSECT.

population enseignant ou administrations est plus âgée que la population étudiante). Il paraît dés
lors pertinent d’essayer de prendre en compte cette information dans le plan de sondage.

La répartition des personnes de l'ESSECT fournit une information auxiliaire à nôtre problé-
matique. L’objectif principal consiste donc à mettre à profit cette information pour obtenir
des résultats précis. L’information auxiliaire peut être utilisée à deux moments :
• à l’étape de la conception du plan de sondage ;
• à l’étape de l’estimation des paramètres.
Dans ce chapitre, nous utiliserons cette information uniquement pour bâtir le plan de son-
dage.

3.2 Plan de sondage stratifié


Nous précisons maintenant quelques notations utiles à la définition d’un plan stratifié.

Rappel du contexte : on note N le nombre d’individus dans la population. On souhaite


évaluer une caractéristique de la population. On note Xi la valeur de ce caractère mesurée
sur le ième individu. On cherche estimer la moyenne du caractère sur la population
N
1 X
µ= Xi .
N i=1

Dans ce chapitre, nous nous restreindrons à l’estimation de la moyenne. Cependant tout


comme dans le chapitre précédent, tous les concepts s’étendent facilement à l’estimation
d’un total ou d’une proportion.

On suppose que la population P est partagée en H sous-ensembles ou strates notées Ph ,


h = 1, . . . , H. On définit :
3.2 Plan de sondage stratifié 22

• taille de la strate h : Nh ;
1 X
• moyenne de la strate h : µh = Xi .
Nh i∈P
h

1 X
• variance de la strate : σh2 = (Xi − µh )2 ;
Nh i∈P
h

1 X Nh
• variance corrigée de la strate h : Sh2 = (Xi − µh )2 = σ2 .
Nh − 1 i∈P Nh − 1 h
h

Propriété 3.1
1. Réécriture de µ :
N N
1 X 1 X
µ= Xi = Nh µh .
N i=1 N i=1

2. Réécriture de σ 2 :
N H H
2 1 X 2 1 X 2 1 X
σ = (Xi − µ) = Nh σh + Nh (µh − µ)2
N i=1 N h=1 N h=1
= Variance intra-strate + Variance inter-strate.

Le premier terme représente la moyenne des variances des strates. Le second est dû aux
différences entre strates : si par exemple l’échantillon est stratifié entre étudiant, enseignant,
IATOS, ce terme représente le contraste d’âge entre ces différentes catégories.
Nous sommes maintenant en mesure de définir un plan stratifié.
Définition 3.1 Un plan de sondage est dit stratifié si dans chaque strate on sélectionne un
échantillon aléatoire de taille fixe nh et que les sélections sont réalisées indépendamment
d’une strate à une autre. On suppose en outre dans ce cours qu’au sein de chaque strate les
plans sont simples et sans remise.
H
X
Les nh doivent vérifier nh = n.
h=1

Exemple 3.2 Reprenons l’exemple de la stratification de la “population” ESSECT suivant :


étudiant, enseignant, administration. Pour simplifier à l’extrême, supposons que la population est
composée de N = 20 individus :
• 10 étudiants (strate 1, N1 = 10) ;
• 6 enseignants (strate 2, N2 = 6) ;
• 4 administration (strate 3, N = 4) ;
La population est donc composée de N = N1 + N2 + N3 = 20 individus. On effectue un plan
de sondage stratifié : on sélectionne un échantillon aléatoire de taille n = 10 de la manière
suivante (voir Figure 3.2) :
• n1 = 5 dans la strate 1 ;
• n2 = 3 dans la strate 2 ;
• n3 = 2 dans la strate 3.
23 Sondages stratifiés

P1
E1

E2
P2

E3

P3

Figure 3.2 – Echantillonnage stratifié : à gauche la population, à droite l’échantillon.

3.3 Estimateur de la moyenne


Une fois l’échantillonnage effectué, il se pose bien entendu la question de l’estimateur de la
moyenne µ.

3.3.1 Un exemple
Reprenons l’exemple précédent. Pour i = 1, . . . , n, on note xi l’âge du ième individu présent
dans l’échantillon E. Cet échantillon E est divisé en trois sous-ensembles :
• E1 contient les étudiants de l’échantillon ;
• E2 contient les enseignants de l’échantillon ;
• E contient les personnels de l'administration de l’échantillon.
On calcule ensuite l’âge moyen des individus de l’échantillon strate par strate :
P
• x̄1 = Pi∈Eh xi : âge moyen des individus de la strate 1 ;
• x̄2 = Pi∈Eh xi : âge moyen des individus de la strate 2 ;
• x̄3 = i∈Eh xi : âge moyen des individus de la strate 3 ;
On rappelle que N1 est le nombre d’individus présents dans la strate 1 (dans la population
entière), par conséquent N1 x̄1 est un estimateur de l’âge total de la population étudiante
(strate 1). De même N2 x̄2 est un estimateur de l’âge total de la population enseignante
(strate 2) et N x ̄ est un estimateur de l’âge total de la population de l'administration(strate 3). Par
conséquent :
X3
Ni x̄i = N1 x̄1 + N2 x̄2 + N3 x̄3
i=1

est un estimateur de l’âge total de la population. Pour obtenir un estimateur de l’âge moyen
µ il suffit donc de diviser par le nombre d’individus dans la population. L’estimateur µ̂ est
3.4 Répartition de l’échantillon 24

donc
3
1 X 1
µ̂ = Ni x̄i = (N1 x̄1 + N2 x̄2 + N3 x̄3 ) .
N i=1 N
Application numérique : les résultats du sondage sont donnés dans le tableau suivant :

Strate 1 2 1 3 1 1 2 3 2 1
Age 20 50 25 42 23 22 35 44 38 26

Table 3.1 – Age des individus sondés.

On calcule la moyenne des âges des individus de l’échantillon par strate :


x̄1 = 23.2, x̄2 = 42, x̄3 = 44.
Une estimation de µ est donc :
1
µ̂ = (10 × 23.2 + 6 × 42 + 4 × 44) = 33.
20

3.3.2 Cas général


Nous pouvons maintenant définir l’estimateur µ̂ dans un contexte général pour un plan
stratifié. Pour chaque strate h, on note x̄h la moyenne calculée sur l’échantillon issu de la
strate h :
1 X
x̄h = xi .
nh i∈E
h

L’estimateur µ̂ s’écrit alors :


H
1 X
µ̂ = Nh x̄h . (3.1)
N h=1
Le tableau 3.3.2 récapitule les notations relatives à la population et à l’échantillon.
Comme pour le plan simple, on étudie la précision de l’estimateur (et donc du sondage) en
étudiant son biais et sa variance. On a le résultat suivant.
Théorème 3.1 Soit µ̂ l’estimateur de la moyenne pour un plan stratifié (défini par (3.1)).
On a :
• E(µ̂) = µ : µ̂ est un estimateur sans biais de µ ;
• La variance de µ̂ est donnée par :
H
1 X Nh − nh 2
V(µ̂) = Nh Sh . (3.2)
N 2 h=1 nh

3.4 Répartition de l’échantillon


Jusqu’à présent, dans le plan stratifié, nous avons supposé que les tailles d’échantillons
nh étaient fixés pour chaque strate. En pratique, lors de la planification du sondage, le
statisticien doit se poser la question suivante : combien de personnes dois-je sonder par
strate pour que mon estimateur soit le plus précis possible ? Dit autrement, comment choisir
les nh ?
25 Sondages stratifiés

Population P Echantillon E
inconnu, déterministe connu, aléatoire

Taille N n
Moyenne µ x̄
Totale
Variance σ2
Variance Corrigée S2 s2

Taille Nh nh
Moyenne µh x̄h
Strate
Variance σh2
Variance Corrigée Sh2 s2h

Table 3.2 – Notations pour le plan stratifié.

3.4.1 Plan avec allocation proportionnelle


Pour décider des effectifs d’échantillon nh , la solution la plus simple, et de très loin la plus
utilisée, est de les établir au prorata des tailles Nh , ce qui peut s’exprimer de deux façons
équivalentes :
• les strates ont dans l’échantillon des poids nh /n égaux à leurs poids Nh /N dans la
population ;
• on applique le même taux de sondage dans toutes les strates : fh = nh /N = n/N = f .
Pour l’exemple de l’âge moyen de la population “Rennes 2”, un tel plan signifie que les
proportions de chaque strate dans la population sont les mêmes que dans l’échantillon. Si
on a par exemple la répartition suivante :

Strate Nh
Etudiant 6000
Enseignant 2500
IATOS 1500

Alors un plan stratifié avec allocation proportionnelle de taille n = 100 consistera à sonder :
• n1 = 60 étudiants ;
• n2 = 25 enseignants ;
• n = 15 administration.

Définition 3.2 Dans un plan stratifié avec allocation proportionnelle, on choisit les nh de
telle sorte que la proportion d’individus provenant de la strate h dans l’échantillon soit la
même que dans la population, c’est-à-dire :
nh Nh
= ,
n N
3.4 Répartition de l’échantillon 26

d’où
Nh
nh = n .
N
Attention : Cette procédure ne donne généralement pas de résultat PH entier. Il faut alors
recourir à une procédure d’arrondi (et vérifier que l’on a toujours h=1 nh = n).
Propriété 3.2 Soit µ̂ l’estimateur construit pour un plan avec allocation proportionnelle.
On a :
H
1 n 1 X
V(µ̂) = 1− Nh Sh2 . (3.3)
n N N h=1
Remarque 3.1 Dans le cas d’un plan avec allocation proportionnelle on aura le choix entre
cette formule et (3.2) pour calculer la variance de l’estimateur µ̂.
Si les tailles Nh de chaque strate h sont grandes, on a Sh2 ≃ σh2 . On peut donc écrire d’après
(3.3) :
1 n 2
V(µ̂) ≃ 1− σintra .
n N
Dans le cas d’un plan simple (chapitre précédent), si N est grand, on rappelle que :
1 n 2
V(µ̂) = 1− σ .
n N
On a donc remplacé, grâce à la stratification le terme σ 2 intervenant dans la variance de
2
l’estimateur par le terme σintra . Comme
2
σintra ≤ σ2 ,
on en déduit que la stratification avec allocation proportionnelle donne presque toujours
de meilleurs résultats qu’un plan simple puisque l’on supprime la variance inter-strate dans
l’expression de la variance de l’estimateur. Les résultats seront d’autant plus satisfaisants
lorsque la variance inter-strate est grande. Celle ci est grande quand la variable de strati-
fication est fortement liée à la variable d’intérêt. C’est pourquoi il faut toujours stratifier
avec une variable très dépendante de la variable d’intérêt.
Exemple 3.3 On donne dans le tableau pour chaque individu de l'ESSECT :
• son âge ;
• sa catégorie : 1 si étudiant, 2 si enseignant, 3 si administration ;
• sa couleur de cheveux : a si brun, b si blond, c si châtain.
Pour simplifier les calculs, on considère une population de 20 individus.
Age Cat Che Age Cat Che
24 1 c 22 1 c
52 2 a 48 2 a
42 3 b 24 1 a
19 1 c 38 3 a
38 3 a 26 1 b
26 1 b 36 3 b
45 2 c 46 2 b
23 1 a 23 1 c
39 2 a 39 2 a
24 1 b 18 1 c
37 Sondages stratifiés

1. On souhaite estimer la moyenne µ à l’aide d’un plan simple. Quel est la variance de
l’estimateur ?
D’après le chapitre précédent

n  S2
 
 10 115.305
V(µ̂) = 1 − = 1− = 5.77.
N n 20 n

2. On désire stratifier la population suivant la catégorie. Quelle est la variance de l’es-


timateur µ̂ pour un tel plan ?
La population est divisée selon la Figure 3.3.

24

19 26
P1
24
23
22
23
24 26 18

52 45
P2 39

48 46
39

42
38
P3
38
36

Figure 3.3 – Population divisée suivant la catégorie.

Calculons les moyennes et variances corrigées par strate :


• µ1 = 22.9, S12 = 6.99 ;
• µ2 = 44.83, S22 = 26.17 ;
• µ3 = 38.5, S32 = 6.33.
On en déduit la variance de l’estimateur à l’aide de la formule (3.3) :
H
1 n 1 X
V(µ̂) = 1− Nh Sh2
n N N h=1
 
1 10 1
= 1− [10 ∗ 6.99 + 6 ∗ 26.17 + 4 ∗ 6.33] = 0.63.
10 20 20

On peut également retrouver ce résultat avec la formule (3.2).


3. On choisit maintenant de stratifier suivant la couleur des cheveux. Quelle est la
variance de l’estimateur pour un tel plan ?
3.4 Répartition de l’échantillon 28

52

38 23
A
48
39
24
38
24 39
26

26
B 42 36

46
24
45
19
22

C 23
18

Figure 3.4 – Population stratifiée suivant la couleur des cheveux.

Dans ce cas, la population est divisée selon la Figure 3.4.


Par un raisonnement similaire à celui de la question précédente on peut montrer que
la variance de l’estimateur vaut 4.86 pour ce plan de sondage.

Le tableau suivant récapitule les résultats :


Plan V(µ̂)
simple 5.77
Strat Cat 0.63
Strat Che 4.86

On voit que les deux plans stratifiés possèdent des variances inférieures au plan simple. Le
gain de la stratification par la catégorie est significatif comparé à celui de la couleur des
cheveux. Ceci vient du fait que la variable d’intérêt (âge) dépend plus de la catégorie que
de la couleur de cheveux. Il sera donc beaucoup plus pertinent de stratifier par rapport à la
catégorie que par rapport à la couleur de cheveux (on pouvait s’y attendre...)
Nous avons vu qu’en terme de variance de l’estimateur, le plan avec allocation proportion-
nelle est plus précis que le plan simple. Peut-on faire encore mieux ?

3.4.2 Plan avec allocation optimale


La réponse à la question précédente est : oui, si l’on sait a priori que certaines classes sont
beaucoup plus homogènes que d’autres. Intuitivement, on a intérêt à sous-échantillonner
les premières pour consacrer plus de moyens aux secondes.
29 Sondages stratifiés

Définition 3.3 Dans un plan stratifié PH avec allocation optimale, on choisit les tailles
d’échantillons n1 , . . . , nH telles que h=1 nh = n et telles que la variance de l’estimateur
V(µ̂) soit minimale. La solution de ce problème est
Nh Sh
nh = n × H
.
X
Nh Sh
h=1

Par définition, l’estimateur construit avec un plan d’allocation optimale possède la plus
petite variance possible (parmi tous les plans stratifiés). Le prix à payer est que pour
construire un tel estimateur (pour choisir les tailles d’échantillons dans chaque strate), il
nous faut connaître la variance corrigée du caractère dans chaque strate de la population.

La variance de l’estimateur associé à ce plan est toujours donnée par (3.2). On ne peut par
contre pas utiliser la formule (3.3) qui est valable uniquement pour un plan avec allocation
proportionnelle.
Remarque 3.2 1. Là encore, les nh ne sont pas nécessairement entiers, il faut recourir
à une procédure d’arrondi. De plus la formule précédente peut parfois conduire à des
choix de nh tels que nh > Nh . Dans ce cas, on fait un recensement dans les strates
où le problème se pose et on recalcule les valeurs de nh pour les strates restantes.
2. La formule précédente nécessite de connaître les variances corrigées de chaque strate
Sh (ou plutôt leurs racines carrées). En pratique, il faut donc les estimer. En sondage,
on utilise souvent les résultats d’enquêtes précédentes.

Pour les estimateurs construits par plans stratifiés, on peut calculer des intervalles de
confiance comme pour les plans simples. Un intervalle de confiance de niveau 1 − α est
donné par h i
p p
IC = µ̂ − z1−α/2 V(µ̂); µ̂ + z1−α/2 V(µ̂) ,
où z1−α/2 désigne le quantile d’ordre 1 − α/2 de la loi normale centrée réduite. Nous termi-
nons par un exemple sur les plans stratifiés, nous rappelons que tout ce qui a été vu dans
ce chapitre peut s’adapter à l’estimation d’un total ou d’une proportion.
Exemple 3.4 Une grande entreprise veut réaliser une enquête auprès de son personnel
qui comprend 10000 personnes. Elle s’intéresse à l’évolution de l’âge de ses employés et
souhaitent commencer par estimer l’âge moyen. Des études préliminaires ont montré que
la variable que l’on cherche à analyser est très contrastée selon les catégories de personnel
et qu’il y a donc intérêt à stratifier selon ces catégories. Pour simplifier, on considérera
qu’il y a trois grandes catégories qui formeront les strates. On va donc proposer des plans
d’échantillonnage, on dispose des renseignements suivants :

Catégories Effectifs Ecart-type des âges


1 2000 18
2 3000 12
3 5000 3.6
Ensemble 10000 16
3.4 Répartition de l’échantillon 30

On désire estimer l’âge moyen noté µ à partir d’un échantillon de n = 100 personnes.
1. On réalise d’abord un plan simple, proposer un estimateur de µ et calculer sa va-
riance.
2. Un sondage stratifié est ensuite envisagé. Proposer un estimateur pour µ. Quels
effectifs doit on sélectionner dans chaque strate si on réalise un plan avec allocation
proportionnelle. Calculer la variance de l’estimateur construit.
3. Reprendre la question précédente pour un plan avec allocation optimale.
Eléments de correction :
1. n = 100, on note xi , i = 1, . . . , n l’âge de la ième personne interrogée. L’estimateur
de µ est
n
1X
µ̂ = xi .
n i=1
La variance d’un d’un tel estimateur est donnée par
 n  S2
V(µ̂) = 1 − .
N n
Ici S 2 est inconnu mais on connaît σ 2 , donc

N 10000 2
S2 = σ2 = 16 = 256.03.
N −1 9999
On déduit  
100 256.03
V(µ̂) = 1− = 2.53.
10000 100
2. Plan stratifié : soit nh , h = 1, 2, 3 le nombre de personnes interrogées dans chaque
strate. L’estimateur est donné par :
H
1 X
µ̂ = Nh x̄h ,
N h=1

où x̄h est l’âge moyen des personnes interrogées dans la strate h. Pour un plan avec
allocation proportionnelle, les effectifs sont choisis suivant :

Nh
nh = n .
N
Par conséquent,
2000 3000 5000
n1 = 100 × = 20, n2 = 100 × = 30, n3 = 100 × = 50.
10000 10000 10000
N
Calculons les variances corrigées par strate Sh2 = σ2
N −1 h
:

10000 2 10000 2 10000 2


S12 = 18 = 324.03, S22 = 12 = 124.01, S32 = 3.6 = 12.96.
9999 9999 9999
31 Sondages stratifiés

La variance de l’estimateur est donnée par (3.2) ou (3.3) :


H
1 n 1 X
V(µ̂) = 1− Nh Sh2
n N N h=1
 
1 100 1 h i
= 1− 2000 × 324.03 + 3000 × 124.01 + 5000 × 12.96
100 10000 10000
= 1.10

3. Pour un plan avec allocation optimale, les effectifs sont choisis suivant :
Nh Sh
nh = n × H
.
X
Nh Sh
h=1

On calcule
H
X √ √ √
Nh Sh = 2000 × 324.03 + 3000 × 124.01 + 5000 × 12.96 = 87409.6
h=1

On déduit
√ √
2000 × 324.03 3000 × 124.01
n1 = 100 × = 41.18, n2 = 100 × = 38.22,
87409.6 87409.6

5000 × 12.96
n3 = 100 × = 20.59.
87409.6
On arrondit
n1 = 41, n2 = 38, n3 = 21
en vérifiant que la somme fait bien 100. On peut maintenant calculer la variance à
l’aide de la formule (3.2)
H
1 X Nh − nh 2
V(µ̂) = 2 Nh Sh
N h=1 nh
1  2000 − 41 3000 − 38 5000 − 21 i
= 2000 324.03 + 3000 124.01 + 5000 12.96
100002 41 38 21
= 0.75.
3.5 Exercices 32

3.5 Exercices
Exercice 9
Soit une population P = {1, 2, 3, 4} et X1 = X2 = 0, X3 = 1, X4 = −1 les valeurs prises
par la variable à laquelle on s’intéresse.
1. Calculer la variance de l’estimateur de la moyenne pour un plan aléatoire simple
sans remise de taille n = 2.
2. Calculer la variance de l’estimateur de la moyenne pour un plan aléatoire stratifié
pour lequel une seule unité est prélevée par strate, les strates étant données par :

E1 = {1, 2}, E2 = {3, 4}.

Exercice 10
Dans une grande ville, on s’intéresse au nombre moyen de clients que peut avoir un médecin
pendant une journée de travail. On part de l’idée a priori que plus le médecin a d’expé-
rience, plus il a de clients. On classe donc la population de médecins en trois groupes : les
"débutants" (classe 1), les "confirmés" (classe 2), et les "très expérimentés" (classe 3). Par
ailleurs, on suppose que l’on connaît, dans la base de sondage des médecins, la classe de
chacun d’entre eux. On tire par sondage aléatoire simple 200 médecins dans chaque classe.
On obtient les résultats suivants :
h=1 h=2 h=3
x̄h 10 15 20
s2h 4 7 10
Nh 500 1000 2500

1. Comment s’appelle ce plan de sondage ?


2. Comment estimez vous le nombre moyen de clients soignés par jour et par médecin ?
3. Donner un intervalle de confiance à 95% pour le vrai nombre moyen de clients soignés
par jour et par médecin.
4. Si vous n’aviez comme contrainte que le nombre total de médecin à enquêter (soit
600), procéderiez-vous comme ci-dessus ?
Exercice 11
Un directeur de cirque possède 100 éléphants classés en deux catégories : les mâles et les
femelles. Le directeur veut estimer le poids total de son troupeau car il veut traverser un
fleuve en bateau. Cependant, l’année précédente, le directeur de cirque avait fait peser tous
les éléphants de son troupeau et avait obtenu les résultats suivants (les moyennes sont
exprimées en tonnes) :

Effectif Nh Moyenne µh Sh2


Mâles 60 6 4
Femelles 40 4 2.25

1. Calculer σ 2 et S 2 pour l’année précédente.


33 Sondages stratifiés

2. Le directeur suppose désormais que les dispersions de poids n’évoluent pas sensible-
ment d’une année sur l’autre (ce type d’hypothèse reste ici très raisonnable et se
rencontre couramment en pratique quand on répète des enquêtes dans le temps).
Si le directeur procède à un tirage aléatoire simple de 10 éléphants, quelle est la
variance de l’estimateur du poids total du troupeau ?
3. Si le directeur procède à un tirage stratifié avec allocation proportionnelle de 10
éléphants, quelles tailles d’échantillon doit-on retenir dans chaque strate ? Quelle est
alors la variance de l’estimateur du poids total du troupeau ?
4. Si le directeur procède à un tirage stratifié optimal de 10 éléphants, quelles tailles
d’échantillon doit-on retenir dans chaque strate ? Quelle est alors la variance de
l’estimateur du poids total du troupeau ?

Exercice 12
Sur les 7500 employés d’une entreprise, on souhaite connaître la proportion p d’entre eux
qui possèdent au moins un véhicule. Pour chaque individu de la base de sondage, on dispose
de la valeur de son revenu. On décide alors de constituer trois strates dans la population :
individus de faible revenu (strate 1), individus de revenu moyen (strate 2), individus de
revenu élevé (strate 3). On note p̄h la proportion d’individus possédant au moins un véhicule
dans l’échantillon issu de la strate h. Les résultats obtenus sont les suivants :

h=1 h=2 h=3


Nh 3500 2000 2000
nh 500 300 200
p̄h 0.13 0.45 0.50

1. Quel estimateur p̂ de p proposez-vous ?


2. Donner un intervalle de confiance à 95% pour p.
indications : dans le cas d’une proportion, on peut estimer la variance corrigée Sh2
par s2h = NN−1 p̄h (1 − p̄h ).

Exercice 13
Dans une population de très grande taille N = 10000, on souhaite estimer l’âge moyen
µ des individus. Pour cela, on stratifie la population en trois catégories d’âge, et on tire
un échantillon par sondage aléatoire simple dans chaque catégorie. De plus, grâce à une
enquête précédente, on dispose d’estimations pour les variances corrigées de chaque strate.
L’ensemble des informations dont on dispose sont résumées dans le tableau suivant :

Strate Nh x̄h Sh2 nh

Moins de 40 ans 5000 25 16 40


De 40 à 50 ans 3000 45 10 20
Plus de 50 ans 2000 58 20 40
3.5 Exercices 34

1. Quelle est la valeur de l’estimateur stratifié de l’âge moyen µ ?


2. Calculer la variance de cet estimateur.
3. Quelles tailles d’échantillons nh doit-on choisir pour chaque strate si on souhaite
réaliser une allocation proportionnelle afin de constituer un échantillon de n = 100
individus ? Calculer alors la variance de l’estimateur stratifié que l’on obtient avec
ce plan de sondage.
4. On souhaite maintenant réaliser une allocation optimale (toujours avec n = 100).
Calculer alors la valeur des nh ainsi que la variance de l’estimateur stratifié que l’on
obtient avec ce plan de sondage.
5. Parmi les trois plans de sondage proposés, lequel vous semble le plus approprié ?

Exercice 14
La variable d’intérêt est ici le chiffre d’affaire moyen réalisé par un ensemble de 1060 en-
treprises. Celles-ci étant de tailles très différents, on a constitué cinq strates en fonction
du nombre de salariés dans chaque entreprise. De plus, grâce à une enquête précédente, on

Nombre de salariés 0à9 10 à 19 20 à 29 50 à 499 500 et plus


Nombre d’entreprises 500 300 150 100 10

dispose d’estimations pour les variances corrigées Sh2 de chaque strate. On considère donc
que :
S11 = 1.5, S22 = 4, S32 = 8, S42 = 100, S52 = 2500.
1. A l’intérieur de chaque strate, on réalise un sondage aléatoire simple avec les tailles
d’échantillon suivantes :

n1 = 130, n2 = 80, n3 = 60, n4 = 25, n5 = 5.

Les résultats sont les suivants :

x̄1 = 5, x̄2 = 12, x̄3 = 30, x̄4 = 150, x̄5 = 600.

Donner un intervalle de confiance à 90% pour le chiffre d’affaire moyen.


2. En conservant toujours la même taille globale d’échantillon, quels effectifs d’échan-
tillon faut-il prendre dans chaque strate
(a) pour une allocation proportionnelle ?
(b) pour une allocation optimale ?
3. Calculer les variances de l’estimateur pour le plan avec allocation proportionnelle
puis pour le plan avec allocation optimale.
Chapitre 4
Comment réaliser une enquête par questionnaire?

1. L’objectif d’une enquête :


L’enquête de satisfaction est un baromètre qui permet de prendre le pouls de la
clientèle. Simple et peu coûteuse, elle révèle les points forts et les axes à améliorer.

L’enquête par questionnaires est, à ce titre, un moyen pratique pour collecter


rapidement des informations et un outil efficace d’aide à la décision.

2. L’impact de la démarche
Si l'enquête peut apporter des éclaircissements utiles et servir de base à des choix,
elle se traduit également par une interaction avec les répondants. La démarche peut
donc avoir certaines conséquences en termes de communication et entraîner des
réactions de la part des personnes concernées par l'objet de l'enquête. Ainsi, une
enquête de satisfaction des clients/usagers peut être perçue en interne comme une
critique, une remise en question, un signe de défiance vis à vis du personnel. A
l'inverse, cette même enquête peut être perçue de manière très positive par les clients,
contents de voir que l'on s'intéresse à leurs opinions.
Une bonne conscience des enjeux et des conséquences possibles est donc
indispensable avant même d'aborder les phases techniques du processus d'enquête.
3. La préparation de l’enquête
Une enquête par questionnaires est un vrai projet : elle implique des objectifs clairs,
une méthodologie et une organisation rigoureuse, une planification précise.
3.1 S’informer sur l’entreprise qui souhaite réaliser l’enquête

Une enquête de qualité repose sur des objectifs précis. Pour les
déterminer, vous devez vous informer sur l’entreprise qui réalise
l’enquête.
Il existe d’information ; les informations internes et externes
A. Les informations internes :

L’activité même de l’entreprise produit toutes sortes d’informations. Les


personnels de l’accueil, les vendeurs …sont en contact direct avec les clients et
recueillent leurs réactions face aux produits. Les clients écrivent, téléphonent…
pour faire des remarques, donner leur avis. Les ventes sont détaillées par année,
par produit, par région, par réseau de distribution…

Toutes ces informations internes sont parfois suffisantes pour tracer une image
précise de la clientèle ou de l’usager, de ses demandes, de son évolution… Cette
image permettra de modifier le cahier des charges d’un produit existant, voir de
rédiger celui d’un nouveau produit ou service.

36
B. Les informations externes :

Contrairement aux informations internes qui sont issues de l’entreprise elle-même,


les informations externes doivent être recherchées par l’entreprise.

Ainsi lorsque l’entreprise décide de modifier ou de créer un produit nouveau, elle a


besoin de connaître précisément les exigences et les attentes des consommateurs /
usagers. Elle peut s’appuyer sur des études existantes pour connaître les besoins de sa
clientèle. Elle peut réaliser une enquête par sondage. Les résultats de l’enquête et de
l’étude du marché permettent de rédiger le cahier des charges du futur produit ou service.

3.2 Définir des objectifs


L’enquête satisfaction est un outil puissant pouvant répondre à de multiples objectifs:

4. Réaliser le questionnaire :

Faire une enquête consiste à interroger les individus de la population à laquelle on s’intéresse,
à l’aide d’un questionnaire établi en fonction des objectifs visés. Ce questionnaire traduit sous
la forme d’une liste de questions, la liste des informations à recueillir lors de l’enquête.
4.1 Les différentes sortes de questions : On peut distinguer 3 grandes familles de questions

- Les questions ouvertes : La personne interrogée y répond librement en utilisant ses propres
mots, les réponses sont spontanées et approfondies sur tous les sujets. Par contre, le
dépouillement est très difficile à mettre en oeuvre, car les réponses peuvent être trop variées.
Exemple : Comment concevez-vous vos loisirs ?
- Les questions quantitatives : Ce sont des questions qui demandent une réponse exprimée
sous la forme d’une valeur numérique. Ce qui est intéressant, c’est qu’il est possible à partir
de chiffres fournis de faire une moyenne, mais ce résultat reste insuffisant.
Exemple : Combien avez-vous d’enfants ? .
   
1 enfant 2 enfants + de 2 enfants aucun

37
- Les questions fermées : La personne interrogée répond en choisissant parmi les questions
qui lui sont soumises. On distingue 4 types de questions fermées :

La question fermée à choix exclusif binaire : La réponse est simple, à condition que la
question ne soit pas trop complexe.
 
Exemple : Possédez-vous un autoradio ? . oui non

La question fermée à choix multiples : C’est une question qui permet plusieurs choix pour
l’enquête, ce qui est facile à dépouiller. En revanche, c’est une question qui a tendance à

orienter la réponse de la personne interrogée.


Exemple : Pour quelles raisons avez-vous choisi la voiture « X » ?
   
. moins chère disponibilité fidélité sérieux de la marque

La question fermée avec classement hiérarchique : Il s’agit de classer par ordre


d’importance les différents critères. L’information est ainsi plus riche mais les réponses ont
dû mal à être classées au-delà de 5 ou 6 critères.

Exemple : Classer par ordre d’importance les 4 critères d’achat ;

moins chère disponibilité fidélité sérieux de la marque


La question fermée avec échelle d’attitudes : Il s’agit de questions qui permettent à la personne
interrogée de donner un avis précis. L’avantage de ce genre de questions c’est qu’elles permettent
la mesure des attitudes, mais en revanche elles n’autorisent pas les calculs.

Exemple : Le magasin « Y » est bon marché.


  
Tout à fait d’accord  Assez d’accord   Pas du tout d’accord

4.2 Les différents types de questions


Selon l’information à recueillir, vous pouvez opter pour l’un ou l’autre des types de questions
ci-après :
Le type qualitatif
Les questions qualitatives sont les plus courantes dans les enquêtes. On propose une liste de
réponses et la personne interrogée doit en choisir une ou plusieurs. Cette notion de réponse
unique ou multiple doit d’ailleurs être précisée dans le questionnaire, pour éviter toute
ambiguïté.
Ces questions qualitatives sont faciles à traiter. L’utilisateur obtient en résultat des tableaux de
répartition simples ou croisés des répondants sur les différentes réponses proposées.

Toutefois, ce type de questions exige d’avoir prévu à l’avance toutes les réponses possibles à
la question.

38
Le type numérique
Les questions numériques attendent une réponse chiffrée. Il peut s’agir d’une quantité, d’un
âge, d’un prix, d’une note... Il est indispensable, pour obtenir une réponse valable, de bien
indiquer l’unité attendue et, lorsqu’il s’agit d’une note, le sens retenu (1 pouvant être la
meilleure note ou la moins bonne).
Attention : avant de retenir le type numérique pour une question, il faut se demander si la
personne interrogée pourrait ou voudrait bien donner une valeur précise à cette question. S’il
s’agit d’une note, ce sera sans doute le cas. En revanche, pour des questions comme l’âge, le
revenu ou la fréquence d’un comportement, il est préférable de proposer des tranches. Il
s’agira dans ce cas d’une question qualitative et non plus numérique.
Le type texte
Les questions de type texte correspondent aux questions complètement ouvertes, qui
proposent au répondant de répondre librement à la question, par une ou plusieurs phrases.
Ces questions sont très souvent employées par les utilisateurs occasionnels d’enquêtes, qui
pensent ainsi capter plus d’éléments en laissant la liberté complète de réponse aux personnes
interrogées. Or on s’aperçoit vite, à l’usage, que des questions fermées bien posées apportent
beaucoup plus d’éléments exploitables que ces questions ouvertes. Nous vous conseillons
donc d’en faire un usage modéré, en les réservant notamment à un commentaire libre en fin de
questionnaire.

4.2 La structuration du questionnaire


Un bon questionnaire doit contenir tous les éléments nécessaires à un traitement pertinent des
données, dans une organisation visant à optimiser le recueil de réponses sincères de la part des
personnes interrogées.
Les parties indispensables
Votre questionnaire doit comporter obligatoirement, en plus des questions d’opinions et de
comportements relatives à l’objet de l’étude, une partie signalétique permettant de caractériser
chaque répondant. L’interprétation des résultats se basera notamment sur le croisement de ces
deux catégories de variables.

En effet, vous pourrez comprendre les jugements et les comportements des personnes
interrogées en fonction de leurs caractéristiques signalétiques.
Lorsqu’il s’agit de consommateurs, d’usagers, les questions signalétiques sont généralement
le sexe, l’âge, la profession (CSP = Catégorie Socio-Professionnelle), la région, etc.
Lorsqu’il s’agit d’entreprises, vous pouvez demander le secteur d’activité, l’effectif, la région,
etc.

4.3 Une organisation en entonnoir


Pour rassurer la personne interrogée et obtenir des réponses fiables, il convient de procéder en

"entonnoir” en partant des questions les moins engageantes aux questions les plus
personnelles et du général au particulier.

39
La rédaction des questions
Maintenant que vous connaissez les thèmes à aborder et l’organisation générale de votre
questionnaire, il est temps de vous atteler à la rédaction des questions et à la mise en forme de
votre questionnaire.

4.4 La formulation des questions


Le questionnaire s’adresse avant tout aux personnes qui vont y répondre. Les questions
qui leur sont posées doivent donc être claires et directement compréhensibles.
Pour cela, prenez bien soin de n’utiliser que des termes appartenant au langage courant et
ayant une signification identique pour tous. Tout jargon technique doit être exclu. Si vous
avez absolument besoin d’utiliser des termes techniques ou des mots complexes, il convient
d’en donner une explication claire en accompagnement de la question.
La formulation des questions doit également être simple et claire. Il convient à ce titre
d’éviter les formes négatives ou interro-négative, encore plus difficiles à appréhender. De
même, toute ambiguïté ou imprécision seraient de nature à recueillir des réponses fausses.
Ainsi, il est préférable de ne pas utiliser des termes comme “souvent” qui peuvent être
interprétés différemment par les personnes interrogées. Utilisez plutôt des notions claires
comme “Plus de 2 fois par semaine”.
De même, veillez à n’aborder dans chaque question qu’une seule notion à la fois. Une
question qui demande l’opinion du répondant sur deux éléments sera automatiquement
biaisée. La bonne démarche est de scinder cette question en deux pour avoir une appréciation
claire et distincte sur chacun des éléments.
Les questions doivent être concises et complètes. La question doit être exprimée en une
phrase courte, qui facilitera sa compréhension, notamment au téléphone. Elle devra proposer
toutes les possibilités logiques de réponses pour éviter de mettre le répondant dans une
impasse et lui faire sentir que le questionnaire ne concerne pas vraiment son cas (ce qui peut
le pousser à “bacler” la fin du questionnaire, puisque ses réponses n’ont, dans ce cas, pas
beaucoup d’importance).

Enfin, il est conseillé d’éviter les questions très engageantes personnellement : religion,
argent, santé, sexe, alcool, conflits familiaux. Si de telles questions sont vraiment
indispensables, il vaut mieux les aborder le plus tard possible dans le questionnaire.

5. Une présentation soignée


Si l’organisation et le contenu du questionnaire sont essentiels, sa présentation est également
très importante, qu’il s’agisse de questionnaires auto-administrés ou de questionnaires
administrés par des enquêteurs. Les premiers doivent absolument être clairs et attractifs pour
les répondants, afin de les inciter à répondre. Les seconds doivent faciliter au maximum le
travail de l’enquêteur en comportant toutes les indications utiles sur ce qui doit être dit et sur
les différents cheminements conditionnels dans le questionnaire.

Dans les deux cas, les différentes parties doivent être clairement identifiées. Le questionnaire
doit avoir un encombrement réduit, grâce à une mise en page optimisée qui devra s’attacher,
dans le même temps, à garder la place nécessaire pour l’indication des réponses.
40
6. Le test du questionnaire
Malgré toute l'attention portée à sa conception, le questionnaire doit être testé en réel. Il faut
le faire sur un petit échantillon, différent de celui constitué pour l'enquête pour ne pas
"gâcher" des contacts bien identifiés, avant de passer à la phase d'administration. C'est une
phase clé car rien ne peut remplacer la réalité du terrain. La qualité du traitement des données
et des résultats en dépendent.

7. Auprès de qui et comment collecter ?


On peut différencier 2 sortes de collecte :
- La collecte directe : Les réponses peuvent être collectées lors d’un entretien. L’enquêteur
aborde directement les personnes dans des lieux très variés (à domicile, dans la rue, dans un
magasin) ou bien encore les contacts par téléphone.

- La collecte indirecte : Le questionnaire peut être mis à disposition des individus, par
exemple, à l’entrée d’un immeuble, d’un magasin, d’un lieu public. Il peut être déposé dans
les boîtes aux lettres. Il peut aussi être adressé par courrier.

Synthèse :

Etablir par écrit des objectifs clairs, précis et opérationnels à


l’enquête puis les faire valider par les personnes concernées,
Identifier précisément la cible de l’enquête (population-mère) et
choisir un échantillon représentatif,

Choisir un nombre restreint de quotas et avoir recours à des quotas


simples plutôt qu’à des quotas croisés,
Concentrer les questions posées sur le seul objectif de l’enquête et ne pas ajouter des
questions inutiles, même si elles sont intéressantes par ailleurs,
Organiser le questionnaire en parties claires en partant du général au particulier et des
questions neutres aux questions engageantes,
Ne pas multiplier les questions ouvertes qui apportent beaucoup moins d’informations que des
questions fermées bien posées,
Utiliser un langage clair, simple et compréhensible par tous,
Soigner la présentation du questionnaire et indiquer clairement les consignes et les
informations nécessaires aux enquêteurs et/ou répondants
Insister auprès de tous les intervenants en général et des enquêteurs et du personnel de saisie
en particulier sur la nécessité d’une grande rigueur,
Etre prudent dans l’interprétation et la restitution des résultats en étant bien conscient des
marges d’erreur.

41
ENQUETE DE SATISFACTION CLIENTS
Afin de pouvoir nous aider à améliorer le cas échéant, notre démarche qualité.Merci de bien vouloir remplir le
questionnaire satisfaction client.

Salutations
VOTRE RAISON SOCIALE
Très Assez Pas
VOTRE APPRECIATION Bien
Bien
Bien
Passable
concerné
1°) ACCUEIL
TELEPHONIQUE *Amabilité     
*Rapidité     
2°) SERVICE
COMMERCIAL *Relations     
*Informations     
*Documentations     
3°) TECHNICO *Compétences
COMMERCIAL techniques     
*Capacité à répondre à
vos besoins     
*Disponibilité     
*Notre gamme répond-
4°) PRODUITS telle à vos besoins ?     
*Qualité globale de nos
produits ?     
5°) LIVRAISON *Respect des délais     
*Respect des
références
commandées     
*Respect des quantités
commandées     
*Précision et clarté des
Bons de livraison     
*Etat des
conditionnements à leur
réception     
*Etat des produits à leur
réception     
*Précision et clarté des
6°) FACTURATION factures ou avoirs     
*Relation avec le
Service Comptable     
7°) VOTRE IMPRESSION
GENERALE SUR
…………………….     

8°) CONNAISSEZ VOUS NOTRE SITE INTERNET


www………………….. OUI  NON 

9°) UN CATALOGUE PAPIER EST-IL POUR VOUS  


INDISPENSABLE ? OUI  NON 
10 °) VOS REMARQUES ET SUGGESTIONS :

REMPLI PAR : MMe /


M / Fonction DATE

42
SONDAGE A L’EGARD DE LA SATISFACTION FACE A LA SOCIETE
………….

Confidentialité

Les chercheurs s’engagent envers vous à respecter l’anonymat de vos


réponses. Vous pouvez donc répondre en toute confiance. Seuls les
chercheurs auront accès aux réponses, mais sans jamais connaître les
noms des répondants.

Consignes

• Ce questionnaire s’adresse uniquement aux individus qui ont déjà


magasiné chez …………………………..

• Le questionnaire se divise en deux parties. La première traite de


votre degré de satisfaction générale face à la société ………………. La
deuxième se rapporte à votre comportement d’acheteur chez …………...

PREMIÈRE PARTIE : degré de satisfaction générale

Nous aimerions connaître votre degré de satisfaction face à différents


aspects du magasin ...................... : son infrastructure, les produits
offerts et le service offert. Enfin, nous vous demandons d’indiquer votre
appréciation générale du magasin .......................

Pour chacun des énoncés, indiquez votre degré de satisfaction


sur une échelle de 0 % (=totalement insatisfait) à 100 %
(=totalement satisfait).

Infrastructure

Les produits

43
Le service

Appréciation générale

21 Globalement, quel est votre dégre de satisfaction face à …………………………………%

DEUXIÈME PARTIE : comportement d’acheteur

Pour vous aider à mieux comprendre nos questions, nous tenons à préciser ce que nous
entendons par fidélité à ……………... Être fidèle à ………………….est :

• retourner y acheter

• choisir en premier lieu ……… plutôt qu’un autre magasin (ex……………, etc.) pour
effectuer ses achats

• recommander …………….. à ses pairs et/ou ses proches

• acheter chez ……………… des produits que vous achetiez autrefois ailleurs

A) Pour chacun des énoncés, encerclez le chiffre correspondant


à votre réponse.

44
Si, au cours du prochain mois, vous êtes fidèle à ……………….,
croyez-vous personnellement que vous allez :

B) Pour chacun des énoncés, encerclez le chiffre correspondant


à votre réponse.

Personnellement, quelle valeur accordez-vous aux dimensions


suivantes :

45
C) Pour chacun des énoncés, encerclez le chiffre correspondant
à votre réponse.

Jusqu’à quel point est-il probable que les personnes suivantes


pensent que vous devriez être fidèle à ……………….. au cours du
prochain mois? :

46
D) Pour chacun des énoncés, encerclez le chiffre correspondant
à votre réponse.

En ce qui a trait à être fidèle à ……………… au cours du prochain


mois, êtes-vous enclin à agir selon l’avis de :

E) Pour chacun des énoncés, encerclez le chiffre correspondant


à votre réponse..

1. Combien de fois vous arrive-t-il d’être sans automobile ?

2. Combien de fois vous arrive-t-il d’avoir peu d’argent à votre


disposition ?

47
3. Combien de fois vous arrive-t-il de manquer de temps pour
magasiner ?

4. Combien de fois vous arrive-t-il de manquer de patience pour


magasiner ?

5. Combien de fois vous arrive-t-il d’avoir besoin de produits


spécialisés ?

6. Si vous êtes sans automobile, ça sera beaucoup plus difficile pour


vous d’être fidèle à …………………… au cours du prochain mois

7. Si vous avez peu d’argent à votre disposition, ça sera beaucoup plus


difficile pour vous d’être fidèle à ...................... au cours du prochain
mois

8. Si vous manquez de temps pour magasiner, ça sera beaucoup plus


difficile pour vous d’être fidèle à ...................... au cours du prochain
mois

48
9. Si vous n’avez pas la patience pour magasiner, ça sera beaucoup
plus difficile pour vous d’être fidèle à ...................... au cours du
prochain mois

10. Si vous avez besoin de produits spécialisés, ça sera beaucoup plus


difficile pour vous d’être fidèle à ...................... au cours du prochain
mois

11. Si je le voulais, je pourrais facilement être fidèle à ......................


au cours du prochain mois

12. Le fait d’être fidèle ou non à ...................... au cours du prochain


mois repose essentiellement sur moi

13. Quel degré de contrôle avez-vous sur le comportement d’être fidèle


à ...................... au cours du prochain mois ?

14. Pour moi, être fidèle à ...................... au cours du prochain mois


serait :

49
F) Pour chacun des énoncés, encerclez le chiffre correspondant
à votre réponse.

Au cours du prochain mois, j’ai l’intention de :

7. Au cours du prochain mois, lorsque vous irez acheter dans un


magasin à aubaines de grande surface, quel pourcentage de ces visites
avez-vous l’intention de faire chez ...................... ? (Encerclez la
lettre qui correspond à votre réponse)

G) Questions signalétiques.

1. Quel est votre sexe? a) Masculin b) Féminin

2. Quel âge avez-vous?

3. Dans quel programme d’études êtes-vous inscris?

4. Étudiez-vous à : a) temps plein b) temps partiel


50
5. Habitez-vous chez vos parents/tuteurs? a) oui b) non

MERCI DE VOTRE COLLABORATION

51
Annexe A

Intervalle de confiance pour une


moyenne dans un plan de sondage
aléatoire simple

Théorème A.1 (Théorème central limite) Pn Soit x1 , . . . , xn une suite de n variables aléa-
toires i.i.d telles que E(xi ) = µ. Soit x = n i=1 xi la moyenne empirique des xi . Alors on
1

peut approcher la loi de x par la loi normale N (µ, V(x)). Ou encore, on peut approcher la
loi de la variable aléatoire
x−µ
Z=p
V(x)
par la loi N (0, 1).

On appellera intervalle de confiance pour µ de niveau 1−α un intervalle aléatoire [x−h, x+h]
tel que

P [x − h, x + h] ∋ µ = 1 − α.
Calculons un intervalle de confiance pour µ de niveau 1 − α. On remarque que :

P [x − h, x + h] ∋ µ = P(x − h ≤ µ ≤ x + h)
= P(−h ≤ µ − x ≤ h)
= P(−h ≤ x − µ ≤ h)
 h x−µ h 
=P −p ≤p ≤p .
V(x) V(x) V(x)

Il suffit donc de trouver h tel que


 h x−µ h 
P −p ≤p ≤p = 1 − α.
V(x) V(x) V(x)

En notant F la fonction de répartition de la loi N (0, 1), on a donc


 h   h 
F p −F − p = 1−α
V(x) V(x)
36 Intervalle de confiance pour une moyenne dans un plan de sondage aléatoire simple

 h 
2F p −1 =1−α
V(x)
 h  α
F p =1− .
V(x) 2
h
Avec z1−α/2 le quantile d’ordre 1 − α/2 de la loi N (0, 1), on obtient p = z1−α/2 et
V(x)
donc p
h = z1−α/2 V(x).
Un intervalle de confiance de niveau 1 − α est donc donnée par
 
p p
x − z1−α/2 V(x), x + z1−α/2 V(x)

avec  n  S2
V(x) = 1 −
N n
pour un plan de sondage aléatoire simple. L’IC de niveau 1 − α s’écrit alors
 r r 
 n  S2  n  S2
x − z1−α/2 1− , x − z1−α/2 1− .
N n N n
Un dernier problème...

On réalise une enquête pour évaluer le salaire moyen des employés d’une entreprise. L’en-
treprise est composée de 20 salariés, on connaît la répartition des salariés suivant deux
catégories : ouvrier (O) ou cadre (C). Les salaires ainsi que les catégories se trouvent dans
le tableau H.1.

Employés Catégories salaire mensuel


1 C 2225
2 C 1616
3 C 2456
4 C 3350
5 C 2600
6 C 2028
7 C 3025
8 C 2756
9 C 1965
10 C 2618
11 O 1415
12 O 1415
13 O 1469
14 O 1335
15 O 1554
16 O 1465
17 O 1498
18 O 1325
19 O 1598
20 O 1484

Table H.1 – Salaires et catégories des employés.

1. Calculer le salaire moyen µ (que l’on va ensuite chercher à estimer ! ! !) et la variance


corrigée S 2 ?
2. Un employé parmi les ouvrier souhaitent estimer le salaire moyen des employés en
effectuant un plan de sondage aléatoire simple (avec un échantillon de taille n = 8).
38 Un dernier problème...

(a) Rappeler la formule qui permet de calculer l’estimateur de µ pour ce plan de


sondage.
(b) Quelle est la variance de cet estimateur ?
3. Les cadres se trouvant dans des locaux éloignés du sien, il décide d’interroger unique-
ment des ouvriers de l’entreprise. Dans le cas où il interroge les 8 premiers ouvriers
du tableau H.1, donner la valeur de l’estimateur de la moyenne µ̂.
Un ouvrier (un peu plus malin) se dit que l’estimation du salaire moyen serait “meilleure”
en interrogeant des ouvriers et des cadres. Il décide de réaliser un plan de sondage stratifié
(la taille de l’échantillon est toujours égale à 8).
4. Décrire l’enquête permettant de réaliser un tel plan de sondage ainsi que la manière
de calculer l’estimateur µ̂ du salaire moyen. Quel est l’intérêt d’une telle procédure
en comparaison avec les plans simples ?
5. On note nC le nombre de personnes interrogées parmi les cadres et nO parmi les
ouvriers. Dans le cas d’un plan stratifié avec allocation proportionnelle :
(a) Calculer nC et nO .
(b) Calculer la variance de µ̂.
(c) On a interrogé les nC premiers cadres et les nO premiers ouvriers du tableau H.1,
quelle est la valeur de µ̂ ?
(d) En déduire un intervalle de confiance de niveau 0.95 pour µ.
6. Reprendre la question 6 dans le cas d’un plan avec allocation optimale.
7. Comparer et commenter les différences entre les variances des estimateurs pour les
trois plans de sondage proposés dans cet exercice.
CORRECTION

1. Moyenne :
N
1 X
µ= Xi = 1959.4.
N i=1
Variance corrigée :
N
2 1 X
S = (Xi − µ)2 = 399 906.7.
N − 1 i=1

2. (a) Pour i = 1, . . . 8, on note xi le salaire de la ième personne intérrogée, l’estimateur


de µ est donné par :
n
1X
µ̂ = xi .
n i=1

(b) La variance de cet estimateur est donnée par :

n  S2
 
 8 399 906.7
V(µ̂) = 1 − = 1− = 11 997.2
N N 20 20

3. Valeur de µ̂ sur l’échantillon :


1415 + 1469 + . . . + 1325
µ̂ = = 1434.5.
8
4. Un plan de sondage stratifié consiste à découper la population suivant les deux
catégories (ouvriers et cadres) et à réaliser un plan de sondage aléatoire simple dans
chacune de ces deux populations (strates). Plus précisément, on interroge nC salariés
parmi les cadres et nO parmi les ouvriers. On note x̄C (resp x̄O ) le salaire moyen des
cadres (resp ouvriers) interrogés. L’estimateur du salaire moyen de tous les salariés
est obtenu grâce à la formule :
NO x̄O + NC x̄C 10x̄O + 10x̄C
µ̂ = = . (H.1)
N 20
L’intérêt d’une telle procédure est de fournir des estimateurs plus précis (ayant une
variance plus faible). Pour augmenter la précision, il est nécessaire d’utiliser une
variable de stratification fortement liée à la variable d’intérêt. C’est le cas ici puisque
intuitivement, on sent bien que les salaires des cadres sont plus élevés que ceux des
ouvriers.
5. Pour réaliser le plan stratifié, il reste maintenant à choisir les tailles d’échantillon nC
et nO , c’est à dire le nombre de cadres et d’ouvriers que l’on va interroger.
40 Un dernier problème...

(a) L’allocation proportionnelle propose de choisir les tailles d’échantillon dans les
strates de manière à ce que la proportion d’individus dans les strates de l’échan-
tillon soit la même que dans les strates de la population. On choisit donc nC tel
que
nC NC NC 10
= ⇐⇒ nC = n =8∗ = 4.
n N N 20
De même
NO 10
nO = n =8∗ = 4.
N 20
(b) Calculons d’abord la variance corrigée pour les deux strates :
CN
1 X
SC2 = (Xi − µC )2
NC − 1 i=1
(2225 − 2463.9)2 + (1616 − 2463.9)2 + . . . + (2618 − 2463.9)2
= = 271 397.7 ,
10 − 9
et
NO
1 X
SO2 = (Xi − µO )2
NO − 1 i=1
(1415 − 1454.9)2 + (1415 − 1454.9)2 + . . . + (1484 − 1454.9)2
= = 7 249.211.
10 − 1
La variance de µ̂ pour un plan stratifié avec allocation proportionnelle est donnée
par :
H
1 n 1 X
V(µ̂) = 1− Nh Sh2
n N N h=1
 
1 8 1
= 1− (10 ∗ 271 397.7 + 10 ∗ 7 249.211) = 10 449.26.
8 20 20

(c) Le salaire moyen des cadres et ouvriers interrogés est


1415 + 1415 + 1465 + 1335
x̄O = = 1 408.5
4
et
2225 + 1616 + 2456 + 3350
x̄C = = 2 411.75.
4
On déduit de (H.1)
10 ∗ 1408.5 + 10 ∗ 2411.75
µ̂ = = 1 910.125.
20
(d) Un intervalle de confiance à 95% est donné par
h p p i
µ̂ − z0.975 V(µ̂); µ̂ + z0.975 V(µ̂) = [1 709.771; 2 110.479].
41

6. Pour un sondage avec allocation optimale, on choisit les tailles d’échantillon de ma-
nière à minimiser la variance de l’estimateur µ̂.
(a) Les tailles d’échantillon sont données par :
Nh Sh
nh = n × PH .
h=1 Nh Sh

Par conséquent
10 ∗ 520.9584
nC = 8 × = 6.87,
10 ∗ 520.9584 + 10 ∗ 85.1423
10 ∗ 85.1423
nO = 8 × = 1.13.
10 ∗ 520.9584 + 10 ∗ 85.1423
Il faut arrondir nC = 7 et nO = 1.
(b) La variance de µ̂ se calcule à partir de
H
1 X Nh − nh 2
V(µ̂) = 2 Nh Sh
N h=1 nh
10 − 7 10 − 1
 
1
= 2 10 × 271 397.7 + 10 × 7 249.211 = 4 538.905.
20 7 1

(c) Le salaire moyen des cadres et ouvriers interrogés est


1415
x̄O = = 1415
1
et
2225 + 1616 + 2456 + 3350 + 2600 + 2028 + 3025
x̄C = = 2 471.429.
7
On déduit de (H.1)
10 ∗ 1415 + 10 ∗ 2471.429
µ̂ = = 1 943.215
20
(d) Un intervalle de confiance à 95% est donné par
h p p i
µ̂ − z0.975 V(µ̂); µ̂ + z0.975 V(µ̂) = [1 811.167; 2 075.263].

7. Le tableau H.2 récapitule les variance de l’estimateur µ̂ en fonction du plan de


sondage :

plans V(µ̂)
Simple 11 997.2
Alloc. prop 10 449.26
Alloc opti 4 538.9

Table H.2 – Variances de µ̂ pour les trois plans de sondage étudiés.


42 Un dernier problème...

Les plans simple et stratifié avec allocation proportionnelle conduisent à des estima-
teurs possédant des variances similaires. Le plan stratifié avec allocation optimale
permet de réduire la variance de manière significative. En regardant les données, on
s’aperçoit que ceci vient du fait que les disparités sont beaucoup plus importantes
chez les cadres que chez les ouvriers (SC2 = 271 397.7 et SO2 = 7 249.211), il est donc
nécessaire d’interroger plus de cadres que d’ouvriers pour estimer au mieux le sa-
laire moyen dans chacune des catégories. C’est ce que propose l’allocation optimale
puisque qu’on interroge 7 cadres et un seul ouvrier.

Vous aimerez peut-être aussi