0% ont trouvé ce document utile (0 vote)
204 vues162 pages

Théorie des Sondages Avancée

sondage isc

Transféré par

Aaron Masiala Santos
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
204 vues162 pages

Théorie des Sondages Avancée

sondage isc

Transféré par

Aaron Masiala Santos
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université de Caen-Normandie

Éléments de théorie des sondages


Christophe Chesneau

[Link]

Caen, le 17 Mai 2024


Table des matières

Table des matières

1 Introduction 7
1.1 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Concepts de base et notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2 Plan de sondage aléatoire simple sans remise (PESR) 11


2.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3 Estimations ponctuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.5 Taille d’échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.6 Sélection des individus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.7 Exercices corrigés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.8 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3 Total, proportion et effectif dans le cadre PESR 31


3.1 Estimation du total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2 Estimation d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3 Estimation d’un effectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.4 Exercices corrigés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5 Synthèse : proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4 Plan de sondage aléatoire simple avec remise (PEAR) 43


4.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2 Estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.3 Estimations ponctuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.4 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.5 Taille d’échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.6 Exercices corrigés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.7 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5 Total, proportion et effectif dans le cadre PEAR 63


5.1 Estimation du total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.2 Estimation d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

C. Chesneau 3
Table des matières

5.3 Estimation d’un effectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68


5.4 Exercices corrigés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.5 Synthèse : proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

6 Plan de sondage aléatoire stratifié (ST) 73


6.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
6.2 Estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.3 Estimations ponctuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6.4 Plan de sondage aléatoire stratifié proportionnel (STP) . . . . . . . . . . . . . . . . . . . . . . . . 87
6.5 Plan de sondage aléatoire stratifié optimal (STO) . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
6.6 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
6.7 Taille d’échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
6.8 Exercices corrigés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
6.9 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

7 Total, proportion et effectif dans le cadre ST 105


7.1 Estimation du total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
7.2 Estimation d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
7.3 Estimation d’un effectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
7.4 Exercices corrigés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
7.5 Synthèse : proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR) 119


8.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
8.2 Estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
8.3 Estimations ponctuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
8.4 Cas particuliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
8.5 Sélection des individus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
8.6 Exercices corrigés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

9 Plan de sondage aléatoire par grappe (G) 137


9.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
9.2 Estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
9.3 Estimations ponctuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

C. Chesneau 4
Table des matières

9.4 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142


9.5 Taille de groupe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
9.6 Exercices corrigés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

10 Formulaire 149
10.1 Formules dans le cadre PESR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
10.2 Formules dans le cadre PESR : proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
10.3 Formules dans le cadre PEAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
10.4 Formules dans le cadre PEAR : proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
10.5 Formules dans le cadre ST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
10.6 Formules dans le cadre ST : proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
10.7 Formules dans le cadre G . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
10.8 Table : Loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
10.9 Table : Loi de Student à ν degrés de liberté . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
10.10Table : Loi du chi-deux à ν degrés de liberté . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

Index 162

∼ Note ∼
Ce document résume les notions abordées dans le cours Théorie des sondages du Master 2 orienté
statistique de l’université de Caen.
Un des objectifs est de donner des pistes de réflexion à la mise en place de sondage.
N’hésitez pas à me contacter pour tout commentaire :

[Link]@[Link]

Bonne lecture !

C. Chesneau 5
1 Introduction

1 Introduction

1.1 Exemples

Quelques exemples de résultats liés à des sondages sont donnés ci-dessous :


1. Le salaire moyen pour une première embauche d’un jeunes diplômé (Bac+5) titulaire d’un diplôme en
sciences technologiques est de 31700€ brut.

2. 84% des français ne croient pas que leurs impôts vont baisser en 2019.

3. Parmi des amateurs de bières, la question suivante a été posée : Quel est votre type de bière préféré ?
Réponses : Blondes : 33.61%, Ambrées : 25.58%, Brunes : 15.92%, Blanches : 9.64%, Un peu toutes :
15.24%

4. La prise de poids moyenne pour un individu fumeur est de

◦ 2.26 kilogrammes après deux mois sans tabac,

◦ 4.67 kilogrammes après un an sans tabac.

5. Les courbes de croissance des filles et des garçons de 0 à 3 ans :

C. Chesneau 7
1 Introduction

1.2 Concepts de base et notations

Population et individus : On appelle population un ensemble fini d’objets sur lesquels une étude se porte.
Ces objets sont appelés individus/unités statistiques. Une population est notée

U = {u1 , . . . , uN },

où N est le nombre d’individus dans la population et, pour tout i ∈ {1, . . . , N }, ui est le i-ème individu.

Base de sondage : On appelle base de sondage une liste qui répertorie tous les individus d’une population.

Caractère : Un caractère est une qualité que l’on étudie chez les individus d’une population.

Un caractère est noté Y . Pour tout i ∈ {1, . . . , N }, on note yi la valeur de Y pour l’individu ui .

Moyenne-population :

On appelle moyenne-population le réel :

N
1 X
yU = yi .
N i=1

Le paramètre y U est une valeur centrale de Y .

Écart-type corrigé-population :

On appelle écart-type corrigé-population le réel :


v
u N
u 1 X
sU = t (yi − y U )2 .
N − 1 i=1

Le paramètre sU mesure la dispersion de Y autour de y U .

Calcul/évaluation des paramètres-population : Pour calculer/évaluer les paramètres-population, deux


méthodes sont possibles :

◦ le recensement : on a accès à tous les individus et on peut mesurer les valeurs de Y pour chacun
d’entre eux. Toutefois, cela n’est pas toujours possible pour des raisons de coût, de temps ou à cause
de certaines contraintes comme la destruction des individus étudiés.

◦ le sondage : on étudie les valeurs de Y sur un ensemble d’individus issus de la population.

Échantillon : On appelle échantillon un ensemble d’individus issus d’une population.

Un échantillon est noté ω. Le nombre d’individus dans un échantillon est noté n.

C. Chesneau 8
1 Introduction

Deux questions centrales :

Pour constituer un échantillon représentatif de la population,


◦ comment faut-il procéder ?
◦ combien d’individus faut-il choisir ?

Plan de sondage :

On appelle plan de sondage une procédure permettant de sélectionner un échantillon dans une po-
pulation. Un plan de sondage est dit :
◦ aléatoire si chaque individu de la population a une probabilité connue de se retrouver dans
l’échantillon,
◦ simple si chaque individu a la même probabilité qu’un autre d’être sélectionné ; les probabilités
sont égales (PE),
◦ sans remise (SR) si un même individu ne peut apparaître qu’une seule fois dans l’échantillon,
◦ avec remise (AR) si un même individu peut apparaître plusieurs fois dans l’échantillon et si
l’ordre dans lequel apparaissent les individus compte.

Remarques :

◦ Mathématiquement, sans autre précision, un échantillon s’obtient par tirage avec remise (AR) des
individus. Ainsi, un échantillon de n individus est la liste des n individus obtenus par n prélèvements
indépendants. Un individu peut donc être prélevé plusieurs fois.

◦ Les formules habituelles d’estimation sont associées à un plan de sondage aléatoire de type PEAR
(Probabilités Égales + Avec Remise). Pour simplifier la situation, elles sont généralement utilisées
dans le cas SR (Sans Remise) lorsque n est beaucoup plus petit que N . Une convention existante est
N ≥ 10n.

C. Chesneau 9
1 Introduction

C. Chesneau 10
2 Plan de sondage aléatoire simple sans remise (PESR)

2 Plan de sondage aléatoire simple sans remise (PESR)

2.1 Contexte

Loi de probabilité :

On prélève un échantillon de n individus suivant un plan de sondage aléatoire simple sans remise
(PESR pour Probabilités Egales Sans Remise) dans une population U . Soit W la var égale à l’échan-
tillon obtenu. Alors la loi de W est donnée par

1
P(W = ω) = N
, ω ∈ W (Ω),
n

où P désigne la probabilité uniforme et W (Ω) désigne l’ensemble de tous les échantillons de n individus
possibles avec un tel plan de sondage.

Explication : Pour fixer les idées, on considère la situation simplifiée suivante : on prélève au hasard
et simultanément n individus de la population pour former un échantillon. L’univers associé à cette
expérience aléatoire est Ω = {combinaisons de n individus parmi N }. Comme Ω est fini et qu’il y a
équiprobabilité, l’utilisation de la probabilité uniforme P est justifiée. Il vient

Card({W = ω})
P(W = ω) = , ω ∈ W (Ω).
Card(Ω)

Or on a Card(Ω) = N
et Card({W = ω}) = 1, d’où le résultat.

n

Situations de référence : Les différents types de prélèvements décrits ci-dessous rentrent dans le cadre
d’un PESR :

I on prélève au hasard et simultanément n individus de la population pour former un échantillon,

II on prélève au hasard et un à un n individus de la population pour former un échantillon, l’ordre


n’étant pas pris en compte.

C. Chesneau 11
2 Plan de sondage aléatoire simple sans remise (PESR)

Quelques commandes R : Pour illustrer un plan de sondage aléatoire de type PESR avec le logiciel R,
on propose l’animation :

library(animation)
[Link](nrow = 10, ncol = 10, size = 15, [Link] = c("blue", "red"), [Link] =
c(1, 3))

Par exemple, pour faire un tirage sans remise de n = 20 individus dans une population de N = 200
individus, on peut utiliser

◦ la commande sample :

sample(1:200, 20, replace = F)

◦ la commande srswor de la librairie sampling :

library(sampling)
t = srswor(20, 200)
x = 1:200
x[t != 0]

L’abréviation srswor signifie Simple Random Sampling WithOut Replacement.

Précisons que t = srswor(20, 200) renvoie un vecteur de taille 200 constitué de 20 chiffres 1 et de 180
chiffres 0. Les 1 sont positionnés aux indices des individus prélevés et les 0 aux autres.

Un autre exemple : on considère la population U constituée de N = 9 garçons et on prélève un échantillon


de n = 3 individus suivant un plan de sondage aléatoire de type PESR :

U = c("Bob", "Nico", "Ali", "Fabien", "Malik", "John", "Jean", "Chris", "Karl")


library(sampling)
t = srswor(3, 9)
w = U[t != 0]
w

Dans la suite :

◦ pour les résultats, on considère un plan de sondage aléatoire de type PESR et la var W égale à
l’échantillon obtenu,

◦ pour les preuves, pour raison de simplicité, on se place dans la situation de référence I,

◦ pour les commandes R, on utilisera dorénavant la librairie sampling.

C. Chesneau 12
2 Plan de sondage aléatoire simple sans remise (PESR)

Taux de sondage :

On appelle taux de sondage le réel :


n
f= .
N

Probabilités d’appartenance :

◦ pour tout i ∈ {1, . . . , N }, la probabilité que l’individu ui appartienne à W est

n
P(ui ∈ W ) = (= f ).
N

◦ pour tout (i, j) ∈ {1, . . . , N }2 avec i 6= j, la probabilité que les individus ui et uj appartiennent
à W est
n(n − 1)
P((ui , uj ) ∈ W ) = .
N (N − 1)

Preuve :

◦ Par la définition de la probabilité uniforme, on a

Card({ui ∈ W })
P(ui ∈ W ) = .
Card(Ω)

On a Card(Ω) = N
. Il reste à calculer Card({ui ∈ W }). Le nombre de possibilités pour que ui soit

n

dans l’échantillon est égal au nombre de possibilités de prélever n − 1 individus parmi les N − 1 autres
−1
que ui . D’où Card({ui ∈ W }) = N n−1 . On en déduit que


N −1
 (N −1)!
n−1 (n−1)!((N −1)−(n−1))! n! (N − 1)! n
P(ui ∈ W ) = N
= N!
= = .
(n − 1)! N !

n n!(N −n)!
N

◦ Avec un raisonnement similaire, on a

Card({(ui , uj ) ∈ W })
P((ui , uj ) ∈ W ) = .
Card(Ω)

On a Card(Ω) = N
. Il reste à calculer Card({(ui , uj ) ∈ W }).

n

Le nombre de possibilités pour que ui et uj soient dans l’échantillon est égal au nombre de possibilités
pour prélever simultanément n − 2 individus parmi les N − 2 autres que ui et uj .

C. Chesneau 13
2 Plan de sondage aléatoire simple sans remise (PESR)

N −2
D’où Card({(ui , uj ) ∈ W }) = . On en déduit que

n−2

N −2
 (N −2)!
n−2 (n−2)!((N −2)−(n−2))! n! (N − 2)! n(n − 1)
P((ui , uj ) ∈ W ) = N
= N!
= = .
(n − 2)! N ! N (N − 1)

n n!(N −n)!

2.2 Estimateurs

Estimation aléatoire de y U :

Un estimateur aléatoire de y U est

N
1X
yW = yi 1{ui ∈W } ,
n i=1


1
 si l’événement A est réalisé,
où 1 désigne la fonction indicatrice définie par : 1A =
0 sinon.

Remarques : On peut également écrire cet estimateur

◦ sous la forme :
1X
yW = yi ,
n
i∈S

où S = {(i1 , . . . , in ) ∈ {1, . . . , N }n , i1 6= . . . 6= in ; ui1 ∈ W, . . . , uin ∈ W },

◦ sous la forme :
N n
1X X
yW = yi 1{Wm =ui } ,
n i=1 m=1

où Wm est la var égale au m-ème individu de l’échantillon.

En effet, comme W = (W1 , . . . , Wn ) et tous les individus sont différents, on a


n
1{Wm =ui } = 1{ui ∈W } .
P
m=1
On peut montrer que, pour tout i ∈ {1, . . . , N } et m ∈ {1, . . . , n}, on a P(ui ∈ Wm ) = 1/N .

Espérance de y W :

L’estimateur y W est sans biais pour y U :

E(y W ) = y U .

C. Chesneau 14
2 Plan de sondage aléatoire simple sans remise (PESR)

Preuve : On propose deux preuves différentes :

Preuve I : En utilisant la linéarité de l’espérance, E (1A ) = P(A) et P(ui ∈ W ) = n/N , il vient

N
! N
1X 1X 
E(y W ) = E yi 1{ui ∈W } = yi E 1{ui ∈W }
n i=1 n i=1
N N N
1X 1X n 1 X
= yi P(ui ∈ W ) = yi = yi = y U .
n i=1 n i=1 N N i=1

Preuve II : On pose M = N
et W (Ω) = {ω1 , . . . , ωM }, où, pour tout m ∈ {1, . . . , M }, ωm désigne un

n

échantillon de n individus de U . La formule du transfert donne :

M M M N
X 1 X 1 X 1X
E(y W ) = y ωm P(W = ωm ) = N  y ωm = N  yi 1{ui ∈ωm }
m=1 n m=1 n m=1
n i=1
N M
1 X X
= N
 yi 1{ui ∈ωm } .
n n i=1 m=1

Comme il y a autant d’échantillons contenant ui que de possibilités pour prélever simultanément n−1
M
−1
individus parmi les N − 1 autres que ui , on a 1{ui ∈ωm } = N n−1 . Donc
P 
m=1

N −1 X N
 (N −1)! N N
n−1 (n−1)!((N −1)−(n−1))!
X 1 X
E(y W ) = yi = yi = yi = y U .
n N n n!(NN−n)!
!

n i=1 i=1
N i=1

Variance de y W :

La variance de y W est
s2U
V(y W ) = (1 − f ) .
n

Preuve : Par la formule de la variance d’une somme de var, on obtient

N
! N
!
1X 1 X
V(y W ) = V yi 1{ui ∈W } = 2 V yi 1{ui ∈W }
n i=1 n i=1
 
N N Xi−1
1 X  X 
= 2 V yi 1{ui ∈W } + 2 C yi 1{ui ∈W } , yj 1{uj ∈W } 
n i=1 i=2 j=1
 
N N X i−1
1 X X
yi2 V 1{ui ∈W } + 2
 
= 2 yi yj C 1{ui ∈W } , 1{uj ∈W }  .
n i=1 i=2 j=1

C. Chesneau 15
2 Plan de sondage aléatoire simple sans remise (PESR)

Or, en utilisant P(ui ∈ W ) = n/N , on a

  2 2
V 1{ui ∈W } = E 12{ui ∈W } − E 1{ui ∈W }

= P(ui ∈ W ) − (P(ui ∈ W ))
n  n 2 n  n
= − = 1− .
N N N N

De plus, comme P({ui ∈ W } ∩ {uj ∈ W }) = P((ui , uj ) ∈ W ) = n(n − 1)/(N (N − 1)), il vient

   
C 1{ui ∈W } , 1{uj ∈W } = E 1{ui ∈W } 1{uj ∈W } − E 1{ui ∈W } E 1{uj ∈W }

= P({ui ∈ W } ∩ {uj ∈ W }) − P(ui ∈ W )P(uj ∈ W )


 
n(n − 1)  n 2 n n−1 n
= − = − .
N (N − 1) N N N −1 N

En combinant ces égalités, on obtient


 
N   N i−1
1 n  n X 2 n n−1 n XX
V(y W ) = 2 1− y +2 − yi yj 
n N N i=1 i N N − 1 N i=2 j=1
  
N   N i−1
1  n X 2 n−1 n  XX
= 1− y + − 2 yi yj  .
nN N i=1 i N −1 N i=2 j=1

En utilisant la décomposition :

N X
i−1 N
!2 N
X X X
2 yi yj = yi − yi2 ,
i=2 j=1 i=1 i=1

on obtient

N  

N
!2 N

1  n X 2 n−1 n  X X
V(y W ) = 1− y + − yi − yi2 
nN N i=1 i N −1 N i=1 i=1

 X N   N
!2 
1  n n−1 n n − 1 n X
= 1− − + y2 + − yi 
nN N N − 1 N i=1 i N −1 N i=1
2
 ! 
N N
1 N − n X 2 N −n X
= yi − yi 
nN N − 1 i=1 N (N − 1) i=1
 
N N
!2 
N − n  1 X 2 1 X
= y −N yi  .
nN N − 1 i=1 i N i=1

C. Chesneau 16
2 Plan de sondage aléatoire simple sans remise (PESR)

D’autre part, on a

N N N
!
1 X 1 X X
s2U = (yi − y U )2 = yi2 − 2y U yi + N y 2U
N − 1 i=1 N −1 i=1 i=1
N
! N
!
1 X 1 X
= yi2 − 2N y 2U + N y 2U = yi2 − N y 2U
N −1 i=1
N −1 i=1

N N
!2 
1 X 1 X
=  yi2 − N yi .
N −1 i=1
N i=1

Il s’ensuit

N −n 2  n  s2U s2
V(y W ) = sU = 1 − = (1 − f ) U .
nN N n n

Erreur quadratique moyenne de y W :

L’erreur quadratique moyenne de y W est le réel :

s2
EQM (y W )[P ESR] = E (y W − y U )2 = (1 − f ) U .

n

La quantité EQM (y W )[P ESR] est une mesure de l’erreur que commet y W dans l’estimation de y U .

On constate que :

◦ plus n est grand/l’échantillon est grand, plus y W estime bien y U ,

◦ plus U est homogène/plus s2U est petit, plus y W estime bien y U .

Estimation aléatoire de sU :

Un estimateur aléatoire de sU est


v
u N
u 1 X
sW =t (yi − y W )2 1{ui ∈W } .
n − 1 i=1

Propriété de s2W :

L’estimateur s2W est sans biais pour s2U :

E s2W = s2U .


C. Chesneau 17
2 Plan de sondage aléatoire simple sans remise (PESR)

N
Preuve : En remarquant que 1{ui ∈W } = n, il vient
P
i=1

N
1 X
s2W = (yi − y W )2 1{ui ∈W }
n − 1 i=1
N N N
!
1 X X X
= yi2 1{ui ∈W } − 2y W yi 1{ui ∈W } + y 2W 1{ui ∈W }
n−1 i=1 i=1 i=1
N
! N
!
1 X 1 X
= yi2 1{ui ∈W } − 2ny 2W + ny 2W = yi2 1{ui ∈W } − ny 2W .
n−1 i=1
n−1 i=1

On a P(ui ∈ W ) = n/N et

2 s2
E y 2W = V (y W ) + (E (y W )) = (1 − f ) U + y 2U .

n

D’où

N
!! N
!
1 X 1 X
E s2W = E yi2 1{ui ∈W } − ny 2W yi2 E 1{ui ∈W } − nE y 2W
  
=
n−1 i=1
n−1 i=1
N
!
1 X
yi2 P (ui ∈ W ) − nE y 2W

=
n−1 i=1
N !
s2U

1 n X 2 2
= y − n (1 − f ) + yU
n−1 N i=1 i n
N
! !
1 n X 2 2
 n 2
= y − N yU − 1 − s
n − 1 N i=1 i N U
N
!!
n(N − 1) 1 X 1  n 2
= yi2 − N y 2U − 1− s .
(n − 1)N N − 1 i=1 n−1 N U

Or

N N N
!
1 X 1 X X
s2U = (yi − y U )2 = yi2 − 2y U yi + N y 2U
N − 1 i=1 N −1 i=1 i=1
N
! N
!
1 X 1 X
= yi2 − 2N y 2U + N y 2U = yi2 − N y 2U .
N −1 i=1
N −1 i=1

C. Chesneau 18
2 Plan de sondage aléatoire simple sans remise (PESR)

Par conséquent,

 n(N − 1) 2 1  n 2
E s2W = sU − 1− s
(n − 1)N n−1 N U
n(N − 1) − N + n 2 nN − n − N + n 2 (n − 1)N 2
= sU = sU = s = s2U .
(n − 1)N (n − 1)N (n − 1)N U

2.3 Estimations ponctuelles

Estimation ponctuelle de y U :

Soit ω un échantillon de n individus de U . Une estimation ponctuelle de y U est la moyenne-


échantillon :
N
1X
yω = yi 1{ui ∈ω} .
n i=1

Quelques commandes R : Un exemple de calcul de y ω avec R est décrit ci-dessous :

U = c("Bob", "Nico", "Ali", "Fabien", "Malik", "John", "Jean", "Chris", "Karl")


y = c(72, 89, 68, 74, 81, 87, 76, 61, 84)
n = 3
library(sampling)
t = srswor(n, 9)
bar_y_w = (1 / n) * sum(y * t)
bar_y_w

Erreur d’estimation :

Soit ω un échantillon de n individus de U . L’erreur d’estimation que commet y ω en estimant y U est


le réel :
eω = |y ω − y U |.

Probabilité d’erreur :

La probabilité de se tromper de plus de (100 × β)%, β ∈]0, 1[, en estimant y U par y W est le réel :

1 X
pβ = N
 1{eω ≥βyU } .
n ω∈W (Ω)

C. Chesneau 19
2 Plan de sondage aléatoire simple sans remise (PESR)

Estimation ponctuelle de sU :

Soit ω un échantillon de n individus de U . Une estimation ponctuelle de sU est l’écart-type corrigé-


échantillon : v
u N
u 1 X
sω = t (yi − y ω )2 1{ui ∈ω} .
n − 1 i=1

Tout comme la moyenne-population, on peut aussi s’intéresser à l’erreur d’estimation et la probabilité


d’erreur, lesquelles se définissent de manière similaire.

Quelques commandes R : Un exemple de calcul de sω avec R est décrit ci-dessous :

U = c("Bob", "Nico", "Ali", "Fabien", "Malik", "John", "Jean", "Chris", "Karl")


y = c(72, 89, 68, 74, 81, 87, 76, 61, 84)
n = 3
library(sampling)
t = srswor(n, 9)
bar_y_w = (1 / n) * sum(y * t)
s_w = sqrt(sum((y - bar_y_w)^2 * t) / (n - 1))
s_w

Estimation ponctuelle de l’écart-type de y W :

Soit ω un échantillon de n individus de U . Une estimation ponctuelle de l’écart-type de y W est le


réel : r
s2ω
s(y ω ) = (1 − f ) .
n

2.4 Intervalles de confiance

Résultat limite (Théorème de Hajek) : Si n, N et N − n sont suffisamment grands, alors on a

y − yU
Z=qW ≈ N (0, 1).
s2
(1 − f ) nW

C. Chesneau 20
2 Plan de sondage aléatoire simple sans remise (PESR)

Intervalle de confiance pour y U :

Soit ω un échantillon de n individus de U . Un intervalle de confiance pour y U au niveau 100(1 − α)%,


α ∈]0, 1[, est

iyU = [y ω − zα s(y ω ), y ω + zα s(y ω )]


" r r #
s2ω s2ω
= y ω − zα (1 − f ) , y ω + zα (1 − f ) ,
n n

où zα est le réel vérifiant P(|Z| ≥ zα ) = α, Z ∼ N (0, 1).

Il y a 100(1 − α) chances sur 100 que y U appartienne à l’intervalle iyU .

Quelques commandes R : Un exemple de fonction R pour calculer l’intervalle de confiance pour y U au


niveau 100(1 − α)% est décrit ci-dessous :

icPESR = function(y, N, niveau) {


n = length(y)
bar_y_w = mean(y)
z = qnorm(1 - (1 - niveau) / 2)
s2_w = sd(y)^2
var_bar_y_w = (1 - n / N) * (s2_w / n)
a = bar_y_w - z * sqrt(var_bar_y_w)
b = bar_y_w + z * sqrt(var_bar_y_w)
print(c(a, b)) }
icPESR(y = c(2.1, 2.3, 4.1, 2.6, 7.1, 8.6), N = 100, niveau = 0.95)

Cela renvoie : 2.329876, 6.603457.

2.5 Taille d’échantillon

Incertitude absolue :

Soit ω un échantillon de n individus de U . On appelle incertitude absolue sur y U au niveau 100(1 −


α)%, α ∈]0, 1[, la demi-longueur de iyU :

r
s2ω
dω = zα s(y ω ) = zα (1 − f ) .
n

Plus dω est petit, plus l’estimation de y U par y ω est précise.

C. Chesneau 21
2 Plan de sondage aléatoire simple sans remise (PESR)

Incertitude relative :

Soit ω un échantillon de n individus de U et dω l’incertitude absolue sur y U au niveau 100(1 − α)%,


α ∈]0, 1[. On appelle incertitude relative sur y U au niveau 100(1 − α)% le pourcentage (100 × d∗ω )%
où d∗ω est le réel :

d∗ω = .

Taille d’échantillon :

Soit ω un échantillon prélevé lors d’une étude préliminaire. La taille d’échantillon n à choisir pour
avoir :

◦ une incertitude absolue sur y U au niveau 100(1 − α)%, α ∈]0, 1[, inférieure ou égale à d0 est le
plus petit n tel que
N zα2 s2ω
dω ≤ d0 ⇔ n≥ ,
N d20 + zα2 s2ω

◦ une incertitude relative sur y U au niveau 100(1−α)%, α ∈]0, 1[, inférieure ou égale à (100×d1 )%
est le plus petit n tel que

N zα2 s2ω
d∗ω ≤ d1 ⇔ n≥ .
N (y ω d1 )2 + zα2 s2ω

Quelques commandes R : Un exemple de fonction R pour calculer la taille n d’un échantillon à partir
de l’incertitude absolue sur y U au niveau 100(1 − α)% est décrit ci-dessous :

n_ech = function(N, s2, d0, niveau) {


z = qnorm(1 - (1 - niveau) / 2)
n = N * s2 * z^2 / (N * d0^2 + s2 * z^2)
print (ceiling(n)) }
n_ech(N = 1000, s2 = 625, d0 = 3, niveau = 0.95)

Cela renvoie 211.

2.6 Sélection des individus

Méthode du tri aléatoire : La méthode du tri aléatoire est un un plan de sondage aléatoire de type
PESR. Pour la mettre en œuvre,

◦ on génère N nombres x1 , . . . , xN (indépendamment des uns des autres) suivant la loi uniforme U([0, 1]),

C. Chesneau 22
2 Plan de sondage aléatoire simple sans remise (PESR)

◦ pour tout i ∈ {1, . . . , N }, on affecte à l’individu ui le nombre xi ,

◦ on sélectionne les n individus correspondant au n plus grandes valeurs de x1 , . . . , xN .

Quelques commandes R : Un exemple de commandes R sur la méthode du tri aléatoire est décrit ci-
dessous :

N = 100
n = 10
x = runif(N)
z = NULL
u = x
for (i in 1:10){
z[i] = [Link](u)
u[[Link](u)] = 0 }
z

2.7 Exercices corrigés

Exercice 1 : L’objectif de cet exercice est d’illustrer certains résultats théoriques du cours sur les plans de
sondage aléatoire de type PESR avec un exemple. On étudie un caractère Y dans une population de 5
individus : U = {u1 , . . . , u5 }. Pour tout i ∈ {1, . . . , 5}, soit yi la valeur de Y pour l’individu ui . Les
résultats sont :

y1 y2 y3 y4 y5
3 4 6 8 13

1. Calculer la moyenne-population y U et l’écart-type corrigé-population sU .

2. On prélève au hasard et simultanément 2 individus dans cette population formant ainsi un échantillon.
Chaque individu a la même probabilité qu’un autre d’être sélectionné. On est donc dans le cadre
PESR.

(a) Quel est est le taux de sondage ? Combien d’échantillons peut-on former ? Expliciter les.

(b) Pour chaque échantillon ω, calculer la moyenne-échantillon y ω et l’écart-type corrigé-échantillon


sω .

(c) Soit y W la var égale à la moyenne-échantillon, l’aléatoire étant dans l’échantillon considéré. Dé-
terminer sa loi, puis calculer son espérance et sa variance.

C. Chesneau 23
2 Plan de sondage aléatoire simple sans remise (PESR)

(d) Soit sW la var égale à l’écart-type corrigé-échantillon, l’aléatoire étant dans l’échantillon considéré.
Calculer l’espérance de s2W .

(e) Retrouver les résultats des deux questions précédentes avec les formules du cours.

(f) Calculer les erreurs dans l’estimation de y U .

(g) Quelle est la probabilité de se tromper de plus de 20% dans l’estimation de y U ?

Solution :

1. En prenant la moyenne et l’écart-type corrigé des données, on obtient

y U = 6.8, sU = 3.9623.

2. (a) Le taux de sondage est


n 2
f= = = 0.4.
N 5

Vu le mode de prélèvement, le nombre d’échantillons possibles est

 
5 5!
= = 10.
2 2!(5 − 2)!

Ils sont :

{u1 , u2 } {u1 , u3 } {u1 , u4 } {u1 , u5 } {u2 , u3 }


{u2 , u4 } {u2 , u5 } {u3 , u4 } {u3 , u5 } {u4 , u5 }

(b) On a, en prenant 4 chiffres après la virgule :

ω Y yω sω

{u1 , u2 } {3, 4} 3.5 0.7071


{u1 , u3 } {3, 6} 4.5 2.1213
{u1 , u4 } {3, 8} 5.5 3.5355
{u1 , u5 } {3, 13} 8 7.0710
{u2 , u3 } {4, 6} 5 1.4142
{u2 , u4 } {4, 8} 6 2.8284
{u2 , u5 } {4, 13} 8.5 6.3639
{u3 , u4 } {6, 8} 7 1.4142
{u3 , u5 } {6, 13} 9.5 4.9497
{u4 , u5 } {8, 13} 10.5 3.5355

C. Chesneau 24
2 Plan de sondage aléatoire simple sans remise (PESR)

(c) Soit y W la var égale à la moyenne-échantillon. L’ensemble des valeurs possibles pour y W est

y W (Ω) = {3.5, 4.5, 5.5, 8, 5, 6, 8.5, 7, 9.5, 10.5}.

Comme il y a 10 échantillons différents et qu’ils sont équiprobables, la loi de y W est donnée par

k 3.5 4.5 5.5 8 5 6 8.5 7 9.5 10.5


1 1 1 1 1 1 1 1 1 1
P(y W = k) 10 10 10 10 10 10 10 10 10 10

En utilisant la loi de y W , l’espérance de y W est

X
E(y W ) = kP(y W = k)
k∈y W (Ω)
1
= (3.5 + 4.5 + 5.5 + 8 + 5 + 6 + 8.5 + 7 + 9.5 + 10.5)
10
= 6.8.

En utilisant la formule de König-Huyghens, la variance de y W est

2
V(y W ) = E(y 2W ) − (E(y W )) .

Or on a E(y W ) = 6.8 et

X
E(y 2W ) = k 2 P(y W = k)
k∈y W (Ω)
1
= (3.52 + 4.52 + 5.52 + 82 + 52 + 62 + 8.52 + 72 + 9.52 + 10.52 )
10
= 50.95.

D’où
V(y W ) = 50.95 − 6.82 = 4.71.

(d) Soit sW la var égale à l’écart-type corrigé-échantillon. L’ensemble des valeurs possibles pour sW
est
sW (Ω) = {0.7071, 1.4142, 2.1213, 2.8284, 3.5355, 4.9497, 6.3639, 7.0710}.

C. Chesneau 25
2 Plan de sondage aléatoire simple sans remise (PESR)

Comme il y a 10 échantillons différents et qu’ils sont équiprobables, la loi de sW est donnée par

k 0.7071 1.4142 2.1213 2.8284 3.5355 4.9497 6.3639 7.0710


1 2 1 1 2 1 1 1
P(sW = k) 10 10 10 10 10 10 10 10

En utilisant la loi de s2W , l’espérance de s2W est

X
E(s2W ) = k 2 P(sW = k)
k∈sW (Ω)
1
= (0.70712 + 2 × 1.41422 + 2.12132 + 2.82842 + 2 × 3.53552 + 4.94972
10
+ 6.36392 + 7.07102 )

= 15.6997.

(e) En utilisant les formules du cours, on retrouve les résultats précédents (en prenant en compte les
approximations) :

s2U 3.96232
E(y W ) = y U = 6.8, V(y W ) = (1 − f ) = (1 − 0.4) = 4.71
n 2

et

E(s2W ) = s2U = 15.6998.

(f) On utilise la formule d’erreur d’estimation :

eω = |y ω − y U | = |y ω − 6.8|.

C. Chesneau 26
2 Plan de sondage aléatoire simple sans remise (PESR)

On a, en prenant 4 chiffres après la virgule :

ω yω eω

{u1 , u2 } 3.5 3.3


{u1 , u3 } 4.5 2.3
{u1 , u4 } 5.5 1.3
{u1 , u5 } 8 1.2
{u2 , u3 } 5 1.8
{u2 , u4 } 6 0.8
{u2 , u5 } 8.5 1.7
{u3 , u4 } 7 0.2
{u3 , u5 } 9.5 2.7
{u4 , u5 } 10.5 3.7

(g) On a 20% = (100 × β)% avec β = 0.2. Le nombre de eω dépassant

β × y U = 0.2 × 6.8 = 1.36 est de 6. Donc la probabilité de se tromper de plus de (100 × β)% dans
l’estimation de y U par y W est

1 X 6
p= N
 1{eω ≥β×yU } = = 0.6.
n
10
ω∈W (Ω)

Il y a 60% chances de se tromper de plus de 20% en estimant y U par y W .

Exercice 2 : On prélève 25 sacs de farine de maïs dans une usine en contenant 200 suivant un plan de
sondage aléatoire de type PESR. On pèse ces 25 sacs. Les valeurs obtenues donnent une moyenne de 13.5
kilogrammes et un écart-type corrigé de 1.3 kilogrammes.

Déterminer un intervalle de confiance pour la moyenne des poids des 200 sacs de farine de maïs au niveau
95%.

Solution : On a 95% = 100(1 − α)% avec α = 0.05. On a P(|Z| ≥ zα ) = α = 0.05, Z ∼ N (0, 1), avec
zα = 1.96.

C. Chesneau 27
2 Plan de sondage aléatoire simple sans remise (PESR)

Un intervalle de confiance pour la moyenne des poids des 200 sacs de farine y U au niveau 95% est
" r r #
s2ω s2ω
iyU = y ω − zα (1 − f ) , y ω + zα (1 − f )
n n
" s s #
25 1.32 25 1.32
 
= 13.5 − 1.96 1− , 13.5 + 1.96 1−
200 25 200 25

= [13.0233, 13.9766].

Ainsi, il y a 95 chances sur 100 que [13.0233, 13.9766] contienne y U , l’unité étant le kilogramme.

Exercice 3 : On dispose d’une liste de 500 foyers avec, pour chacun d’entre eux, le nombre d’individus
y vivant. Sur un échantillon de 8 foyers constitué par un plan de sondage aléatoire de type PESR, les
résultats sont :

3 6 1 2 4 4 1 8

1. Calculer le taux de sondage.

2. Donner une estimation ponctuelle de la moyenne des effectifs des 500 foyers.

3. Donner une estimation ponctuelle de l’écart-type corrigé de l’estimateur de la moyenne des effectifs
des 500 foyers.

4. Déterminer un intervalle de confiance au niveau 95% pour la moyenne-population.

5. Déterminer la taille d’échantillon à choisir pour avoir une incertitude absolue sur la moyenne-population
inférieure ou égale à 1 au niveau 95%.

Solution :

1. On a n = 8 et N = 500. Le taux de sondage est

n 8
f= = = 0.016.
N 500

2. Une estimation ponctuelle de la moyenne des effectifs des 500 foyers est la moyenne échantillon :

y ω = 3.625.

3. Une estimation ponctuelle de l’écart-type corrigé de l’estimateur de la moyenne des effectifs des 500
foyers est r r
s2 2.44582
s(y ω ) = (1 − f ) ω = (1 − 0.016) = 0.8577.
n 8

C. Chesneau 28
2 Plan de sondage aléatoire simple sans remise (PESR)

4. On a 95% = 100(1 − α)% avec α = 0.05. On a P(|Z| ≥ zα ) = α = 0.05, Z ∼ N (0, 1), avec zα = 1.96.
Un intervalle de confiance pour y U au niveau 95% est

iyU = [y ω − zα s(y ω ), y ω + zα s(y ω )]

= [3.625 − 1.96 × 0.8577, 3.625 + 1.96 × 0.8577]

= [1.9439, 5.3060].

Ainsi, il y a 95 chances sur 100 que [1.9439, 5.3060] contienne y U .

5. On a 95% = 100(1 − α)% avec α = 0.05. On souhaite déterminer le plus petit n tel que :

r
s2ω N zα2 s2ω
dω = zα (1 − f ) ≤ d0 ⇔ n≥ ,
n N d20 + zα2 s2ω

avec d0 = 1, zα = 1.96, ω est l’échantillon considéré précédemment, sω = 2.4458 et N = 500. On a

500 × 1.962 × 2.44582


= 21.97044.
500 × 12 + 1.962 × 2.44582

Donc n = 22 convient.

C. Chesneau 29
2 Plan de sondage aléatoire simple sans remise (PESR)

2.8 Synthèse

Paramètres-population et les paramètres-échantillon correspondants :

Population U Échantillon ω

Taille N n

n
Taux de sondage  f=
N
N N
1 X 1X
Moyenne yU = yi yω = yi 1{ui ∈ω}
N i=1 n i=1
v v
u N u N
u 1 X u 1 X
Écart-type corrigé sU = t (yi − y U )2 sω = t (yi − y ω )2 1{ui ∈ω}
N − 1 i=1 n − 1 i=1
r r
s2 s2ω
Écart-type de y W σ(y W ) = (1 − f ) U s(y ω ) = (1 − f )
n n

Autre notions utilisées autour de y U (niveau : 100(1 − α)%, α ∈]0, 1[) :


" r r #
s2 s2
Intervalle de confiance iyU = y ω − zα (1 − f ) ω , y ω + zα (1 − f ) ω
n n
r
s2
Incertitude absolue dω = zα (1 − f ) ω
n


Incertitude relative d∗ω =

N zα2 s2ω
Taille n telle que dω ≤ d0 n≥
N d20 + zα2 s2ω

N zα2 s2ω
Taille n telle que d∗ω ≤ d1 n≥
N (y ω d1 )2 + zα2 s2ω

Rappel : P(|Z| ≥ zα ) = α, Z ∼ N (0, 1).

C. Chesneau 30
3 Total, proportion et effectif dans le cadre PESR

3 Total, proportion et effectif dans le cadre PESR

On reprend le cadre mathématique d’un plan de sondage aléatoire de type PESR.

3.1 Estimation du total

Total :

On appelle total-population le réel :

N
X
τU = yi = N y U .
i=1

Estimation aléatoire de τU :

Un estimateur aléatoire de τU est

N
1X
τW = N y W = N yi 1{ui ∈W } .
n i=1

Espérance de τW :

L’estimateur τW est sans biais pour τU :

E(τW ) = τU .

Preuve : Comme E(y W ) = y U , on a

E(τW ) = E(N y W ) = N E(y W ) = N y U = τU .

Variance de τW :

La variance de τW est
s2U
V(τW ) = N 2 (1 − f ) .
n

Preuve : Comme V(y W ) = (1 − f )s2U /n, on a

s2U
V(τW ) = V(N y W ) = N 2 V(y W ) = N 2 (1 − f ) .
n

C. Chesneau 31
3 Total, proportion et effectif dans le cadre PESR

Erreur quadratique moyenne de τW :

L’erreur quadratique moyenne de τW est le réel :

s2U
EQM (τW )[P ESR] = N 2 (1 − f ) .
n

Estimation ponctuelle de τU :

Soit ω un échantillon de n individus de U . Une estimation ponctuelle de τU est le total-échantillon :

N
1X
τω = N y ω = N yi 1{ui ∈ω} .
n i=1

Estimation ponctuelle de l’écart-type de τW :

Soit ω un échantillon de n individus de U . Une estimation ponctuelle de l’écart-type de τW est le


réel : r
s2ω
s(τω ) = N 2 (1 − f ) .
n

Intervalle de confiance pour τU :

Soit ω un échantillon de n individus de U . Un intervalle de confiance pour τU au niveau 100(1 − α)%,


α ∈]0, 1[, est

iτU = [τω − zα s(τω ), τω + zα s(τω )]


" r r #
2
s2ω 2
s2ω
= τω − zα N (1 − f ) , τω + zα N (1 − f ) = N × iy U ,
n n

où zα est le réel vérifiant P(|Z| ≥ zα ) = α, Z ∼ N (0, 1).

On peut également définir l’incertitude absolue ou relative sur τU , ainsi que la taille d’échantillon sou-
haitée pour une incertitude donnée.

C. Chesneau 32
3 Total, proportion et effectif dans le cadre PESR

3.2 Estimation d’une proportion

Contexte : On suppose que le caractère Y est binaire : Y (Ω) = {0, 1}. Cela correspond à un codage.

Par exemple, Y = 1 peut caractériser :


◦ le succès à une épreuve,
◦ la présence d’un élément caractéristique.
Ainsi, les données brutes y1 , . . . , yN sont constituées uniquement de 0 et de 1.

Proportion :

On appelle proportion-population la proportion des individus dans U vérifiant Y = 1 :

N
1 X
pU = yi (= y U ).
N i=1

Estimation d’une proportion :

Un estimateur aléatoire de pU est

N
1X
pW = y W = yi 1{ui ∈W } .
n i=1

Espérance de pW :

L’estimateur pW est sans biais pour pU :

E(pW ) = pU .

Variance de pW :

La variance de pW est

s2U N
V(pW ) = (1 − f ) = (1 − f ) pU (1 − pU ).
n n(N − 1)

Preuve : Comme yi ∈ {0, 1} pour tout i ∈ {1, . . . , N }, on a yi2 = yi et

N N N
!
1 X N 1 X 1 X
s2U = (yi − y U )2 = y 2 − 2y U yi + y 2U
N − 1 i=1 N − 1 N i=1 i N i=1

N N
!2 
N 1 X 1 X N N
= yi − yi  = (pU − p2U ) = pU (1 − pU ).
N − 1 N i=1 N i=1 N −1 N −1

C. Chesneau 33
3 Total, proportion et effectif dans le cadre PESR

Erreur quadratique moyenne de pW :

L’erreur quadratique moyenne de pW est le réel :

N
EQM (pW )[P ESR] = (1 − f ) pU (1 − pU ).
n(N − 1)

Estimation ponctuelle de pU :

Soit ω un échantillon de n individus de U . Une estimation ponctuelle de pU est la proportion-


échantillon :
N
1X
pω = y ω = yi 1{ui ∈ω} .
n i=1

Estimation ponctuelle de l’écart-type de pW :

Soit ω un échantillon de n individus de U . Une estimation ponctuelle de l’écart-type de pW est le


réel : r
pω (1 − pω )
s(pω ) = (1 − f ) .
n−1

Intervalle de confiance pour pU :

Soit ω un échantillon de n individus de U . Un intervalle de confiance pour pU au niveau 100(1 − α)%,


α ∈]0, 1[, est

ipU = [pω − zα s(pω ), pω + zα s(pω )]


" r r #
pω (1 − pω ) pω (1 − pω )
= pω − zα (1 − f ) , pω + zα (1 − f ) ,
n−1 n−1

où zα est le réel vérifiant P(|Z| ≥ zα ) = α, Z ∼ N (0, 1).

C. Chesneau 34
3 Total, proportion et effectif dans le cadre PESR

Quelques commandes R : Un exemple de fonction R pour calculer l’intervalle de confiance pour pU au


niveau 100(1 − α)% est décrit ci-dessous :

icPESR = function(y, N, niveau) {


n = length(y)
p_w = mean(y)
z = qnorm(1 - (1 - niveau) / 2)
var_p_w = (1 - n / N) * (p_w * (1 - p_w) / (n - 1))
a = p_w - z * sqrt(var_p_w)
b = p_w + z * sqrt(var_p_w)
print(c(a, b)) }
icPESR(y = c(0, 1, 0, 0, 1, 0, 1, 1, 0, 1, 1, 1, 0), N = 100, niveau = 0.90)

Cela renvoie : 0.3176725, 0.7592506.

Incertitude absolue :

Soit ω un échantillon de n individus de U . On appelle incertitude absolue sur pU au niveau 100(1 −


α)%, α ∈]0, 1[, la demi-longueur de ipU :

r
pω (1 − pω )
dω = zα s(pω ) = zα (1 − f ) .
n−1

Plus dω est petit, plus l’estimation de pU par pω est précise.

Incertitude relative :

Soit ω un échantillon de n individus de U et dω l’incertitude absolue sur pU au niveau 100(1 − α)%,


α ∈]0, 1[. On appelle incertitude relative sur pU au niveau 100(1 − α)% le pourcentage (100 × d∗ω )%
où d∗ω est le réel :

d∗ω = .

C. Chesneau 35
3 Total, proportion et effectif dans le cadre PESR

Taille d’échantillon :

Soit ω un échantillon prélevé lors d’une étude préliminaire. La taille d’échantillon n à choisir pour
avoir :

◦ une incertitude absolue sur pU au niveau 100(1 − α)%, α ∈]0, 1[, inférieure ou égale à d0 est le
plus petit n tel que

N zα2 pω (1 − pω )
dω ≤ d0 ⇒ n≥ ,
N d20 + zα2 pω (1 − pω )

◦ une incertitude relative sur pU au niveau 100(1−α)%, α ∈]0, 1[, inférieure ou égale à (100×d1 )%
est le plus petit n tel que

N zα2 pω (1 − pω )
d∗ω ≤ d1 ⇒ n≥ .
N (pω d1 )2 + zα2 pω (1 − pω )

On peut aussi remplacer pω (1 − pω ) par 1/4, ce qui évite une étude avec un échantillon préliminaire pour
l’incertitude absolue.

Quelques commandes R : Un exemple de fonction R pour calculer la taille n d’un échantillon à partir
de l’incertitude absolue sur pU au niveau 100(1 − α)% est décrit ci-dessous :

n_ech = function(N, p_w, d0, niveau) {


z = qnorm(1 - (1 - niveau) / 2)
n = N * p_w * (1 - p_w) * z^2 / (N * d0^2 + p_w * (1 - p_w) * z^2)
print(ceiling(n)) }
n_ech(N = 1000, p_w = 0.45, d0 = 0.2, niveau = 0.95)

Cela renvoie 24.

C. Chesneau 36
3 Total, proportion et effectif dans le cadre PESR

3.3 Estimation d’un effectif

Contexte : On suppose que le caractère Y est binaire : Y (Ω) = {0, 1}. Cela correspond à un codage.

Effectif :

On appelle effectif-population le nombre des individus dans U vérifiant Y = 1 :

ηU = N p U .

Estimation aléatoire de ηU :

Un estimateur aléatoire de ηU est

N
1X
ηW = N pW = N yi 1{ui ∈W } .
n i=1

Espérance de ηW :

L’estimateur ηW est sans biais pour ηU :

E(ηW ) = ηU .

Preuve : Comme E(pW ) = pU , on a

E(ηW ) = E(N pW ) = N E(pW ) = N pU = ηU .

Variance de ηW :

La variance de ηW est
N
V(ηW ) = N 2 (1 − f ) pU (1 − pU ).
n(N − 1)

Preuve : Comme V(pW ) = (1 − f )(N/n(N − 1))pU (1 − pU ), on a

N
V(ηW ) = V(N pW ) = N 2 V(pW ) = N 2 (1 − f ) pU (1 − pU ).
n(N − 1)

C. Chesneau 37
3 Total, proportion et effectif dans le cadre PESR

Erreur quadratique moyenne de ηW :

L’erreur quadratique moyenne de τW est le réel :

N
EQM (ηW )[P ESR] = N 2 (1 − f ) pU (1 − pU ).
n(N − 1)

Estimation ponctuelle de ηU :

Soit ω un échantillon de n individus de U . Une estimation ponctuelle de ηU est le total-échantillon :

N
1X
ηω = N pω = N yi 1{ui ∈ω} .
n i=1

Estimation ponctuelle de l’écart-type de ηW :

Soit ω un échantillon de n individus de U . Une estimation ponctuelle de l’écart-type de ηW est le


réel : r
pω (1 − pω )
s(ηω ) = N 2 (1 − f ) .
n−1

Intervalle de confiance pour ηU :

Soit ω un échantillon de n individus de U . Un intervalle de confiance pour ηU au niveau 100(1 − α)%,


α ∈]0, 1[, est

iηU = [ηω − zα s(ηω ), ηω + zα s(ηω )]


" r r #
pω (1 − p ω ) pω (1 − pω )
= ηω − zα N 2 (1 − f ) , ηω + zα N 2 (1 − f ) = N × ipU ,
n−1 n−1

où zα est le réel vérifiant P(|Z| ≥ zα ) = α, Z ∼ N (0, 1).

On peut également définir l’incertitude absolue ou relative sur ηU , ainsi que la taille d’échantillon sou-
haitée pour une incertitude donnée.

C. Chesneau 38
3 Total, proportion et effectif dans le cadre PESR

3.4 Exercices corrigés

Exercice 1 : Sur un campus universitaire, un jour donné, on s’intéresse au total des montants dépensés
par les 1765 étudiants du campus pour le repas du midi. On note ce total τU . Sur un échantillon ω de
279 étudiants prélevé suivant un plan de sondage aléatoire de type PESR, on obtient : y ω = 4.25 € et
sω = 2.15 €.

1. Préciser le caractère étudié.

2. Calculer le taux de sondage.

3. Donner une estimation ponctuelle de τU .

4. Déterminer un intervalle de confiance pour τU au niveau 95%.

Solution :

1. On étudie le caractère Y = "dépense d’un étudiant du campus pour le repas du midi" en €.

2. Le taux de sondage est


n 279
f= = = 0.1580.
N 1765

3. Une estimation ponctuelle de τU est

τω = N y ω = 1765 × 4.25 = 7501.25.

4. On a 95% = 100(1 − α)% avec α = 0.05. On a P(|Z| ≥ zα ) = α = 0.05, Z ∼ N (0, 1), avec zα = 1.96.

Un intervalle de confiance pour τU au niveau 95% est


" r r #
s2ω s2ω
iτU = τω − zα N 2 (1 2
− f ) , τω + zα N (1 − f )
n n
" s
279 2.152
 
= 7501.25 − 1.96 17652 1 − ,
1765 279
s #
2
 
279 2.15
7501.25 + 1.96 17652 1 −
1765 279

= [7092.673, 7909.827].

Ainsi, il y a 95 chances sur 100 que [7092.673, 7909.827] contienne τU , l’unité étant le €.

C. Chesneau 39
3 Total, proportion et effectif dans le cadre PESR

Exercice 2 : Sur un campus universitaire de 1765 étudiants, un échantillon de 250 étudiants est prélevé
suivant un plan de sondage aléatoire de type PESR. Parmi ces 250 étudiants, 189 admettent regarder la
télévision plus de 1 heure par jour. On note pU la proportion des 1765 étudiants qui admettent cela.

1. Calculer le taux de sondage.

2. Donner une estimation ponctuelle de pU .

3. Déterminer un intervalle de confiance pour pU au niveau 95%.

4. Déterminer la taille d’échantillon à choisir pour avoir une incertitude relative sur pU inférieure ou
égale à 5% au niveau 95%.

Solution :

1. Le taux de sondage est


n 250
f= = = 0.1416.
N 1765

2. Une estimation ponctuelle de pU est


189
pω = = 0.756.
250

3. On a 95% = 100(1 − α)% avec α = 0.05. On a P(|Z| ≥ zα ) = α = 0.05, Z ∼ N (0, 1), avec zα = 1.96.
Un intervalle de confiance pour pU au niveau 95% est
" r r #
pω (1 − pω ) pω (1 − pω )
ipU = pω − zα (1 − f ) , pω + zα (1 − f )
n−1 n−1
" s 
250 0.756(1 − 0.756)
= 0.756 − 1.96 1− ,
1765 250 − 1
s  #
250 0.756(1 − 0.756)
0.756 + 1.96 1−
1765 250 − 1

= [0.7065, 0.8054].

Ainsi, il y a 95 chances sur 100 que [0.7065, 0.8054] contienne pU .

4. On a 95% = 100(1 − α)% avec α = 0.05. On souhaite déterminer le plus petit n tel que :

N zα2 pω (1 − pω )
d∗ω ≤ d1 ⇒ n≥ ,
N (pω d1 )2 + zα2 pω (1 − pω )

avec d1 = 0.05, zα = 1.96, ω est l’échantillon considéré précédemment, pω = 0.756 et N = 1765.

On a
1765 × 1.962 × 0.756(1 − 0.756)
n≥ = 387.1626.
1765 × (0.756 × 0.05)2 + 1.962 × 0.756(1 − 0.756)

C. Chesneau 40
3 Total, proportion et effectif dans le cadre PESR

Donc la taille d’échantillon à choisir pour avoir une incertitude relative sur pU inférieure ou égale à
5% au niveau 95% est de n = 388.

C. Chesneau 41
3 Total, proportion et effectif dans le cadre PESR

3.5 Synthèse : proportion

Paramètres-population et les paramètres-échantillon correspondants :

Population U Échantillon ω

Taille N n

n
Taux de sondage  f=
N
N N
1 X 1X
Proportion pU = yi pω = yi 1{ui ∈ω}
N i=1 n i=1
r r
N pω (1 − pω )
Écart-type de pW σ(pW ) = (1 − f ) pU (1 − pU ) s(pω ) = (1 − f )
n(N − 1) n−1

Autre notions utilisées autour de pU (niveau : 100(1 − α)%, α ∈]0, 1[) :


" r r #
pω (1 − pω ) pω (1 − pω )
Intervalle de confiance ipU = pω − zα (1 − f ) , pω + zα (1 − f )
n−1 n−1
r
pω (1 − pω )
Incertitude absolue dω = zα (1 − f )
n−1


Incertitude relative d∗ω =

N zα2 pω (1 − pω )
Taille n telle que dω ≤ d0 n≥
N d20 + zα2 pω (1 − pω )

N zα2 pω (1 − pω )
Taille n telle que d∗ω ≤ d1 n≥
N (pω d1 )2 + zα2 pω (1 − pω )

Rappel : P(|Z| ≥ zα ) = α, Z ∼ N (0, 1).

C. Chesneau 42
4 Plan de sondage aléatoire simple avec remise (PEAR)

4 Plan de sondage aléatoire simple avec remise (PEAR)

4.1 Contexte

Loi de probabilité :

On prélève un échantillon de n individus suivant un plan de sondage aléatoire simple avec remise
(PEAR pour Probabilités Egales Avec Remise) dans une population U . Soit W la var égale à l’échan-
tillon obtenu :
W = (W1 , . . . , Wn ),

où, pour tout m ∈ {1, . . . , n}, Wm est la var égale au m-ème individu de l’échantillon. Alors, pour
tout m ∈ {1, . . . , n}, la loi de Wi est donnée par

1
P(Wm = ui ) = , i ∈ {1, . . . , N },
N

où P désigne la probabilité uniforme.

Preuve : L’univers associé à cette expérience aléatoire est Ω = {u1 , . . . , uN }n . Comme Ω est fini et que
chaque individu a la même probabilité d’être prélevé, on considère la probabilité uniforme P :

Card({Wm = ui })
P(Wm = ui ) = .
Card(Ω)

On a Card(Ω) = N n . Les prélèvements étant avec remise, il y a N possibilités pour chacun des n − 1
individus autres que ui . Donc Card({Wm = ui }) = N n−1 . Il vient

N n−1 1
P(Wm = ui ) = = .
Nn N

Situation de référence : On prélève au hasard et avec remise n individus pour former un échantillon.
Chaque individu a la même probabilité qu’un autre d’être sélectionné.

Cette démarche est intéressante quand n est petit ou pour servir d’élément de comparaison avec une
situation de type PESR.

C. Chesneau 43
4 Plan de sondage aléatoire simple avec remise (PEAR)

Conditions habituelles d’estimation : Les formules habituelles d’estimation sont associées à un plan de
sondage aléatoire de type PEAR. Elles sont aussi utilisées dans le cas SR (Sans Remise) lorsque n est
beaucoup plus petit que N . Une convention existante est N ≥ 10n.

Quelques commandes R : Par exemple, pour faire un tirage avec remise de n = 20 individus dans une
population de N = 200 individus, on peut utiliser

◦ la commande sample :

sample(1:200, 20, replace = T)

◦ la commande srswr de la librairie sampling :

library(sampling)
t = srswr(20, 200)
x = 1:200
x[t != 0]

L’abréviation srswr signifie Simple Random Sampling With Replacement.

Précisons que t = srswr(20, 200) renvoie un vecteur de taille 200 constitué de chiffres entre 0 et 20.
Les chiffres non nuls m ∈ {1, . . . , 20} sont positionnés aux indices des individus prélevés m fois et les 0
aux autres.

Un autre exemple : on considère la population U constituée de N = 9 garçons et on prélève un échantillon


de n = 3 individus suivant un plan de sondage aléatoire de type PEAR :

U = c("Bob", "Nico", "Ali", "Fabien", "Malik", "John", "Jean", "Chris", "Karl")


library(sampling)
t = srswr(3, 9)
w = U[t != 0]
w

Dans la suite :

◦ pour les résultats, on considère un plan de sondage aléatoire de type PEAR et la var

W = (W1 , . . . , Wm ) égale à l’échantillon obtenu,

◦ pour les preuves, pour raison de simplicité, on se place dans la situation de référence.

C. Chesneau 44
4 Plan de sondage aléatoire simple avec remise (PEAR)

Probabilités d’appartenance :

◦ pour tout i ∈ {1, . . . , N },


 n
1
P(ui ∈ W ) = 1 − 1 − .
N

◦ pour tout (i, j) ∈ {1, . . . , N }2 avec i 6= j,

 n  n
1 2
P((ui , uj ) ∈ W ) = 1 − 2 1 − + 1− .
N N

Preuve :

◦ On a
P(ui ∈ W ) = 1 − P(ui 6∈ W ).

Par la définition de la probabilité uniforme, on a

Card({ui 6∈ W })
P(ui 6∈ W ) = .
Card(Ω)

On a Card(Ω) = N n . Il reste à calculer Card({ui 6∈ W }). Le nombre de possibilités pour que ui ne soit
pas dans l’échantillon est égal au nombre de possibilités de choisir, pour chacun des n prélèvements,
un individu parmi les N − 1 autres que ui . D’où Card({ui 6∈ W }) = (N − 1)n . On en déduit que

n
(N − 1)n

1
P(ui ∈
6 W) = = 1− .
Nn N

Au final, on a
 n
1
P(ui ∈ W ) = 1 − 1 − .
N

◦ La formule d’inclusion-exclusion donne

P((ui , uj ) ∈ W ) = P({ui ∈ W } ∩ {uj ∈ W })

= P(ui ∈ W ) + P(uj ∈ W ) − P({ui ∈ W } ∪ {uj ∈ W }).

Calculons chacune de ces probabilités. On a

 n
1
P(ui ∈ W ) = P(uj ∈ W ) = 1 − 1 − .
N

C. Chesneau 45
4 Plan de sondage aléatoire simple avec remise (PEAR)

D’autre part,

P({ui ∈ W } ∪ {uj ∈ W }) = 1 − P({ui ∈ W } ∪ {uj ∈ W }) = 1 − P({ui 6∈ W } ∩ {uj 6∈ W }).

Or
Card({ui 6∈ W } ∩ {uj 6∈ W })
P({ui 6∈ W } ∩ {uj 6∈ W }) = .
Card(Ω)

On a Card(Ω) = N n . Il reste à calculer Card({ui 6∈ W } ∩ {uj 6∈ W }). Le nombre de possibilités pour


que ui et uj ne soient pas dans l’échantillon est égal au nombre de possibilités de choisir, pour chacun
des n prélèvements, un individu parmi les N − 2 autres que ui et uj . D’où Card({ui 6∈ W } ∩ {uj 6∈
W }) = (N − 2)n . On en déduit que

n
(N − 2)n

2
P({ui ∈
6 W } ∩ {uj ∈
6 W }) = = 1− .
Nn N

Au final, on a

 n  n   n 
1 1 2
P((ui , uj ) ∈ W ) = 1 − 1 − +1− 1− − 1− 1−
N N N
 n  n
1 2
=1−2 1− + 1− .
N N

4.2 Estimateurs

Estimation aléatoire de y U :

Un estimateur aléatoire de y U est

N n
1X X
yW = yi 1{Wm =ui } .
n i=1 m=1

Remarques : On peut également écrire cet estimateur

◦ sous la forme :
1X
yW = yi ,
n
i∈S

où S = {(i1 , . . . , in ) ∈ {1, . . . , N }n ; ui1 ∈ W, . . . , uin ∈ W },

C. Chesneau 46
4 Plan de sondage aléatoire simple avec remise (PEAR)

◦ sous la forme :
n N
1 X X
yW = Zm , Zm = yi 1{Wm =ui } .
n m=1 i=1

On peut montrer que Z1 , . . . , Zn sont des var iid avec

N −1 2
E(Z1 ) = y U , V(Z1 ) = sU .
N

On est donc dans les conditions habituelles d’estimation en posant E(Z1 ) = y U = µ et V(Z1 ) =
((N − 1)/N )s2U = σ 2 .

Sous l’hypothèse que Y suit une loi normale et n ≥ 1, il est raisonnable de penser que Zm suit une
loi normale.

Espérance de y W :

L’estimateur y W est sans biais pour y U :

E(y W ) = y U .

Preuve : En utilisant la linéarité de l’espérance, E (1A ) = P(A) et P(Wm = ui ) = 1/N , il vient

N n
! N n
1X X 1X X 
E(y W ) = E yi 1{Wm =ui } = yi E 1{Wm =ui }
n i=1 m=1 n i=1 m=1
N n N N
1X X 1X n 1 X
= yi P(Wm = ui ) = yi = yi = y U .
n i=1 m=1 n i=1 N N i=1

Variance de y W :

La variance de y W est
N − 1 s2U
V(y W ) = .
N n

Preuve : Les prélèvements étant avec remise et P(Wm = ui ) = 1/N , les var 1{W1 =ui } , . . . , 1{Wn =ui } sont
iid. Par conséquent, on a

N n
! n X N
!
1X X 1 X
V(y W ) = V yi 1{Wm =ui }
= 2V yi 1{Wm =ui }
n i=1 m=1 n m=1 i=1
n N
! N
!
1 X X 1 X
= 2 V yi 1{Wm =ui } = V yi 1{W1 =ui } .
n m=1 i=1
n i=1

C. Chesneau 47
4 Plan de sondage aléatoire simple avec remise (PEAR)

En utilisant la formule de König-Huyghens et le fait que, pour tout (i, j) ∈ {1, . . . , N }2 avec i 6= j,
1{W1 =ui } 1{W1 =uj } = 0, on obtient

N
! 
N
!2  N
!!2
X X X
V yi 1{W1 =ui } = E yi 1{W1 =ui } − E yi 1{W1 =ui }
i=1 i=1 i=1

N X
N

N
!2
X X 
= E yi yj 1{W1 =ui } 1{W1 =uj }  − yi E 1{W1 =ui }
i=1 j=1 i=1

N N
!2
X X
yi2 E
 
= 1{W1 =ui } − yi E 1{W1 =ui }
i=1 i=1
N N
!2
X X
= yi2 P(W1 = ui ) − yi P(W1 = ui )
i=1 i=1
N N
!2
1 X 2 1 X
= y − yi .
N i=1 i N i=1

D’autre part, on a

N N N
!
1 X 1 X X
s2U = (yi − y U )2 = yi2 − 2y U yi + N y 2U
N − 1 i=1 N −1 i=1 i=1
N
! N
!
1 X 1 X
= yi2 − 2N y 2U + N y 2U = yi2 − N y 2U
N −1 i=1
N −1 i=1

N N
!2 
1 X 2 1 X
= y −N yi  .
N − 1 i=1 i N i=1

Il s’ensuit

N
!
X N −1 2
V yi 1{W1 =ui } = sU .
i=1
N

Au final, il vient
N − 1 s2U
V(y W ) = .
N n

Erreur quadratique moyenne de y W :

L’erreur quadratique moyenne de y W est le réel :

N − 1 s2U
EQM (y W )[P EAR] = .
N n

C. Chesneau 48
4 Plan de sondage aléatoire simple avec remise (PEAR)

On constate que :

◦ plus n est grand/l’échantillon est grand, plus y W estime bien y U ,

◦ plus U est homogène/plus s2U est petit, plus y W estime bien y U .

Remarque : L’estimation de y U par y W est plus précise avec un plan de sondage aléatoire de type PESR que
d’un plan de sondage aléatoire de type PEAR. En effet, en évaluant les erreurs quadratiques moyennes,
on a :
s2U  n  s2U
EQM (y W )[P ESR] = (1 − f ) = 1−
n N n

et
N − 1 s2U 1 s2U
 
EQM (y W )[P EAR] = = 1− .
N n N n

Donc
EQM (y W )[P ESR] ≤ EQM (y W )[P EAR].

L’estimation de y U par y W commet donc moins d’erreur dans le cadre PESR que dans le cadre PEAR.

Estimation aléatoire de sU :

Un estimateur aléatoire de sU est


v
u N n
u 1 X X
sW =t (yi − y W )2 1{Wm =ui } .
n − 1 i=1 m=1

Propriété de s2W :

L’estimateur s2W est sans biais pour ((N − 1)/N )s2U :

 N −1 2
E s2W = sU .
N

N P
n
Preuve : En remarquant que 1{Wm =ui } = n, il vient
P
i=1 m=1

N n
1 X X
s2W = (yi − y W ) 2
1{Wm =ui }
n − 1 i=1 m=1
N n N n N X
n
!
1 X X X X X
= yi2 1{Wm =ui } − 2y W yi 1{Wm =ui } + y 2W 1{Wm =ui }
n−1 i=1 m=1 i=1 m=1 i=1 m=1
N n
! N n
!
1 X X 1 X X
= yi2 1{Wm =ui } − 2ny 2W + ny 2W = yi2 1{Wm =ui } − ny 2W .
n−1 i=1 m=1
n−1 i=1 m=1

C. Chesneau 49
4 Plan de sondage aléatoire simple avec remise (PEAR)

On a P(Wm = ui ) = 1/N et

2 N − 1 s2U
E y 2W = V y 2W + (E (y W )) = + y 2U .
 
N n

D’où

N n
!!
1 X X
s2W yi2 ny 2W

E =E 1{Wm =ui } −
n−1 i=1 m=1
N n
!
1 X X
yi2 y 2W
 
= E 1{Wm =ui } − nE
n−1 i=1 m=1
N n
!
1 X X
yi2 y 2W

= P (Wm = ui ) − nE
n−1 i=1 m=1
N !
N − 1 s2U

1 n X 2
= y −n + y 2U
n−1 N i=1 i N n
N
!   !
1 n X 2 2 1
= y − N yU − 1 − s2U
n − 1 N i=1 i N
N
!!  
n(N − 1) 1 X
2 2 1 1
= yi − N y U − 1− s2U .
(n − 1)N N − 1 i=1 n−1 N

En remarquant que

N N N
!
1 X 1 X X
s2U = (yi − y U )2 = yi2 − 2y U yi + N y 2U
N − 1 i=1 N −1 i=1 i=1
N
! N
!
1 X 1 X
= yi2 − 2N y 2U + N y 2U = yi2 − N y 2U .
N −1 i=1
N −1 i=1

D’où

 
 n(N − 1) 2 1 1 n(N − 1) − (N − 1) 2 N −1 2
E s2W = sU − 1− s2U = sU = sU .
(n − 1)N n−1 N (n − 1)N N

C. Chesneau 50
4 Plan de sondage aléatoire simple avec remise (PEAR)

4.3 Estimations ponctuelles

Estimation ponctuelle de y U :

Soit ω = (ω1 , . . . , ωn ) un échantillon de n individus de U . Une estimation ponctuelle de y U est la


moyenne-échantillon :
N n
1X X
yω = yi 1{ωm =ui } .
n i=1 m=1

Quelques commandes R : Un exemple de calcul de y ω avec R est décrit ci-dessous :

U = c("Bob", "Nico", "Ali", "Fabien", "Malik", "John", "Jean", "Chris", "Karl")


y = c(72, 89, 68, 74, 81, 87, 76, 61, 84)
n = 3
library(sampling)
t = srswr(n, 9)
bar_y_w = (1 / n) * sum(y * t)
bar_y_w

Erreur d’estimation :

Soit ω un échantillon de n individus de U . L’erreur d’estimation que commet y ω en estimant y U est


le réel :
eω = |y ω − y U |.

Probabilité d’erreur :

La probabilité de se tromper de plus de (100 × β)%, β ∈]0, 1[, en estimant y U par y W est le réel :

1 X
pβ = 1{eω ≥βyU } .
Nn
ω∈W (Ω)

Estimation ponctuelle de sU :

Soit ω = (ω1 , . . . , ωn ) un échantillon de n individus de U . Une estimation ponctuelle de sU est


l’écart-type corrigé-échantillon :
v
u N n
u 1 X X
sω = t (yi − y ω )2 1{ωm =ui } .
n − 1 i=1 m=1

C. Chesneau 51
4 Plan de sondage aléatoire simple avec remise (PEAR)

Quelques commandes R : Un exemple de calcul de sω avec R est décrit ci-dessous :

U = c("Bob", "Nico", "Ali", "Fabien", "Malik", "John", "Jean", "Chris", "Karl")


y = c(72, 89, 68, 74, 81, 87, 76, 61, 84)
n = 3
library(sampling)
t = srswr(n, 9)
bar_y_w = (1 / n) * sum(y * t)
s_w = sqrt(sum((y - bar_y_w)^2 * t) / (n - 1))
s_w

Estimation ponctuelle de l’écart-type de y W :

Soit ω un échantillon de n individus de U . Une estimation ponctuelle de l’écart-type de y W est le


réel : r
s2ω
s(y ω ) = .
n

4.4 Intervalles de confiance

Résultat en loi : Si on peut admettre que Y suit une loi normale, alors

yW − yU
T = q
2
∼ T (ν),
sW
n

où T (ν) désigne la loi de Student à ν = n − 1 degrés de liberté.

Si n est grand, on peut utiliser l’approximation T (ν) ≈ N (0, 1).

T-intervalle de confiance pour y U :

Soit ω un échantillon de n individus de U . On suppose que Y suit une loi normale. Un intervalle de
confiance pour y U au niveau 100(1 − α)%, α ∈]0, 1[, est

iyU = [y ω − tα (ν)s(y ω ), y ω + tα (ν)s(y ω )]


" r r #
s2ω s2ω
= y ω − tα (ν) , y ω + tα (ν) ,
n n

où tα (ν) est le réel vérifiant P(|T | ≥ tα (ν)) = α, T ∼ T (ν), ν = n − 1.

C. Chesneau 52
4 Plan de sondage aléatoire simple avec remise (PEAR)

Quelques commandes R : Un exemple de fonction R pour calculer le T-intervalle de confiance pour y U


au niveau 100(1 − α)% est décrit ci-dessous :

icPEAR = function(y, N, niveau) {


n = length(y)
nu = n - 1
bar_y_w = mean(y)
t = qt(1 - (1 - niveau) / 2, nu)
s2_w = sd(y)^2
var_bar_y_w = s2_w / n
a = bar_y_w - t * sqrt(var_bar_y_w)
b = bar_y_w + t * sqrt(var_bar_y_w)
print(c(a, b)) }
icPEAR(y = c(2.1, 2.3, 4.1, 2.6, 7.1, 8.6), N = 100, niveau = 0.95)

Cela renvoie : 1.576111, 7.357222.

Une autre possibilité utilisant des fonctions existantes est

y = c(2.1, 2.3, 4.1, 2.6, 7.1, 8.6)


[Link](y, [Link] = 0.95)$[Link]

Cela renvoie la même chose que précédemment : 1.576111, 7.357222.

Résultat limite : Si n est suffisamment grand, sans hypothèse de loi normale sur Y , on a l’approximation :

yW − yU
Z= q
2
≈ N (0, 1).
sW
n

Intervalle de confiance (limite) pour y U :

Soit ω un échantillon de n individus de U . Un intervalle de confiance pour y U au niveau 100(1 − α)%,


α ∈]0, 1[, est

iyU = [y ω − zα s(y ω ), y ω + zα s(y ω )]


" r r #
s2ω s2ω
= y ω − zα , y ω + zα ,
n n

où zα est le réel vérifiant P(|Z| ≥ zα ) = α, Z ∼ N (0, 1).

C. Chesneau 53
4 Plan de sondage aléatoire simple avec remise (PEAR)

Quelques commandes R : Un exemple de fonction R pour calculer l’intervalle de confiance limite pour
y U au niveau 100(1 − α)% est décrit ci-dessous :

icPEAR2 = function(y, N, niveau) {


n = length(y)
bar_y_w = mean(y)
t = qnorm(1 - (1 - niveau) / 2)
s2_w = sd(y)^2
var_bar_y_w = s2_w / n
a = bar_y_w - t * sqrt(var_bar_y_w)
b = bar_y_w + t * sqrt(var_bar_y_w)
print(c(a, b)) }
icPEAR2(y = c(2.1, 2.3, 4.1, 2.6, 7.1, 8.6, 2.1, 2.3, 4.1, 2.6, 7.1, 8.6),
N = 100, niveau = 0.95)

Cela renvoie : 2.980777, 5.952557.

Résultat en loi : Si on peut admettre que Y suit une loi normale, alors

s2W
K = (n − 1) ∼ χ2 (ν),
s2U

où χ2 (ν) désigne la loi du Chi-deux à ν = n − 1 degrés de liberté.

Intervalle de confiance pour s2U :

Soit ω un échantillon de n individus de U . On suppose que Y suit une loi normale. Un intervalle de
confiance pour s2U au niveau 100(1 − α)%, α ∈]0, 1[, est

 
n−1 2 n−1 2
is2U = s , s ,
bα (ν) ω aα (ν) ω

où aα (ν) et bα (ν) sont les réels vérifiant :

α α
P(K ≥ aα (ν)) = 1 − , P(K ≥ bα (ν)) = ,
2 2

K ∼ χ2 (ν), ν = n − 1.

Remarque : Les tests statistiques habituels s’appliquent (T-Test, Z-Test, . . . ).

C. Chesneau 54
4 Plan de sondage aléatoire simple avec remise (PEAR)

4.5 Taille d’échantillon

Incertitude absolue :

Soit ω un échantillon de n individus de U . On appelle incertitude absolue sur y U au niveau 100(1 −


α)%, α ∈]0, 1[, la demi-longueur de iyU (limite) :

r
s2ω
dω = zα s(y ω ) = zα .
n

Plus dω est petit, plus l’estimation de y U par y ω est précise.

Incertitude relative :

Soit ω un échantillon de n individus de U et dω l’incertitude absolue sur y U au niveau 100(1 − α)%,


α ∈]0, 1[. On appelle incertitude relative sur y U au niveau 100(1 − α)% le pourcentage (100 × d∗ω )%
où d∗ω est le réel :

d∗ω = .

Taille d’échantillon :

Soit ω un échantillon prélevé lors d’une étude préliminaire. La taille d’échantillon n à choisir pour
avoir :

◦ une incertitude absolue sur y U au niveau 100(1 − α)%, α ∈]0, 1[, inférieure ou égale à d0 est le
plus petit n tel que
 2
zα sω
dω ≤ d0 ⇔ n≥ ,
d0

◦ une incertitude relative sur y U au niveau 100(1−α)%, α ∈]0, 1[, inférieure ou égale à (100×d1 )%
est le plus petit n tel que

 2
zα sω
d∗ω ≤ d1 ⇔ n≥ .
y ω d1

Quelques commandes R : Un exemple de fonction R pour calculer la taille n d’un échantillon à partir
de l’incertude absolue de y U au niveau 100(1 − α)% est décrit ci-dessous :

n_ech = function(N, s2, d0, niveau) {


z = qnorm(1 - (1 - niveau) / 2)
n = s2 * z^2 / d0^2
print(ceiling(n)) }
n_ech(N = 100, s2 = 63, d0 = 3, niveau = 0.95)

C. Chesneau 55
4 Plan de sondage aléatoire simple avec remise (PEAR)

Cela renvoie 27.

4.6 Exercices corrigés

Exercice 1 : On considère le caractère Y = "âge" en années dans la population de 4 individus : U =


{Marcel, Christian, Jean, Seb} = {u1 , . . . , u4 }. Pour tout i ∈ {1, . . . , 4}, soit yi la valeur de Y pour
l’individu ui . Les résultats, en années, sont :

y1 y2 y3 y4
33 34 29 37

1. Calculer la moyenne-population y U et l’écart-type corrigé-population sU .

2. On prélève au hasard et avec remise 2 individus dans U formant ainsi un échantillon. Chaque individu
a la même probabilité qu’un autre d’être sélectionné. On est donc dans le cadre d’un plan de sondage
aléatoire de type PEAR.

(a) Combien d’échantillons peut-on former ? Expliciter les.

(b) Calculer la probabilité que Marcel appartienne à un tel échantillon.

(c) Pour chaque échantillon ω, calculer la moyenne-échantillon y ω et l’écart-type corrigé-échantillon


sω .

(d) Soit y W la var égale à la moyenne-échantillon, l’aléatoire étant dans l’échantillon considéré. Dé-
terminer sa loi, puis calculer son espérance et sa variance.

(e) Soit sW la var égale à l’écart-type corrigé-échantillon, l’aléatoire étant dans l’échantillon considéré.
Calculer l’espérance de s2W .

(f) Retrouver les résultats des deux questions précédentes avec les formules du cours.

Solution :

1. On a
y U = 33.25, sU = 3.3040.

2. (a) Vu le mode de prélèvement, le nombre d’échantillons possible est

42 = 16.

C. Chesneau 56
4 Plan de sondage aléatoire simple avec remise (PEAR)

Ils sont :

(u1 , u1 ) (u1 , u2 ) (u1 , u3 ) (u1 , u4 )


(u2 , u1 ) (u2 , u2 ) (u2 , u3 ) (u2 , u4 )
(u3 , u1 ) (u3 , u2 ) (u3 , u3 ) (u3 , u4 )
(u4 , u1 ) (u4 , u2 ) (u4 , u3 ) (u4 , u4 )

(b) Il y a 7 échantillons contenant u1 = Marcel. Comme il y a un total de 16 échantillons possibles,


la probabilité que Marcel appartienne à un tel échantillon est 7/16 = 0.4375.

On peut retrouver ce résultat avec la formule :

 n  2
1 1 7
P(u1 ∈ W ) = 1 − 1 − =1− 1− = = 0.4375.
N 4 16

(c) On a, en prenant 4 chiffres après la virgule :

ω Y yω sω

(u1 , u1 ) (33, 33) 33 0

(u1 , u2 ) (33, 34) 33.5 0.7071

(u1 , u3 ) (33, 29) 31 2.8284


(u1 , u4 ) (33, 37) 35 2.8284

(u2 , u1 ) (34, 33) 33.5 0.7071

(u2 , u2 ) (34, 34) 34 0

(u2 , u3 ) (34, 29) 31.5 3.5355

(u2 , u4 ) (34, 37) 35.5 2.1213


(u3 , u1 ) (29, 33) 31 2.8284

(u3 , u2 ) (29, 34) 31.5 3.5355

(u3 , u3 ) (29, 29) 29 0

(u3 , u4 ) (29, 37) 33 5.6568

(u4 , u1 ) (37, 33) 35 2.8284


(u4 , u2 ) (37, 34) 35.5 2.1213

(u4 , u3 ) (37, 29) 33 5.6568

(u4 , u4 ) (37, 37) 37 0

(d) Soit y W la var égale à la moyenne-échantillon. L’ensemble des valeurs possibles pour y W est

y W (Ω) = {29, 31, 31.5, 33, 33.5, 34, 35, 35.5, 37}.

C. Chesneau 57
4 Plan de sondage aléatoire simple avec remise (PEAR)

Comme il y a 16 échantillons différents et qu’ils sont équiprobables, la loi de y W est donnée par

k 29 31 31.5 33 33.5 34 35 35.5 37


1 2 2 3 2 1 2 2 1
P(y W = k) 16 16 16 16 16 16 16 16 16

En utilisant la loi de y W , l’espérance de y W est

X
E(y W ) = kP(y W = k)
k∈y W (Ω)
1
= (29 + 31 × 2 + 31.5 × 2 + 33 × 3 + 33.5 × 2 + 34 + 35 × 2
16
+ 35.5 × 2 + 37)

= 33.25.

En utilisant la formule de König-Huyghens, la variance de y W est

2
V(y W ) = E(y 2W ) − (E(y W )) .

Or on a E(y W ) = 33.25 et

X
E(y 2W ) = k 2 P(y W = k)
k∈y W (Ω)
1
= (292 + 312 × 2 + 31.52 × 2 + 332 × 3 + 33.52 × 2 + 342
16
+ 352 × 2 + 35.52 × 2 + 372 )

= 1109.656.

D’où
V(y W ) = 1109.656 − 33.252 = 4.0935.

(e) Soit sW la var égale à l’écart-type corrigé-échantillon. L’ensemble des valeurs possibles pour sW
est
sW (Ω) = {0, 0.7071, 2.1213, 2.8284, 3.5355, 5.6568}.

Comme il y a 16 échantillons différents et qu’ils sont équiprobables, la loi de sW est donnée par

k 0 0.7071 2.1213 2.8284 3.5355 5.6568


4 2 2 4 2 2
P(sW = k) 16 16 16 16 16 16

C. Chesneau 58
4 Plan de sondage aléatoire simple avec remise (PEAR)

L’espérance de s2W est

X
E(s2W ) = k 2 P(sW = k)
k∈sW (Ω)
1 2
= (0 × 4 + 0.70712 × 2 + 2.12132 × 2 + 2.82842 × 4 + 3.53552 × 2
16
+ 5.65682 × 2)

= 8.1873.

(f) En utilisant les formules du cours, on retrouve les résultats précédents (en prenant en compte les
approximations) :

N − 1 s2U 3 3.30402
E(y W ) = y U = 33.25, V(y W ) = = × = 4.0936
N n 4 2

et

N −1 2 3
E(s2W ) = sU = × 3.30402 = 8.1873.
N 4

Exercice 2 : Sur les 80 sacs de pommes de terre d’une petite production, on prélève un échantillon de
17 sacs suivant un plan de sondage aléatoire de type PEAR. On pèse ces 17 sacs. Les valeurs obtenues
donnent une moyenne de 22.53 kilogrammes et un écart-type corrigé de 1.25 kilogrammes. On suppose
que le poids en kilogrammes d’un sac de pommes de terre issu de cette production peut être modélisé
par une var Y suivant une loi normale.

1. Déterminer un intervalle de confiance pour la moyenne des poids des 80 sacs de la production au
niveau 90%.

2. Déterminer la taille d’échantillon à choisir pour avoir une incertitude absolue sur la moyenne des
poids des 80 sacs inférieure ou égale à 0.5 au niveau 90%.

Solution :

1. On a 90% = 100(1 − α)% avec α = 0.1. On a P(|T | ≥ tα (ν)) = α = 0.1, T ∼ T (ν), ν = n − 1 =


17 − 1 = 16 avec tα (ν) = 1.746.

C. Chesneau 59
4 Plan de sondage aléatoire simple avec remise (PEAR)

Un intervalle de confiance pour y U au niveau 90% est


" r r #
s2ω s2ω
iy U = y ω − tα (ν) , y ω + tα (ν)
n n
" r r #
1.252 1.252
= 22.53 − 1.746 , 22.53 + 1.746
17 17

= [22.0006, 23.0593].

Ainsi, il y a 90 chances sur 100 que [22.0006, 23.0593] contienne y U .

2. On a 90% = 100(1 − α)% avec α = 0.1. On souhaite déterminer le plus petit n tel que :

r 2
s2ω

zα sω
dω = zα ≤ d0 ⇔ n≥ ,
n d0

avec d0 = 0.5, zα = 1.645, ω est l’échantillon considéré précédemment et sω = 1.25. On a

 2
1.645 × 1.25
= 16.9127.
0.5

Donc n = 17 convient.

Exercice 3 : On demande à 60 élèves de maternelle de reproduire 16 dessins. On s’intéresse au temps en


secondes mis par un élève. On considère un échantillon de 7 élèves suivant un plan de sondage aléatoire
de type PEAR. Les résultats, en secondes, sont :

376 389 407 401 397 360 410

On suppose que le temps en secondes que met un élève de maternelle pour reproduire ces 16 dessins peut
être modélisé par une var Y suivant une loi normale.

1. Déterminer un intervalle de confiance pour la moyenne des temps des 60 élèves au niveau 99%.

2. Proposer des commandes R donnant le résultat de la question précédente.

Solution :

1. On a 99% = 100(1 − α)% avec α = 0.01. On a

y ω = 391.4286, sω = 17.9894.

On a P(|T | ≥ tα (ν)) = α = 0.01, T ∼ T (ν), ν = n − 1 = 7 − 1 = 6 avec tα (ν) = 3.707.

C. Chesneau 60
4 Plan de sondage aléatoire simple avec remise (PEAR)

Un intervalle de confiance pour y U au niveau 99% est


" r r #
s2ω s2ω
iy U = y ω − tα (ν) , y ω + tα (ν)
n n
" r r #
17.98942 17.98942
= 391.4286 − 3.707 , 391.4286 + 3.707
7 7

= [366.2234, 416.6338].

Ainsi, il y a 99 chances sur 100 que [366.2234, 416.6338] contienne y U .

2. On propose :

y = c(376, 389, 407, 401, 397, 360, 410)


[Link](y, [Link] = 0.99)$[Link]

C. Chesneau 61
4 Plan de sondage aléatoire simple avec remise (PEAR)

4.7 Synthèse

Paramètres-population et les paramètres-échantillon correspondants :

Population U Échantillon ω = (ω1 , . . . , ωn )

Taille N n

N N n
1 X 1X X
Moyenne yU = yi yω = yi 1{ωm =ui }
N i=1 n i=1 m=1
v v
u N u N n
u 1 X u 1 X X
Écart-type corrigé sU = t (yi − y U )2 sω = t (yi − y ω )2 1{ωm =ui }
N −1 i=1
n − 1 i=1 m=1
r r
N − 1 s2U s2ω
Écart-type de y W σ(y W ) = s(y ω ) =
N n n

Autre notions utilisées autour de y U (niveau : 100(1 − α)%, α ∈]0, 1[) :


" r r #
s2ω s2ω
Intervalle de confiance iyU = y ω − zα , y ω + zα
n n
r
s2ω
Incertitude absolue dω = zα
n


Incertitude relative d∗ω =

 2
zα sω
Taille n telle que dω ≤ d0 n≥
d0
 2
zα sω
Taille n telle que d∗ω ≤ d1 n≥
y ω d1

Rappel : P(|Z| ≥ zα ) = α, Z ∼ N (0, 1).

C. Chesneau 62
5 Total, proportion et effectif dans le cadre PEAR

5 Total, proportion et effectif dans le cadre PEAR

On reprend le cadre mathématique d’un plan de sondage aléatoire de type PEAR.

5.1 Estimation du total

Total :

On appelle total-population le réel :

N
X
τU = yi = N y U .
i=1

Estimation aléatoire de τU :

Un estimateur aléatoire de τU est

N n
1X X
τW = N y W = N yi 1{Wm =ui } .
n i=1 m=1

Espérance de τW :

L’estimateur τW est sans biais pour τU :

E(τW ) = τU .

Variance de τW :

La variance de τW est
N − 1 s2U
V(τW ) = N 2 .
N n

Erreur quadratique moyenne de τW :

L’erreur quadratique moyenne de τW est le réel :

N − 1 s2U
EQM (τW )[P EAR] = N 2 .
N n

C. Chesneau 63
5 Total, proportion et effectif dans le cadre PEAR

Estimation ponctuelle de τU :

Soit ω = (ω1 , . . . , ωn ) un échantillon de n individus de U . Une estimation ponctuelle de τU est le


total-échantillon :
N n
1X X
τω = N y ω = N yi 1{ωm =ui } .
n i=1 m=1

Estimation ponctuelle de l’écart-type de τW :

Soit ω = (ω1 , . . . , ωn ) un échantillon de n individus de U . Une estimation ponctuelle de l’écart-type


de τW est le réel : r
s2ω
s(τω ) = N2 .
n

Intervalle de confiance pour τU :

Soit ω = (ω1 , . . . , ωn ) un échantillon de n individus de U . On suppose que Y suit une loi normale.
Un intervalle de confiance pour τU au niveau 100(1 − α)%, α ∈]0, 1[, est

iτU = [τω − tα (ν)s(τω ), τω + tα (ν)s(τω )]


" r r #
s2 s2
ω ω
= τω − tα (ν) N 2 , τω + tα (ν) N 2 = N × iyU ,
n n

où tα (ν) est le réel vérifiant P(|T | ≥ tα (ν)) = α, T ∼ T (ν), ν = n − 1.

Intervalle de confiance (limite) pour τU :

Soit ω = (ω1 , . . . , ωn ) un échantillon de n individus de U . Un intervalle de confiance pour τU au


niveau 100(1 − α)%, α ∈]0, 1[, est

iτU = [τω − zα s(τω ), τω + zα s(τω )]


" r r #
s2 s2
ω ω
= τω − zα N 2 , τω + zα N 2 = N × iyU ,
n n

où zα est le réel vérifiant P(|Z| ≥ zα ) = α, Z ∼ N (0, 1).

On peut également définir l’incertitude absolue ou relative sur τU , ainsi que la taille d’échantillon sou-
haitée pour une incertitude donnée.

C. Chesneau 64
5 Total, proportion et effectif dans le cadre PEAR

5.2 Estimation d’une proportion

Contexte : On suppose que le caractère Y est binaire : Y (Ω) = {0, 1}. Cela correspond à un codage.

Proportion :

On appelle proportion-population la proportion des individus dans U vérifiant Y = 1 :

N
1 X
pU = yi (= y U ).
N i=1

Estimation d’une proportion :

Un estimateur aléatoire de pU est

N n
1X X
pW = y W = yi 1{Wm =ui } .
n i=1 m=1

Espérance de pW :

L’estimateur pW est sans biais pour pU :

E(pW ) = pU .

Variance de pW :

La variance de pW est
N − 1 s2U pU (1 − pU )
V(pW ) = = .
N n n

Erreur quadratique moyenne de pW :

L’erreur quadratique moyenne de pW est le réel :

pU (1 − pU )
EQM (pW )[P EAR] = .
n

Estimation ponctuelle de pU :

Soit ω = (ω1 , . . . , ωn ) un échantillon de n individus de U . Une estimation ponctuelle de pU est la


proportion-échantillon :
N n
1X X
pω = y ω = yi 1{ωm =ui } .
n i=1 m=1

C. Chesneau 65
5 Total, proportion et effectif dans le cadre PEAR

Estimation ponctuelle de l’écart-type de pW :

Soit ω = (ω1 , . . . , ωn ) un échantillon de n individus de U . Une estimation ponctuelle de l’écart-type


de pW est le réel : r
pω (1 − pω )
s(pω ) = .
n−1

Intervalle de confiance pour pU :

Soit ω = (ω1 , . . . , ωn ) un échantillon de n individus de U . Un intervalle de confiance pour pU au


niveau 100(1 − α)%, α ∈]0, 1[, est

ipU = [pω − zα s(pω ), pω + zα s(pω )]


" r r #
pω (1 − pω ) pω (1 − pω )
= pω − zα , pω + zα ,
n−1 n−1

où zα est le réel vérifiant P(|Z| ≥ zα ) = α, Z ∼ N (0, 1).

Quelques commandes R : Un exemple de fonction R pour calculer l’intervalle de confiance pour pU au


niveau 100(1 − α)% est décrit ci-dessous :

icPEAR = function(y, niveau) {


n = length(y)
p_w = mean(y)
z = qnorm(1 - (1 - niveau) / 2)
var_p_w = p_w * (1 - p_w) / (n - 1)
a = p_w - z * sqrt(var_p_w)
b = p_w + z * sqrt(var_p_w)
print(c(a, b)) }
icPEAR(y = c(0, 1,0, 0, 1, 0, 1, 1, 0, 1, 1, 1, 0), niveau = 0.90)

Cela renvoie : 0.3017508, 0.7751723.

Incertitude absolue :

Soit ω = (ω1 , . . . , ωn ) un échantillon de n individus de U . On appelle incertitude absolue sur pU au


niveau 100(1 − α)%, α ∈]0, 1[, la demi-longueur de ipU :

r
pω (1 − pω )
dω = zα s(pω ) = zα .
n−1

Plus dω est petit, plus l’estimation de pU par pω est précise.

C. Chesneau 66
5 Total, proportion et effectif dans le cadre PEAR

Incertitude relative :

Soit ω = (ω1 , . . . , ωn ) un échantillon de n individus de U et dω l’incertitude absolue sur pU au niveau


100(1 − α)%, α ∈]0, 1[. On appelle incertitude relative sur pU au niveau 100(1 − α)% le pourcentage
(100 × d∗ω )% où d∗ω est le réel :

d∗ω = .

Taille d’échantillon :

Soit ω = (ω1 , . . . , ωn ) un échantillon prélevé lors d’une étude préliminaire. La taille d’échantillon n
à choisir pour avoir :

◦ une incertitude absolue sur pU au niveau 100(1 − α)%, α ∈]0, 1[, inférieure ou égale à d0 est le
plus petit n tel que
zα2 pω (1 − pω )
dω ≤ d0 ⇒ n≥ ,
d20

◦ une incertitude relative sur pU au niveau 100(1−α)%, α ∈]0, 1[, inférieure ou égale à (100×d1 )%
est le plus petit n tel que

zα2 pω (1 − pω )
d∗ω ≤ d1 ⇒ n≥ .
(pω d1 )2

On peut aussi remplacer pω (1 − pω ) par 1/4, ce qui évite une étude avec un échantillon préliminaire pour
l’incertitude absolue.

Quelques commandes R : Un exemple de fonction R pour calculer la taille n d’un échantillon à partir
de l’incertitude relative sur pU au niveau 100(1 − α)% est décrit ci-dessous :

n_ech = function(p_w, d1, niveau) {


z = qnorm(1 - (1 - niveau) / 2)
n = p_w * (1 - p_w) * z^2 / (d1 * p_w)^2
print(ceiling(n)) }
n_ech(p_w = 0.61, d1 = 0.5, niveau = 0.95)

Cela renvoie 10.

C. Chesneau 67
5 Total, proportion et effectif dans le cadre PEAR

5.3 Estimation d’un effectif

Contexte : On suppose que le caractère Y est binaire : Y (Ω) = {0, 1}. Cela correspond à un codage.

Effectif :

On appelle effectif-population le nombre des individus dans U vérifiant Y = 1 :

ηU = N p U .

Estimation aléatoire de ηU :

Un estimateur aléatoire de ηU est

N n
1X X
ηW = N pW = N yi 1{Wm =ui } .
n i=1 m=1

Espérance de ηW :

L’estimateur ηW est sans biais pour ηU :

E(ηW ) = ηU .

Variance de ηW :

La variance de ηW est
pU (1 − pU )
V(ηW ) = N 2 .
n

Erreur quadratique moyenne de ηW :

L’erreur quadratique moyenne de τW est le réel :

pU (1 − pU )
EQM (ηW )[P EAR] = N 2 .
n

Estimation ponctuelle de ηU :

Soit ω = (ω1 , . . . , ωn ) un échantillon de n individus de U . Une estimation ponctuelle de ηU est le


total-échantillon :
N n
1X X
ηω = N pω = N yi 1{ωm =ui } .
n i=1 m=1

C. Chesneau 68
5 Total, proportion et effectif dans le cadre PEAR

Estimation ponctuelle de l’écart-type de ηW :

Soit ω = (ω1 , . . . , ωn ) un échantillon de n individus de U . Une estimation ponctuelle de l’écart-type


de ηW est le réel : r
pω (1 − pω )
s(ηω ) = N2 .
n−1

Intervalle de confiance pour ηU :

Soit ω = (ω1 , . . . , ωn ) un échantillon de n individus de U . Un intervalle de confiance pour ηU au


niveau 100(1 − α)%, α ∈]0, 1[, est

iηU = [ηω − zα s(ηω ), ηω + zα s(ηω )]


" r r #
2
pω (1 − pω ) 2
pω (1 − pω )
= ηω − zα N , ηω + zα N = N × i pU ,
n−1 n−1

où zα est le réel vérifiant P(|Z| ≥ zα ) = α, Z ∼ N (0, 1).

On peut également définir l’incertitude absolue ou relative sur ηU , ainsi que la taille d’échantillon sou-
haitée pour une incertitude donnée.

5.4 Exercices corrigés

Exercice 1 : Sur un campus universitaire, un jour donné, on s’intéresse au total des montants dépensés par
les 1765 étudiants du campus pour le café. On note ce total τU . Sur un échantillon ω de 279 étudiants
prélevé suivant un plan de sondage aléatoire de type PEAR, on obtient : y ω = 1.25 € et sω = 0.25 €.

1. Préciser le caractère étudié.

2. Donner une estimation ponctuelle de τU .

3. Déterminer un intervalle de confiance pour τU au niveau 95%.

Solution :

1. On étudie le caractère Y = "dépense d’un étudiant du campus pour le café" en €.

2. Une estimation ponctuelle de τU est

τω = N y ω = 1765 × 1.25 = 2206.25.

3. On a 95% = 100(1 − α)% avec α = 0.05. A priori, on n’a pas l’hypothèse de normalité sur Y . On a
P(|Z| ≥ zα ) = α = 0.05, Z ∼ N (0, 1), avec zα = 1.96.

C. Chesneau 69
5 Total, proportion et effectif dans le cadre PEAR

Un intervalle de confiance pour τU au niveau 95% est


" r r #
s2 s2
iτU = τω − zα N2 ω , τω + zα N2 ω
n n
" r r #
0.252 0.252
= 2206.25 − 1.96 17652 , 2206.25 + 1.96 17652
279 279

= [2154.473, 2258.027].

Ainsi, il y a 95 chances sur 100 que [2154.473, 2258.027] contienne τU , l’unité étant le €.

Exercice 2 : Sur un campus universitaire de 1765 étudiants, un échantillon de 250 étudiants est prélevé
suivant un plan de sondage aléatoire de type PEAR. Parmi ces 250 étudiants, 144 admettent jouer aux
jeux vidéos plus de 30 minutes par jour. On note pU la proportion des 1765 étudiants qui admettent cela.

1. Donner une estimation ponctuelle de pU .

2. Déterminer un intervalle de confiance pour pU au niveau 95%.

3. Déterminer la taille d’échantillon à choisir pour avoir une incertitude relative sur pU inférieure ou
égale à 5% au niveau 95%.

Solution :

1. Une estimation ponctuelle de pU est


144
pω = = 0.576.
250

2. On a 95% = 100(1 − α)% avec α = 0.05.

On a P(|Z| ≥ zα ) = α = 0.05, Z ∼ N (0, 1), avec zα = 1.96.

Un intervalle de confiance pour pU au niveau 95% est


" r r #
pω (1 − pω ) pω (1 − pω )
i pU = pω − zα , pω + zα
n−1 n−1
" r r #
0.576(1 − 0.576) 0.576(1 − 0.576)
= 0.576 − 1.96 , 0.576 + 1.96
250 − 1 250 − 1

= [0.5146, 0.6373].

Ainsi, il y a 95 chances sur 100 que [0.5146, 0.6373] contienne pU .

3. On a 95% = 100(1 − α)% avec α = 0.05. On souhaite déterminer le plus petit n tel que :

zα2 pω (1 − pω )
d∗ω ≤ d1 ⇒ n≥ ,
(pω d1 )2

C. Chesneau 70
5 Total, proportion et effectif dans le cadre PEAR

avec d1 = 0.05, zα = 1.96, ω est l’échantillon considéré précédemment et pω = 0.576.

On a
1.962 × 0.576(1 − 0.576)
n≥ = 1131.138.
(0.576 × 0.05)2

Donc la taille d’échantillon à choisir pour avoir une incertitude relative sur pU inférieure ou égale à
5% au niveau 95% est de n = 1132.

C. Chesneau 71
5 Total, proportion et effectif dans le cadre PEAR

5.5 Synthèse : proportion

Paramètres-population et les paramètres-échantillon correspondants :

Population U Échantillon ω = (ω1 , . . . , ωn )

Taille N n

N N n
1 X 1X X
Proportion pU = yi pω = yi 1{ωm =ui }
N i=1 n i=1 m=1
r r
pU (1 − pU ) pω (1 − pω )
Écart-type de pW σ(pW ) = s(pω ) =
n n−1

Autre notions utilisées autour de pU (niveau : 100(1 − α)%, α ∈]0, 1[) :


" r r #
pω (1 − pω ) pω (1 − pω )
Intervalle de confiance ipU = pω − zα , pω + zα
n−1 n−1
r
pω (1 − pω )
Incertitude absolue dω = zα
n−1


Incertitude relative d∗ω =

zα2 pω (1 − pω )
Taille n telle que dω ≤ d0 n≥
d20

zα2 pω (1 − pω )
Taille n telle que d∗ω ≤ d1 n≥
(pω d1 )2

Rappel : P(|Z| ≥ zα ) = α, Z ∼ N (0, 1).

C. Chesneau 72
6 Plan de sondage aléatoire stratifié (ST)

6 Plan de sondage aléatoire stratifié (ST)

6.1 Contexte

Idée : Les plans de sondages aléatoire de types PESR ou PEAR sont adaptés lorsque la population est
homogène. Si la population n’est pas homogène mais qu’un découpage en plusieurs sous-populations
homogènes est possible, un plan de sondage aléatoire pour chacune de ces sous-populations peut améliorer
la précisions dans l’estimation des paramètres.

Strate :
SH
On considère une partition de H éléments de U notée (U1 , . . . , UH ). Ainsi, on a U = h=1 Uh et,
pour tout (h, k) ∈ {1, . . . , H}2 avec h 6= k, on a Uh ∩ Uk = ∅.
On appelle strate un élément Uh de (U1 , . . . , UH ).

Plan de sondage aléatoire stratifié (ST) :

Un échantillon ω de n individus de U = (U1 , . . . , UH ) est prélevé suivant un plan de sondage aléatoire


de type stratifié (ST) si on peut l’écrire sous la forme :

ω = (ω1 , . . . , ωH ),

où, pour tout h ∈ {1, . . . , H}, ωh est un échantillon de nh individus de Uh prélevé suivant un plan
de sondage aléatoire de type PESR.

C. Chesneau 73
6 Plan de sondage aléatoire stratifié (ST)

Dans ce contexte, il y a
   
N1 NH
× ... ×
n1 nH

échantillons possibles.

Quelques commandes R : Pour illustrer un plan de sondage aléatoire de type ST avec le logiciel R, on
propose l’animation :

library(animation)
[Link](col = c("lightyellow", "white"))

Un autre exemple : On considère une population U partagée en 3 strates : U1 , U2 et U3 . On fait un plan


de sondage ST avec n1 = 3, n2 = 2 et n3 = 3 :

U_1 = c("Bob", "Nico", "Ali", "Fabien", "Malik", "John", "Jean", "Chris", "Karl")
U_2 = c("Jean", "Bill", "Omar", "Raul", "Mia")
U_3 = c("Paul", "Chael", "Nathan", "Sam", "Tom", "Tim", "Leo", "Kevin")
U = c(U_1, U_2, U_3)
n_h = c(3, 2, 3)
library(sampling)
t_1 = srswor(n_h[1], length(U_1))
w_1 = U_1[t_1 != 0]
t_2 = srswor(n_h[2], length(U_2))
w_2 = U_2[t_2 != 0]
t_3 = srswor(n_h[3], length(U_3))
w_3 = U_3[t_3 != 0]
c(w_1, w_2, w_3)

C. Chesneau 74
6 Plan de sondage aléatoire stratifié (ST)

Le même exemple avec la commande strata de la librairie sampling :

U_1 = c("Bob", "Nico", "Ali", "Fabien", "Malik", "John", "Jean", "Chris", "Karl")
U_2 = c("Jean", "Bill", "Omar", "Raul", "Mia")
U_3 = c("Paul", "Chael", "Nathan", "Sam", "Tom", "Tim", "Leo", "Kevin")
dat = [Link](c(U_1, U_2, U_3), c(rep(1, length(U_1)), rep(2,
length(U_2)), rep(3, length(U_3))))
names(dat) = c("noms", "souspop")
library(sampling)
s = strata(dat, "souspop", size = c(3, 2, 3), method = "srswor")
s
U = c(U_1, U_2, U_3)
U[s[ ,2]]

Remarque : Ce sont les plans de sondage aléatoire de type ST qui sont classiquement utilisés pour les
enquêtes de l’INSEE auprès des entreprises.

Paramètres-population :

On adopte les notations suivantes :


◦ concernant la population U , rien ne change :

Taille Moyenne Écart-type corrigé Échantillon


v
N u N
1 X u 1 X
U N yU = yi sU = t (yi − y U )2 ω
N i=1
N − 1 i=1

◦ concernant la strate Uh :
Taille Moyenne Écart-type corrigé Échantillon
v
N u N
1 X u 1 X
Uh Nh y Uh = yi 1{ui ∈Uh } sUh =t (yi − y Uh )2 1{ui ∈Uh } ωh
Nh i=1 Nh − 1 i=1

C. Chesneau 75
6 Plan de sondage aléatoire stratifié (ST)

Paramètres-population avec les strates :

En utilisant la stratification U = (U1 , . . . , UH ), on a :

Taille Moyenne Écart-type corrigé


v !
H H u H H
X 1 X u 1 X X
U N= Nh y U = Nh y Uh sU = t (Nh − 1)s2Uh + Nh (y Uh − y U ) 2
N N −1
h=1 h=1 h=1 h=1

Preuve : On a
H
◦ comme (U1 , . . . , UH ) est une partition de U , on a Nh = N ,
P
h=1
◦ comme (U1 , . . . , UH ) est une partition de U , on a

H
X
1{ui ∈Uh } = 1{ui ∈SH Uh } = 1{ui ∈U } = 1.
h=1
h=1

Donc

H H N N H N
1 X 1 X 1 X 1 X X 1 X
Nh y U h = Nh yi 1{ui ∈Uh } = yi 1{ui ∈Uh } = yi = y U .
N N Nh i=1 N i=1 N i=1
h=1 h=1 h=1

H
◦ En utilisant de nouveau 1{ui ∈Uh } = 1, on a
P
h=1

N
X N
X H
X H X
X N
(yi − y U )2 = (yi − y U )2 1{ui ∈Uh } = (yi − y U )2 1{ui ∈Uh }
i=1 i=1 h=1 h=1 i=1
H X
N
X 2
= (yi − y Uh ) + (y Uh − y U ) 1{ui ∈Uh }
h=1 i=1
H X
X N H X
X N
= (yi − y Uh )2 1{ui ∈Uh } + 2 (yi − y Uh )(y Uh − y U )1{ui ∈Uh }
h=1 i=1 h=1 i=1
H X
X N
+ (y Uh − y U )2 1{ui ∈Uh } .
h=1 i=1

Étudions chacun des termes de cette somme. Pour le premier terme, on a

H X
X N H
X
(yi − y Uh )2 1{ui ∈Uh } = (Nh − 1)s2Uh .
h=1 i=1 h=1

C. Chesneau 76
6 Plan de sondage aléatoire stratifié (ST)

N N
Pour le deuxième terme, en utilisant 1{ui ∈Uh } = Nh et yi 1{ui ∈Uh } = Nh y Uh , il vient
P P
i=1 i=1

H X
X N H
X N
X
(yi − y Uh )(y Uh − y U )1{ui ∈Uh } = (y Uh − y U ) (yi − y Uh )1{ui ∈Uh }
h=1 i=1 h=1 i=1
H N N
!
X X X
= (y Uh − y U ) yi 1{ui ∈Uh } − y Uh 1{ui ∈Uh }
h=1 i=1 i=1
H N
!
X X
= (y Uh − y U ) yi 1{ui ∈Uh } − Nh y Uh = 0.
h=1 i=1

N
Pour le troisième terme, en utilisant encore 1{ui ∈Uh } = Nh , on a
P
i=1

H X
X N H
X N
X
(y Uh − y U )2 1{ui ∈Uh } = (y Uh − y U )2 1{ui ∈Uh }
h=1 i=1 h=1 i=1
H
X
= Nh (y Uh − y U )2 .
h=1

Au final, on a

N
X H
X H
X
(yi − y U )2 = (Nh − 1)s2Uh + Nh (y Uh − y U )2 .
i=1 h=1 h=1

D’où
v v !
u N u H H
u 1 X 2
u 1 X X
sU = t (yi − y U ) = t (Nh − 1)s2Uh + Nh (y Uh − y U ) 2
.
N − 1 i=1 N −1
h=1 h=1

C. Chesneau 77
6 Plan de sondage aléatoire stratifié (ST)

Dispersion des valeurs de Y :

On pose

H H
X X Iinter
I = (N − 1)s2U , Iintra = (Nh − 1)s2Uh , Iinter = Nh (y Uh − y U )2 , η2 = .
I
h=1 h=1

Alors

◦ I = Iintra + Iinter ,

◦ Iintra est un indicateur sur la dispersion des valeurs de Y au sein des strates,

◦ Iinter est un indicateur sur la dispersion des valeurs de Y entre les strates,

◦ la dispersion de Y entre les strates constitue (100 × η 2 )% de la dispersion des valeurs de Y


dans U . Plus η 2 est proche de 1, plus la mise en œuvre d’un plan de sondage aléatoire de type
ST est justifié.

Loi de probabilité :

Soit Wh la var égale à l’échantillon de taille nh obtenu dans la strate Uh par un plan de sondage
aléatoire de type PESR. Alors on a :

1
P(Wh = ω) = Nh
, ω ∈ Wh (Ω).
nh

Probabilités d’appartenance :

◦ pour tout i ∈ {1, . . . , N }, on a

nh
P(ui ∈ Wh ) = 1{ui ∈Uh } .
Nh

◦ pour tout (i, j) ∈ {1, . . . , N }2 avec i 6= j tels que ui et uj appartiennent à Uh , on a

nh (nh − 1)
P((ui , uj ) ∈ Wh ) = 1{(ui ,uj )∈Uh } .
Nh (Nh − 1)

Dans la suite :

◦ pour les résultats, on considère un plan de sondage aléatoire de type ST et la var

W = (W1 , . . . , WH ) égale à l’échantillon obtenu,

◦ pour les commandes R, on utilisera dorénavant la librairie sampling.

C. Chesneau 78
6 Plan de sondage aléatoire stratifié (ST)

6.2 Estimateurs

Estimation aléatoire de y U :

Un estimateur aléatoire de y U est

H N
1 X 1 X
yW = Nh y Wh , y Wh = yi 1{ui ∈Wh } .
N nh i=1
h=1

Espérance de y Wh :

Pour tout h ∈ {1, . . . , H}, on a


E(y Wh ) = y Uh .

Preuve : On a

N
! N N
1 X 1 X  1 X
E(y Wh ) = E yi 1{ui ∈Wh } = yi E 1{ui ∈Wh } = yi P(ui ∈ Wh )
nh i=1 nh i=1 nh i=1
N N
1 X nh 1 X
= yi 1{ui ∈Uh } = yi 1{ui ∈Uh } = y Uh .
nh i=1 Nh Nh i=1

Variance de y Wh :

Pour tout h ∈ {1, . . . , H}, on a


s2Uh
V(y Wh ) = (1 − fh ) ,
nh

avec fh = nh /Nh .

Preuve : Par la formule de la variance d’une somme de var, on obtient

N
! N
!
1 X 1 X
V(y Wh ) = V yi 1{ui ∈Wh } = 2 V yi 1{ui ∈Wh }
nh i=1 nh i=1
 
N N Xi−1
1 X  X 
= 2 V yi 1{ui ∈Wh } + 2 C yi 1{ui ∈Wh } , yj 1{uj ∈Wh } 
nh i=1 i=2 j=1
 
N N X i−1
1 X 2  X 
= 2 y V 1{ui ∈Wh } + 2 yi yj C 1{ui ∈Wh } , 1{uj ∈Wh }  .
nh i=1 i i=2 j=1

C. Chesneau 79
6 Plan de sondage aléatoire stratifié (ST)

Or, en utilisant P(ui ∈ Wh ) = (nh /Nh )1{ui ∈Uh } , on a

  2 2
V 1{ui ∈Wh } = E 12{ui ∈Wh } − E 1{ui ∈Wh }

= P(ui ∈ Wh ) − (P(ui ∈ Wh ))
 2  
nh nh nh nh
= 1{ui ∈Uh } − 1{ui ∈Uh } = 1− 1{ui ∈Uh } .
Nh Nh Nh Nh

De plus, comme

P({ui ∈ Wh } ∩ {uj ∈ Wh }) = P((ui , uj ) ∈ Wh ) = nh (nh − 1)/(Nh (Nh − 1))1{(ui ,uj )∈Uh } , il vient

   
C 1{ui ∈Wh } , 1{uj ∈Wh } = E 1{ui ∈Wh } 1{uj ∈Wh } − E 1{ui ∈Wh } E 1{uj ∈Wh }

= P({ui ∈ Wh } ∩ {uj ∈ Wh }) − P(ui ∈ Wh )P(uj ∈ Wh )


nh (nh − 1) nh nh
= 1{(ui ,uj )∈Uh } − 1{ui ∈Uh } 1{uj ∈Uh }
Nh (Nh − 1) Nh Nh
 
nh nh − 1 nh
= − 1{ui ∈Uh } 1{uj ∈Uh } .
Nh Nh − 1 Nh

En combinant ces égalités, on obtient

V(y Wh )
 
  N   N i−1
1  nh nh X 2 nh nh − 1 nh X X
= 2 1− y 1{ui ∈Uh } + 2 − yi 1{ui ∈Uh } yj 1{uj ∈Uh } 
n h Nh Nh i=1 i Nh Nh − 1 Nh i=2 j=1
  
  N   N i−1
1  nh X 2 nh − 1 nh  X X
= 1− y 1{ui ∈Uh } + − 2 yi 1{ui ∈Uh } yj 1{uj ∈Uh }  .
nh Nh Nh i=1 i Nh − 1 Nh i=2 j=1

C. Chesneau 80
6 Plan de sondage aléatoire stratifié (ST)

N i−1
N 2 N
On a 2 yi2 1{ui ∈Uh } . D’où
P P P P
yi 1{ui ∈Uh } yj 1{uj ∈Uh } = yi 1{ui ∈Uh } −
i=2 j=1 i=1 i=1

 N
X
1 nh
V(y Wh ) = 1− yi2 1{ui ∈Uh }
nh Nh Nh i=1
 

N
!2 N
!
nh − 1 nh X X
+ −  yi 1{ui ∈Uh } − yi2 1{ui ∈Uh } 
Nh − 1 Nh i=1 i=1
 N
X
1 nh nh − 1 nh
= 1−
− + y 2 1{ui ∈Uh }
nh Nh Nh Nh − 1 Nh i=1 i
  X N
!2 !
nh − 1 nh
+ − yi 1{ui ∈Uh }
Nh − 1 Nh i=1

N N
!2 
1  Nh − nh X 2 Nh − n h X
= y 1{ui ∈Uh } − yi 1{ui ∈Uh } 
nh Nh Nh − 1 i=1 i Nh (Nh − 1) i=1
 
N N
!2 
Nh − nh  1 X 1 X
=  y 2 1{ui ∈Uh } − Nh yi 1{ui ∈Uh }  .
n h Nh Nh − 1 i=1 i Nh i=1

D’autre part, on a

N
1 X
s2Uh = (yi − y Uh )2 1{ui ∈Uh }
Nh − 1 i=1
N N
!
1 X X
= yi2 1{ui ∈Uh } − 2y Uh yi 1{ui ∈Uh } + Nh y 2Uh
Nh − 1 i=1 i=1
N
! N
!
1 X 1 X
= yi2 − 2N y 2Uh + Nh y 2Uh = yi2 1{ui ∈Uh } − N y 2Uh
Nh − 1 i=1
Nh − 1 i=1

N N
!2 
1 X 1 X
=  y 2 1{ui ∈Uh } − Nh yi 1{ui ∈Uh } .
Nh − 1 i=1 i Nh i=1

Il s’ensuit

s2Uh s2
 
Nh − n h 2 nh
V(y Wh ) = s = 1− = (1 − fh ) Uh .
nh Nh Uh Nh nh nh

C. Chesneau 81
6 Plan de sondage aléatoire stratifié (ST)

Espérance de y W :

L’estimateur y W est sans biais pour y U :

E(y W ) = y U .

Preuve : En utilisant E y Wh = y Uh , il vient




H
! H H
1 X 1 X  1 X
E(y W ) = E Nh y W h = Nh E y W h = Nh y Uh = y U .
N N N
h=1 h=1 h=1

Variance de y W :

On a
H
1 X 2 s2
V(y W ) = 2
Nh (1 − fh ) Uh .
N nh
h=1

Preuve : Comme (U1 , . . . , UH ) forme une partition de U , les var y W1 , . . . , y WH sont indépendantes. Cela
combiné à V y Wh = (1 − fh )s2Uh /nh donne


H
! H H
1 X 1 X 2  1 X 2 s2Uh
V(y W ) = V Nh y Wh = N h V y Wh = Nh (1 − f h ) .
N N2 N2 nh
h=1 h=1 h=1

Erreur quadratique moyenne de y W :

L’erreur quadratique moyenne de y W est le réel :

H
1 X 2 s2Uh
EQM (y W )[ST ] = N h (1 − fh ) .
N2 nh
h=1

Estimation aléatoire de sUh :

Un estimateur aléatoire de sUh est

v
u N
u 1 X
sWh =t (yi − y Wh )2 1{ui ∈Wh } .
nh − 1 i=1

C. Chesneau 82
6 Plan de sondage aléatoire stratifié (ST)

Propriété de s2Wh :

L’estimateur s2Wh est sans biais pour s2Uh :

E s2Wh = s2Uh .


N
Preuve : En remarquant que 1{ui ∈Wh } = nh , il vient
P
i=1

N
1 X
s2Wh = (yi − y Wh )2 1{ui ∈Wh }
nh − 1 i=1
N N N
!
1 X X X
= yi2 1{ui ∈Wh } − 2y Wh yi 1{ui ∈Wh } + y 2Wh 1{ui ∈Wh }
nh − 1 i=1 i=1 i=1
N
! N
!
1 X 1 X
= yi2 1{ui ∈Wh } − 2nh y 2Wh + nh y 2Wh = yi2 1{ui ∈Wh } − nh y 2W .
nh − 1 i=1
nh − 1 i=1

En utilisant P(ui ∈ Wh ) = (nh /Nh )1{ui ∈Uh } et

2 s2
E y 2Wh = V y Wh + E y Wh = (1 − fh ) Uh + y 2Uh ,
 
nh

on a

N
!!
1 X
s2Wh yi2 1{ui ∈Wh } nh y 2Wh

E =E −
nh − 1 i=1
N
!
1 X
yi2 E 1{ui ∈Wh } − nh E y 2Wh
 
=
nh − 1 i=1
N
!
1 X
yi2 P (ui y 2Wh

= ∈ Wh ) − n h E
nh − 1 i=1
N
!!
1 nh X 2 s2Uh 2
= y 1{ui ∈Uh } − nh (1 − fh ) + y Uh
nh − 1 Nh i=1 i nh
N
!   !
1 nh X
2 2 nh 2
= yi 1{ui ∈Uh } − Nh y Uh − 1 − sUh
nh − 1 Nh i=1
Nh
N
!!  
nh (Nh − 1) 1 X
2 2 1 nh
= y − Nh y Uh − 1− s2Uh .
(nh − 1)Nh Nh − 1 i=1 i nh − 1 Nh

C. Chesneau 83
6 Plan de sondage aléatoire stratifié (ST)

En remarquant que

N
1 X
s2Uh = (yi − y Uh )2 1{ui ∈Uh }
Nh − 1 i=1
N N
!
1 X X
= yi2 1{ui ∈Uh } − 2y Uh yi 1{ui ∈Uh } + Nh y 2Uh
Nh − 1 i=1 i=1
N
! N
!
1 X 1 X
= yi2 1{ui ∈Uh } − 2Nh y 2Uh + Nh y 2Uh = yi2 1{ui ∈Uh } − Nh y 2Uh .
Nh − 1 i=1
Nh − 1 i=1

D’où

 
nh (Nh − 1) 2 1 nh
s2Wh s2Uh

E = s − 1−
(nh − 1)Nh Uh nh − 1 Nh
nh (Nh − 1) − Nh + nh 2 nh Nh − nh − Nh + nh 2 (nh − 1)Nh 2
= sUh = sUh = s = s2Uh .
(nh − 1)Nh (nh − 1)Nh (nh − 1)Nh Uh

6.3 Estimations ponctuelles

Estimation ponctuelle de y Uh :

Soit ωh un échantillon de nh individus de Uh . Une estimation ponctuelle de y Uh est la moyenne-


échantillon :
N
1 X
y ωh = yi 1{ui ∈ωh } .
nh i=1

Estimation ponctuelle de sUh :

Soit ωh un échantillon de nh individus de Uh . Une estimation ponctuelle de sUh est l’écart-type


corrigé-échantillon : v
u N
u 1 X
sωh =t (yi − y ωh )2 1{ui ∈ωh } .
nh − 1 i=1

C. Chesneau 84
6 Plan de sondage aléatoire stratifié (ST)

Estimation ponctuelle de y U :

H
Soit ω = (ω1 , . . . , ωH ) un échantillon de n = nh individus de U . Une estimation ponctuelle de
P
h=1
y U est la moyenne-échantillon (stratifiée) :

H
1 X
yω = Nh y ωh .
N
h=1

Quelques commandes R : Un exemple de calcul de y ω avec R est décrit ci-dessous :

Y_1 = c(35, 43, 36, 39, 28, 28, 29, 25, 38, 27, 26, 32, 29, 40, 35, 41, 38, 31,
45, 34, 15, 4, 41, 49, 25, 10)
Y_2 = c(27, 15, 4, 41, 49, 25, 10, 30, 32, 29, 40, 35, 41, 36, 31, 45)
Y_3 = c(8, 14, 12, 12, 15, 30, 32, 21, 20, 34, 7, 11, 24, 32, 29, 42, 35, 41, 37,
31, 42)
n_h = c(3, 2, 4)
library(sampling)
t_1 = srswor(n_h[1], length(Y_1))
t_2 = srswor(n_h[2], length(Y_2))
t_3 = srswor(n_h[3], length(Y_3))
bar_y_w_1 = (1 / n_h[1]) * sum(Y_1 * t_1)
bar_y_w_2 = (1 / n_h[2]) * sum(Y_2 * t_2)
bar_y_w_3 = (1 / n_h[3]) * sum(Y_3 * t_3)
bar_y_w_h = c(bar_y_w_1, bar_y_w_2, bar_y_w_3)
N_h = c(length(Y_1), length(Y_2), length(Y_3))
N = sum(N_h)
bar_y_w = sum(N_h * bar_y_w_h) / N
bar_y_w

Estimation ponctuelle de sU :

H
Soit ω = (ω1 , . . . , ωH ) un échantillon de n = nh individus de U . Une estimation ponctuelle de sU
P
h=1
est l’écart-type corrigé-échantillon :
v !
u H H
u 1 X X
sω = t (Nh − 1)s2ωh + Nh (y ωh − y ω ) 2
.
N −1
h=1 h=1

C. Chesneau 85
6 Plan de sondage aléatoire stratifié (ST)

Estimation ponctuelle de l’écart-type de y W :

Soit ω = (ω1 , . . . , ωH ) un échantillon de


H
nh individus de U . Une estimation ponctuelle de l’écart-type de y W est le réel :
P
n=
h=1

v
u H
u 1 X s2
s(y ω ) = t 2 Nh2 (1 − fh ) ωh .
N nh
h=1

Quelques commandes R : Un exemple de calcul de sω avec R est décrit ci-dessous :

Y_1 = c(35, 43, 36, 39, 28, 28, 29, 25, 38, 27, 26, 32, 29, 40, 35, 41, 38, 31,
45, 34, 15, 4, 41, 49, 25, 10)
Y_2 = c(27, 15, 4, 41, 49, 25, 10, 30, 32, 29, 40, 35, 41, 36, 31, 45)
Y_3 = c(8, 14, 12, 12, 15, 30, 32, 21, 20, 34, 7, 11, 24, 32, 29, 42, 35, 41, 37,
31, 42)
n_h = c(3, 2, 4)
t_1 = srswor(n_h[1], length(Y_1))
t_2 = srswor(n_h[2], length(Y_2))
t_3 = srswor(n_h[3], length(Y_3))
bar_y_w_1 = (1 / n_h[1]) * sum(Y_1 * t_1)
bar_y_w_2 = (1 / n_h[2]) * sum(Y_2 * t_2)
bar_y_w_3 = (1 / n_h[3]) * sum(Y_3 * t_3)
bar_y_w_h = c(bar_y_w_1, bar_y_w_2, bar_y_w_3)
s_w_1 = sqrt(sum((Y_1 - bar_y_w_1)^2 * t_1) / (n_h[1] - 1))
s_w_2 = sqrt(sum((Y_2 - bar_y_w_2)^2 * t_2) / (n_h[2] - 1))
s_w_3 = sqrt(sum((Y_3 - bar_y_w_3)^2 * t_3) / (n_h[3] - 1))
s_w_h = c(s_w_1, s_w_2, s_w_3)
N_h = c(length(Y_1), length(Y_2), length(Y_3))
N = sum(N_h)
bar_y_w = sum(N_h * bar_y_w_h) / N
s_bar_y_w = sqrt((1 / N^2) * sum(N_h^2 * (1-n_h / N_h) * (s_w_h^2 / n_h)))
s_bar_y_w

C. Chesneau 86
6 Plan de sondage aléatoire stratifié (ST)

Question : Comment doit-on choisir les nombres d’individus n1 , . . . , nH dans chaque strate pour que l’es-
timation de y U soit la plus précise possible ? Deux réponses possibles sont apportées par :

◦ le plan de sondage STP,

◦ le plan de sondage STO.

6.4 Plan de sondage aléatoire stratifié proportionnel (STP)

Plan de sondage STP :

On appelle plan de sondage aléatoire stratifié proportionnel (STP) tout plan de sondage aléatoire
stratifié (ST) tel que les entiers n1 , . . . , nH vérifient, pour tout
h ∈ {1, . . . , H}, fh = f , soit
n
nh = Nh .
N

Choix pratique :

En pratique, pour tout h ∈ {1, . . . , H}, on prend le plus petit entier nh tel que

n
nh ≥ Nh .
N

H
Si on a nh 6= n, on ajuste en ajoutant ou enlevant une unités pour les échantillons les plus nombreux.
P
h=1
Réécriture de y W :

On a

H H N H
1 X 1X 1X X
yW = Nh y Wh = nh y Wh = yi 1{ui ∈Wh }
N n n i=1
h=1 h=1 h=1
N
1 X
= yi 1{ui ∈W } .
n i=1

On retrouve le même estimateur de la moyenne que celui présenté dans le cadre PESR.

Erreur quadratique moyenne de y W :

L’erreur quadratique moyenne de y W est le réel :

H
1 X Nh 2
EQM (y W )[ST P ] = (1 − f ) s .
n N Uh
h=1

C. Chesneau 87
6 Plan de sondage aléatoire stratifié (ST)

Comparaison de plans de sondage aléatoires de type PESR et STP :

Si N et Nh sont suffisamment grands, on peut montrer que

EQM (y W )[ST P ] ≤ EQM (y W )[P ESR].

Réécriture de y ω :

H
Soit ω = (ω1 , . . . , ωH ) un échantillon de n = nh individus de U . Une estimation ponctuelle de
P
h=1
y U est la moyenne-échantillon :

H N
1 X 1X
yω = Nh y ωh = yi 1{ui ∈ω} .
N n i=1
h=1

On retrouve la même estimation ponctuelle de y U que celle présentée dans le cadre PESR.

Estimation ponctuelle de l’écart-type de y W :

H
Soit ω = (ω1 , . . . , ωH ) un échantillon de n = nh individus de U . Une estimation ponctuelle de
P
h=1
l’écart-type de y W est le réel :

v v
u H 2
u H
u 1 X
2 sωh t(1 − f ) 1
u X Nh 2
s(y ω ) = t Nh (1 − f h ) = s .
N 2 nh n N ωh
h=1 h=1

C. Chesneau 88
6 Plan de sondage aléatoire stratifié (ST)

6.5 Plan de sondage aléatoire stratifié optimal (STO)

Plan de sondage STO :

On appelle plan de sondage aléatoire stratifié optimal (STO) tout plan de sondage aléatoire stratifié
(ST) tel que les entiers n1 , . . . , nH minimisent

H
1 X 2 s2Uh
f (n1 , . . . , nH ) = N h (1 − fh ) ,
N2 nh
h=1

H
sous la contrainte
P
nh = n.
h=1
Notons que f (n1 , . . . , nH ) = EQM (y W )[ST ].
En utilisant une fonction lagrangienne, on obtient :

Nh sUh
nh = n H
.
P
N` sU`
`=1

Choix pratique : Soit ω = (ω1 , . . . , ωH ) un échantillon prélevé lors d’une étude préliminaire. En pratique,
pour tout h ∈ {1, . . . , H}, on prend le plus petit entier nh tel que

Nh sωh
nh ≥ n H
.
P
N` sω`
`=1

Il dépend ainsi de la taille de strate Uh et de la dispersion des valeurs de Y dans la strate Uh .

◦ Si nh ≥ Nh , alors on prend nh = Nh et on recalcule les autres tailles sans prendre en compte l’échan-
tillon ωh :
Nk sωk
nk ≥ (n − nh ) H
.
P
N` sω`
`=1
`6=h

On procède de même si nk ≥ Nk .
H
◦ Si nh 6= n, on ajuste en enlevant une unité pour les échantillons les plus nombreux.
P
h=1

C. Chesneau 89
6 Plan de sondage aléatoire stratifié (ST)

Erreur quadratique moyenne de y W :

L’erreur quadratique moyenne de y W est le réel :

H
!2 H
1 X Nh 1 X Nh 2
EQM (y W )[ST O] = sU − s .
n N h N N Uh
h=1 h=1

Comparaison de plans de sondage aléatoires de types STP et STO :

On peut montrer que


EQM (y W )[ST O] ≤ EQM (y W )[ST P ].

Remarque : Si l’on dispose d’une information permettant la stratification de la population, on a tout


intérêt à l’utiliser pour améliorer l’estimation de y U . Le plan de sondage aléatoire de type STO donne
les meilleurs résultats.

6.6 Intervalles de confiance

Résultat limite : Si n, N et N − n sont suffisamment grands, alors on a

yW − yU
Z=v ≈ N (0, 1).
u H 2
u 1 X s
t Nh2 (1 − fh ) Wh
N2 nh
h=1

Intervalle de confiance pour y U :

Soit ω un échantillon de n individus de U . Un intervalle de confiance pour y U au niveau 100(1 − α)%,


α ∈]0, 1[, est

iyU = [y ω − zα s(y ω ), y ω + zα s(y ω )]


 v v 
u H 2
u H 2
u 1 X sω
u 1 X sω
= y ω − zα t 2 Nh2 (1 − fh ) h , y ω + zα t 2 Nh2 (1 − fh ) h  ,
N nh N nh
h=1 h=1

où zα est le réel vérifiant P(|Z| ≥ zα ) = α, Z ∼ N (0, 1).

Il y a 100(1 − α) chances sur 100 que y U appartienne à l’intervalle iyU .

Quelques commandes R : Un exemple de calcul de iyU avec R est décrit ci-dessous :

C. Chesneau 90
6 Plan de sondage aléatoire stratifié (ST)

icST= function(N_h, y, niveau) {


N = sum(N_h)
n_h = unlist(lapply(y, length))
bar_y_w_h = unlist(lapply(y, mean))
s_w_h = unlist(lapply(y, sd))
bar_y_w = sum(N_h * bar_y_w_h) / N
var_bar_y_w = (1 / N^2) * sum(N_h^2 * (1-n_h / N_h) * (s_w_h^2 / n_h))
z = qnorm(1 - (1 - niveau) / 2)
a = bar_y_w - z * sqrt(var_bar_y_w)
b = bar_y_w + z * sqrt(var_bar_y_w)
print(c(a, b)) }
N_h = c(155, 62, 93)
y_1 = c(35, 43, 36, 15, 30, 32, 21, 28, 29, 25, 38, 27, 26, 41, 49, 25, 10, 30,
31, 45, 34)
y_2 = c(27, 12, 12, 15, 49, 25, 10, 30)
y_3 = c(8, 14, 12, 12, 15, 30, 32, 21, 20, 34, 7, 11, 24)
y = list(y_1, y_2, y_3)
icST(N_h, y, 0.95)

6.7 Taille d’échantillon

Incertitude absolue :

Soit ω un échantillon de n individus de U . On appelle incertitude absolue sur y U au niveau 100(1 −


α)%, α ∈]0, 1[, la demi-longueur de iyU :

v
u H
u 1 X s2
dω = zα s(y ω ) = zα t 2 Nh2 (1 − fh ) ωh .
N nh
h=1

Plus dω est petit, plus l’estimation de y U par y ω est précise.

C. Chesneau 91
6 Plan de sondage aléatoire stratifié (ST)

Incertitude relative :

Soit ω un échantillon de n individus de U et dω l’incertitude absolue sur y U au niveau 100(1 − α)%,


α ∈]0, 1[. On appelle incertitude relative sur y U au niveau 100(1 − α)% le pourcentage (100 × d∗ω )%
où d∗ω est le réel :

d∗ω = .

Taille d’échantillon à partir de l’incertitude absolue :

Soit ω un échantillon prélevé lors d’une étude préliminaire. La taille d’échantillon n à choisir pour
avoir une incertitude absolue sur y U au niveau 100(1 − α)%, α ∈]0, 1[, inférieure ou égale à d0 est le
plus petit n tel que dω ≤ d0 . En particulier,

◦ pour un plan de sondage aléatoire de type STP :

H
N zα2 Nh s2ωh
P
h=1
n≥ H
,
N 2 d20
P
+ zα2 Nh s2ωh
h=1

◦ pour un plan de sondage aléatoire de type STO :

 H
2
zα2
P
Nh sωh
h=1
n≥ H
.
N 2 d20
P
+ zα2 Nh s2ωh
h=1

Quelques commandes R : Un exemple de fonction R pour calculer la taille n d’un échantillon à partir
de l’incertitude absolue sur y U pour un plan de sondage aléatoire de type STP au niveau 100(1 − α)%
est décrit ci-dessous :

n_ech = function(N_h, s_w_h, d0, niveau) {


N = sum(N_h)
z = qnorm(1 - (1 - niveau) / 2)
n = (N * z^2 * sum(N_h * s_w_h^2 )) / (N^2 * d0^2 + z^2 * sum(N_h * s_w_h^2))
print(ceiling(n)) }
N_h = c(15, 12, 134)
s_w_h = c(0.225, 1.271, 0.124)
n_ech(N_h, s_w_h, d0 = 0.1, niveau = 0.95)

Cela renvoie 40.

C. Chesneau 92
6 Plan de sondage aléatoire stratifié (ST)

Taille d’échantillon à partir de l’incertitude relative :

Soit ω un échantillon prélevé lors d’une étude préléminaire. La taille d’échantillon n à choisir pour
avoir une incertitude relative sur y U au niveau 100(1−α)%, α ∈]0, 1[, inférieure ou égale à (100×d1 )%
est le plus petit n tel que d∗ω ≤ d1 . En particulier,

◦ pour un plan de sondage aléatoire de type STP :

H
N zα2 Nh s2ωh
P
h=1
n≥ H
,
P
N 2 (d1 y ω )2 + zα2 Nh s2ωh
h=1

◦ pour un plan de sondage aléatoire de type STO :

 H
2
zα2
P
Nh sωh
h=1
n≥ H
.
P
N 2 (d1 y ω )2 + zα2 Nh s2ωh
h=1

6.8 Exercices corrigés

Exercice 1 : On considère le caractère Y = "âge" en années dans la population de 5 individus : U = {Paul,


John, Charles, Alexandre, Dimitri} = {u1 , . . . , u5 }. Pour tout i ∈ {1, . . . , 5}, soit yi la valeur de Y pour
l’individu ui . Les résultats, en années, sont :

y1 y2 y3 y4 y5
17 14.5 26 22.5 23

1. Calculer la moyenne-population y U et l’écart-type corrigé-population sU .

2. Dans un premier temps, on prélève un échantillon de 2 individus suivant un plan de sondage aléatoire
de type PESR.

(a) Quel est le taux de sondage ? Combien d’échantillons peut-on former ? Expliciter les.

(b) Pour chaque échantillon ω, calculer la moyenne-échantillon y ω .

(c) Soit y W la var égale à la moyenne-échantillon, l’aléatoire étant dans l’échantillon considéré. Dé-
terminer sa loi, puis calculer son espérance, sa variance et son erreur quadratique moyenne :
EQM(y W ).

C. Chesneau 93
6 Plan de sondage aléatoire stratifié (ST)

3. Dans un deuxième temps, on prélève un échantillon de 2 individus suivant un plan de sondage aléatoire
de type ST avec :

◦ les 2 strates : U1 = {Paul, John} et U2 = {Charles, Alexandre, Dimitri},

◦ un individu par strate.

(a) Combien d’échantillons peut-on former ? Expliciter les.

(b) Pour chaque échantillon ω, calculer la moyenne-échantillon y ω .

(c) Soit y W la var égale à la moyenne-échantillon stratifié, l’aléatoire étant dans l’échantillon considéré.
Déterminer sa loi, puis calculer son espérance, sa variance et son erreur quadratique moyenne :
EQM(y W ).

4. Quel plan de sondage donne une meilleure précision dans l’estimation de y U ?

Solution :

1. On a
y U = 20.6, sU = 4.7090.

2. (a) Le taux de sondage est


n 2
f= = = 0.4.
N 5

Vu le mode de prélèvement, le nombre d’échantillons possibles est

 
5 5!
= = 10.
2 2!(5 − 2)!

Ils sont :

{u1 , u2 } {u1 , u3 } {u1 , u4 } {u1 , u5 } {u2 , u3 }


{u2 , u4 } {u2 , u5 } {u3 , u4 } {u3 , u5 } {u4 , u5 }

(b) On a :

C. Chesneau 94
6 Plan de sondage aléatoire stratifié (ST)

ω Y yω

{u1 , u2 } {17, 14.5} 15.75


{u1 , u3 } {17, 26} 21.5
{u1 , u4 } {17, 22.5} 19.75
{u1 , u5 } {17, 23} 20
{u2 , u3 } {14.5, 26} 20.25
{u2 , u4 } {14.5, 22.5} 18.5
{u2 , u5 } {14.5, 23} 18.75
{u3 , u4 } {26, 22.5} 24.25
{u3 , u5 } {26, 23} 24.5
{u4 , u5 } {22.5, 23} 22.75

(c) Soit y W la var égale à la moyenne-échantillon. L’ensemble des valeurs possibles pour y W est

y W (Ω) = {15.75, 18.5, 18.75, 19.75, 20, 20.25, 21.5, 22.75, 24.25, 24.5}.

Comme il y a 10 échantillons différents et qu’ils sont équiprobables, la loi de y W est donnée par

k 15.75 18.5 18.75 19.75 20 20.25 21.5 22.75 24.25 24.5


1 1 1 1 1 1 1 1 1 1
P(y W = k) 10 10 10 10 10 10 10 10 10 10

En utilisant la loi de y W , l’espérance de y W est

X
E(y W ) = kP(y W = k)
k∈y W (Ω)
1
= (15.75 + 18.5 + 18.75 + 19.75 + 20 + 20.25 + 21.5 + 22.75 + 24.25 + 24.5)
10
= 20.6 (= y U )

En utilisant la formule de König-Huyghens, la variance de y W est

2
V(y W ) = E(y 2W ) − (E(y W )) .

C. Chesneau 95
6 Plan de sondage aléatoire stratifié (ST)

Or on a E(y W ) = 20.6 et

X
E(y 2W ) = k 2 P(y W = k)
k∈y W (Ω)
1
= (15.752 + 18.52 + 18.752 + 19.752 + 202 + 20.252
10
+ 21.52 + 22.752 + 24.252 + 24.52 )

= 431.0125.

D’où
s2
 
V(y W ) = 431.0125 − 20.62 = 6.652 = (1 − f ) U
n

et
EQM (y W ) = V(y W ) = 6.652.

3. (a) Vu le mode de prélèvement, le nombre d’échantillons possibles est

  
2 3
= 2 × 3 = 6.
1 1

Ils sont :

{u1 , u3 } {u1 , u4 } {u1 , u5 } {u2 , u3 } {u2 , u4 } {u2 , u5 }

(b) Dans le cadre d’un plan de sondage aléatoire de type ST, on rappelle que

H
1 X
yω = Nh y ωh .
N
h=1

Ici, N = 5, H = 2, N1 = 2, N2 = 3, y ω1 est la valeur de Y pour l’individu prélevé dans la Strate


U1 et y ω2 est la valeur de Y pour l’individu prélevé dans la Strate U2 .

Par exemple, avec ω = {u1 , u3 }, on a

2 3
yω = 17 + 26 = 22.4.
5 5

C. Chesneau 96
6 Plan de sondage aléatoire stratifié (ST)

On a

ω Y yω

{u1 , u3 } {17, 26} 22.4


{u1 , u4 } {17, 22.5} 20.3
{u1 , u5 } {17, 23} 20.6
{u2 , u3 } {14.5, 26} 21.4
{u2 , u4 } {14.5, 22.5} 19.3
{u2 , u5 } {14.5, 23} 19.6

(c) Soit y W la var égale à la moyenne-échantillon dans le cadre ST. L’ensemble des valeurs possibles
pour y W est
y W (Ω) = {19.3, 19.6, 20.3, 20.6, 21.4, 22.4}.

Comme il y a 6 échantillons différents et qu’ils sont équiprobables, la loi de y W est donnée par

k 19.3 19.6 20.3 20.6 21.4 22.4


1 1 1 1 1 1
P(y W = k) 6 6 6 6 6 6

En utilisant la loi de y W , l’espérance de y W est

X
E(y W ) = kP(y W = k)
k∈y W (Ω)
1
= (22.4 + 20.3 + 20.6 + 21.4 + 19.3 + 19.6)
6
= 20.6 (= y U )

En utilisant la formule de König-Huyghens, la variance de y W est

2
V(y W ) = E(y 2W ) − (E(y W )) .

Or on a E(y W ) = 20.6 et

X
E(y 2W ) = k 2 P(y W = k)
k∈y W (Ω)
1
= (22.42 + 20.32 + 20.62 + 21.42 + 19.32 + 19.62 )
6
= 425.47.

C. Chesneau 97
6 Plan de sondage aléatoire stratifié (ST)

D’où !
H
1 X 2 s2
2
V(y W ) = 425.47 − 20.6 = 1.11 = 2 Nh (1 − fh ) Uh
N nh
h=1

et
EQM (y W )[ST ] = V(y W ) = 1.11.

Remarque : On a bien

H
s2Uh 1 1.76772 1 1.89292
     
1 X 2 1 2 2
Nh (1 − f h ) = 2 1 − + 3 1 − = 1.10991.
N2 nh 52 2 1 3 1
h=1

4. Par les résultats des questions 2 (c) et 3 (c), on a

EQM (y W )[ST ] = 1.11 ≤ 6.652 = EQM (y W )[P ESR].

Donc le plan de sondage aléatoire de type ST donne une meilleure précision dans l’estimation de y U
que le plan de sondage aléatoire de type PESR.

Exercice 2 : Une population U est partagée en 3 strates U1 , U2 et U3 de tailles respectives : N1 = 12,


N2 = 28 et N3 = 50. On prélève un échantillon de n = 20 individus suivant un plan de sondage aléatoire
de type ST avec :

◦ n1 = 2 individus pour U1 ,

◦ n2 = 6 individus pour U2 ,

◦ n3 = 12 individus pour U3 .

On mesure un caractère quantitatif Y sur chacun d’entre eux. Les résultats obtenus sont :

Pour U1 1450 1598


Pour U2 718 626 922 823 901 823
Pour U3 201 268 225 231 453 387
401 368 325 331 253 197

1. Donner une estimation ponctuelle de la moyenne-population y U .

2. Donner une estimation ponctuelle de l’écart-type de l’estimateur de y U .

3. Déterminer un intervalle de confiance pour y U au niveau 95%.

C. Chesneau 98
6 Plan de sondage aléatoire stratifié (ST)

Solution :

1. Dans le cadre d’un plan de sondage aléatoire de type ST, une estimation ponctuelle de la moyenne-
population y U est
H
1 X
yω = Nh y ωh .
N
h=1
PH
Ici, H = 3, N1 = 12, N2 = 28, N3 = 50, N = h=1 Nh = 90,

y ω1 = 1524, y ω2 = 802.1667, y ω3 = 303.3333.

Ainsi, une estimation ponctuelle de la moyenne-population y U est

1
yω = (12 × 1524 + 28 × 802.1667 + 50 × 303.3333) = 621.2815.
90

2. Dans le cadre d’un plan de sondage aléatoire de type ST, une estimation ponctuelle de l’écart-type
de y W est v
u H
u 1 X s2
s(y ω ) = t 2 Nh2 (1 − fh ) ωh .
N nh
h=1

Ici on a
sω1 = 104.6518, sω2 = 112.352, sω3 = 85.9622

et
n1 2 n2 6 n3 12
f1 = = , f2 = = , f3 = = .
N1 12 N2 28 N3 50

Donc

2 104.65182 6 112.3522
       
1 1
s2 (y ω ) = 122
1 − + 28 2
1 −
902 12 2 902 28 6
2
   
1 12 85.96229
+ 2 502 1 − = 385.566.
90 50 12

Il vient

s(y ω ) = 385.566 = 19.63583.

3. On a 95% = 100(1 − α)% avec α = 0.05. On a P(|Z| ≥ zα ) = α = 0.05, Z ∼ N (0, 1), avec zα = 1.96.

C. Chesneau 99
6 Plan de sondage aléatoire stratifié (ST)

En utilisant les résultats des questions 1 et 2, un intervalle de confiance pour y U au niveau 95% est

 v v 
u H 2
u H 2
u 1 X s u 1 X s
iyU = y ω − zα t 2 Nh2 (1 − fh ) ωh , y ω + zα t 2 Nh2 (1 − fh ) ωh 
N nh N nh
h=1 h=1

= [621.2815 − 1.96 × 19.63583, 621.2815 + 1.96 × 19.63583] = [582.7953, 659.7677].

Ainsi, il y a 95 chances sur 100 que [582.7953, 659.7677] contienne y U .

Exercice 3 : Une population U est partagée en 4 strates U1 , U2 , U3 et U4 . On prélève un échantillon de 77


individus suivant un plan de sondage aléatoire de type ST et on mesure un caractère quantitatif Y sur
chacun d’entre eux. On dispose des informations suivantes :

Strate Uh U1 U2 U3 U4
Taille Nh 310 220 130 110
Écart-type corrigé sUh 9.5 6.1 3.5 2.1

1. Quelle est l’effectif total de la population ?

2. On considère un plan de sondage aléatoire de type STP.

(a) Déterminer les tailles des échantillons pour chacune des strates.

(b) Calculer l’erreur quadratique moyenne de l’estimateur de la moyenne-population.

3. On considère maintenant un plan de sondage aléatoire de type STO.

(a) Déterminer les tailles des échantillons pour chacune des strates.

(b) Calculer l’erreur quadratique moyenne de l’estimateur de la moyenne-population.

4. Comparer les résultats des 2 plans de sondage considérés.

Solution :

1. On a H = 4. L’effectif total de la population est

H
X
N= Nh = 770.
h=1

2. On considère un plan de sondage aléatoire de type STP.

(a) Par la définition du type STP, on prend les plus petits entiers n1 , n2 , n3 et n4 tels que :

n n
n1 ≥ N1 = 0.1 × 310 = 31, n2 ≥ N2 = 0.1 × 220 = 22,
N N

C. Chesneau 100
6 Plan de sondage aléatoire stratifié (ST)

n n
n3 ≥ N1 = 0.1 × 130 = 13, n4 ≥ N2 = 0.1 × 110 = 11.
N N

D’où :
n1 = 31. n2 = 22, n3 = 13, n4 = 11.
H
On a nh = 77 = n, il n’y a pas d’ajustement à faire.
P
h=1
(b) L’erreur quadratique moyenne de l’estimateur de la moyenne-population y W est

H
1 X Nh 2
EQM (y W )[ST P ] = (1 − f ) s
n N Uh
h=1
   
77 1 310 2 220 2 130 2 110 2
= 1− 9.5 + 6.1 + 3.5 + 2.1
770 77 770 770 770 770

= 0.5804.

3. On considère maintenant un plan de sondage aléatoire de type STO.

(a) Par la définition du type STO, on prend les plus petits entiers n1 , n2 , n3 et n4 tels que :

N1 sU1 310 × 9.5


n1 ≥ n = 77 × = 45.5992,
H
P 310 × 9.5 + 220 × 6.1 + 130 × 3.5 + 110 × 2.1
N` sU`
`=1

N2 sU2 220 × 6.1


n2 ≥ n = 77 × = 20.7790,
H
P 310 × 9.5 + 220 × 6.1 + 130 × 3.5 + 110 × 2.1
N` sU`
`=1

N3 sU3 130 × 3.5


n3 ≥ n = 77 × = 7.0450,
H
P 310 × 9.5 + 220 × 6.1 + 130 × 3.5 + 110 × 2.1
N` sU`
`=1

et
N4 sU4 110 × 2.1
n4 ≥ n = 77 × = 3.5767.
H
P 310 × 9.5 + 220 × 6.1 + 130 × 3.5 + 110 × 2.1
N` sU`
`=1

D’où :
n1 = 46, n2 = 21, n3 = 8, n4 = 4.
H
Comme nh = 79 6= 77, on propose l’ajustement :
P
h=1

n1 = 45, n2 = 20, n3 = 8, n4 = 4.

C. Chesneau 101
6 Plan de sondage aléatoire stratifié (ST)

(b) L’erreur quadratique moyenne de l’estimateur de la moyenne-population y W est

H
!2 H
1 X Nh 1 X Nh 2
EQM (y W )[ST O] = sUh − s
n N N N Uh
h=1 h=1
 2
1 310 220 130 110
= 9.5 + 6.1 + 3.5 + 2.1
77 770 770 770 770
 
1 310 2 220 2 130 2 110 2
− 9.5 + 6.1 + 3.5 + 2.1
770 770 770 770 770

= 0.4772.

4. On remarque que les plans de sondage amènent à des tailles différentes pour le choix des échan-
tillons. De plus, par rapport au type STP, le sondage aléatoire de type STO conduit à une meilleure
performance de y W dans l’estimation de y U .

C. Chesneau 102
6 Plan de sondage aléatoire stratifié (ST)

6.9 Synthèse

Paramètres-strates et les paramètres-échantillon correspondants, ω = (ω1 , . . . , ωH ) :

Strate Uh Échantillon ωh

Taille Nh nh

nh
Taux de sondage  fh =
Nh
Nh Nh
1 X 1 X
Moyenne y Uh = yi y ωh = yi 1{ui ∈ωh }
Nh i=1 nh i=1
v v
u
u 1 Nh
X
u
u 1 X Nh
Écart-type corrigé sUh = t (yi − y Uh )2 sωh =t (yi − y ωh )2 1{ui ∈ωh }
Nh − 1 i=1 nh − 1 i=1
s s
s2 s2
Écart-type de y Wh σ(y Wh ) = (1 − fh ) Uh s(y ωh ) = (1 − fh ) ωh
nh nh

Paramètres-population et les paramètres-échantillon correspondants :

Population U Échantillon ω

Taille N n
N H
1 X 1 X
Moyenne yU = yi yω = Nh y ωh
N i=1 N
v v h=1
H H
s2Uh s2ωh
u u
u 1 X u 1 X
Écart-type de y W σ(y W ) = t N 2
h (1 − fh ) s(y ω ) = t N 2
h (1 − f h )
N2 nh N2 nh
h=1 h=1

C. Chesneau 103
6 Plan de sondage aléatoire stratifié (ST)

Plans de sondage aléatoires de types STP et STO :

STP STO STO (applicable)

n Nh sUh Nh sωh
nh Nh n H
n H
N P P
N` sU` N` sω`
`=1 `=1

Autre notions utilisées autour de y U (niveau : 100(1 − α)%, α ∈]0, 1[) :


 v v 
H H
s2ωh s2ωh
u u
u 1 X 2
u 1 X 2
Intervalle de confiance iy U =  y ω − zα t 2 N (1 − fh ) , y ω + zα t 2 N (1 − fh )
N h=1 h N h=1 h

nh nh
v
H
s2ω
u
u 1 X
Incertitude absolue d ω = zα t 2 Nh2 (1 − fh ) h
N h=1 nh


Incertitude relative d∗ω =

H
2 Nh s2ωh
P
N zα
h=1
Taille n telle que ◦ pour un plan de sondage aléatoire de type STP : n ≥ ,
H
N 2 d20 + zα
2 Nh s2ωh
P

 H h=1 2
2
P
zα Nh sωh
h=1
dω ≤ d0 ◦ pour un plan de sondage aléatoire de type STO : n ≥ .
H
N 2 d20 + zα
2 Nh s2ωh
P
h=1
H
2 Nh s2ωh
P
N zα
h=1
Taille n telle que ◦ pour un plan de sondage aléatoire de type STP : n ≥ ,
H
N 2 (d1 y ω )2 + zα
2 Nh s2ωh
P
h=1
 H 2
2
P
zα Nh sωh
h=1
d∗ω ≤ d1 ◦ pour un plan de sondage aléatoire de type STO : n ≥ .
H
N 2 (d1 y ω )2 2 Nh s2ωh
P
+ zα
h=1

Rappel : P(|Z| ≥ zα ) = α, Z ∼ N (0, 1).

C. Chesneau 104
7 Total, proportion et effectif dans le cadre ST

7 Total, proportion et effectif dans le cadre ST

On reprend le cadre mathématique d’un plan de sondage aléatoire de type ST.

7.1 Estimation du total

Total :

On appelle total-population le réel :

N
X H
X
τU = yi = N y U = Nh y W h .
i=1 h=1

Estimation aléatoire de τU :

Un estimateur aléatoire de τU est


τW = N y W .

Espérance de τW :

L’estimateur τW est sans biais pour τU :

E(τW ) = τU .

Variance de τW :

La variance de τW est
H
X s2Uh
V(τW ) = Nh2 (1 − fh ) .
nh
h=1

Erreur quadratique moyenne de τW :

L’erreur quadratique moyenne de τW est le réel :

H
X s2Uh
EQM (τW )[P ESR] = Nh2 (1 − fh ) .
nh
h=1

Estimation ponctuelle de τU :

Soit ω un échantillon de n individus de U . Une estimation ponctuelle de τU est le total-échantillon :

τω = N y ω .

C. Chesneau 105
7 Total, proportion et effectif dans le cadre ST

Estimation ponctuelle de l’écart-type de τW :

Soit ω un échantillon de n individus de U . Une estimation ponctuelle de l’écart-type de τW est le


réel : v
uH
uX s2
s(τω ) = t Nh2 (1 − fh ) ωh .
nh
h=1

Intervalle de confiance pour τU :

Soit ω un échantillon de n individus de U . Un intervalle de confiance pour τU au niveau 100(1 − α)%,


α ∈]0, 1[, est

iτU = [τω − zα s(τω ), τω + zα s(τω )]


 v v 
uH uH
uX s2 u X s2
= τω − zα t Nh2 (1 − fh ) ωh , τω + zα t Nh2 (1 − fh ) ωh  = N × iyU ,
nh nh
h=1 h=1

où zα est le réel vérifiant P(|Z| ≥ zα ) = α, Z ∼ N (0, 1).

On peut également définir l’incertitude absolue ou relative sur τU , ainsi que la taille d’échantillon sou-
haitée pour une incertitude donnée.

7.2 Estimation d’une proportion

Contexte : On suppose que le caractère Y est binaire : Y (Ω) = {0, 1}. Cela correspond à un codage.

Proportion :

On appelle proportion-population la proportion des individus dans U vérifiant Y = 1 :

N
1 X
pU = yi (= y U ).
N i=1

Estimation d’une proportion :

Un estimateur aléatoire de pU est


H
1 X
pW = Nh pUh ,
N
h=1

avec pUh = y Wh .

C. Chesneau 106
7 Total, proportion et effectif dans le cadre ST

Espérance de pW :

L’estimateur pW est sans biais pour pU :

E(pW ) = pU .

Variance de pW :

La variance de pW est

H H
1 X 2 s2Uh 1 X 2 Nh
V(pW ) = Nh (1 − f h ) = Nh (1 − fh ) pU (1 − pUh ).
N 2 nh N 2 nh (Nh − 1) h
h=1 h=1

Erreur quadratique moyenne de pW :

L’erreur quadratique moyenne de pW est le réel :

H
1 X 2 Nh
EQM (pW )[ST ] = Nh (1 − fh ) pU (1 − pUh ).
N 2 nh (Nh − 1) h
h=1

Estimation ponctuelle de pU :

Soit ω un échantillon de n individus de U . Une estimation ponctuelle de pU est la proportion-


échantillon :
H
1 X
pω = y ω = Nh pωh , pωh = y ωh .
N
h=1

Estimation ponctuelle de l’écart-type de pW :

Soit ω un échantillon de n individus de U . Une estimation ponctuelle de l’écart-type de pW est le


réel : v
u H
u 1 X pω (1 − pωh )
s(pω ) = t 2 Nh2 (1 − fh ) h .
N nh − 1
h=1

Intervalle de confiance pour pU :

Soit ω un échantillon de n individus de U . Un intervalle de confiance pour pU au niveau 100(1 − α)%,


α ∈]0, 1[, est

ipU = [pω − zα s(pω ), pω + zα s(pω )]


 v v 
u H u H
u 1 X p ω (1 − p ω ) u 1 X p ω (1 − p ω )
= pω − zα t 2 Nh2 (1 − fh ) h h
, pω + zα t 2 Nh2 (1 − fh ) h h ,
N nh − 1 N nh − 1
h=1 h=1

où zα est le réel vérifiant P(|Z| ≥ zα ) = α, Z ∼ N (0, 1).

C. Chesneau 107
7 Total, proportion et effectif dans le cadre ST

Quelques commandes R : Un exemple de calcul de ipU avec R est décrit ci-dessous :

icpST= function(N_h, y, niveau) {


N = sum(N_h)
n_h = unlist(lapply(y, length))
bar_y_h = unlist(lapply(y,mean))
p_w = sum(N_h * bar_y_h) / N
var_p_w = (1 / N^2) * sum(N_h^2 * (1-n_h / N_h) *
(p_w * (1 - p_w) / (n_h - 1)))
z = qnorm(1 - (1 - niveau) / 2)
a = p_w - z * sqrt(var_p_w)
b = p_w + z * sqrt(var_p_w)
print(c(a, b)) }
N_h = c(181, 54, 73)
y_1 = c(0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0)
y_2 = c(1, 1, 0, 1, 1, 0, 0, 1, 1, 0)
y_3 = c(0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0)
y = list(y_1, y_2, y_3)
icpST(N_h, y, 0.95)

Cela renvoie : 0.25874, 0.60120.

Pour demander un niveau de 99%, on fait :

icpST(N_h, y, 0.99)

Cela renvoie : 0.20494, 0.65501.

Plan de sondage STP :

En pratique, pour tout h ∈ {1, . . . , H}, on considère le plus petit entier nh tel que

n
nh = Nh .
N

C. Chesneau 108
7 Total, proportion et effectif dans le cadre ST

Plan de sondage STO :

Soit ω = (ω1 , . . . , ωH ) un échantillon prélevé lors d’une étude préliminaire. En pratique, pour tout
h ∈ {1, . . . , H}, on prend le plus petit entier nh tel que
p
Nh pωh (1 − pωh )
nh ≥ n H .
P p
N` pω` (1 − pω` )
`=1

Incertitude absolue :

Soit ω un échantillon de n individus de U . On appelle incertitude absolue sur pU au niveau 100(1 −


α)%, α ∈]0, 1[, la demi-longueur de ipU :

v
u H
u 1 X pω (1 − pωh )
dω = zα s(y ω ) = zα t 2 Nh2 (1 − fh ) h .
N nh − 1
h=1

Plus dω est petit, plus l’estimation de pU par pω est précise.

Incertitude relative :

Soit ω un échantillon de n individus de U et dω l’incertitude absolue sur pU au niveau 100(1 − α)%,


α ∈]0, 1[. On appelle incertitude relative sur ipU au niveau 100(1 − α)% le pourcentage (100 × d∗ω )%
où d∗ω est le réel :

d∗ω = .

C. Chesneau 109
7 Total, proportion et effectif dans le cadre ST

Taille d’échantillon à partir de l’incertitude absolue :

Soit ω un échantillon prélevé lors d’une étude préliminaire. La taille d’échantillon n à choisir pour
avoir une incertitude absolue sur pU au niveau 100(1 − α)%, α ∈]0, 1[, inférieure ou égale à d0 est le
plus petit n tel que dω ≤ d0 . En particulier, cela entraîne,

◦ pour un plan de sondage aléatoire de type STP :

H
N zα2
P
Nh pωh (1 − pωh )
h=1
n≥ H
,
N 2 d20
P
+ zα2 Nh pωh (1 − pωh )
h=1

◦ pour un plan de sondage aléatoire de type STO :

 H
2
p
zα2
P
Nh pωh (1 − pωh )
h=1
n≥ H
.
N 2 d20
P
+ zα2 Nh pωh (1 − pωh )
h=1

Quelques commandes R : Un exemple de fonction R pour calculer la taille n d’un échantillon à partir
de l’incertitude absolue sur pU pour un plan de sondage aléatoire de type STP au niveau 100(1 − α)%
est décrit ci-dessous :

n_ech = function(N_h, p_w_h, d0, niveau) {


N = sum(N_h)
z = qnorm(1 - (1 - niveau) / 2)
n = (N * z^2 * sum(N_h * p_w_h * (1 - p_w_h) )) /
(N^2 * d0^2 + z^2 * sum(N_h * p_w_h * (1 - p_w_h)))
print(ceiling(n)) }
N_h = c(15, 12, 134)
p_w_h = c(0.75, 0.21, 0.55)
n_ech(N_h, p_w_h, d0 = 0.3, niveau = 0.95)

Cela renvoie 10.

C. Chesneau 110
7 Total, proportion et effectif dans le cadre ST

Taille d’échantillon à partir de l’incertitude relative :

Soit ω un échantillon prélevé lors d’une étude préliminaire. La taille d’échantillon n à choisir pour
avoir une incertitude relative sur pU au niveau 100(1−α)%, α ∈]0, 1[, inférieure ou égale à (100×d1 )%
est le plus petit n tel que d∗ω ≤ d1 . En particulier, cela entraîne,

◦ pour un plan de sondage aléatoire de type STP :

H
N zα2
P
Nh pωh (1 − pωh )
h=1
n≥ H
,
P
N 2 (d1 pω )2 + zα2 Nh pωh (1 − pωh )
h=1

◦ pour un plan de sondage aléatoire de type STO :

 H
2
p
zα2
P
Nh pωh (1 − pωh )
h=1
n≥ H
.
P
N 2 (d1 pω )2 + zα2 Nh pωh (1 − pωh )
h=1

7.3 Estimation d’un effectif

Contexte : On suppose que le caractère Y est binaire : Y (Ω) = {0, 1}. Cela correspond à un codage.

Effectif :

On appelle effectif-population le nombre des individus dans U vérifiant Y = 1 :

ηU = N p U .

Estimation aléatoire de ηU :

Un estimateur aléatoire de ηU est


ηW = N p W .

Espérance de ηW :

L’estimateur ηW est sans biais pour ηU :

E(ηW ) = ηU .

C. Chesneau 111
7 Total, proportion et effectif dans le cadre ST

Variance de ηW :

La variance de ηW est

H H
X s2ωh X Nh
V(ηW ) = Nh2 (1 − fh ) = Nh2 (1 − fh ) pU (1 − pUh ).
nh nh (Nh − 1) h
h=1 h=1

Erreur quadratique moyenne de ηW :

L’erreur quadratique moyenne de ηW est le réel :

H
X Nh
EQM (ηW )[ST ] = Nh2 (1 − fh ) pU (1 − pUh ).
nh (Nh − 1) h
h=1

Estimation ponctuelle de ηU :

Soit ω un échantillon de n individus de U . Une estimation ponctuelle de ηU est la proportion-


échantillon :
H
X
ηω = N pω = Nh pωh .
h=1

Estimation ponctuelle de l’écart-type de ηW :

Soit ω un échantillon de n individus de U . Une estimation ponctuelle de l’écart-type de ηW est le


réel : v
uH
uX pω (1 − pωh )
s(ηω ) = t Nh2 (1 − fh ) h .
nh − 1
h=1

Intervalle de confiance pour ηU :

Soit ω un échantillon de n individus de U . Un intervalle de confiance pour ηU au niveau 100(1 − α)%,


α ∈]0, 1[, est

iηU = [ηω − zα s(ηω ), ηω + zα s(ηω )]


 v v 
uH uH
uX p ω (1 − pωh ) u X pω (1 − p )
ωh 
= ηω − zα t Nh2 (1 − fh ) h , ηω + zα t Nh2 (1 − fh ) h
nh − 1 nh − 1
h=1 h=1

= N × ipU ,

où zα est le réel vérifiant P(|Z| ≥ zα ) = α, Z ∼ N (0, 1).

On peut également définir l’incertitude absolue ou relative sur ηU , ainsi que la taille d’échantillon sou-
haitée pour une incertitude donnée.

C. Chesneau 112
7 Total, proportion et effectif dans le cadre ST

7.4 Exercices corrigés

Exercice 1 : Sur les 6000 employés d’une entreprise, on souhaite connaître la proportion pU d’entre eux qui
sont propriétaires de leur logement. On décide de former 3 strates en fonction du revenu des employés.
On considère alors :
◦ la strate U1 : ensemble des employés à revenu faible,
◦ la strate U2 : ensemble des employés à revenu modeste,
◦ la strate U3 : ensemble des employés à revenu fort.
On dispose des informations suivantes :

Uh U1 U2 U3
Nh 2800 2200 1000
nh 210 200 110
pωh 0.11 0.55 0.85

1. Donner une estimation ponctuelle de pU .

2. Donner une estimation ponctuelle de l’écart-type de l’estimateur de pU .

3. Déterminer un intervalle de confiance pour pU au niveau 95%.

Solution :

1. On a H = 3. Une estimation ponctuelle de pU est

H
1 X 1
pω = Nh pωh = (2800 × 0.11 + 2200 × 0.55 + 1000 × 0.85) = 0.39466.
N 6000
h=1

2. On a

H
1 X 2 pω (1 − pωh )
s2 (pω ) = Nh (1 − fh ) h
N2 nh − 1
h=1
   
1 2 210 0.11(1 − 0.11) 2 200 0.55(1 − 0.55)
= 2800 1 − + 2200 1 −
60002 2800 210 − 1 2200 200 − 1
  !
110 0.85(1 − 0.85)
+ 10002 1 −
1000 110 − 1

= 0.0002752.

C. Chesneau 113
7 Total, proportion et effectif dans le cadre ST

Donc

s(pω ) = 0.016589.

3. On a 95% = 100(1 − α)% avec α = 0.05. On a P(|Z| ≥ zα ) = α = 0.05, Z ∼ N (0, 1), avec zα = 1.96.
Un intervalle de confiance pour τU au niveau 95% est

ipU = [pω − zα s(pω ), pω + zα s(pω )]

= [0.39466 − 1.96 × 0.016589, 0.39466 − 1.96 × 0.016589]

= [0.36214, 0.42717].

Ainsi, il y a 95 chances sur 100 que [0.36214, 0.42717] contienne pU .

Exercice 2 : On veut estimer le taux de réussite à la session d’examens de juin dans une université qui
comprend 950 inscrits en première année, 700 en deuxième, 430 en troisième et 400 en quatrième. On
veut estimer le taux de réussite à partir des résultats de 500 étudiants.

1. On prélève un échantillon de 500 étudiants suivant un plan de sondage aléatoire de type PESR. On
trouve un taux de réussite de 72%. Donner un intervalle de confiance du taux de réussite global au
niveau 95%.

2. Est-ce que l’estimation aurait été meilleure avec un plan de sondage aléatoire de type ST avec pour
strates les années d’étude ?

3. Combien d’étudiants aurait-il fallu prendre par année pour faire un plan de sondage aléatoire de type
STP ?

4. Avec un échantillon de 500 étudiants prélevé suivant un plan de sondage aléatoire de type STP, on
obtient :
pω1 = 0.62, pω2 = 0.72, pω3 = 0.78, pω4 = 0.83.

Donner une estimation ponctuelle de taux de réussite global.

Solution :

1. Soit pU le taux de réussite global. Par l’énoncé, on a pω = 0.72. On a 95% = 100(1 − α)% avec
α = 0.05. On a P(|Z| ≥ zα ) = α = 0.05, Z ∼ N (0, 1), avec zα = 1.96.

C. Chesneau 114
7 Total, proportion et effectif dans le cadre ST

Un intervalle de confiance pour pU au niveau 95% est


" r r #
pω (1 − pω ) pω (1 − pω )
ipU = pω − zα (1 − f ) , pω + zα (1 − f )
n−1 n−1
" s 
500 0.72(1 − 0.72)
= 0.72 − 1.96 1− ,
2480 500 − 1
s  #
500 0.72(1 − 0.72)
0.72 + 1.96 1−
2480 500 − 1

= [0.6847, 0.7552].

Ainsi, il y a 95 chances sur 100 que [0.6847, 0.7552] contienne pU .

2. Oui, il est fort probable qu’un plan de sondage aléatoire de type ST avec pour strates les années
d’étude aurait amené une meilleure estimation.

3. Pour faire un plan de sondage aléatoire de type STP, il faut choisir les plus petites tailles d’échan-
tillons : n1 , . . . , n4 telles que, pour tout h ∈ {1, . . . , 4},

n
nh ≥ Nh .
N

Il vient

500 500 500


n1 ≥ 950 = 191.5323, n2 ≥ 700 = 141.129, n3 ≥ 430 = 86.69355,
2480 2480 2480

et
500
n1 ≥ 400 = 80.64516.
2480
4
Donc n1 = 192, n2 = 142, n3 = 87 et n4 = 81. On a nh = 502 6= 500, on ajuste : n1 = 191,
P
h=1
n2 = 141, n3 = 87 et n4 = 81.

4. Une estimation ponctuelle de pU est

4
1 X 1
pω = Nh pωh = (950 × 0.62 + 700 × 0.72 + 430 × 0.78 + 400 × 0.83) = 0.7098.
N 2480
h=1

C. Chesneau 115
7 Total, proportion et effectif dans le cadre ST

7.5 Synthèse : proportion

Paramètres-strates et les paramètres-échantillon correspondants, ω = (ω1 , . . . , ωH ) :

Strate Uh Échantillon ωh

Taille Nh nh

nh
Taux de sondage  fh =
Nh
Nh Nh
1 X 1 X
Proportion p Uh = yi pωh = yi 1{ui ∈ωh }
Nh i=1 nh i=1
s s
Nh pU (1 − pUh )
Écart-type de pWh σ(pWh ) = (1 − fh ) pU (1 − pUh ) s(pωh ) = (1 − fh ) h
nh (Nh − 1) h nh − 1

Paramètres-population et les paramètres-échantillon correspondants :

Population U Échantillon ω

Taille N n
N H
1 X 1 X
Moyenne pU = yi pω = Nh pωh
N i=1 N
v v h=1
u H u H
u 1 X u 1 X pω (1 − pωh )
Écart-type de pW σ(pW ) = t 2 Nh2 σ 2 (pWh ) s(pω ) = t 2 Nh2 (1 − fh ) h
N N nh − 1
h=1 h=1

C. Chesneau 116
7 Total, proportion et effectif dans le cadre ST

Plans de sondage aléatoires de types STP et STO :

STP STO STO (applicable)


p p
n Nh pUh (1 − pUh ) Nh pωh (1 − pωh )
nh Nh n H n H
N P p P p
N` pU` (1 − pU` ) N` pω` (1 − pω` )
`=1 `=1

Autre notions utilisées autour de pU (niveau : 100(1 − α)%, α ∈]0, 1[) :


 v v 
u H u H
u 1 X 2 pωh (1 − pωh ) u 1 X 2 pωh (1 − pωh )
Intervalle de confiance ipU = pω − zα
 t N (1 − fh ) , pω + zα t N (1 − fh ) 
N 2 h=1 h nh − 1 N 2 h=1 h nh − 1
v
u H
u 1 X 2 pω (1 − pωh )
Incertitude absolue dω = zα t 2 N (1 − fh ) h
N h=1 h nh − 1


Incertitude relative d∗
ω =

H
2 P
N zα Nh pωh (1 − pωh )
h=1
Taille n telle que ◦ pour un plan de sondage aléatoire de type STP : n ≥ H
,
N 2 d20 + zα
2
P
Nh pωh (1 − pωh )
 H h=1 2
q
2 P
zα Nh pωh (1 − pωh )
h=1
dω ≤ d0 ◦ pour un plan de sondage aléatoire de type STO : n ≥ H
.
N 2 d20 + zα
2
P
Nh pωh (1 − pωh )
h=1
H
2
Nh s2ω
P
N zα
h
h=1
Taille n telle que ◦ pour un plan de sondage aléatoire de type STP : n ≥ H
,
P
N 2 (d 1 pω )2 + 2
zα Nh s2ω
h
 h=1 2
H q
2 P
zα Nh pωh (1 − pωh )
h=1
d∗
ω ≤ d1 ◦ pour un plan de sondage aléatoire de type STO : n ≥ H
.
P
N 2 (d1 pω )2 + zα
2 Nh pωh (1 − pωh )
h=1

Rappel : P(|Z| ≥ zα ) = α, Z ∼ N (0, 1).

C. Chesneau 117
7 Total, proportion et effectif dans le cadre ST

C. Chesneau 118
8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR)

8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR)

8.1 Contexte

Probabilités inégales (PI) :

Un plan de sondage aléatoire est dit à probabilités inégales (PI) si au moins 2 individus n’ont pas la
même probabilité d’être sélectionné. De plus, il est dit PISR si il est à probabilités inégales et si un
même indiividu ne peut apparaître qu’une seule fois dans l’échantillon.
Ainsi, en notant W la var égale à l’echantillon obtenu, il existe deux individus ui et uj tels que

P(ui ∈ W ) 6= P(uj ∈ W ).

Quelques commandes R : Un exemple de sondage aléatoire de type PISR est décrit-ci-dessous :

U = c("Bob", "Nico", "Ali", "Fabien", "Malik", "John", "Jean", "Chris", "Karl")


p = c(0.1, 0.1, 0.1, 0.1, 0.1, 0.9, 0.9, 0.9, 0.9)
t = sample(U, 3, replace = F, prob = p)
t

Notations ; probabilités d’appartenance : On adopte les notations suivantes :

◦ la probabilité que l’individu ωi appartienne à W :

πi = P(ui ∈ W ).

◦ la probabilité que les individus ωi et ωj appartiennent à W :

πi,j = P((ui , uj ) ∈ W ).

Dans la suite : On se place dans le cadre d’un plan de sondage aléatoire de type PISR.

C. Chesneau 119
8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR)

Propriétés des probabilités d’appartenance :

On a
N
P
◦ πi = n,
i=1
N
πi,j = (n − 1)πi ,
P

j=1
j6=i

N
P
◦ (πi,j − πi πj ) = −πi (1 − πi ).
j=1
j6=i

Preuve :

◦ Soit Wm est la var égale au m-ème individu de l’échantillon : W = (W1 , . . . , Wn ). Comme tous les
individus sont différents, on a

n
! n
[ X
πi = P(ui ∈ W ) = P {Wm = ui } = P(Wm = ui ).
m=1 m=1

Avec des arguments identiques, comme P(Wm ∈ U ) = 1,

N N X
n n N
! n
X X X X X
πi = P(Wm = ui ) = P(Wm = ui ) = P(Wm ∈ U ) = n.
i=1 i=1 m=1 m=1 i=1 m=1

◦ Pour i 6= j, on a
 
n [
[ n
πi,j = P((ui , uj ) ∈ W ) = P  {Wm = ui } ∩ {W` = uj }
 
m=1 `=1
`6=m

n X
X n
= P({Wm = ui } ∩ {W` = uj }).
m=1 `=1
`6=m

C. Chesneau 120
8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR)

Comme, pour ` 6= m, on a {Wm = ui } ⊆ {W` ∈ U − {ui }}, il vient

N
X N X
X n X
n
πi,j = P({Wm = ui } ∩ {W` = uj })
j=1 j=1 m=1 `=1
j6=i j6=i `6=m
 
n X
X n N
[
= P {Wm = ui } ∩ {W` = uj }
 
m=1 `=1 j=1
`6=m j6=i

n X
X n
= P ({Wm = ui } ∩ {W` ∈ U − {ui }})
m=1 `=1
`6=m

n X
X n n
X
= P (Wm = ui ) = (n − 1) P(Wm = ui ) = (n − 1)πi .
m=1 `=1 m=1
`6=m

N N
◦ Par les éqgalités : πi = n et πi,j = (n − 1)πi , on obtient
P P
i=1 j=1
j6=i

 
N
X N
X N
X N
X N
X
(πi,j − πi πj ) = πi,j − πi πj = πi,j − πi  πj − πi 
j=1 j=1 j=1 j=1 j=1
j6=i j6=i j6=i j6=i

= (n − 1)πi − πi (n − πi ) = −πi (1 − πi ).

8.2 Estimateurs

Estimation aléatoire de y U (estimateur de Horvitz-Thompson) :

Un estimateur aléatoire de y U est l’estimateur de Horvitz-Thompson :

N
1 X yi
yW = 1{ui ∈W } .
N i=1 πi

Espérance de y W :

L’estimateur y W est sans biais pour y U :

E(y W ) = y U .

C. Chesneau 121
8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR)

Preuve : En utilisant la linéarité de l’espérance, E (1A ) = P(A) et P(ui ∈ W ) = πi , il vient

N
! N
1 X yi 1 X yi 
E(y W ) = E 1{ui ∈W } = E 1{ui ∈W }
N i=1 πi N i=1 πi
N N N
1 X yi 1 X yi 1 X
= P(ui ∈ W ) = πi = yi = y U .
N i=1 πi N i=1 πi N i=1

Variance de y W :

La variance de y W est
 
N N X
N
1  Xyi2 X yi yj
V(y W ) = πi (1 − πi ) + (πi,j − πi πj ) .

N 2 
π 2 π π
i=1 i i=1 j=1 i j
j6=i

Preuve : Par la formule de la variance d’une somme de var, on obtient

N
! N
!
1 X yi 1 X yi
V(y W ) = V 1{ui ∈W } = 2 V 1{ui ∈W }
N i=1 πi N π
i=1 i
 
N   X N X N  
1  X yi yi yj
= 2 1{ui ∈W } + 1{ui ∈W } , 1{uj ∈W } 

V C
N i=1
π i i=1 j=1
π i π j
j6=i
 
N 2 N X N
1  X yi  X yi yj 
= 2 2 V 1{ui ∈W } + C 1{ui ∈W } , 1{uj ∈W }  .

N π
i=1 i i=1 j=1
π i π j
j6=i

Or

  2 2
V 1{ui ∈W } = E 12{ui ∈W } − E 1{ui ∈W }

= P(ui ∈ W ) − (P(ui ∈ W ))

= πi − πi2 = πi (1 − πi ).

De plus

   
C 1{ui ∈W } , 1{uj ∈W } = E 1{ui ∈W } 1{uj ∈W } − E 1{ui ∈W } E 1{uj ∈W }

= P({ui ∈ W } ∩ {uj ∈ W }) − P(ui ∈ W )P(uj ∈ W ) = πi,j − πi πj .

C. Chesneau 122
8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR)

En combinant ces égalités, on obtient


 
N 2 N X N
1  X yi X yi yj
V(y W ) = 2  2 πi (1 − πi ) + (πi,j − πi πj ) .

N π
i=1 i
π π
i=1 j=1 i j
j6=i

Autre expression de la variance de y W :

La variance de y W est

N i−1  2
1 XX yi yj
V(y W ) = (π π
i j − π i,j ) − .
N 2 i=2 j=1 πi πj

N
Preuve : En utilisant l’égalité : πi (1 − πi ) = − (πi,j − πi πj ), on obtient
P
j=1
j6=i

 
N 2 N N
1 X yi X X yi yj
V(y W ) = πi (1 − πi ) + (πi,j − πi πj )

N 2 
π 2 π π
i=1 i i=1 j=1 i j
j6=i
 
N N 2 N N
1 X X yi X X yi yj
= − 2 (πi,j − πi πj ) − (πi,j − πi πj )

N π 2 π π
i=1 j=1 i i=1 j=1 i j
j6=i j6=i
 ! 
N i−1 N Xi−1
1 X X yi2 yj2 X yi yj
= − 2 + (πi,j − πi πj ) − 2 (πi,j − πi πj )
N i=2 j=1
πi2 πj2 π π
i=2 j=1 i j
N i−1  2 N i−1  2
1 XX yi yj 1 XX yi yj
= − 2 (πi,j − πi πj ) − = 2 (πi πj − πi,j ) − .
N i=2 j=1 πi πj N i=2 j=1 πi πj

Erreur quadratique moyenne de y W :

L’erreur quadratique moyenne de y W est le réel :

N i−1  2
1 XX yi yj
EQM (y W )[P ISR] = E (y W − y U )2 = 2

(πi πj − πi,j ) − .
N i=2 j=1 πi πj

C. Chesneau 123
8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR)

8.3 Estimations ponctuelles

Estimation ponctuelle de y U :

Soit ω un échantillon de n individus de U . Une estimation ponctuelle de y U est la moyenne pondérée-


échantillon :
N
1 X yi
yω = 1{ui ∈ω} .
N i=1 πi

Quelques commandes R : Un exemple de calcul de y ω avec R est décrit ci-dessous :

U = c("Bob", "Nico", "Ali", "Fabien", "Malik", "John", "Jean", "Chris", "Karl")


y = c(72, 89, 68, 74, 81, 87, 76, 61, 84)
pi_i = c(0.2, 0.4, 0.6, 0.3, 0.4, 0.7, 0.2, 0.1, 0.6)
N = 9
n = 3
library(sampling)
t = srswor(n, 9)
bar_y_w = (1 / N) * sum(y * t/ pi_i)
bar_y_w

Cela renvoie 68.14815.

Estimation ponctuelle de l’écart-type de y W :

Soit ω un échantillon de n individus de U . Deux estimations ponctuelles différentes de l’écart-type


de y W sont données par :

◦ le réel :
v  
u
N N N
u 1 X yi2 πi (1 − πi )
u X X yi yj (πi,j − πi πj )
s1 (y ω ) = u 1{ui ∈ω} + 1{(ui ,uj )∈ω} .

tN2  π 2 π π π π
i=1 i i i=1 j=1 i j i,j
j6=i

◦ le réel : v
u N Xi−1  2
u 1 X (πi πj − πi,j ) yi yj
s2 (y ω ) = t − 1{(ui ,uj )∈ω} .
N 2 i=2 j=1 πi,j πi πj

Celles-ci reposent sur les deux expressions de V(y W ).

C. Chesneau 124
8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR)

Intervalle de confiance pour y U :

Soit ω un échantillon de n individus de U . Un intervalle de confiance pour y U au niveau 100(1 − α)%,


α ∈]0, 1[, est

iyU = [y ω − zα s1 (y ω ), y ω + zα s1 (y ω )] ,

où zα est le réel vérifiant P(|Z| ≥ zα ) = α, Z ∼ N (0, 1).

Un autre est iyU = [y ω − zα s2 (y ω ), y ω + zα s2 (y ω )].

8.4 Cas particuliers

Plan de sondage aléatoire de type PESR :

Pour tout i ∈ {1, . . . , n}, on a


n
πi = P(ui ∈ W ) = .
N

L’estimateur de Horvitz-Thompson devient :

N N
1 X yi 1X
yW = 1{ui ∈W } = yi 1{ui ∈W } .
N i=1 πi n i=1

On retrouve l’estimateur classique.

Plan de sondage aléatoire stratifié :

Pour tout i ∈ {1, . . . , n}, on a

nh
πi = P(ui ∈ Wh ) = 1{ui ∈Uh } .
Nh

L’estimateur de Horvitz-Thompson devient :

N H N
1 X yi 1 X X yi
yW = 1{ui ∈W } = 1{ui ∈Wh }
N i=1 πi N π
i=1 i h=1
H N H
1 X 1 X 1 X
= Nh yi 1{ui ∈Wh } = Nh y Wh .
N nh i=1
N
h=1 h=1

On retrouve l’estimateur classique.

C. Chesneau 125
8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR)

Plan de sondage aléatoire proportionnel à la taille :

Pour tout i ∈ {1, . . . , n}, on suppose l’existance d’un caractère secondaire X tel que sa valeur pour
l’individu ωi , notée xi , est à peu près proportionnelle à yi .
Pour tout i ∈ {1, . . . , n}, on suppose l’existance d’un réel α tel que

πi = P(ui ∈ W ) = αxi .

N
Comme, par définition, on a πi = n, il vient
P
i=1

n
α= N
.
P
xi
i=1

L’estimateur de Horvitz-Thompson devient :


 
N N
1 X 1 X yi
yW = xi  1{ui ∈W } .
n j=1 N i=1 xi

N
En pratique : Comme on peut avoir πi = nxi / xi > 1 avec la méthode procédente, un ajustement doit
P
j=1
être fait. On considère alors l’ensemble
 
N
 1 X 
A = i ∈ {1, . . . , N }; xi > xj
 n j=1 

et m = Card(A) et, à la place de πi , on prend :



1


 si i ∈ A,
πi∗ = x
(n − m) Pi si i ∈ U − A.
xj




j∈{1,...,N }−A

C. Chesneau 126
8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR)

Quelques commandes R : Ces probabilités sont calculées avec les commandes R :

library(sampling)
a = 1:20
p = inclusionprobabilities(a, 12)
p
On peut comprendre la sortie de p en faisant :
a * 12 / sum(a)
p2 = NULL
p2[1:17] = (12 - 3) * a[1:17] / sum(a[1:17])
p2[18:20] = 1
p2

8.5 Sélection des individus

Plan de sondage aléatoire de Poisson :

Pour le mettre en œuvre, le plan de sondage aléatoire de Poisson,

◦ on considère n probabilités π1 , . . . , πn ,

◦ on génère N nombres x1 , . . . , xN (indépendamment des uns des autres) suivant la loi uniforme
U([0, 1]),

◦ pour tout i ∈ {1, . . . , N }, on sélectionne l’individu ui s’il vérifie xi < πi ,

◦ les individus sélectionnés constituent l’échantillon.

Remarques : On peut montrer que, pour tout i ∈ {1, . . . , n}, πi = P(ui ∈ W ) = πi .

Un inconvénient de cette méthode est que l’on ne sait pas a l’avance la taille n de l’échantillon sélectionné.
En revanche, la méthode est simple et rapide.

Sur le plan de la modélisation, on suppose que les var 1{u1 ∈W } , . . . , 1{un ∈W } sont indépendantes. Ainsi,
on a πi,j = πi πj
N N
Y 1{uk ∈ω} Y
P(ω ∈ W ) = πk (1 − πk )1{uk 6∈ω} .
k=1 k=1

C. Chesneau 127
8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR)

Quelques commandes R : Un exemple de commandes R sur le plan de sondage aléatoire de Poisson est
décrit ci-dessous :

library(sampling)
pi_i = c(0.2, 0.7, 0.8, 0.5, 0.4, 0.4)
N = length(pi_i)
y = c(23.4, 5.64, 31.45, 25.4, 15.94, 21.45)
t = UPpoisson(pi_i)
(1:N)[t == 1]
bar_y_w = (1 / N) * sum((1 / pi_i[t == 1]) * y[t == 1])
bar_y_w

Cela renvoie 15.01875.

Plan de sondage aléatoire systématique à probabilités inégales :

Pour le mettre en œuvre, le plan de sondage aléatoire systématique à probabilités inégales,

◦ on considère N probabilités π1 , . . . , πN et, pour tout k ∈ {1, . . . , N }, on pose

k
X
Ck = πi , C0 = 0,
i=1

◦ on génère un nombre x1 suivant la loi uniforme U([0, 1]),

◦ pour tout i ∈ {1, . . . , N }, on sélectionne l’individu ui s’il vérifie : il existe un entier

j ∈ {0, . . . , n − 1} tel que


Ci−1 ≤ x1 + j < Ci .

◦ les n individus sélectionnés constituent l’échantillon.

Remarques : On peut montrer que, pour tout i ∈ {1, . . . , n}, πi = P(ui ∈ W ) = πi .

Contrairement au plan de sondage aléatoire de Poisson, le plan de sondage aléatoire systématique à


probabilités inégales est de taille fixe : n, pour l’échantillon.

C. Chesneau 128
8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR)

Quelques commandes R : Un exemple de commandes R sur le plan de sondage aléatoire systématique à


probabilités inégales avec un échantillon de n = 3 individus est décrit ci-dessous :

library(sampling)
pi_i = c(0.2, 0.7, 0.8, 0.5, 0.4, 0.4)
Remarquons que sum(pi_i) = 3 = n.
N = length(pi_i)
y = c(23.4, 5.64, 31.45, 25.4, 15.94, 21.45)
t = UPsystematic(pi_i)
(1:N)[t == 1]
bar_y_w = (1 / N) * sum((1 / pi_i[t == 1]) * y[t == 1])
bar_y_w

Cela renvoie 34.51875.

8.6 Exercices corrigés

Exercice 1 : Dans une population de 3 individus U = {u1 , u2 , u3 }, on prélève au hasard et sans remise 2
individus pour former un échantillon. La var W égale à l’échantillon obtenu vérifie :

1 1 1
P(W = {u1 , u2 }) = , P(W = {u1 , u3 }) = , P(W = {u2 , u3 }) = .
4 4 2

On étudie un caractère Y dans U . Pour tout i ∈ {1, 2, 3}, soit yi la valeur de Y pour l’individu ui . Les
résultats sont :

y1 y2 y3
2 5 11

1. Calculer, pour tout i ∈ {1, 2, 3}, πi = P(ui ∈ W ). Est-ce que l’on a affaire à un plan de sondage
aléatoire de type PISR ?

2. On considère la var :
3
1X
yW = yi 1{ui ∈W } .
2 i=1

(a) Déterminer l’ensemble des valeurs possibles de y W , ainsi que sa loi.

(b) Calculer la moyenne-population y U . Est-ce que E(y W ) = y U ?

C. Chesneau 129
8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR)

3. On considère la var :
3
1 X yi
y ∗W = 1{ui ∈W } .
3 i=1 πi

(a) Déterminer l’ensemble des valeurs possibles de y ∗W , ainsi que sa loi.

(b) Est-ce que E(y ∗W ) = y U ?

(c) Calculer V(y ∗W ).

4. (a) Calculer la matrice de variance-covariance du vecteur de vars (1{u1 ∈W } , 1{u2 ∈W } , 1{u3 ∈W } ).

(b) Retrouver la valeur de V(y ∗W ) à l’aide de la matrice précédente et de la formule du cours.

Solution :

1. On a
3
X 1 1 1
π1 = P(u1 ∈ W ) = P(W = {u1 , uj }) = + = ,
j=1
4 4 2

3
X 1 1 3
π2 = P(u2 ∈ W ) = P(W = {u2 , uj }) = + =
j=1
4 2 4

et
3
X 1 1 3
π3 = P(u3 ∈ W ) = P(W = {u3 , uj }) = + = .
j=1
4 2 4

Les probabilités d’inclusion du première ordre étant inégales et la sélection étant sans remise, on a
bien affaire à un plan de sondage aléatoire de type PISR.

2.

(a) Par l’énnoncé, les échantillons possibles sont :

{u1 , u2 } {u1 , u3 } {u2 , u3 }

Pour le premier échantillon (donc si ω = {u1 , u2 }), il vient

3
1X 1
yω = yi 1{ui ∈ω} = (2 + 5) = 3.5.
2 i=1 2

Celui-ci est btenu avec une probabilité P(W = {u1 , u2 }) = 14 . En procédant de même, on complète
le tableau suivant :

ω P(W = ω) Y yω
1
{u1 , u2 } 4 {2, 5} 3.5
1
{u1 , u3 } 4 {2, 11} 6.5
1
{u2 , u3 } 2 {5, 11} 8

C. Chesneau 130
8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR)

Ainsi, on a
y W (Ω) = {3.5, 6.5, 8}.

La loi de y W est donnée par

k 3.5 6.5 8
1 1 1
P(y W = k) 4 4 2

(b) La moyenne-population est


3
1X
yU = yi = 6.
3 i=1

Or on a
X 1 1 1
E(y W ) = kP(y W = k) = × 3.5 + × 6.5 + × 8 = 6.5.
4 4 2
k∈y W (Ω)

On a donc E(y W ) = 6.5 6= 6 = y U . Ainsi, l’estimateur y W n’est pas sans biais pour y U .

3.

(a) Pour le premier échantillon (donc si ω = {u1 , u2 }), il vient

3  
1 X yi 1 2 5
y ∗ω = 1{ui ∈ω} = + = 3.555556.
3 i=1 πi 3 1/2 3/4

Celui-ci est obtenu avec une probabilité de P(W = {u1 , u2 }) = 4.


1
En procédant de même, on
complète le tableau suivant :

ω P(W = ω) Y π y ∗ω
1
1 3
{u1 , u2 } 4 {2, 5} 2, 4 3.555556
1
1 3
{u1 , u3 } 4 {2, 11} 2, 4 6.222222
1
3 3
{u2 , u3 } 2 {5, 11} 4, 4 7.111111

Ainsi, on a
y ∗W (Ω) = {3.555556, 6.222222, 7.111111}.

La loi de y ∗W est donnée par

k 3.555556 6.222222 7.111111


P(y ∗W = k) 1
4
1
4
1
2

C. Chesneau 131
8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR)

(b) En utilisant la loi de y ∗W , l’espérance de y ∗W est

X 1 1 1
E(y ∗W ) = kP(y ∗W = k) = × 3.555556 + × 6.222222 + × 7.111111 = 6.
4 4 2
k∈y ∗
W (Ω)

On a donc E(y ∗W ) = y U ; l’esimateur y ∗W est sans biais pour y U .

(c) En utilisant la formule de König-Huyghens, la variance de y ∗W est

2
V(y ∗W ) = E (y ∗W )2 − (E(y ∗W )) .


Or on a E(y ∗W ) = 6 et

X 1 1 1
E (y ∗W )2 = k 2 P(y ∗W = k) = × 3.5555562 + × 6.2222222 + × 7.1111112

4 4 2
k∈y ∗
W (Ω)

= 38.12346.

D’où
V(y W ) = 38.12346 − 62 = 2.123456.

4. (a) La matrice de variance-covariance du vecteur de vars (1{u1 ∈W } , 1{u2 ∈W } , 1{u3 ∈W } ) est

   
C 1{u1 ∈W } , 1{u1 ∈W } C 1{u1 ∈W } , 1{u2 ∈W } C 1{u1 ∈W } , 1{u3 ∈W }
   
= C 1{u2 ∈W } , 1{u1 ∈W } C 1{u2 ∈W } , 1{u3 ∈W }  ,
 
Cov C 1{u2 ∈W } , 1{u2 ∈W }
 
  
C 1{u3 ∈W } , 1{u1 ∈W } C 1{u3 ∈W } , 1{u2 ∈W } C 1{u3 ∈W } , 1{u3 ∈W }

avec, pour exemples de calcul :

  2
C 1{u1 ∈W } , 1{u1 ∈W } = V 1{u1 ∈W } = E 12{u1 ∈W } − E 1{u1 ∈W }
 

2
= π1 − π12

= E 1{u1 ∈W } − E 1{u1 ∈W }
1 1 1
= − =
2 4 4

et

   
C 1{u1 ∈W } , 1{u2 ∈W } = E 1{u1 ∈W } 1{u2 ∈W } − E 1{u1 ∈W } E 1{u2 ∈W }
1 1 3 1
= P(W = {u1 , u2 }) − π1 π2 = − × =− .
4 2 4 8

C. Chesneau 132
8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR)

En procédant ainsi (et en utilisant la symmétrie pour compléter la matrice plus rapidement), on
obtient la matrice de variance-covariance :
 
1
4 − 18 − 81
 
 1 3 1 
− 8 16 − 16 .
 
− 81 1
− 16 3
16

(b) Par une formule du cours, on peut écrire :


 
3 2 3 X 3
1 X yi X yi yj
V(y ∗W ) = 2  2 πi (1 − πi ) + (πi,j − πi πj ) ,

3 π
i=1 i
π π
i=1 j=1 i j
j6=i

avec πi,j = P(W = {ui , uj }). Les éléments πi (1 − πi ) et (πi,j − πi πj ) sont déjà calculés ; ce
sont les composantes de la matrice de variance-covariance ; les éléments de la forme πi (1 − πi )
correspondants aux variances, et ceux de la forme (πi,j − πi πj ) correspondants aux covariances.
Dès lors, on a

22 52 112
  
1 1 3 3 2 5 1
V(y ∗W ) = 2 × + × + × +2× × × −
3 (1/2)2 4 (3/4)2 16 (3/4)2 16 1/2 3/4 8
   
2 11 1 5 11 1
+2× × × − +2× × × −
1/2 3/4 8 3/4 3/4 16

= 2.123456.

On retrouve bien le même résultat.

Exercice 2 : Dans une population de 6 individus U = {u1 , u2 , u3 , u4 , u5 , u6 }, on prélève au hasard et sans


remise 4 individus pour former un échantillon. Est-ce que la var W égale à l’échantillon obtenu peut
vérifier les conditions suivantes :

2 1 1
P({u1 , u2 } ∈ W ) = 1, P({u3 , u4 } ∈ W ) = , P({u3 , u5 } ∈ W ) = , P({u4 , u6 } ∈ W ) =
3 6 6

et toutes les autres paires d’individus {ui , uj } non-indiquées précédemment vérifient P({ui , uj } ∈ W ) =
0?

Solution : La réponse est Non. D’une part, le fait que P({u1 , u2 } ∈ W ) = 1 implique que u1 et u2 sont
nécessairement dans l’échantillon. D’autre part, le fait que toutes les paires d’individus {ui , uj } non-

C. Chesneau 133
8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR)

indiquées vérifient P({ui , uj } ∈ W ) = 0 implique, entre autres, que

P({u1 , u3 } ∈ W ) = 0, P({u1 , u4 } ∈ W ) = 0 P({u1 , u5 } ∈ W ) = 0 P({u1 , u6 } ∈ W ) = 0.

Ainsi, la présence imposée de u1 dans l’échantillon entraîne l’impossibilité pour u3 , u4 , u5 et u6 de faire


partie de cet échantillon. On ne peut donc pas constituer un échantillon de 4 individus avec une telle var
W.

Exercice 3 : Dans une population de 6 individus U = {u1 , u2 , u3 , u4 , u5 , u6 }, on prélève au hasard et sans


remise 4 individus pour former un échantillon. La var W égale à l’échantillon obtenu vérifie :

2 1 1
P(W = {u1 , u2 , u3 , u4 }) = , P(W = {u1 , u2 , u3 , u5 }) = , P(W = {u1 , u2 , u4 , u6 }) = .
3 6 6

Tous les autres échantillons d’individus {ui , uj , uk , u` } non-indiquées précédemment vérifient P(W =
{ui , uj , uk , u` }) = 0.

1. Calculer, pour tout i ∈ {1, 2, 3, 4, 5, 6},

πi = P(ui ∈ W ).

Est-ce que l’on a affaire à un plan de sondage aléatoire de type PESR ?

2. On étudie un caractère Y dans U . Pour tout i ∈ {1, 2, 3, 4, 5, 6}, soit yi la valeur de Y pour l’individu
ui . Les résultats sont :

y1 y2 y3 y4 y5 y6
75 51 34 22 12 8

On considère la var :
6
1 X yi
yW = 1{ui ∈W } .
6 i=1 πi

(a) Déterminer la loi de y W .

(b) Calculer la moyenne-population y U . Est-ce que E(y W ) = y U ?

(c) Calculer V(y W ).

Solution :

C. Chesneau 134
8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR)

1. On a

π1 = P(u1 ∈ W ) = P(W = {u1 , u2 , u3 , u4 }) + P(W = {u1 , u2 , u3 , u5 }) + P(W = {u1 , u2 , u4 , u6 })


2 1 1
= + + = 1,
3 6 6

π2 = P(u2 ∈ W ) = P(W = {u1 , u2 , u3 , u4 }) + P(W = {u1 , u2 , u3 , u5 }) + P(W = {u1 , u2 , u4 , u6 })


2 1 1
= + + = 1,
3 6 6

2 1 5
π3 = P(u3 ∈ W ) = P(W = {u1 , u2 , u3 , u4 }) + P(W = {u1 , u2 , u3 , u5 }) = + = ,
3 6 6
2 1 5
π4 = P(u4 ∈ W ) = P(W = {u1 , u2 , u3 , u4 }) + P(W = {u1 , u2 , u4 , u6 }) = + = ,
3 6 6
1
π5 = P(u5 ∈ W ) = P(W = {u1 , u2 , u3 , u5 }) =
6

et
1
π6 = P(u6 ∈ W ) = P(W = {u1 , u2 , u4 , u6 }) = .
6

Ainsi, on a

π1 π2 π3 π4 π5 π6
5 5 1 1
1 1 6 6 6 6

Comme ces probabilités diffèrent, le plan de sondage n’est pas à probabilités égales (PE), donc il n’est
pas PESR. C’est un plan de sondage PISR.

2.

(a) Par l’énoncé, les échantillons possibles sont :

{u1 , u2 , u3 , u4 } {u1 , u2 , u3 , u5 } {u1 , u2 , u4 , u6 }

Pour le premier échantillon (donc si ω = {u1 , u2 , u3 , u4 }), il vient

6  
1 X yi 1 75 51 34 22
yω = 1{ui ∈ω} = + + + = 32.2.
6 i=1 πi 6 1 1 5/6 5/6

Celui-ci est obtenu avec une probabilité de P(W = {u1 , u2 , u3 , u4 }) = 23 . En procédant de même,
on complète le tableau suivant :

C. Chesneau 135
ω P(W = ω) Y π yω
2
1, 1, 65 , 56

{u1 , u2 , u3 , u4 } 3 {75, 51, 34, 22} 32.2
1 5 1

{u1 , u2 , u3 , u5 } 6 {75, 51, 34, 12} 1, 1, 6, 6 39.8
1
1, 1, 65 , 16

{u1 , u2 , u4 , u6 } 6 {75, 51, 22, 8} 33.4

Ainsi, on a
y W (Ω) = {32.2, 33.4, 39.8}.

La loi de y W est donnée par

k 32.2 33.4 39.8


2 1 1
P(y W = k) 3 6 6

(b) La moyenne-population est


y U = 33.66667.

En utilisant la loi de y W , l’espérance de y W est

X 2 1 1
E(y W ) = kP(y W = k) = × 32.2 + × 33.4 + × 39.8 = 33.66667.
3 6 6
k∈y W (Ω)

On a donc E(y W ) = y U ; l’esimateur y W est sans biais pour y U .

(c) En utilisant la formule de König-Huyghens, la variance de y W est

2
V(y W ) = E(y 2W ) − (E(y W )) .

Or on a E(y W ) = 33.66667 et

X 2 1 1
E(y 2W ) = k 2 P(y W = k) = × 32.22 + × 33.42 + × 39.82 = 1141.16.
3 6 6
k∈y W (Ω)

D’où
V(y W ) = 1141.16 − 33.666672 = 7.715331.
9 Plan de sondage aléatoire par grappe (G)

9 Plan de sondage aléatoire par grappe (G)

9.1 Contexte

Idée : On suppose que l’on a affaire à une population homogène, laquelle est répartie en de nombreux
groupes homogènes a priori. Ces groupes peuvent être naturellement formés, pour des raisons géogra-
phiques, par exemple. Pour gagner du temps et de l’argent, l’idée du plan de sondage par grappe est
de faire un PESR qui portent sur ces groupes (et non sur les individus directement) et de considérer la
totalité des individus de ceux-ci pour former l’échantillon.

Groupe :

On considère une partition de M groupes (éléments) de U notée (G1 , . . . , GM ). Ainsi, on a U =


SM
j=1 Gj et, pour tout (j, k) ∈ {1, . . . , M } avec j 6= k, on a Gj ∩ Gk = ∅.
2

On appelle groupe un élément Gj de (G1 , . . . , GM ).


Plan de sondage aléatoire par grappe (G) :

On sélectionne au hazard et sans remise m groupes parmi les M groupes, puis on prend tous les
individus des groupes sélectionnés pour formé un échantillon d’individus. Ainsi, l’échantillon obtenu
peut s’écrire sous la forme :
ω = (ω1 , . . . , ωm ),

où, pour tout j ∈ {1, . . . , m}, ωj est un échantillon d’individus contenant tous les individus du j-ième
groupe sélectionné.

La taille de ω peut être encore noté n, mais il faut remarquer que ce n est obtenu après sélection des
groupes. On peut donc avoir une idée de son ordre de grandeur dès le début, mais on ne peut pas le fixer
précisément dès le début du processus de sélection.

Quelques commandes R : Pour faire un plan de sondage aléatoire par grappe, on peut utiliser la fonction
cluster de la librarie sampling. Pour un exemple de commandes R, on peut utiliser le jeu de données
swissmunicipalities de la librairie sampling. Dans ce jeu de données, il y a un caractère qualitatif
REG qui divisent la population en M = 7 groupes. On souhaite faire un plan de sondage aléatoire G avec
m = 7.

C. Chesneau 137
9 Plan de sondage aléatoire par grappe (G)

Les commandes sont décrite ci-dessous :

library(sampling)
data(swissmunicipalities)
cl = cluster(swissmunicipalities, clustername = c("REG"), size = 3, method =
"srswor")
getdata(swissmunicipalities, cl)$Surfacescult

Probabilités d’appartenance de groupe :

◦ pour tout j ∈ {1, . . . , M }, la probabilité que Gj appartienne à W est

m
P(Gj ∈ W ) = .
M

◦ pour tout (j, k) ∈ {1, . . . , M }2 avec j 6= k, la probabilité que Gj et Gk appartiennent à W est

m(m − 1)
P((Gj , Gk ) ∈ W ) = .
M (M − 1)

La preuve est la même que pour les probabilités d’appartenance des individus dans le cadre PESR ; il
suffit de remplacer ui par Gj , n par m et N par M .

9.2 Estimateurs

Estimation aléatoire de y U :

Un estimateur aléatoire de y U est

M
M X
yW = tj 1{Gj ∈W } ,
mN j=1


N
X
tj = yi 1{ui ∈Gj } .
i=1

Espérance de y Wh :

On a
E(y W ) = y U .

C. Chesneau 138
9 Plan de sondage aléatoire par grappe (G)

M
Preuve : Comme P(Gj ∈ W ) = m/M et 1{ui ∈Gj } = 1, il vient
P
j=1

 
M M M
M X M X  M X
E(y W ) = E  tj 1{Gj ∈W } =
 tj E 1{Gj ∈W } = tj P(Gj ∈ W )
mN j=1 mN j=1 mN j=1
M N M N
M X m 1 X X 1 X
= tj = yi 1{ui ∈Gj } = yi = y U .
mN j=1 N N i=1 j=1 N i=1

Variance de y W :

On a
M2  m 1 2
V(y W ) = 1 − Ξ ,
N2 M m U

où !2
M M
1 X 1 X
Ξ2U = tj − tk .
M − 1 j=1 M
k=1

On peut remarquer que Ξ2U est la variance-corrigée population associée aux valeurs t1 , . . . , tM .

Preuve : On a
   
M 2 M
M X M 1 X
V(y W ) = V  tj 1{Gj ∈W }  = 2 V  tj 1{Gj ∈W }  .
mN j=1 N m j=1

En procédant comme pour la variance de l’estimateur de la moyenne population pour un plan de sondage
PESR (en remplaçant y1 , . . . , yN par t1 , . . . , tM , ui par Gj , n par m et N par M ), il vient

    2 
M M M
1 X  m 1
 1 X 2 1 X  
V tj 1{Gj ∈W }  = 1− tj − tj 
m M m M − 1 j=1 M j=1

j=1

M M
!2
 m 1 1 X 1 X
= 1− tj − tk
M m M − 1 j=1 M
k=1
M
 m 1 1 X 2
= 1− Ξ .
M m M − 1 j=1 U

D’où
M2  m 1 2
V(y W ) = 1 − Ξ .
N2 M m U

C. Chesneau 139
9 Plan de sondage aléatoire par grappe (G)

Remarque : On peut aussi écrire

M  2
1 X N
Ξ2U = tj − yU .
M − 1 j=1 M

Erreur quadratique moyenne de y W :

L’erreur quadratique moyenne de y W est le réel :

 M2  m 1 2
EQM (y W )[G] = E (y W − y U )2 = 2 1 − Ξ .
N M m U

Estimation aléatoire de ΞU :

Un estimateur aléatoire de ΞU est


v
u
M M
!2
1 X 1 X
u
tj −
u
ΞW =t tk 1{Gk ∈W } 1{Gj ∈W } .
m − 1 j=1 m
k=1

Propriété de Ξ2W :

L’estimateur Ξ2W est sans biais pour Ξ2U :

E Ξ2W = Ξ2U .


Preuve : La preuve est identique à celle de E(s2W ) = s2U dans le cadre PESR (en remplaçant y1 , . . . , yN par
t1 , . . . , tM , ui par Gj , n par m et N par M ).

9.3 Estimations ponctuelles

Estimation ponctuelle de y U :

Une estimation ponctuelle de y U est

M
M X
yω = tj 1{Gj ∈ω} ,
mN j=1


N
X
tj = yi 1{ui ∈Gj } .
i=1

C. Chesneau 140
9 Plan de sondage aléatoire par grappe (G)

Estimation ponctuelle de ΞU :

Soit ω un échantillon de m groupes de U . Une estimation ponctuelle de ΞU est l’écart-type corrigé


échantillon associée aux valeurs t1 , . . . , tM :
v
u
M M
!2
1 X 1 X
u
tj −
u
Ξω = t tk 1{Gk ∈ω} 1{Gj ∈ω} .
m − 1 j=1 m
k=1

Remarques :

◦ On peut écrire Ξω comme


v
u M  2
u 1 X N
Ξω = t tj − y 1{Gj ∈ω} .
m − 1 j=1 M ω

PM PM
◦ En posant T1 = 2
j=1 tj 1{Gj ∈ω} et T2 = j=1 tj 1{Gj ∈ω} , on a aussi

s  
1 1 2
Ξω = T1 − T2 .
m−1 m

Estimation ponctuelle de l’écart-type de y W :

Soit ω un échantillon de n individus de U . Une estimation ponctuelle de l’écart-type de y W est le


réel : r
M2  m 1 2
s(y ω ) = 1 − Ξ .
N2 M m ω

C. Chesneau 141
9 Plan de sondage aléatoire par grappe (G)

Quelques commandes R : Un exemple de fonction R pour calculer y w , Ξw et s(y w ) est décrit ci-dessous :

m = 2
M = 3
N = 50
y_1 = c(12.2, 5.4, 7.9, 9.1, 10.2, 11.7, 12.3)
y_2 = c(9.8, 10.2, 8.9, 10.1, 11.1, 12.1, 12.1)
y_3 = c(10.9, 7.1, 8.8, 12.1, 13.1, 9.8, 2.6)
tot = c(sum(y_1), sum(y_2), sum(y_3))
library(sampling)
t = srswor(m, M)
bar_y_w = (M / (m * N)) * sum(tot * t)
Xi_w = sqrt(sum ((tot - (N / M) * bar_y_w)^2 * t) / (m - 1))
s_bar_y_w = sqrt((M^2 / N^2) * (1 - m / M) * (1 / m) * Xi_w^2)
bar_y_w; Xi_w; s_bar_y_w

Cela renvoie 4.161, 7.000357 and 0.171473. Donc on a y w = 4.161, Ξw = 7.000357 et s(y w ) = 0.171473.
Cela peut changer à chaque expérience, puisque la sélection des groupes est aléatoire.

9.4 Intervalles de confiance

Résultat limite : Si m, M et M − m sont suffisamment grands, alors on a

yW − yU
Z=q
M2 m
 1 2 ≈ N (0, 1).
N2 1− M m ΞW

Intervalle de confiance pour y U :

Soit ω un échantillon de m groupes de U . Un intervalle de confiance pour y U au niveau 100(1 − α)%,


α ∈]0, 1[, est

iyU = [y ω − zα s(y ω ), y ω + zα s(y ω )]


" r r #
M2  m 1 2 M2  m 1 2
= y ω − zα 1− Ξ , y + zα 1− Ξ ,
N2 M m ω ω N2 M m ω

où zα est le réel vérifiant P(|Z| ≥ zα ) = α, Z ∼ N (0, 1).

C. Chesneau 142
9 Plan de sondage aléatoire par grappe (G)

Il y a 100(1 − α) chances sur 100 que y U appartienne à l’intervalle iyU .

Quelques commandes R : Un exemple de fonction R pour calculer l’intervalle de confiance pour y U au


niveau 100(1 − α)% est décrit ci-dessous :

icG = function(tot, m, M, N, niveau) {


bar_y_w = (M / (m * N)) * sum(tot)
z = qnorm(1 - (1 - niveau) / 2)
Xi2_w = var(tot)
var_bar_y_w = (M^2 / N^2) * (1 - m / M) * (1 / m) * Xi2_w
a = bar_y_w - z * sqrt(var_bar_y_w)
b = bar_y_w + z * sqrt(var_bar_y_w)
print(c(a, b)) }
icG(tot = c(4.4, 4.3, 5.3), m = 3, M = 5, N = 12, niveau = 0.95)

Cela renvoie : 1.780209, 2.108680.

9.5 Taille de groupe

Incertitude absolue :

Soit ω un échantillon de m groupes de U . On appelle incertitude absolue sur y U au niveau 100(1−α)%,


α ∈]0, 1[, la demi-longueur de iyU :

r
M2  m 1 2
dω = zα s(y ω ) = zα 1 − Ξ .
N2 M m ω

Plus dω est petit, plus l’estimation de y U par y ω est précise.

Incertitude relative :

Soit ω un échantillon de m groupes de U et dω l’incertitude absolue sur y U au niveau 100(1 − α)%,


α ∈]0, 1[. On appelle incertitude relative sur y U au niveau 100(1 − α)% le pourcentage (100 × d∗ω )%
où d∗ω est le réel :

d∗ω = .

C. Chesneau 143
9 Plan de sondage aléatoire par grappe (G)

Taille de groupe :

Soit ω un échantillon prélevé lors d’une étude préliminaire. La taille de groupe m à choisir pour
avoir :

◦ une incertitude absolue sur y U au niveau 100(1 − α)%, α ∈]0, 1[, inférieure ou égale à d0 est le
plus petit m tel que
zα2 M 2 Ξ2ω
dω ≤ d0 ⇔ m≥ ,
N 2 d20 + zα2 M Ξ2ω

◦ une incertitude relative sur y U au niveau 100(1−α)%, α ∈]0, 1[, inférieure ou égale à (100×d1 )%
est le plus petit m tel que

zα2 M 2 Ξ2ω
d∗ω ≤ d1 ⇔ m≥ .
N 2 (y 2 2 2
ω d1 ) + zα M Ξω

9.6 Exercices corrigés

Exercice 1 : L’objectif est d’estimer le revenu moyen des ménages dans un arrondissement d’une grande
ville composée de 60 îlots de maisons (un îlot est un "pâté de maisons", de taille variable). Pour cela,
on sélectionne 3 îlots par un plan de sondage PESR et on interroge tous les ménages qui y résident. On
sait, en outre, que 5000 menages resident dans cet arrondissement. Le résultats sont les suivants :
— Numéro de l’îlot : 1. Revenu total des ménages : 2100 euros.
— Numéro de l’îlot : 2. Revenu total des ménages : 2000 euros.
— Numéro de l’îlot : 3. Revenu total des ménages : 1500 euros.

1. Quel est le plan de sondage considéré ?

2. Donner une estimation ponctuelle du revenu moyens (population) des ménages de l’arrondissement.

3. Donner un intervalle de confiance pour le revenu moyens (population) des ménages de l’arrondissement
au niveau 95%.

Solution :

1. Il s’agit d’un plan de sondage aléatoire par grappe ; une fois les îlots sélectionnés suivant un plan de
sondage PESR, on considère tous les ménages de ces îlots.

2. Dans le cadre d’un plan de sondage aléatoire par grappe, une estimation ponctuelle de la moyenne-

C. Chesneau 144
9 Plan de sondage aléatoire par grappe (G)

population est

M
M X
yω = tj 1{Gj ∈ω} ,
mN j=1


N
X
tj = yi 1{ui ∈Gj } .
i=1

Ici, on a M = 60, m = 3 et N = 5000, t1 = 2100, t2 = 2000 et t3 = 1500. Par conséquent, une


estimation ponctuelle du revenu moyens (population) des ménages de l’arrondissement est donnée
par

60
yω = (2100 + 2000 + 1500) = 22.4.
3 × 5000

Ainsi, cette estimation est de 22.4 euros.

3. Dans le cadre d’un plan de sondage aléatoire par grappe, une estimation ponctuelle de l’écart-type
de l’estimateur de la moyenne-population est le réel :
r
M2  m 1 2
s(y ω ) = 1 − Ξ ,
N2 M m ω

où Ξω est l’écart-type corrigé échantillon associée aux valeurs t1 , . . . , tM . L’écart-type corrigé des
valeurs 2100, 2000 et 1500 est Ξω = 321.455. Dès lors, une estimation ponctuelle de l’écart-type de
l’estimateur du revenu moyens (population) des ménages de l’arrondissement est

s
602
 
3 1
s(y ω ) = 1− 321.4552 = 2.170715.
50002 60 3

D’autre part, on a 95% = 100(1 − α)% avec α = 0.05. On a P(|Z| ≥ zα ) = α = 0.05, Z ∼ N (0, 1),
avec zα = 1.96. Donc l’intervalle de confiance recherché est

iyU = [y ω − zα s(y ω ), y ω + zα s(y ω )]

= [22.4 − 1.96 × 2.170715, 22.4 + 1.96 × 2.170715]

= [18.1454, 26.6546].

Ainsi, il y a 95 chances sur 100 que [18.1454, 26.6546] contienne le revenu moyens (population) des
ménages de l’arrondissement, l’unité étant l’euro.

C. Chesneau 145
9 Plan de sondage aléatoire par grappe (G)

Exercice 2 : Dans une ville, une mairie fait une enquête sur le bien-être de ses habitants. Sur N = 20000
ménages répartis en M = 400 quartiers, elle sélectionne m = 80 quartiers par un plan de sondage PESR.
Pour chaque ménage des quartiers sélectionnés, on demande de noter entre 0 et 10 le niveau de bien-être
dans la ville. On a observé, sur les m quartiers sélectionnées,

m
X m
X
tj = 29800, t2j = 58804000,
j=1 j=1

où tj désigne la somme des notes des ménages du j-ème quartier.


Pm
1. Expliquer en une phrase l’information : j=1 tj = 29800.

2. Donner une estimation ponctuelle de la note moyenne d’un ménage.

3. Déterminer un intervalle de confiance au niveau 95% pour la note moyenne d’un ménage.

Solution :
Pm
1. L’information : j=1 tj = 29800 indique que la somme des notes des ménages des m = 80 quartiers
sélectionnés est égale à 29800.

2. On a affaire à un sondage par grappe. Par conséquent, avec les notations de l’exercice, une estimation
ponctuelle de la note moyenne d’un ménage est

m
M X 400
yω = tj = × 29800 = 7.45.
mN j=1 80 × 20000

3. On a 95% = 100(1 − α)% avec α = 0.05. On a P(|Z| ≥ zα ) = α = 0.05, Z ∼ N (0, 1), avec zα = 1.96.
Un intervalle de confiance pour la note moyenne d’un ménage y U au niveau 95% est
" r r #
M2  m 1 2 M2  m 1 2
iy U = y ω − zα 1− Ξ , y + zα 1− Ξ
N2 M m ω ω N2 M m ω
" s s #
4002 4002
   
80 1 2 80 1 2
= 7.45 − 1.96 1− Ξ , 7.45 + 1.96 1− Ξ ,
200002 400 80 ω 200002 400 80 ω

avec Ξ2ω que l’on peut écrire comme


  2 
m m  
2 1  X
2 1  X 1 1 2
Ξω = t − tj  = 58804000 − × 29800 = 603841.8.
 
m − 1 j=1 j m j=1 80 − 1 80

C. Chesneau 146
9 Plan de sondage aléatoire par grappe (G)

Après calcul, on trouve

iyU = [4.403875, 10.49612] ,

que l’on peut tronquer comme [4.403875, 10] (la note maximale étant 10). Ainsi, il y a 95 chances
sur 100 que [4.403875, 10] contienne y U . Les ménags sont donc plutôt satisfait de leur ville.

C. Chesneau 147
9 Plan de sondage aléatoire par grappe (G)

C. Chesneau 148
10 Formulaire

10 Formulaire

10.1 Formules dans le cadre PESR

Paramètres-population et les paramètres-échantillon correspondants :

Population U Échantillon ω

Taille N n

n
Taux de sondage  f=
N
N N
1 X 1X
Moyenne yU = yi yω = yi 1{ui ∈ω}
N i=1 n i=1
v v
u N u N
u 1 X u 1 X
Écart-type corrigé sU = t (yi − y U )2 sω = t (yi − y ω )2 1{ui ∈ω}
N −1 i=1
n − 1 i=1
r r
s2 s2ω
Écart-type de y W σ(y W ) = (1 − f ) U s(y ω ) = (1 − f )
n n

Autre notions utilisées autour de y U (niveau : 100(1 − α)%, α ∈]0, 1[) :


" r r #
s2 s2
Intervalle de confiance iyU = y ω − zα (1 − f ) ω , y ω + zα (1 − f ) ω
n n
r
s2
Incertitude absolue dω = zα (1 − f ) ω
n


Incertitude relative d∗ω =

N zα2 s2ω
Taille n telle que dω ≤ d0 n≥
N d20 + zα2 s2ω

N zα2 s2ω
Taille n telle que d∗ω ≤ d1 n≥
N (y ω d1 )2 + zα2 s2ω

C. Chesneau 149
10 Formulaire

10.2 Formules dans le cadre PESR : proportion

Paramètres-population et les paramètres-échantillon correspondants :

Population U Échantillon ω

Taille N n

n
Taux de sondage  f=
N
N N
1 X 1X
Proportion pU = yi pω = yi 1{ui ∈ω}
N i=1 n i=1
r r
N pω (1 − pω )
Écart-type de pW σ(pW ) = (1 − f ) pU (1 − pU ) s(pω ) = (1 − f )
n(N − 1) n−1

Autre notions utilisées autour de pU (niveau : 100(1 − α)%, α ∈]0, 1[) :


" r r #
pω (1 − pω ) pω (1 − pω )
Intervalle de confiance ipU = pω − zα (1 − f ) , pω + zα (1 − f )
n−1 n−1
r
pω (1 − pω )
Incertitude absolue dω = zα (1 − f )
n−1


Incertitude relative d∗ω =

N zα2 pω (1 − pω )
Taille n telle que dω ≤ d0 n≥
N d20 + zα2 pω (1 − pω )

N zα2 pω (1 − pω )
Taille n telle que d∗ω ≤ d1 n≥
N (pω d1 )2 + zα2 pω (1 − pω )

C. Chesneau 150
10 Formulaire

10.3 Formules dans le cadre PEAR

Paramètres-population et les paramètres-échantillon correspondants :

Population U Échantillon ω = (ω1 , . . . , ωn )

Taille N n

N N n
1 X 1X X
Moyenne yU = yi yω = yi 1{ωm =ui }
N i=1 n i=1 m=1
v v
u N u N n
u 1 X u 1 X X
Écart-type corrigé sU = t (yi − y U )2 sω = t (yi − y ω )2 1{ωm =ui }
N −1 i=1
n − 1 i=1 m=1
r r
N − 1 s2U s2ω
Écart-type de y W σ(y W ) = s(y ω ) =
N n n

Autre notions utilisées autour de y U (niveau : 100(1 − α)%, α ∈]0, 1[) :


" r r #
s2ω s2ω
Intervalle de confiance iyU = y ω − zα , y ω + zα
n n
r
s2ω
Incertitude absolue dω = zα
n


Incertitude relative d∗ω =

 2
zα sω
Taille n telle que dω ≤ d0 n≥
d0
 2
zα sω
Taille n telle que d∗ω ≤ d1 n≥
y ω d1

C. Chesneau 151
10 Formulaire

10.4 Formules dans le cadre PEAR : proportion

Paramètres-population et les paramètres-échantillon correspondants :

Population U Échantillon ω = (ω1 , . . . , ωn )

Taille N n

N N n
1 X 1X X
Proportion pU = yi pω = yi 1{ωm =ui }
N i=1 n i=1 m=1
r r
pU (1 − pU ) pω (1 − pω )
Écart-type de pW σ(pW ) = s(pω ) =
n n−1

Autre notions utilisées autour de pU (niveau : 100(1 − α)%, α ∈]0, 1[) :


" r r #
pω (1 − pω ) pω (1 − pω )
Intervalle de confiance ipU = pω − zα , pω + zα
n−1 n−1
r
pω (1 − pω )
Incertitude absolue dω = zα
n−1


Incertitude relative d∗ω =

zα2 pω (1 − pω )
Taille n telle que dω ≤ d0 n≥
d20

zα2 pω (1 − pω )
Taille n telle que d∗ω ≤ d1 n≥
(pω d1 )2

C. Chesneau 152
10 Formulaire

10.5 Formules dans le cadre ST

Paramètres-strates et les paramètres-échantillon correspondants, ω = (ω1 , . . . , ωH ) :

Strate Uh Échantillon ωh

Taille Nh nh

nh
Taux de sondage  fh =
Nh
Nh Nh
1 X 1 X
Moyenne y Uh = yi y ωh = yi 1{ui ∈ωh }
Nh i=1 nh i=1
v v
u
u 1 Nh
X
u
u 1 X Nh
Écart-type corrigé sUh = t (yi − y Uh )2 sωh =t (yi − y ωh )2 1{ui ∈ωh }
Nh − 1 i=1 nh − 1 i=1
s s
s2 s2
Écart-type de y Wh σ(y Wh ) = (1 − fh ) Uh s(y ωh ) = (1 − fh ) ωh
nh nh

Paramètres-population et les paramètres-échantillon correspondants :

Population U Échantillon ω

Taille N n
N H
1 X 1 X
Moyenne yU = yi yω = Nh y ωh
N i=1 N
v v h=1
H H
s2Uh s2ωh
u u
u 1 X u 1 X
Écart-type de y W σ(y W ) = t N 2
h (1 − fh ) s(y ω ) = t N 2
h (1 − f h )
N2 nh N2 nh
h=1 h=1

C. Chesneau 153
10 Formulaire

Plans de sondage aléatoires de types STP et STO :

STP STO STO (applicable)

n Nh sUh Nh sωh
nh Nh n H
n H
N P P
N` sU` N` sω`
`=1 `=1

Autre notions utilisées autour de y U (niveau : 100(1 − α)%, α ∈]0, 1[) :


 v v 
H H
s2ωh s2ωh
u u
u 1 X 2
u 1 X 2
Intervalle de confiance iy U =  y ω − zα t 2 N (1 − fh ) , y ω + zα t 2 N (1 − fh )
N h=1 h N h=1 h

nh nh
v
H
s2ω
u
u 1 X
Incertitude absolue d ω = zα t 2 Nh2 (1 − fh ) h
N h=1 nh


Incertitude relative d∗ω =

H
2 Nh s2ωh
P
N zα
h=1
Taille n telle que ◦ pour un plan de sondage aléatoire de type STP : n ≥ ,
H
N 2 d20 + zα
2 Nh s2ωh
P

 H h=1 2
2
P
zα Nh sωh
h=1
dω ≤ d0 ◦ pour un plan de sondage aléatoire de type STO : n ≥ .
H
N 2 d20 + zα
2 Nh s2ωh
P
h=1
H
2 Nh s2ωh
P
N zα
h=1
Taille n telle que ◦ pour un plan de sondage aléatoire de type STP : n ≥ ,
H
N 2 (d1 y ω )2 + zα
2 Nh s2ωh
P
h=1
 H 2
2
P
zα Nh sωh
h=1
d∗ω ≤ d1 ◦ pour un plan de sondage aléatoire de type STO : n ≥ .
H
N 2 (d1 y ω )2 2 Nh s2ωh
P
+ zα
h=1

C. Chesneau 154
10 Formulaire

10.6 Formules dans le cadre ST : proportion

Paramètres-strates et les paramètres-échantillon correspondants, ω = (ω1 , . . . , ωH ) :

Strate Uh Échantillon ωh

Taille Nh nh

nh
Taux de sondage  fh =
Nh
Nh Nh
1 X 1 X
Proportion p Uh = yi pωh = yi 1{ui ∈ωh }
Nh i=1 nh i=1
s s
Nh pU (1 − pUh )
Écart-type de pWh σ(pWh ) = (1 − fh ) pU (1 − pUh ) s(pωh ) = (1 − fh ) h
nh (Nh − 1) h nh − 1

Paramètres-population et les paramètres-échantillon correspondants :

Population U Échantillon ω

Taille N n
N H
1 X 1 X
Proportion pU = yi pω = Nh pωh
N i=1 N
v v h=1
u H u H
u 1 X u 1 X pω (1 − pωh )
Écart-type de pW σ(pW ) = t 2 Nh2 σ 2 (pWh ) s(pω ) = t 2 Nh2 (1 − fh ) h
N N nh − 1
h=1 h=1

C. Chesneau 155
10 Formulaire

Plans de sondage aléatoires de types STP et STO :

STP STO STO (applicable)


p p
n Nh pUh (1 − pUh ) Nh pωh (1 − pωh )
nh Nh n H n H
N P p P p
N` pU` (1 − pU` ) N` pω` (1 − pω` )
`=1 `=1

Autre notions utilisées autour de pU (niveau : 100(1 − α)%, α ∈]0, 1[) :


 v v 
u H u H
u 1 X 2 pωh (1 − pωh ) u 1 X 2 pωh (1 − pωh )
Intervalle de confiance ipU = pω − zα
 t N (1 − fh ) , pω + zα t N (1 − fh ) 
N 2 h=1 h nh − 1 N 2 h=1 h nh − 1
v
u H
u 1 X 2 pω (1 − pωh )
Incertitude absolue dω = zα t 2 N (1 − fh ) h
N h=1 h nh − 1


Incertitude relative d∗
ω =

H
2 P
N zα Nh pωh (1 − pωh )
h=1
Taille n telle que ◦ pour un plan de sondage aléatoire de type STP : n ≥ H
,
N 2 d20 + zα
2
P
Nh pωh (1 − pωh )
 H h=1 2
q
2 P
zα Nh pωh (1 − pωh )
h=1
dω ≤ d0 ◦ pour un plan de sondage aléatoire de type STO : n ≥ H
.
N 2 d20 + zα
2
P
Nh pωh (1 − pωh )
h=1
H
2
Nh s2ω
P
N zα
h
h=1
Taille n telle que ◦ pour un plan de sondage aléatoire de type STP : n ≥ H
,
P
N 2 (d 1 pω )2 + 2
zα Nh s2ω
h
 h=1 2
H q
2 P
zα Nh pωh (1 − pωh )
h=1
d∗
ω ≤ d1 ◦ pour un plan de sondage aléatoire de type STO : n ≥ H
.
P
N 2 (d1 pω )2 + zα
2 Nh pωh (1 − pωh )
h=1

C. Chesneau 156
10 Formulaire

10.7 Formules dans le cadre G

Paramètres-groupe et les paramètres-échantillon correspondants, ω = (ω1 , . . . , ωm ) :

Groupe Gj Échantillon ωj

Taille M m
N
X
Total par groupe tj = yi 1{ui ∈Gj }
i=1

Paramètres-population et les paramètres-échantillon correspondants :

Population U Échantillon ω

Taille N n

N M
1 X M X
Moyenne yU = yi yω = tj 1{Gj ∈ω}
N i=1 mN j=1
v v
u M  2 u
M M
!2
1 N 1 X 1 X
X u
Écart-type corrigé
u
tj − tj −
u
ΞU = t y Ξω = t tk 1{Gk ∈ω} 1{Gj ∈ω}
M −1 j=1
M U m − 1 j=1 m
k=1
r
M2  m 1 2
Écart-type de y W s(y ω ) = 1− Ξ
N 2 M m ω

C. Chesneau 157
10 Formulaire

Autre notions utilisées autour de y U (niveau : 100(1 − α)%, α ∈]0, 1[) :


" r r #
M2  m 1 2 M2  m 1 2
Intervalle de confiance iyU = y ω − zα 1− Ξ , y + zα 1− Ξ
N2 M m ω ω N2 M m ω
r
M2  m 1 2
Incertitude absolue dω = zα s(y ω ) = zα 1− Ξ
N 2 M m ω


Incertitude relative d∗ω =

zα2 M 2 Ξ2ω
Taille m telle que dω ≤ d0 m≥
N 2 d20 + zα2 M Ξ2ω

zα2 M 2 Ξ2ω
Taille m telle que d∗ω ≤ d1 m≥
N 2 (y ω d1 )2 + zα2 M Ξ2ω

C. Chesneau 158
10 Formulaire

10.8 Table : Loi normale


Soit Z ∼ N (0, 1). La table ci-dessous donne, pour un α choisi, la valeur zα telle que P (|Z| ≥ zα ) = α.

α 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0.00 ∞ 2.576 2.326 2.170 2.054 1.960 1.881 1.812 1.751 1.695
0.10 1.645 1.598 1.555 1.514 1.476 1.440 1.405 1.372 1.341 1.311
0.20 1.282 1.254 1.227 1.200 1.175 1.150 1.126 1.103 1.080 1.058
0.30 1.036 1.015 0.994 0.974 0.954 0.935 0.915 0.896 0.878 0.860
0.40 0.842 0.824 0.806 0.789 0.772 0.755 0.739 0.722 0.706 0.690
0.50 0.674 0.659 0.643 0.628 0.613 0.598 0.583 0.568 0.553 0.539
0.60 0.524 0.510 0.496 0.482 0.468 0.454 0.440 0.426 0.412 0.399
0.70 0.385 0.372 0.358 0.345 0.332 0.319 0.305 0.292 0.279 0.266
0.80 0.253 0.240 0.228 0.215 0.202 0.189 0.176 0.164 0.151 0.138
0.90 0.126 0.113 0.100 0.088 0.075 0.063 0.050 0.038 0.025 0.013

C. Chesneau 159
10 Formulaire

10.9 Table : Loi de Student à ν degrés de liberté


Soit T ∼ T (ν). La table ci-dessous donne, pour un α et un ν choisis, la valeur tα (ν) telle que P (|T | ≥ tα (ν)) = α.

HH α
HH 0.90 0.50 0.30 0.20 0.10 0.05 0.02 0.01 0.001
ν H
1 0.158 1.000 1.963 3.078 6.314 12.706 31.821 63.657 636.619
2 0.142 0.816 1.386 1.886 2.920 4.303 6.965 9.925 31.598
3 0.137 0.765 1.250 1.638 2.353 3.182 4.541 5.841 12.924
4 0.134 0.741 1.190 1.533 2.132 2.776 3.747 4.604 8.610
5 0.132 0.727 1.156 1.476 2.015 2.571 3.365 4.032 6.869
6 0.131 0.718 1.134 1.440 1.943 2.447 3.143 3.707 5.959
7 0.130 0.711 1.119 1.415 1.895 2.365 2.998 3.499 5.408
8 0.130 0.706 1.108 1.397 1.860 2.306 2.896 3.355 5.041
9 0.129 0.703 1.100 1.383 1.833 2.262 2.821 3.250 4.781
10 0.129 0.700 1.093 1.372 1.812 2.228 2.764 3.169 4.587

11 0.129 0.697 1.088 1.363 1.796 2.201 2.718 3.106 4.437


12 0.128 0.695 1.083 1.356 1.782 2.179 2.681 3.055 4.318
13 0.128 0.694 1.079 1.350 1.771 2.160 2.650 3.012 4.221
14 0.128 0.692 1.076 1.345 1.761 2.145 2.624 2.977 4.140
15 0.128 0.691 1.074 1.341 1.753 2.131 2.602 2.947 4.073
16 0.128 0.690 1.071 1.337 1.746 2.120 2.583 2.921 4.015
17 0.128 0.689 1.069 1.333 1.740 2.110 2.567 2.898 3.965
18 0.127 0.688 1.067 1.330 1.734 2.101 2.552 2.878 3.922
19 0.127 0.688 1.066 1.328 1.729 2.093 2.539 2.861 3.883
20 0.127 0.687 1.064 1.325 1.725 2.086 2.528 2.845 3.850

21 0.127 0.686 1.063 1.323 1.721 2.080 2.518 2.831 3.819


22 0.127 0.686 1.061 1.321 1.717 2.074 2.508 2.819 3.792
23 0.127 0.685 1.060 1.319 1.714 2.069 2.500 2.807 3.767
24 0.127 0.685 1.059 1.318 1.711 2.064 2.492 2.797 3.745
25 0.127 0.684 1.058 1.316 1.708 2.060 2.485 2.787 3.725
26 0.127 0.684 1.058 1.315 1.706 2.056 2.479 2.779 3.707
27 0.127 0.684 1.057 1.314 1.703 2.052 2.473 2.771 3.690
28 0.127 0.683 1.056 1.313 1.701 2.048 2.467 2.763 3.674
29 0.127 0.683 1.055 1.311 1.699 2.045 2.462 2.756 3.659
30 0.127 0.683 1.055 1.310 1.697 2.042 2.457 2.750 3.646

C. Chesneau 160
10 Formulaire

10.10 Table : Loi du chi-deux à ν degrés de liberté


Soit K ∼ χ2 (ν). La table ci-dessous donne, pour un α et un ν choisis, la valeur kα (ν) telle que P (K ≥ kα (ν)) = α.

HH α
HH 0.99 0.975 0.95 0.90 0.10 0.05 0.025 0.01 0.001
ν H
1 0.0002 0.001 0.004 0.016 2.71 3.84 5.02 6.63 10.83
2 0.02 0.05 0.10 0.21 4.61 5.99 7.38 9.21 13.82
3 0.11 0.22 0.35 0.58 6.25 7.81 9.35 11.34 16.27
4 0.30 0.48 0.71 1.06 7.78 9.49 11.14 13.28 18.47
5 0.55 0.83 1.15 1.61 9.24 11.07 12.83 15.09 20.51
6 0.87 1.24 1.64 2.20 10.64 12.59 14.45 16.81 22.46
7 1.24 1.69 2.17 2.83 12.02 14.07 16.01 18.48 24.32
8 1.65 2.18 2.73 3.49 13.36 15.51 17.53 20.09 26.12
9 2.09 2.70 3.33 4.17 14.68 16.92 19.02 21.67 27.88
10 2.56 3.25 3.94 4.87 15.99 18.31 20.48 23.21 29.59

11 3.05 3.82 4.57 5.58 17.28 19.68 21.92 24.73 31.26


12 3.57 4.40 5.23 6.30 18.55 21.03 23.34 26.22 32.91
13 4.11 5.01 5.89 7.04 19.81 22.36 24.74 27.69 34.53
14 4.66 5.63 6.57 7.79 21.06 23.68 26.12 29.14 36.12
15 5.23 6.26 7.26 8.55 22.31 25.00 27.49 30.58 37.70
16 5.81 6.91 7.96 9.31 23.54 26.30 28.85 32.00 39.25
17 6.41 7.56 8.67 10.09 24.77 27.59 30.19 33.41 40.79
18 7.01 8.23 9.39 10.86 25.99 28.87 31.53 34.81 42.31
19 7.63 8.91 10.12 11.65 27.20 30.14 32.85 36.19 43.82
20 8.26 9.59 10.85 12.44 28.41 31.41 34.17 37.57 45.31

21 8.90 10.28 11.59 13.24 29.62 32.67 35.48 38.93 46.80


22 9.54 10.98 12.34 14.04 30.81 33.92 36.78 40.29 48.27
23 10.20 11.69 13.09 14.85 32.01 35.17 38.08 41.64 49.73
24 10.86 12.40 13.85 15.66 33.20 36.42 39.36 42.98 51.18
25 11.52 13.12 14.61 16.47 34.38 37.65 40.65 44.31 52.62
26 12.20 13.84 15.38 17.29 35.56 38.89 41.92 45.64 54.05
27 12.88 14.57 16.15 18.11 36.74 40.11 43.19 46.96 55.48
28 13.56 15.31 16.93 18.94 37.92 41.34 44.46 48.28 56.89
29 14.26 16.05 17.71 19.77 39.09 42.56 45.72 49.59 58.30
30 14.95 16.79 18.49 20.60 40.26 43.77 46.98 50.89 59.70

C. Chesneau 161
Index

Base de sondage, 8 PEAR, 9, 43


PESR, 9, 11
Caractère, 8
PISR, 119
cluster, 137
Plan de sondage, 9
Ecart-type corrigé-population, 8 Population, 8
Echantillon, 8 Probabilités d’appartenance PEAR, 45
Effectif PEAR, 68 Probabilités d’appartenance PESR, 13
Effectif PESR, 37 Probabilités d’appartenance PISR, 119
Effectif ST, 111 Proportion PEAR, 65
Erreur d’estimation PESR, 19 Proportion PESR, 33
Erreur quadratique moyenne G, 140 Proportion ST, 106
Erreur quadratique moyenne PEAR, 48
Erreur quadratique moyenne PESR, 17 sample, 12, 44
Estimateurs PEAR, 46 sampling, 12, 75
Estimateurs PESR, 14 srswor, 12
Estimateurs PISR, 121 srswr, 44
Estimations ponctuelles G, 140 ST, 73
Estimations ponctuelles PEAR, 51 STO, 89
Estimations ponctuelles PESR, 19 STP, 87
Estimations ponctuelles PISR, 124 strata, 75
Estimations ponctuelles ST, 84
Taille d’échantillon PEAR, 55
G, 137
Taille d’échantillon PESR, 21
grappe, 137
Taille d’échantillon ST, 91
Incertitude relative, 35 Taille d’échantillon STO, 93
Individus, 8 Taille d’échantillon STP, 93
Intervalles de confiance G, 142 Taille de groupe G, 143
Intervalles de confiance PEAR, 52 taux de sondage, 13
Intervalles de confiance PESR, 20 Théorème de Hajek, 20
Intervalles de confiance ST, 90 Total PEAR, 63
Total PESR, 31
Moyenne-population, 8
Total ST, 105
Paramètres-population, 8 Tri aléatoire, 22

162

Vous aimerez peut-être aussi