Solution Exercice S
Solution Exercice S
Solution 1. 1. On a
ÿ 3
fi1 = p(s) = p({1, 2}) + p({1, 3}) = ,
sœS : 1œs
4
ÿ 3
fi2 = p(s) = p({1, 2}) + p({2, 3}) = ,
sœS : 2œs
4
ÿ 1
fi3 = p(s) = p({1, 3}) + p({2, 3}) = .
sœS : 3œs
2
On a
3 4
3 3 3 1 3 3 1 1 3 1 1
11 = 1≠ = , 12 = ≠ ◊ =≠ , 13 = ≠ ◊ =≠ ,
43 44 16 2 4 4 16 43 4 4 2 8
3 3 3 1 3 1 1 1 1 1
22 = 1≠ = , 23 = ≠ ◊ =≠ , 33 = 1≠ = ,
4 4 16 4 4 2 8 2 2 4
et donc la matrice de variance–covariance est
S T
3 ≠1 ≠2
1 W X
= U≠1 3 ≠2V
16
≠2 ≠2 4
48
Solution 2. 1. Puisqu’à l’exercice 1 nous avons calculé les probabilités d’inclusions
d’ordre 1, nous avons
Y Y 4(y +y )
_
_
y1
+ y2
, s = {1, 2} _ 1 2
, s = {1, 2}
1 y1] 3/4
_ 3/4 _
] 9
4y1 +6y3
µ̂y,fi = _ 3/4 + y3
, s = {1, 3} = , s = {1, 3}
3_
_
1/2 _
_ 9
[ 4y2 +6y3
[ y
3/4
2
+ y3
1/2
, s = {2, 3} 9
, s = {2, 3}
2. Ainsi
1 4(y1 + y2 ) 1 4y1 + 6y3 1 4y2 + 6y3
E(µ̂y,fi ) = ◊ + ◊ + ◊
2 9 4 9 4 9
2y1 + 2y2 + y1 + 1.5y3 + y2 + 1.5y3
=
9
3y1 + 3y2 + 3y3
=
9
y1 + y2 + y3
= = µy .
3
Ce qui est logique puisque nous avons vu que le fi–estimateur était un estimateur
sans biais !
2 3
fi1 = fi2 = fi3 = , fi4 = fi5 = .
5 5
49
4. Puisque k¸ = fik¸ ≠ fik fi¸ , k ”= ¸ et que nous connaissons déjà les fik , nous pouvons
en déduire que
6 4 2
fi12 = 12 + fi1 fi2 = + =
25 25 5
6 6
fi14 = 14 + fi1 fi4 = ≠ + =0
25 25
6 9 3
fi45 = 45 + fi4 fi5 = + =
25 25 5
Avec des calculs similaires, la matrice des probabilités d’inclusion d’ordre deux est
S T
— 2 2 0 0
W X
W2 — 2 0 0X
1W
W2
X
2 — 0 0X
5W
W X
U 0 0 0 — 3 X
V
0 0 0 3 —
{1}, {2}, {3}, {4}, {5}, {1, 2}, {1, 3}, {2, 3}, {4, 5}, {1, 2, 3}.
Du coup on a déjà
3
Pr(S = {4, 5}) = fi45 = .
5
D’un côté puisque fi1 = fi12 , on a
2
Pr(S = {1}) = Pr(S = {1, 3}) = 0, Pr(S = {1, 2}) + Pr(S = {1, 2, 3}) = .
¸ ˚˙ ˝ ¸ ˚˙ ˝ 5
échantillons contenant 1 mais pas 2 échantillons contenant 1 et 2
2
Pr(S = {1}) = Pr(S = {1, 2}) = 0, Pr(S = {1, 3}) + Pr(S = {1, 2, 3}) = .
5
On en déduit donc que Pr(S = {1, 2, 3}) = 2/5. Le même raisonnement conduit à
Pr(S = {2}) = Pr(S = {3}) = Pr(S = {2, 3}) = 0.
Enfin on a
3 3
Pr(S = {4}) = fi4 ≠ fi45 = ≠ =0
5 5
3 3
Pr(S = {5}) = fi5 ≠ fi45 = ≠ = 0.
5 5
50
Exercice 4. On considère un plan sans remise effectué sur une population de taille N .
On suppose que les probabilités d’inclusions d’ordre 1 et 2 fik et fik¸ sont strictement
positives. A partir d’un échantillon aléatoire S, on s’intéresse à l’estimateur suivant
1 ÿ yk 1 ÿ y¸
◊ˆ = 2 + 2 .
N kœS fik N k,¸œS fik¸
k”=¸
2. Pour un plan sans remise quelconque mais dont les probabilités d’inclusion d’ordre
1 et 2 sont strictement positives, construisez un estimateur sans biais de ‡y2 .
Solution 5. 1. On a
1 ÿ 1 ÿ
(yk ≠ y¸ )2 = (yk ≠ y¸ )2
2N k,¸œU
2 2N 2 k,¸œU
k”=¸
1 ÿ 2 1 ÿ
= y ≠ yk y¸
N 2 k,¸œU k N 2 k,¸œU
Q RQ R
1 ÿ 2 a 1 ÿ ba 1 ÿ b
= y ≠ yk y¸
N kœU k N kœU N ¸œU
= y2 ≠ y2
= ‡y2
qui est un estimateur sans biais dès lors que les fik¸ sont tous positifs.
51
TD 2 : Plans simples
Exercice 6. On souhaite estimer la surface moyenne cultivée dans les fermes d’un canton
rural donné. Sur les N = 2010 fermes de ce canton, on en tire 100 par sondage aléatoire
simple. On mesure yk la surface cultivée dans la ferme k en hectares, et l’on trouve
ÿ ÿ
yk = 2907ha, yk2 = 154593ha2 .
kœS kœS
52
et la variance de cet estimateur est donnée par
Y 2
] ‡y , avec remise,
Var(p̂) = n
2
[ N ≠n Sy ,
N n
sans remise,
mais puisque yk2 = yk , la variance et la variance corrigée sur la population sont égales à
Q R2
1 ÿ 1 ÿ N
‡y2 = yk ≠ a yk b = p ≠ p2 = p(1 ≠ p), Sy2 = p(1 ≠ p).
N kœU N kœU N ≠1
Ainsi on a donc Y
] p(1≠p) , avec remise,
Var(p̂) = [ N ≠n
n
p(1≠p)
N ≠1 n
, sans remise.
Si l’on suppose que la taille de l’échantillon est suffisamment grande pour que l’ap-
proximation selon la loi normale soit acceptable, on a donc un intervalle de confiance à
95% de la forme Ò
p̂ ± 1.96 ◊ Var(p̂).
Ainsi on cherche donc la taille de l’échantillon n telle que
Ò
2 ◊ 1.96 ◊ Var(p̂) Æ 0.02 ≈∆ Var(p̂) Æ 196≠2
Y
Æ 196≠2 ,
] p(1≠p)
n
avec remise
≈∆ [ N ≠n
N ≠1
p(1≠p)
n
Æ 196 , avec remise
≠2
Y
Ø 1962 p(1 ≠ p)
]n avec remise
≈∆ [
n Ø 196 N p(1 ≠ p)/{N ≠ 1 + 196 p(1 ≠ p)} sans remise.
2 2
Notons qu’avec remise la taille d’échantillon requise est supérieure à la taille de la popu-
lation :-(
Exercice 8. Un échantillon de 100 étudiants est constitué au moyen d’un plan aléatoire
simple sans remise dans une population de 1000 étudiants. Le résultat obtenu est présenté
au sein du Tableau 2.
Table 2: Nombre de succès/échec selon le sexe pour un échantillon de 100 étudiants pris parmi
1000.
Hommes Femmes Total
Réussite n11 = 35 n12 = 25 n1· = 60
Échec n21 = 20 n22 = 20 n2· = 40
Total n·1 = 55 n·2 = 45 n = 100
53
— Estimez l’erreur quadratique moyenne de ces taux de réussite.
Solution 8. 1. Bon bah là on réfléchit pas plus de 2 secondes et l’on écrit bêtement
25 35
R̂F = ¥ 55.6%, R̂H = ¥ 63.6%.
45 55
2. On a vu que la moyenne empirique était un estimateur sans biais—que ce soit sans
remise ou avec. Alors pourquoi parlons nous ici de biais approché ? ? ? Le problème
vient du fait que l’on pioche (sans remise) 100 étudiants parmi 1000. En conséquence
le nombre de filles/garçons présents dans l’échantillon est aléatoire ! ! ! Cela nous
introduit un biais. . .
Rappel de cours (je l’espère inutile) : Le biais approché d’un ratio R = µy /µx est
1 N ≠n1 1 2 2
Biais(R) ¥ RS ≠ S .
µ2x N n x xy
Revenons à notre exercice et commençons par les filles galanterie oblige. On a donc
µ̂y
R̂F = ,
µ̂x
où les y sont des variables binaires valant 1 lors de la réussite d’une femme, 0 sinon,
et x sont des variables binaires valant 1 s’il s’agit d’une femme, 0 sinon.
On a donc (puisque x2k = xk et xk yk = yk )
Q R
1 aÿ 2 1 N
Sx2 = xk ≠ N µ2x b = (N µx ≠ N µ2x ) = µx (1 ≠ µx )
N ≠ 1 kœU N ≠1 N ≠1
Q R
1 aÿ 1 N
Sxy = x k y k ≠ N µ x µy b = (N µy ≠ N µx µy ) = µy (1 ≠ µx ).
N ≠ 1 kœU N ≠1 N ≠1
Ainsi le biais approché vaut donc
1 N ≠n1
Biais(R̂F ) ¥ 2 {RF µx (1 ≠ µx ) ≠ µy (1 ≠ µx )}
µx N ≠ 1 n
1 N ≠n1
= 2 {µy (1 ≠ µx ) ≠ µy (1 ≠ µx )} , µ y = R F µx
µx N ≠ 1 n
= 0.
On trouvera le même résultat pour les garçons, i.e., un biais approché nul. D’ailleurs
c’est nul comme question car pour ce cas particulier le biais approché est toujours
égal à 0 ;-)
3. Cours : La formule de l’erreur quadratique approchée d’un ratio R = µy /µx est
1 N ≠n1 1 2 2 2
2
EQM(R̂) ¥ S ≠ 2RS + R S x .
µ2x N n y
xy
54
On estime cette erreur quadratique moyenne par
55
TD 3 : Plans à probablités inégales
xk 2xk xk
fik = 2 = = .
x̄ ≠ x4 12 6
On a donc
1 2 1 1 1
fi1 = , fi2 = , fi3 = , fi4 = 1, fi5 = , fi6 = .
3 3 2 6 3
q6
Notons que nous avons bien comme attendu k=1 fik = 3.
2. Puisque fi4 = 1, le ménage 4 est forcément pris ; reste donc à tirer deux ménages à
l’aide d’une réalisation d’une U (0, 1) et d’un pas de tirage de 1.
3. L’échantillon S peut s’écrire S = (k1 , k2 , k3 ) avec k1 = 4. Ainsi
A B
1 ÿ xk 1 9 x k2 x k3
x̄ˆ = = + + = 3.5.
N kœS fik 6 1 xk2 /6 xk3 /6
Remarquons que x̄ˆ = x̄. Ce résultat est évident puisque les xk et fik sont parfaitement
proportionnels et donc un estimateur de variance nulle !
Exercice 10. On a répertorié dans une petite municipalité 6 entreprises dont les chiffres
d’affaires (variable xk ) sont respectivement de 40, 10, 8, 1, 0.5 et 0.5 millions d’euros.
Dans le but d’estimer l’emploi salarié total, sélectionnez trois entreprises au hasard et
sans remise, à probabilités inégales selon le chiffre d’affaires, par la méthode du tirage
systématique (en justifiant votre démarche). Pour ce faire, on utilise la réalisation suivante
d’une variable aléatoire U (0, 1) : 0.83021. Que se passe-t-il si on modifie l’ordre du fichier ?
56
Solution 10. Commençons par dire que le tirage à probabilités inégales semble justifié
puisqu’à priori il devrait avoir une relation plus ou moins proportionnelle entre le le chiffre
d’affaire et le nombre de salariés.
q
Commençons nos calculs pour ce tirage systématique. On a kœU xk = 60 et puisque
40
fi1 = 3 = 2 > 1,
60
l’unité 1 est sélectionnée d’office et retirée de la population. De manière analogue, puisque
10
fi2 = 2 = 1,
60 ≠ 40
l’unité 2 est également sélectionnée d’office et retirée de la population. Il reste donc à
sélectionner une dernière unité parmi celles restantes. On trouve facilement
8 1 1 1
fi3 = , fi4 = , fi5 = , fi6 = .
10 10 20 20
q6
Notons que l’on a bien comme attendu k=3 fik = 1. Les probabilités d’inclusions cumulées
sont
Puisque la réalisation d’une U (0, 1) est 0.83021, l’échantillon obtenu est {1, 2, 4}.
Si l’on modifie l’ordre du fichier en gardant cette réalisation d’une U (0, 1), les unités
1 et 2 sont toujours sélectionnées d’office. Si l’unité x = 8 est en position 2, 3 ou 4 elle
est toujours retenue ; sinon tout est possible. . .
Morale de l’histoire l’ordre du fichier influe sur l’échantillon sélectionné.
Exercice 11. Soit une population de 5 unités. On veut sélectionner par un tirage systéma-
tique à probabilités inégales un échantillon de deux unités avec des probabilités d’inclusion
proportionnelles aux valeurs xi suivantes
1, 1, 6, 6, 6.
57
Table 3: Toutes les permutations possibles du fichier de l’exercice .
Permutation x1 x2 x3 x4 x5
1 1 1 6 6 6
2 1 6 1 6 6
3 1 6 6 1 6
4 1 6 6 6 1
5 6 1 1 6 6
6 6 1 6 1 6
7 6 1 6 6 1
8 6 6 1 1 6
9 6 6 1 6 1
10 6 6 6 1 1
fi3 fi2
fi3
fi2
fi1 fi1
u+1 u+1
fi4 fi4
fi5 fi5
Figure 1: Représentation graphique des probabilités d’inclusion d’ordre 1 cumulées de l’exercice.
Gauche : cas A ; Droite : Cas B.
3, 6, 7 et 9 à une autre unique situation. Il suffit donc de considérer que ces deux
cas particuliers au lieu des 10 possibles, c’est à dire
Cas A : (1/10, 1/10, 3/5, 3/5, 3/5), Cas B : (1/10, 3/5, 1/10, 3/5, 3/5).
Exercice 12. Soit une population U composée de 6 unités. On connaît les valeurs prises
par un caractère auxiliaire x sur toutes les unités de la population :
58
3. On suppose qu’une variable d’intérêt y prend les valeurs suivantes :
Puisque 0.48444 < 5/6 et 5/6 < 1 + 0.48444 < 10/6, l’échantillon obtenu est
{1, 2, 3, 4}.
2. La matrice des probabilités d’inclusion d’ordre deux est donnée par
S T
— 1 5/6 5/6 1/6 1/6
W 1 — 5/6 5/6 1/6 1/6X
W
X
W X
W5/6 5/6 — 4/6 1/6 0 X
W X
W5/6 5/6 4/6 — 0 1/6X
W X
W X
U1/6 1/6 1/6 0 — 0 V
1/6 1/6 0 1/6 0 —
Pour les autres valeurs c’est un peu plus fastidieux puisqu’il faut considérer tous les
cas possibles. A ordre fixé, si on note u la valeur tirée au hasard entre 0 et 1, on
voit d’après la Figure 2 que
— Si 0 < u Æ 4/6, alors on tombe dans les intervalles numéro 1 et 2 ;
— Si 4/6 < u Æ 5/6, alors on tombe dans les intervalles numéro 1 et 3 ;
— Si 5/6 < u Æ 1, alors on tombe dans les intervalles numéro 2 et 4.
59
D’où
4 1 1
fi34 = , fi35 = , fi46 = ,
6 6 6
et les autres probabilités sont nulles.
3. D’après la matrice précédente, il n’y a que 3 échantillons possibles (de taille fixe).
Le fi–estimateur s’écrit ÿ yk
ŷ = ,
kœS fi k
Notons que le vrai total vaut y = 200. Les estimations et variances estimées pour
chaque échantillons sont
Table 4: Probabilités de tirage, estimations et variances estimées pour chaque échantillon pos-
sible.
Échantillon s Pr(S = s) ŷ Var[ŷ]
‰
{1, 2, 3, 4} 4/6 196 0.75
{1, 2, 3, 5} 1/6 226 -48
{1, 2, 4, 6} 1/6 190 0
Total 1 E[ŷ] = 200 E[Var[ŷ]] = ≠7.5
‰
Comme attendu on voit que le fi–estimateur est sans biais. En revanche l’estima-
teur de sa variance est biaisé puisque des probabilités d’inclusion d’ordre deux sont
nulles ! ! !
60