0% ont trouvé ce document utile (0 vote)
538 vues15 pages

Exercices Corrigés en Statistiques

Ce document présente plusieurs exercices de statistiques inférentielles avec leurs solutions. Les exercices portent sur des notions comme l'espérance, la variance, les lois binomiales et hypergéométriques.

Transféré par

ISAAC SOGLO
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
538 vues15 pages

Exercices Corrigés en Statistiques

Ce document présente plusieurs exercices de statistiques inférentielles avec leurs solutions. Les exercices portent sur des notions comme l'espérance, la variance, les lois binomiales et hypergéométriques.

Transféré par

ISAAC SOGLO
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Manuel d’exercices corrigés en statistique inférentielle

I. Rappels de probabilités et de statistique inférentielle

Exercice 1 Notions d’espérance et de variance

Un passager du métro mesure son temps de trajet domicile- travail pendant 10 jours et
relève successivement (en minutes) : 32 ; 25 ; 28 ; 36 ; 30 ; 26 ; 37 ; 25 ; 33 ; 28.

Quel est en moyenne la durée du trajet ? Évaluer aussi la variabilité de cette durée.

Comparer avec un autre itinéraire emprunté par notre voyageur pendant les jours
suivants et qui lui prend : 46 ; 21 ; 24 ; 38 ; 44 ; 22 ; 37 ; 20 ; 25 ; 23 minutes.

 Exercice 2 Loi binomiale

 A chaque balade qu’il effectue, un cavalier a une probabilité p d’être désarçonné.

1. Quelle est la probabilité que le cavalier ait chuté k fois au terme de n balades ?


On suppose que les différentes promenades sont indépendantes les unes des
autres.
2. Quelle est la loi du nombre de chutes en n balades ?
3. Donner l’espérance et la variance du nombre de chutes en n balades.

 Exercice 3 Loi hypergéométrique

Le responsable qualité d’une usine contrôle 20 objets dans chaque lot de 1000 objets
avant de le laisser partir vers le client. Il accepte seulement les lots pour lesquels il ne
trouve aucun objet non conforme dans l’échantillon ; dans le cas contraire, le lot est
trié unité par unité.

1. Si p% des pièces fabriquées sont défectueuses, quelle est la probabilité d’en


trouver k dans un lot donné de taille 20 ?
2. Quelle est la probabilité pour qu’un lot contenant une proportion p = 0,05
d’objets non conformes soit accepté ?
3. Même question pour p = 0,1.

Exercice 4  La moyenne empirique 

Soient X1, X2, …, Xn     n variables aléatoires indépendantes et identiquement


distribuées (i.i.d.) de moyenne m et de variance σ². La moyenne empirique
est : X = 1 ∑n Xi . Calculer n  i=1

Exercice 5  Intervalle de confiance pour une moyenne

 …
de 100 parcelles de blé d’une variété donnée. On a obtenu où xi exprime le rendement
observé sur la ième parcelle (en qx/ha).

On suppose que les rendements sont mutuellement indépendants et qu’ils sont issus
d’une population infinie distribuée selon une loi normale de moyenne m et de
variance σ².

Construire un intervalle de confiance pour le rendement moyen au niveau de confiance


95%.

Exercice 6 Protection de l’anonymat dans une enquête

Pour préserver l’anonymat dans certaines enquêtes par sondage, le procédé suivant
peut être suivi. Admettons que l’on veuille estimer la proportion de personnes qui
remplissent leur déclaration fiscale de manière honnête. On demande alors à chaque
personne interrogée de se retirer dans une pièce isolée, et de jouer à pile ou face.

-   si elle obtient « pile » alors elle doit répondre honnêtement par « oui » ou « non » à
la question « Votre déclaration fiscale est-elle honnête ? »

-   si elle obtient « face », elle devra lancer la pièce une nouvelle fois et répondre par «
oui » ou « non » à la question « Avez-vous obtenu « face » au deuxième tirage ? ».

Grâce à ce procédé, il est impossible à l’enquêteur de savoir à quelle question se


rapporte la réponse de la personne interrogée, celle-ci peut donc fournir sans crainte
une réponse sincère.

1. On note p la proportion inconnue de déclarations fiscales remplies


honnêtement dans la population et π la proportion de réponses « oui ». Montrer
que π = p/2 + 1/4 .
2. Soit X la variable aléatoire désignant le nombre de réponses « oui » dans une
enquête auprès de n personnes. Quelle est la loi de X ? Donner un estimateur
de π et un estimateur de p. Calculer leur espérance et variance respectives.
3. En déduire un intervalle de confiance de niveau 1- α pour p. On utilisera
l’approximation normale de la loi binomiale.
4. Application numérique avec n = 1000 et 600 réponses affirmatives. Donner
une estimation de p et un intervalle de confiance pour p au niveau 95%. Quel
est le prix payé pour la  confidentialité ?

Quelques rappels sur les lois de probabilité

Variable aléatoire X

C’est une grandeur qui peut prendre différentes valeurs avec différentes probabilités.
Elle est définie sur l'ensemble des résultats possibles (ou événements) d'une
expérience aléatoire (ex : résultat d’un jeu de hasard, durée d’attente,…).

Loi de probabilité
La loi de probabilité, ou distribution, d'une variable aléatoire X est définie par
l'ensemble des valeurs prises par X ainsi que par :

-          la probabilité de chaque valeur possible de X quand X est une v.a. discrète,

-          la probabilité que X se réalise dans un intervalle donné quand X est une v.a.
continue. La fonction de densité de X, dérivée de la fonction de répartition caractérise
la loi de probabilité.

Espérance E(X)

C’est la valeur que l'on peut espérer obtenir, en moyenne, en réalisant une v.a. X. On
l’assimile à la moyenne de X par abus de langage.

Pour une variable aléatoire discrète, E( X ) = ∑k × P( X = k) . k

Pour une variable aléatoire continue admettant une densité f(x), E( X ) = ∫−+∞∞ xf (x)

Propriétés :

-      Pour c constante réelle, E(c ) = c

-       E( X +  Y )  =  E(  X  ) + E(Y ) : on dit que l'espérance est un opérateur linéaire

-          Si X et Y sont indépendantes alors E(XY ) = E( X ) × E(Y )

Variance Var(X)

C’est une mesure de la variabilité des valeurs par rapport à la moyenne. Plus les
valeurs de X sont « imprévisibles », plus elle est grande. Elle se définit par Var(X )
= σ X2 = E[X − E(X )]² = E(X ²) − [E(X )]² (« moyenne des carrés des écarts à la
moyenne »)

Propriétés :

- La variance est toujours positive ou nulle - Var( X ) = 0 X constante

-          Var(cX  ) = c²Var( X ) où c est une constante réelle

-          Var( X + Y  ) = Var( X  ) + Var(Y ) + 2Cov( X ,Y )

o Cov( X ,Y ) = σ XY = E[ X − E( X )]× E[Y − E(Y )] o Cov( X ,Y ) = 0 si X et Y sont


indépendantes

Loi de Bernoulli B(p)

C’est la loi de la variable X qui indique si le résultat d’une épreuve est un échec ou un


succès (par exemple : jouer à pile ou face).

Loi de probabilité :          P(  X  =1)= p et P(X =0)=1− p


Espérance :                        E(X)= p

Variance :                           Var(X)= p(1− p)

Loi binomiale B(n,p)

C’est la loi de la variable X qui compte le nombre de boules blanches obtenues à


l’issue de n tirages, indépendants et avec remise, dans une urne de
taille N contenant p % de boules blanches.

Loi de k k n−k avec k∈{0,1,...,n


probabilité : P( X =k)=Cn p (1− p) }
Espérance : E(X)=np
Variance : Var(X)=np(1− p)

N.B. : une loi binomiale de paramètres n et p est aussi la somme de n lois de Bernoulli
indépendantes et de même paramètre p.

Loi hypergéométrique H(N, n,p)

C’est la loi de la variable X qui compte le nombre de boules blanches sélectionnées à


l’issue de n tirages sans remise dans une urne de taille N contenant des boules
blanches en proportion p.

Convergence de la loi hypergéométrique vers la loi binomiale

Si N tend vers l'infini, la loi H(N,n,p) tend vers la loi B(n, p), c'est- à-dire que
lorsqu'on effectue un tirage dans une grande population, il importe peu que ce tirage
se fasse avec ou sans remise (en pratique, on considèrera que la population est «
grande » lorsque l'échantillon représente moins de 10% de cette population : n /N <
0,1).

Loi normale ou loi de Laplace-Gauss N(m,σ²)

En pratique, on considère que l'approximation est correcte dès que n p(1-p) > 18,


d'autant plus que n est grand et p proche de  0,5.

Loi uniforme U(0,1)

Une variable X suit une loi uniforme U(0,1) si sa densité de probabilité


vaut : f(x)=1]0,1[(x) Espérance : E(X)=1/2

Variance : Var(X)=1/12

F(x)=P( X ≤x)=x sur [0,1]

Loi faible des grands nombres


Si (X1,X2,…,Xn) sont des variables indépendantes et identiquement distribuées (i.i.d.)
selon une loi

Autrement dit, la moyenne d'une variable sur un échantillon aléatoire simple tend vers
la moyenne dans la population, quand la taille de l’échantillon tend vers l'infini. Par
exemple, si l'on pouvait jouer indéfiniment à "pile ou face" avec une pièce bien
équilibrée, le pourcentage de "pile" obtenu tendrait vers 50 %.

Théorème central limite

Si (X1,X2,…,Xn) sont des variables i.i.d. selon une loi quelconque de moyenne m et de


variance σ²,

Loi
Xn −m
alors: n     → N(0,1)
σ n→∞

Quelques rappels sur les intervalles de confiance

I/ Généralités

Soient X une variable aléatoire de loi paramétrée par θ et X 1 ,...,X n  n variables i.i.d.


selon la loi de X.

1) Principe d’un intervalle de confiance

Plutôt que d’estimer ponctuellement la vraie valeur inconnue du paramètre θ , on


recherche un intervalle recouvrant «très vraisemblablement » cette vraie valeur.

Définition : On appelle intervalle de confiance de niveau de confiance 1− α du


paramètre θ tout intervalle IC tel que : P ( IC ∋ θ ) = 1 − α pour α ∈[0,1] fixé.

Les bornes de l’intervalle de confiance IC dépendent de l’échantillon, elles sont donc


aléatoires. Par abus de langage, on note souvent P (θ ∈ IC) = 1 − α .

Remarquons que si α augmente (ou que si n augmente), l’amplitude de l’intervalle de


confiance diminue.

2) Vocabulaire

La probabilité α pour que l’intervalle de confiance ne contienne pas la vraie valeur


peut être répartie différemment de part et d’autre des bornes de l’intervalle de
confiance. Écrivons donc α = α1 +α2 où α1 et  α2 mesurent respectivement les risques à
gauche et à droite de dépasser un seuil plancher ou plafond.

 L’intervalle de confiance est dit bilatéral quand α1 ≠ 0 et α2 ≠ 0 . Si α 1 = α2


= α2 , l’intervalle est dit symétrique. Il est dissymétrique sinon.
 L’intervalle de confiance est dit unilatéral si α1α 2  = 0 :
-  quand on veut assurer une valeur minimale au paramètre à estimer, on considère

α 1 = α et α2  = 0 , l’intervalle de confiance est alors de la forme : IC = [ a,+∞[ .

-  quand on ne veut pas dépasser un seuil maximal, on prend α1 = 0 et α2 = α et on


obtient alors un intervalle de confiance de la forme : IC = ] − ∞,b] .

1. Construction

Pour construire un intervalle de confiance, on utilise une variable aléatoire dont on


connaît la distribution de probabilité.

Définition : une fonction pivotale pour le paramètre θ est une fonction des


observations ( X 1,..., Xn) et du paramètre θ dont la loi ne dépend pas du paramètre θ .

On recherche dans la suite des fonctions pivotales particulières adaptées aux cas
étudiés.

II/ Intervalles de confiance pour l’espérance

On envisage deux cas :

 la variable aléatoire mesurée est normale et le nombre de réalisations est


quelconque,
 la variable aléatoire mesurée n'est pas normale et le nombre de réalisations est
important. Dans ce cas, la distribution de la moyenne empirique tend vers une
loi normale d'après le théorème central limite. On parlera d’intervalle de
confiance asymptotique.

-          Sinon, construction d’intervalles de confiance « exacts » :

On construit ces intervalles en considérant la fonction de répartition de la loi


binomiale. Si la probabilité de recouvrement de l’intervalle ne vaut pas exactement
1− α , on prend l’intervalle ayant la plus petite probabilité de recouvrement parmi ceux
ayant une probabilité de recouvrement supérieure à 1− α .

III/ Intervalles de confiance pour la variance d'une loi normale

Soient X ~ N(m,σ 2 ) et X1 ,...,X n  n variables i.i.d. selon la loi de X.

II. Sondage aléatoire simple


Exercice 1 Un petit exemple

L’exercice propose de retrouver sur un exemple les résultats de la théorie pour un


sondage aléatoire simple sans remise de taille fixe. On considère pour cela tous les
échantillons possibles de taille 2 pris dans une population de taille N = 5. On connaît
par ailleurs les valeurs de la variable d’intérêt Y pour chaque unité de la population, à
savoir respectivement : 8, 3, 11, 4 et 7.

1. Calculer la moyenne Y et la dispersion SY2  du caractère d’intérêt sur la


population.
2. Lister tous les échantillons possibles de taille 2.

3.  Pour chacun de ces échantillons, calculer l’estimateur  Y de la moyenne de la


variable
d’intérêt ainsi que l’estimateur de sa
variance V (Y ).

4.    Vérifier que Y estime sans biais la vraie moyenne. ( ˆ )

1. Calculer la variance V Y . ( ˆ )


2. Vérifier que V Y  coïncide avec la formule de la variance donnée par la théorie.

7.  Vérifier que V (Y ) estime sans biais la vraie variance V (Y ).

Exercice 2 Rappels de cours

L’exercice propose de démontrer des résultats présentés dans le cours et d’insister sur
des techniques de raisonnement usuelles en sondage. Considérons qu’on veuille
estimer le total et la moyenne d’une grandeur Y dans une population U de taille N.
Pour cela, on procède à un sondage aléatoire simple sans remise de taille n et on
note S l’échantillon aléatoire obtenu.

1. Combien y a-t-il d’échantillons possibles ? Quelle est la probabilité de tirer


chacun d’entre eux ?
2. On considère un individu k quelconque dans U. Combien y a-t-il d’échantillons
contenant cet individu ? En déduire la probabilité de tirage de k.

la variable aléatoire valant 1 si k appartient à l’échantillon et 0 sinon.

a.    Que vaut E( I k )?

5.    Combien y a-t-il d’échantillons comprenant les individus identifiés k et l ? En


déduire la probabilité de tirer ces deux individus conjointement. Que vaut
alors E( I k Il ) ? En déduire

Cov( I  k  , Il ).


Exercice 3 Estimation de la surface agricole utile d’un canton

(d’après P.Ardilly et Y.Tillé, Exercices corrigés de méthode de sondage, Ellipses,


2003 )

On veut estimer la surface moyenne cultivée dans les fermes d’un canton rural. Sur
2010 fermes que comprend ce canton, on en tire 100 par sondage aléatoire simple. On
mesure Yk la surface cultivée par la ferme k en hectares et on trouve :

(d’après A-M. Dussaix et J-M. Grosbras, Exercices de sondage, Economica, 1992 )

145 ménages de touristes séjournant en France dans une région donnée ont dépensé
830 € en moyenne par jour. L’écart type estimé de leurs dépenses s’élève à 210 €.
Sachant que 50 000 ménages de touristes ont visité la région où a été effectuée
l’enquête, que peut-on dire de la dépense totale journalière de l’ensemble de ces
ménages ? On supposera pour cela que l’échantillon est issu d’un plan aléatoire simple
à probabilités égales.

Exercice 5 Taille d’échantillon pour un sondage d’opinion

(d’après A-M. Dussaix et J-M. Grosbras, Exercices de sondage, Economica, 1992 )

Un sondage sur la popularité d’une personnalité politique lui accorde un


pourcentage               pˆ  = 30%

d’opinions favorables. En admettant qu’il s’agisse d’un sondage aléatoire simple sans
remise et que la taille de l’échantillon est négligeable au regard de celle de la
population, combien de personnes ont-elles été interrogées pour que l’on puisse dire
avec un degré de confiance de 95% que la vraie

proportion d’opinions favorables dans la population ne s’écarte pas de pˆ de plus de


deux points ?

12

Exercice 6                                                                                               Taille
d’échantillon pour une proportion

(d’après P.Ardilly et Y.Tillé, Exercices corrigés de méthode de sondage, Ellipses,


2003 )

On s’intéresse à l’estimation de la proportion P d’individus atteints par une maladie


professionnelle dans une entreprise de 1500 salariés. On sait par ailleurs que trois
personnes sur dix sont ordinairement touchées par cette maladie dans des entreprises
du même type. On se propose de sélectionner un échantillon au moyen d’un sondage
aléatoire simple.
1. Quelle taille d’échantillon faut-il sélectionner pour que la longueur totale d’un
intervalle de confiance avec un niveau de confiance 0,95 soit inférieure à 0,01
pour un plan simple :
2. avec remise ?
3. sans remise ?
4. Que faire dans le cas du plan sans remise si on ne connaît pas la proportion
d’individus habituellement touchés par la maladie ?

Exercice 7 Nombre d’espaces de stationnement à prévoir

(d’après A-M. Dussaix et J-M. Grosbras, Exercices de sondage, Economica, 1992 )

Une entreprise de promotion immobilière désire estimer le nombre d’espaces de


stationnement requis pour une nouvelle tour devant abriter des bureaux. Elle décide de
procéder à un sondage aléatoire simple sans remise. Elle sait que le nouveau bâtiment
abritera 5 000 personnes et que, dans des entreprises de même type que celles devant
emménager dans les futurs locaux, la proportion de personnes se rendant à leur bureau
en utilisant les moyens de transport en commun est toujours supérieure à 75%. Quelle
doit être la taille de l’échantillon pris au sein des futurs occupants des bureaux pour
pourvoir estimer le nombre d’espaces de stationnement à prévoir avec une marge
d’erreur symétrique d’au plus 150 places au niveau de confiance 90% ?

Exercice 8 Application au marketing direct

(d’après A-M. Dussaix et J-M. Grosbras, Exercices de sondage, Economica, 1992 )

Les sondages sont très largement utilisés dans le marketing direct : il arrive souvent
que l’on estime par sondage le rendement d’un fichier donné, ou que l’on souhaite
comparer les rendements de plusieurs fichiers, ou encore, que disposant de plusieurs
fichiers, on souhaite estimer par sondage le rendement global de l’ensemble de ces
fichiers. Dans cet exercice, on suppose l’existence d'un fichier de N = 200 000
adresses. On note p le rendement inconnu du fichier à une offre d’abonnement à prix
réduit avec calculette offerte en prime ; c’est donc la proportion d’individus qui
s’abonneraient si l’offre

était offerte à tous les individus du fichier. Selon l’usage pˆ est l’estimation
de p obtenue à partir d’un test fait sur un échantillon de n adresses choisies à
probabilités égales et sans remise sur le fichier.

1. On sait par expérience que les rendements à ce type d’offre sur ce fichier ne
dépassent pas généralement 3%. Quelle taille d‘échantillon doit-on prendre
pour estimer p avec une précision absolue de 0,5 point et un degré de confiance
de 95% ?
2. Mêmes questions pour une précision de 0,3 point et 0,1 point.
3. Le test a porté sur 10 000 adresses et on a noté 230 abonnements. En déduire
l’intervalle de confiance bilatéral à 95% pour le rendement p ainsi que le pour
le nombre total d’abonnements si la même offre était faite sur l’ensemble du
fichier.

Exercice 9   Un cas d’enquête répétée


(d’après P.Ardilly et Y.Tillé, Exercices corrigés de méthode de sondage, Ellipses,
2003 )

On considère une population de 10 stations-services et on s’intéresse au prix du litre


de supercarburant que chacune d’entre elles affiche. Plus exactement, sur deux mois
consécutifs, mai et juin, les données de prix figurent dans le tableau ci-dessous :

Prix du litre de supercarburant

Station 1 2 3 4 5 6 7 8 9 10
Mai 5,82 5,33 5,76 5,98 6,20 5,89 5,68 5,55 5,69 5,81
Juin 5,89 5,34 5,92 6,05 6,20 6,00 5,79 5,63 5,78 5,84

On veut estimer l’évolution du prix moyen du litre entre mai et juin. On choisit,
comme indicateur de cette évolution la différence des prix moyens On propose deux
méthodes concurrentes:

-          Méthode 1  : on échantillonne n stations (n < 10) en mai et n stations en juin,


les deux  échantillons étant totalement indépendants ;

-          Méthode 2 : on échantillonne n stations en mai, et on interroge de nouveau ces


stations en juin (technique de panel).

1. Comparer l’efficacité des deux méthodes.


2. Même question si on souhaite cette fois estimer un prix moyen sur la période
globale mai-juin.
3. Si on s’intéresse au prix moyen de la question 2, ne vaut-il pas mieux tirer, non
pas 2 fois n relevés avec la méthode 1 (n chaque mois) mais directement
2n relevés sans se soucier des mois (méthode 3) ? Aucun calcul n’est
nécessaire.

Exercice 10  Échantillonnages successifs

En cours de collecte, la taille d’un échantillon s’avère parfois insuffisante pour assurer
la précision attendue. Une solution naturelle est d’enquêter un échantillon
complémentaire. Intéressons-nous au plan de sondage final obtenu après :

−      Un premier échantillonnage simple sans remise de n1 unités parmi N à


probabilités égales,

−      Suivi d’un second tirage simple sans remise de n2 unités parmi N-n1 à probabilités
égales

La sélection des n = n 1 + n2 unités ainsi retenues obéit-elle à un plan simple sans
remise et à probabilités égales dans la population de taille N?

Exercice 11 Estimation dans un domaine


On souhaite estimer la moyenne et le total d'une variable y sur un domaine U0 d’une
population finie U de taille N. Ces quantités sont notées :

où ND  est la taille du domaine.

On sélectionne un échantillon s au sein de la population entière par un sondage


aléatoire simple sans remise de taille n. On observe un sous-échantillon s0 de
taille n0 dont les individus sont dans le domaine U0.

On dispose des deux estimateurs suivants de la moyenne et du total de y sur le


domaine U0 :

1. La taille n0  du sous-échantillon s0  est aléatoire. Calculer sa valeur moyenne .


2. Montrer que les deux estimateurs du total (ou de la moyenne) sont tous deux
sans biais pour le vrai total (ou la vraie moyenne) du domaine. Est-ce que l’un
est préférable à l’autre ?
3. Donner les expressions de variance des deux estimateurs de la moyenne.
Comparer ces deux variances.
4. Donner les estimateurs sans biais pour les variance de ces deux estimateurs.
5. Exemple : considérons une population de N = 5 793 entreprises. Supposons
connues les quantités suivantes :

N0   = 984 ,                      ∑Yk  =154814 ,          ∑Yk2  =42148912

k∈U0                                       k∈U0

où y désigne le chiffre d’affaires.

Calculer les vraies variance pour les deux estimateurs de la moyenne pour un
échantillon de taille = 579.

f) On a observé sur un échantillon particulier de taille n = 579

n0   = 89 , ∑ yi  = 13782 , ∑yi2 =4530306

Donner les valeurs des deux estimateurs de la moyenne et calculer les valeurs de leur
variance estimée.

Rappels sur le sondage aléatoire simple

I/  Définition

Tirage d’un échantillon de n unités sans remise et à probabilités égales dans une
population finie composée de N unités identifiables.
II/  Notations

1. Dans la population (ou univers) U = {1,2,..., k,..., N}

Variable d’intérêt : Y de caractéristique individuelle Yk


Total : T
  Y   =  ∑k∈U  Yk

Dispersion (variance modifiée) : S y2 = N1−1 ∑k∈U (Yk − Y )2 = NN−1 σ2y

2. Dans l’échantillon s  : sous-ensemble de U de taille n(s)

Ensemble des échantillons possibles : S

Plan de sondage probabiliste : loi de probabilité sur S

p(s)  ≥ 0, ∀s ∈ S, et  ∑s∈S  p(s) = 1.ˆ = 1 ∑

Moyenne :   y       n      k∈S  Yk

Probabilité d’inclusion d’ordre un de k : π k  = P(k ∈ s) = ∑s∈S / k∈s p(s)

Probabilité d’inclusion ou double de k et l : π kl  = P(k ∈ s,l ∈ s) = ∑s∈S / k ,l∈s p(s )

∆kl=πkl−πkπl

III. PLANS À PROBABILITÉS INÉGALES

Exercice 1 Rappels de cours sur l’estimateur d’Horvitz-Thompson

On considère une population U et on s’intéresse à l’estimation du total d’une variable


d’intérêt Y noté t  y = ∑Yk . Pour cela, on prélève un échantillon s avec des
probabilités individuelles de sélection k∈U

notées (π k )k∈U .

1.    Rappeler l’expression de l’estimateur d’Horvitz-Thompson (ou « π-estimateur »


ou encore « estimateur des valeurs dilatées »).

1. Étudier son espérance et sa variance.

Exercice 2 Application directe du cours

On considère une population U = {1,2,3},sur laquelle on définit le plan de sondage


suivant :

p({1,2}) =  12 , p({1,3}) =  14 , p({2,3}) =  14


Y est une variable définie sur  U, telle que : Y1  = Y2  = 3,Y3   = 6 dont on veut estimer
le total t  y  .

1. Calculer les probabilités d'inclusion simple πk  et double πkl .


2. Donner la distribution de probabilité de l'estimateur de Horvitz-
Thompson tˆYπ du total. Calculer la variance de cet estimateur.
3. Donner la distribution de probabilité d'un estimateur de variance de tˆYπ  (il est
conseillé de choisir l'estimateur le plus simple à calculer). On pourra vérifier
que cet estimateur est sans biais.

Exercice 3  Volume d’archives

On désire estimer à l’échelle d’un canton le nombre de kilomètres linéaires d’archives


stockées dans les mairies. Pour cela, on procède à un tirage de 4 communes parmi les
9 du canton, proportionnellement à leur population.

1.    Calculer les probabilités d’inclusion de chaque communes, à partir des données
suivantes :

N° de commune Nom de la commune Population


1 Val le Grand 1100
2 Les Gries 650
3 Les Combres 500
4 Flins 2300
5 Villers le Lac 4000
6 Fortin 5500
7 Montlebon 1900
8 Sanzeau 200
9 Aumont 150

2.    Estimer le métrage total des archives du canton à partir des résultats suivants :

N° de commune Nom de la commune  Mètres d’archives


2 Les Gries 17
4 Flins 38
5 Villers le Lac 55 Exercice 4 Tirage
6 Fortin 70 systématique d’entreprises

On veut sélectionner un
échantillon de taille 4 dans une population de 8 entreprises dont on connaît la taille,
mesurée en termes d’effectif salarié. L’échantillon est tiré à probabilités
proportionnelles à la taille.

Entreprise 1 2 3 4 5 6 7 8
Taille 300 300 150 100 50 50 25 25

1. Donner les probabilités d'inclusion d’ordre 1 des entreprises.


2. Sélectionner l’échantillon selon un tirage systématique en utilisant 0,27 comme
nombre aléatoire ;
3. Lister les échantillons possibles que l'on peut obtenir avec un tirage
systématique, et indiquer les probabilités de tirage de chacun d'eux.
4. A partir des échantillons obtenus, donner une estimation du total de l’effectif
salarié des entreprises. Le résultat était-il prévisible ?
5. Calculer la matrice des probabilités d’inclusion d’ordre 2 ? Commenter.

Exercice 5 Tirage de Poisson (d’après P.Ardilly et Y.Tillé, Exercices corrigés de


méthode de sondage, Ellipses, 2003)

Lorsqu’on effectue des tirages à probabilités inégales, on utilise en général des


méthodes d’échantillonnage de taille fixe. Il existe cependant des algorithmes très
simples permettant des tirages à probabilités inégales mais conférant à l’échantillon
une taille variable. On s’intéresse ici au tirage de Poisson dont le principe consiste à
effectuer une loterie sur chaque individu de la population indépendamment d’un
individu à l’autre. Ainsi, pour une population de taille N où les probabilités

d’inclusion individuelles πk sont connues pour tout k, on simule N aléas indépendants


dans la loi uniforme sur [0,1] et on retient l’individu k si et seulement si uk ≤ πk

1. Vérifier que l’algorithme de tirage respecte les probabilités d’inclusion d’ordre


1 en calculant la probabilité pour que l’individu k soit sélectionné.
2. La taille de l’échantillon est une variable aléatoire notée nS .
3. Écrire nS en fonction des variables indicatrices de Cornfield.
4. Que vaut l’espérance et la variance de nS ?
5. Quelle est la probabilité pour que l’échantillon ait une taille au moins égale à
1?

On supposera dans la suite que l’échantillon a une taille au moins égale à 1.

a.    Vérifier que Y estime le vrai total sans biais.

b. Quelle est la variance de Y ? Comment peut-on l’estimer sans biais ? c. Que valent
les probabilités d’inclusion d’ordre 2 ?

4. Comparer à un plan général de taille fixe n de mêmes probabilités d’inclusion.


Quelles sont les inconvénients d’un plan de taille non-fixe ?

Table des matières

I. Rappels de probabilités et de statistique inférentielle.............3

Rappels sur les lois de probabilités 5

Rappels sur les intervalles de confiance 7

II. Sondage aléatoire simple ....................11

Rappels sur le sondage aléatoire simple 16


III. Plans à probabilités inégales ......................18

Rappels sur les plans à probabilités inégales 20

IV. TP1 : Simulations de tirage d’échantillons ..................21

V. Plans stratifiés....................24

Rappels sur les plans stratifiés 29

VI. Plans par grappes ......................31

Rappels sur les plans par grappes 35

VII. Plans à plusieurs degrés...................37

Rappels sur les plans à plusieurs degrés 40

VIII. Redressements ........................42

Rappels sur les redressements 44

IX. TP2 : Calage sur marges ....................49

X. TP3 : Correction de la non-réponse.............49

XI. Compléments et révisions..................49

Vous aimerez peut-être aussi