0% ont trouvé ce document utile (0 vote)
99 vues18 pages

Estimation de paramètres par Monte-Carlo

Ce document présente un TP sur l'estimation par la méthode de Monte-Carlo. Il définit les notions d'estimation, d'échantillonnage et d'estimateur. Il propose ensuite des exercices illustrant l'estimation du nombre moyen de lancers de dé nécessaires pour obtenir 4 fois de suite le chiffre 6, via des simulations de Monte-Carlo.

Transféré par

Abdellah Mazighi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
99 vues18 pages

Estimation de paramètres par Monte-Carlo

Ce document présente un TP sur l'estimation par la méthode de Monte-Carlo. Il définit les notions d'estimation, d'échantillonnage et d'estimateur. Il propose ensuite des exercices illustrant l'estimation du nombre moyen de lancers de dé nécessaires pour obtenir 4 fois de suite le chiffre 6, via des simulations de Monte-Carlo.

Transféré par

Abdellah Mazighi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Lycée Paul Gauguin CPGE –ECE 2

TP°9 INFO : Estimation

1. Introduction

Le cours sur l’estimation sera vu lors des deux dernières semaines de cours. Ce TP a pour but d’illustrer certaines
propriétés qui seront établies et prouvées en cours. Certaines idées ont d’ailleurs déjà été vues lors des TP de simulations de
variables aléatoires.
On va donc dans un premier temps s’attacher à définir quelques notions essentielles à la mise en œuvre informatique.
1. Généralités sur l’estimation.

On considère une variable aléatoire X que l’on sait pouvoir simuler informatiquement mais dont la loi n’est que
partiellement connue. On sait par exemple que sa loi fait partie d’une famille de lois (Pθ )θ ∈Θ où Θ ⊂  ou Θ ⊂  2 mais
la quantité θ n’est pas connue. C’est cette quantité que l’on va chercher à estimer via scilab.
Pour estimer le paramètre θ , on simule alors n variables aléatoires (X1 , X 2 ,....., X n ) indépendantes et identiquement
distribuées suivant la même loi que X qui s’appelle un n-échantillon de X puis on calcule une valeur du type
Tn = f (X1 , X 2 ,....., X n ) que l’on pense être « proche » de la valeur θ que nous cherchons à obtenir. Tn s’appelle alors un
estimateur de θ .

Pour tout ω ∈ Ω , on dit que (X1 (ω ) , X 2 (ω ) ,....., X n (ω )) est une réalisation du n-échantillon (X1 , X 2 ,....., X n ) ou encore
  
x1 x2 xn

échantillon observé. Par convention, en général (X1 (ω ), X 2 (ω ),....., X n (ω )) est noté ( x1 , x2 ,......., xn )

( x1 , x2 ,......., xn ) ∈  n et est une valeur particulière observée après simulation.

Exemple : Le sondage. On cherche à estimer la proportion de polynésiens qui voteront pour le candidat « taravana » aux
prochaines élections territoriales à partir d’un échantillon de n personnes choisies au hasard dans la population.
On définit l’expérience aléatoire qui consiste à choisir au hasard une personne dans la population Polynésienne et à lui
demander si elle votera pour le candidat « taravana ». X = 1 si la personne vote « taravana » et 0 sinon.

On a alors X → B(θ ) et le sondage est une estimation du paramètre θ d’une loi de Bernoulli que nous cherchons à
estimer.

Effectuer le sondage, c’est donc interroger n personnes (avec remise….indépendance) au hasard dans la population et à
1 si la i-ème personne interrogée vote taravana
définir X i par X i =  . ( X 1 , , X n ) est alors un n-échantillon de X
0 sinon
1. Proposer un estimateur « naturel » de θ que vous noterez Tn
2. On effectue un sondage sur 10 personnes et on consigne les résultats dans le tableau suivant

N° individu 1 2 3 4 5 6 7 8 9 10

Vote pour Oui Non Oui Oui Non Non Oui Oui Non Oui
Taravana

xi 1 0 1 1 0 0 1 1 0 1

Compléter la dernière ligne du tableau précédent.

3. Donner la valeur de t10 , la réalisation de l’estimateur T10 . t10 = 0.6


1
Lycée Paul Gauguin CPGE –ECE 2
2. Méthodes de Monte-Carlo
Les méthodes de Monte-Carlo sont des techniques mathématiques visant à simuler des phénomènes probabilistes où à
répondre à des problèmes déterministes à l’aide de méthode probabiliste.

Nous verrons ces méthodes sous deux angles.

 Celui de l’estimation d’un paramètre inconnu via la simulation


 Celui de l’approche probabiliste pour le calcul d’une intégrale.

On va appuyer nos interprétations sur la loi faible des grands nombres qui sera vu dans la fiche 14 sur convergence et
approximations.

Loi faible des grands nombres


Proposition 14.3 : Soit (X n ) n∈* une suite de variables aléatoires indépendantes admettant une même espérance m et une
1 n
même variance σ 2 et soit X n = ∑
n i =1
X i pour tout n ∈ * , alors :

 ∀ε > 0, lim P
n →+∞
({ X n −m ≥ε }) =0 (convergence moyenne empirique vers espérance)

Cas particulier : Si X n → B(p) alors ∀ε > 0, lim P


n →+∞
({ X n −p ≥ε }) =0
Dans ce cas particulier, la moyenne empirique X n modélise la fréquence du succès.

Interprétation : Ceci signifie que pour tout ω ∈ Ω , il est presque sûr que la suite X n (ω ) converge vers m au sens de la
convergence usuelle des suites.
C’est ce résultat qui a été utilisé en partie lors des TP de simulations pour affirmer que la moyenne empirique tend vers
l’espérance quand n est grand.
Si on note désormais θ un paramètre inconnu et si on suppose qu’il existe un variable aléatoire X telle que E (X) = θ alors
1 n
d’après la loi faible des grands nombres, X n = ∑ Xi la moyenne empirique du n-échantillon ( X 1 , , X n ) de X pourra
n i =1
être choisi comme estimateur de l’espérance de X donc comme estimateur du paramètre θ .
C’est ce choix d’estimateur que l’on appelle méthode de Monte-Carlo.

Exercice 1 : On effectue une succession de lancers d’un dé équilibré et on note X le nombre de lancers nécessaires pour
avoir quatre « 6 » de suite. On aimerait estimer le nombre moyen de lancers pour avoir ces quatre « 6 ».
L’étude théorique de X n’est pas aisée et donc l’accès à l’espérance de X par un calcul mathématique impossible.
On va donc chercher à estimer via scilab θ où θ = E ( X ) par la méthode de Monte-Carlo.

1. Ecrire une instruction utilisant la commande rand permettant de simuler le lancer d’un dé équilibré.
floor(6*rand()+1)
2. Ecrire une instruction utilisant la commande grand permettant de simuler le lancer d’un dé équilibré.
grand(1,1,’uin’,1,6)
3. Compléter le programme TP9_Exo1_Q3 afin qu’il simule des lancers successifs de dé jusqu’à l’apparition de
quatre « 6 » de suite
//TP9 Ex1 Q3

n=0
n6suc=0
while n6suc<>4 do

2
Lycée Paul Gauguin CPGE –ECE 2
n=n+1
d=grand(1,1,'uin',1,6)
if d==6 then n6suc=n6suc+1
else n6suc=0
end
end

disp(n6suc)
disp(n)

4. Compléter le programme TP9_Exo1_Q4 afin qu’il simule la variable aléatoire X. Lancer plusieurs fois votre
programme et observez.

//TP9 Ex1 Q4

//Initialisation du nombre total de lancers


X=0

//mise à zeros du compteur de 6 successifs


n6suc=0
while n6suc<>4 do
X=X+1 //evolution du nombre de lancers
d=grand(1,1,'uin',1,6)
if d==6 then n6suc=n6suc+1
else n6suc=0
end
end

disp(n6suc)
disp(X) //affichage de la réalisation de X

5. Compléter le programme TP9_Exo1_Q5 en modifiant le programme précédent afin d’obtenir une fonction notée
nlan qui simule l’expérience et retourne la valeur prise par X. Testez votre programme.

//TP9 Ex1 Q5

function Xr=nlan()
Xr=0
n6suc=0
while n6suc<>4 do
Xr=Xr+1
d=grand(1,1,'uin',1,6)
if d==6 then n6suc=n6suc+1
else n6suc=0
end
end
endfunction

disp(nlan())

Test : 2095

Ceci signifie que la première suite de 4 « 6 » est apparue pour la première fois à la fin du lancer n° 2095

6. Compléter le programme TP9_Exo1_Q6 Version a ou b afin d’estimer l’espérance de X par la méthode de Monte-
Carlo à partir d’un échantillon de taille n = 2000 .

//TP 9 Exercice 1 Question 6 Version a (sans la fonction)

X=zeros(1,2000)
for k=1:2000
X(k)=0
n6suc=0
while n6suc<>4 do
3
Lycée Paul Gauguin CPGE –ECE 2
X(k)=X(k)+1
d=grand(1,1,'uin',1,6)
if d==6 then n6suc=n6suc+1
else n6suc=0
end
end

end
Tr=sum(X)/2000
disp(Tr)

Test : 1530.88 (estimation de l’espérance)

7. Relancer votre programme et proposer un commentaire.

Si on relance le programme plusieurs fois, on constate une relative stabilité de l’estimateur de l’espérance de X autour de
1560, ce qui illustre bien la loi faible des grands nombres et est en accord avec le fait que l’estimateur de Monte-Carlo
(moyenne empirique) converge vers l’espérance.

Dans le cadre de la loi de Bernoulli, la loi faible des grands nombres s’écrit alors

Cas particulier de la loi faible des grands nombres : Soit (X n ) n∈* une suite de variables aléatoires indépendantes

telles que X n → B(p) et soit X n =


1 n
∑ Xi pour tout n ∈ * , alors : ∀ε > 0, nlim
n i =1 →+∞
P ({ X n −p ≥ε }) =0
Dans ce cas particulier, la moyenne empirique X n correspond à la fréquence empirique du succès.

Ceci conduit à dire que si on répète un grand nombre de fois une expérience de Bernoulli dans des conditions identiques et
indépendantes, la fréquence d’apparition du succès est un « bon » estimateur du paramètre p égal à la probabilité de ce
succès.

Exercice 2 : Visualisation graphique de la loi faible des grands nombres dans le cas Bernoulli

On utilisera le programme TP9_Ex_2_Q3

1. Définir un vecteur X constitué de 500 réalisations indépendantes de X → B(0.5)


X=grand(1,500,’bin’,1,0.5)
2. Vérifier de manière informatique que la moyenne des éléments du vecteur est proche de E ( X )
mean(X) (résultat obtenu proche de 0.5)
3. Compléter le programme TP9_Ex_2_Q3 afin que étant donné un vecteur X constitués de 500 réalisations
indépendantes d’une même loi, il trace la représentation graphique de X k pour k ∈ 1,500

//TP9 Ex2

X=grand(1,500,'bin',1,0.5)

//Convergence de la moyenne empirique


ns=500
p=0.5
title('comparaison moyenne empirique espérance')
Moyemp=cumsum(X)./[1:ns]
plot(1:ns,Moyemp,'+')
plot2d([0 ns],[p p])
legend(['empirique','théorique'])

4. Lancer votre programme et interpréter la courbe obtenue.

4
Lycée Paul Gauguin CPGE –ECE 2
Il semble que la moyenne empirique converge vers 0.5 qui est l’espérance de X.
5. Refaire le même travail pour X → P( 10 ) et X → N( 0,1 )

Exercice 3 : Un promeneur étourdi se déplace sur une droite graduée et orientée. Il part à l’instant 0 du point O d’abscisse
0.
A chaque pas, il se déplace d’une unité à droite ou à gauche de façon équiprobable.
On note X n la position du promeneur après le n-ième pas.
On cherche à estimer la probabilité que le promeneur soit éloigné de strictement plus de 10 unités de son point de départ au
bout de 100 pas.

1. A quelle catégorie déjà vue appartient la suite ( X n ) n ≥0 ?


( X n ) n≥0 est une chaine de Markov car X n +1 ne dépend que de la position de X n
PX n i ( X n +1 = j ) pour j ∈ {i − 1, i + 1} =
2. Donner = PX n i ( X n +=
1 ) 0.5
j=
3. Compléter le programme TP9_Ex_3_Q4 afin qu’il définisse une fonction qui prend en entrée le nombre n de pas du
promeneur et donne en sortie la valeur x de la position X n du promeneur à l’instant n.

//TP9 Ex3 Q4
clear

function x=depla(n)
x=0
for k=1:n do
if rand()<0.5 then x=x-1
else x=x+1
end
end
endfunction

n=100
disp(depla(n))

4. Lancer votre programme et noter quelques valeurs obtenues pour n=100. Commenter la première valeur.

Valeur obtenue : 6
Après 100 déplacements, le promeneur se situe à 6 unités vers la droite de son point de départ.

5. Compléter le programme TP9_Ex_3_Q5 qui, à l’aide de 10 000 réalisations de la variable X 100 calcule une
estimation t de la probabilité que le promeneur se soit éloigné de strictement plus de 10 unités de son point de
départ au bout de 100 pas.

//TP9 Ex3 Q5
clear

function x=depla(n)
x=0
for k=1:n do
if rand()<0.5 then x=x-1
else x=x+1
end
end
endfunction

e=0
for k=1:10000
x=depla(100)
if abs(x)>10 then e=e+1 end
end

t=e/10000
disp(t)

5
Lycée Paul Gauguin CPGE –ECE 2
6. Exécuter le programme précédent et commenter les résultats obtenus.

0.2732

La probabilité que le promeneur s’éloigne de plus de 10 unités est donc proche de 0.27 puisque dans le cadre d’une
loi de bernoulli, la moyenne empirique est un estimateur de la probabilité du succès.

Exercice 4 : On lance une pièce équilibrée jusqu’à l’apparition de face et on note X le rang de la première apparition. On
cherche à déterminer la probabilité que X soit pair.

1. Créer un vecteur X contenant 5000 réalisations de la variable aléatoire X.

X=grand(1,5000,’uin’,1,0.5)

2. Définir à partir de X un vecteur Y qui contient 1 en position i si X i est pair, 0 sinon.

Y=zeros(1,5000)
for k=1:5000
if modulo(X(k),2)==0 then Y(k)=1 end
end

3. En utilisant et adaptant le programme TP9_Ex_2_Q3, donner une estimation de la probabilité recherchée.

//TP9 EX4

X=grand(1,5000,'geom',0.5)

Y=zeros(1,5000)
for k=1:5000
if modulo(X(k),2)==0 then Y(k)=1 end
end

//Convergence de la fréquence empirique vers la probabilité inconnue


//taille de l'échantillon
ns=5000

//Titre
title('convergence fréquence probabilité inconnue ')

//Calcul du vecteur evolution de la moyenne empirique


//Cumsum(Y) donne la réalisation de la fréquence empirique pour k de 1 à 5000
freqemp=cumsum(Y)./[1:ns]

//représentation graphique de la moyenne empirique


plot(1:ns,Moyemp,'+')

//Réalisation de Ybarre5000
disp(freqemp(5000))

Affichage obtenu : 0.3468

La fréquence empirique est une estimation de la probabilité recherchée. Cette dernière est donc proche de 1/3.

Ceci est confirmée par la courbe obtenue qui montre une convergence vers 0.35 environ.

6
Lycée Paul Gauguin CPGE –ECE 2

4. Déterminer par le calcul la valeur exacte de cette probabilité. Commentaire ?

X est égale au rang d’apparition du premier face (succès) dans un processus de Bernoulli répété une infinité de fois dans
des conditions identiques et indépendantes, donc X suit une loi géométrique de paramètre 0.5.

∀k ∈ * , P( X = k ) = 0.5 × 0.5k −1 = 0.5k

+∞
=
On note A l’événement X est pair. On a donc A {X
= 2k }
k =1
D’après la propriété de σ − additivité et compte tenu que les événements de l’union précédente sont incompatibles deux à
 +∞  +∞ +∞ +∞ +∞ +∞
1
) ∑ 0.52 k= ∑ ( 0.52 ) = ∑ 0.25k= ∑ 0.25k − 1=
k
deux, on a : P ( A=
) P 2k} = ∑ P( X= 2k =
{ X= −1
 k =1 =  k1 = k 1= k 1 = k 1= k 0 1 − 0.25
1 1 4 1
Soit P ( A) = −1 = −1 = −1 =
1 3 3 3
1−
4 4
L’estimation obtenue est bien en accord avec la valeur exacte de cette probabilité.

Dans ces deux derniers exercices, nous avons cherché à estimer le paramètre inconnu mais cet unique calcul ne nous permet pas d’avoir la certitude qu’il s’agit d’un
bon estimateur, ce qui signifie qu’il est « proche » de la réalité.
On verra cet aspect dans la suite du TP.

Calculs approchées d’intégrales

Exercice 5 : Soit X → U [0;1] et soit Y = ln( X )

1. Rappeler la fonction de répartition de X et une densité.

0 si x < 0
 1 si x ∈ [ 0;1] 1 si x ∈ ]0;1[
FX (x)  x si x ∈ [ 0;1]
= f X (x) =  ou f X (x) = 
1si x > 1 0 sinon 0 sinon

2. Déterminer FY la fonction de répartition de Y puis une densité que vous noterez fY .

7
Lycée Paul Gauguin CPGE –ECE 2
X (Ω) =]0;1[ donc Y (Ω) = ]−∞;0[
∀t ≥ 0, FY (t ) =1
∀t < 0, FY (t )= P(Y ≤ t )= P(ln( X ) ≤ t )= P( X ≤ et )= et
∈]0;1[
car t < 0

et si t < 0
On a donc f y (t ) = 
0 si t ≥ 0

La valeur en 0 est arbitraire (pour les autres valeurs fY (t ) = FY′ (t ) )

3. A l’aide du théorème de transfert, exprimer E (Y ) sous forme d’une intégrale.

Proposition 13.5 : Théorème de transfert pour les variables à densité.

Soit X une variable à densité, dont une densité est f X nulle en dehors d’un intervalle ]a, b[ , (−∞ ≤ a ≤ b ≤ +∞) et

g : ]a, b[ →  une application continue, sauf éventuellement en un nombre fini de points.

 La variable g(X) est d’espérance finie si et seulement si ∫ g(t)f


a
X (t)dt converge absolument

Et on a alors : E ( g(X) ) = g(t)f X (t)dt .


∫a

X (Ω) =]0;1] et f X est nulle en dehors de ]0;1[ , Y = g ( X ) avec g est continue sur ]0;1] . ( g : t  ln(t ) )

1 1 1 1
Sous réserve de convergence absolue de ∫ g(t)f
0
X (t)dt , on a E(Y)
= ∫ g(t)f
0
X (t)dt
= ∫ ( ln t(t) ×1) dt= ∫ ln(t)dt
0 0

4. Construire un vecteur Y contenant 1000 réalisations de Y

//TP9 Ex5 Q5

X=grand(1,1000,'unf',0,1)
Y=log(X)

//Convergence de la moyenne empirique


ns=1000

Moyemp=cumsum(Y)./[1:ns]
plot(1:ns,Moyemp,'+')

1
5. A l’aide du programme TP9_Ex5_Q5_Etudiants, observez la convergence de Yn vers ∫ ln(t )dt
0

8
Lycée Paul Gauguin CPGE –ECE 2

1
Pour n grand, la moyenne empirique converge vers l’espérance de Y et ainsi on peut conjecturer que ∫ ln(t )dt =
0
−1

1
6. Retrouver la valeur exacte de ∫ ln(t )dt
0

1
∫ ln(t )dt est impropre qu’en 0 car t  ln(t ) est continue sur ]0;1]
0
1
Pour x > 0, ∫ ln(t )dt = [t ln(t ) − t ] = −1 − x ln( x) + x → − 1 car
1
x
lim x ln( x) = 0
x x →0 x →0
Croissance
comparée
1 1 1
Ainsi on obtient lim
x →0 ∫
x
ln(t )dt = −1 et donc ∫
0
ln(t )dt converge et ∫ ln(t )dt =
0
−1
2
Exercice 6 : Soit X → U [0;3] et soit Y = e − X

1. Rappeler la fonction de répartition de X et une densité.

0 si x < 0
x 1
  si x ∈ [ 0;3] (ou si x ∈ ]0;3[)
FX (x)  si x ∈ [ 0;3]
= f X (x) =  3
3 0 sinon
1si x > 3

2. A l’aide du théorème de transfert, exprimer E (Y ) sous forme d’une intégrale.

X (Ω) =]0;3[ et f X est nulle en dehors de ]0;3[ , Y = g ( X ) avec g est continue sur ]0;3[ . ( g : t  e − t )
2

3 3
1 − t2
Sous réserve de convergence absolue de ∫ g(t)f X (t)dt , on a E(Y) =
0
3 ∫0
e dt

3

2
3. En vous inspirant de l’exercice 5, en déduire une valeur approchée de e − t dt
0

9
Lycée Paul Gauguin CPGE –ECE 2
3


2
−t
On a donc 3E(Y) = e dt
0
//TP9 Ex6 Q3
clear,clf

X=grand(1,2000,'unf',0,3)
Y=exp(-X.^2)
//Convergence de la moyenne empirique
ns=2000
Moyemp=cumsum(Y)./[1:ns]
plot(1:ns,Moyemp,'+')

∫e
− t2
Graphiquement : E (Y ) ≈ 0.3 donc dt ≈ 0.9
0

+∞
4. De la même manière, déterminer une valeur approchée de ∫
0
ln(t ) e −2t dt

On utilise la même méthode que précédemment avec X → ε (2)


+∞
et Y = ln( X ) et E (Y ) = ∫0
2 ln(t ) e −2t dt

//TP9 Ex6 Q4
clear,clf

//Simulation a l aide du var suivant une loi exponentielle de paramètre 2


X=grand(1,2000,'exp',0.5)
Y=log(X)
//Convergence de la moyenne empirique
ns=2000
Moyemp=cumsum(Y)./[1:ns]
plot(1:ns,Moyemp,'+')

+∞
E (Y ) ≈ −1.25 donc ∫
0
ln(t ) e −2t dt ≈ −0.625

t2

+∞ e 2
5. Déterminer une valeur approchée de ∫−∞
1+ t2
dt

t2

2π +∞ e 2
X → N( 0,1 ) et Y =
1+ X 2
et E (Y ) = ∫ −∞
1+ t2
dt

//TP9 Ex6 Q5
clear,clf

//Simulation a l aide du var suivant une loi normale N(0;1)


X=grand(1,2000,'nor',0,1)
Y=(1 ./sqrt(1+X.^2))*sqrt(2*%pi)
//Convergence de la moyenne empirique
ns=2000
Moyemp=cumsum(Y)./[1:ns]
plot(1:ns,Moyemp,'+')

E (Y ) ≈ 1.95
10
Lycée Paul Gauguin CPGE –ECE 2
Variabilité des estimateurs autour de θ

Utiliser un estimateur est inutile si ce dernier n’a pas été étudié par ailleurs. En effet, il se peut que la probabilité qu’il soit
éloigné du paramètre θ soit trop grande ou que la taille de l’échantillon par exemple soit trop petite.
Dans cette partie, nous allons non pas estimer un paramètre inconnu mais tester des estimateurs sur un paramètre connu à
l’avance afin de « validée » ces derniers. Ensuite, il serait donc envisageable d’utiliser les estimateurs ainsi validées pour
déterminés des paramètres inconnus.

Approche théorique : Biais et risque quadratique : Cette approche sera revue en détail dans la fiche 16 Estimation.

Biais : Soit Tn un estimateur de g(θ ) admettant une espérance.

• On appelle biais de Tn la quantité b(Tn ) = E(Tn ) − g(θ ) = E(Tn − g(θ ))

Le biais correspond à l’écart entre l’espérance de Tn et la valeur g(θ ) à estimer.

Le biais est une mesure théorique de l’erreur moyenne de l’estimateur.

• Si b(Tn ) = 0 soit aussi E(Tn ) = g(θ ) , on dit que l’estimateur est sans biais. Dans le cas contraire, l’estimateur
est dit biaisé.

En pratique, on préférera un estimateur sans biais, car cela signifie qu’en moyenne au moins, il estime le paramètre
inconnu.

Risque quadratique d’un estimateur : Soit Tn un estimateur de g(θ ) admettant un moment d’ordre 2.

r(Tn ) E ( Tn − g(θ ) ) 
2
• On appelle risque quadratique de Tn la quantité =
 

Le risque quadratique correspond à la moyenne des carrés de la distance de Tn à g(θ ) .

Si ce risque est très petit, ceci signifie que Tn est un bon estimateur de la valeur g(θ ) à estimer.

Plus le risque est faible, plus Tn est quasi toujours proche de g(θ ) .

• Le risque quadratique permet surtout de comparer deux estimateurs. Celui ayant le plus faible risque quadratique
sera considéré comme étant meilleur.

Exercice 7 : Comparaison de deux estimateurs. On considère X → P( θ ) et on souhaite estimer g (θ ) où g (θ ) = e −θ

On considère un n-échantillon ( X 1 , , X n ) de la loi de poisson de paramètre θ et on définit deux estimateurs.


n

∑ Xi
 1  i=1
T=
n 1 −  et Fn égal à la proportion des X i prenant la valeur 0. On rappelle que e −1 ≈ 0.369
 n
1. Rappeler la loi de X , son espérance et sa variance.

λk
X (Ω)= , ∀k ∈ , P( X = k )= e − λ , E ( X )= V ( X )= λ
k!

11
Lycée Paul Gauguin CPGE –ECE 2
2. Compléter dans le programme TP9_Ex7_Q3_Etudiants la fonction qui simule le n-échantillon ( X 1 , , X n ) et qui
renvoie les valeurs t et f prises par les estimateurs Tn et Fn

function [t, f]=estimateur(n, theta)


X=grand(1,n,'poi',theta)
t=(1-1/n)^sum(X)
nb0=sum(X==0)
f=nb0/n
endfunction

3. Pour la suite, on fixe le paramètre θ à 1. Compléter le programme TP9_Ex7_Q3_Etudiants afin qu’il affiche une
valeur approchée des biais de T100 et F100 obtenue à l’aide de 1000 simulations de ces estimateurs.
Exécuter votre programme et émettre une conjecture sur les biais de T100 et F100 .
Est-il possible de savoir lequel des deux estimateurs est le meilleur ?

//TP9_Ex7_Q3

//Création des estimateurs Tn et Fn de exp(-theta)


function [t, f]=estimateur(n, theta)
X=grand(1,n,'poi',theta)
t=(1-1/n)^sum(X)
nb0=sum(X==0)
f=nb0/n
endfunction

//Affichage des estimations t100 et f100 pour 1000 simulations

//valeur de theta
theta=1

//initialisation des vecteurs estimations


t=zeros(1,1000)
f=zeros(1,1000)

//réalisation des 1000 simulations dans le cas theta=1


for i=1:1000
[t(i),f(i)]=estimateur(100,theta)
end
disp(t)
//calcul des biais (esperance = moyenne) des estimateurs de exp(-theta)
bt=mean(t)-exp(-theta)
bf= mean(f)-exp(-theta)
disp('biais de T100 ='+string(bt))
disp('biais de F100 ='+string(bf))

Résultats de 3 essais successifs :

Les biais empiriques sont tous proches de 0, on peut donc conjecturer que les estimateurs de e −θ utilisés sont sans
biais. Par contre, il est impossible à la lecture de ces résultats de préciser lequel est le meilleur

4. Compléter le programme TP9_Ex7_Q4_Etudiants qui construit l’histogramme des 1000 valeurs de T100 et F100
avec comme classe les intervalles [0;0.01[ , [0.01;0.02[ ,......, [0.69;0.7[ et qui fournit pour chaque estimateur
l’écart interquartile de chacune des séries.
Exécuter le programme et proposer l’estimateur qui vous semble le meilleur. Justifier.
12
Lycée Paul Gauguin CPGE –ECE 2
//TP9_Ex7_Q4
clear

//Création des estimateurs Tn et Fn de exp(-theta)


function [t, f]=estimateur(n, theta)
X=grand(1,n,'poi',theta)
t=(1-1/n)^sum(X)
nb0=sum(X==0)
f=nb0/n
endfunction

//Affichage des estimations t100 et f100 pour 1000 simulations


//valeur de theta
theta=1
//initialisation des vecteurs estimations
t=zeros(1,1000)
f=zeros(1,1000)
//réalisation des 1000 simulations dans le cas theta=1
for i=1:1000
[t(i),f(i)]=estimateur(100,theta)
end

//Représentation des histogrammes pour 1000 valeurs de T100 et F100


x=0:0.01:0.7
subplot(1,2,1)
histplot(x,t)
legend('T100')
subplot(1,2,2)
histplot(x,f)
legend('F100')

//Comparaison des ecarts interquatiles

QuartileT100=quart(t)
EIT=QuartileT100(3)-QuartileT100(1)
disp('écart interquartile pour T100 = '+string(EIT))

QuartileF100=quart(f)
EIF=QuartileF100(3)-QuartileF100(1)
disp('écart interquartile pour F100 = '+string(EIF))

Sur les histogrammes, on remarque que les valeurs de F100 semblent plus dispersées autour de e −1 que celles de
T100. Ainsi on peut conjecturer que T100 semble être un meilleur estimateur de e −θ .
L’écart interquartile de T100 est plus faible en accord avec la moindre dispersion observée.

13
Lycée Paul Gauguin CPGE –ECE 2
5. Compléter le programme TP9_Ex7_Q5_Etudiants afin qu’il affiche une valeur approchée des risques quadratiques
de T100 et F100 obtenue à partir de 1000 simulations de ces estimateurs.
Exécuter le programme. Les résultats obtenus corroborent-ils ceux des questions précédentes ?

//TP9_Ex7_Q5
clear

//Création des estimateurs Tn et Fn de exp(-theta)


function [t, f]=estimateur(n, theta)
X=grand(1,n,'poi',theta)
t=(1-1/n)^sum(X)
nb0=sum(X==0)
f=nb0/n
endfunction

//Affichage des estimations t100 et f100 pour 1000 simulations

//valeur de theta
theta=1

//initialisation des vecteurs estimations


t=zeros(1,1000)
f=zeros(1,1000)

//réalisation des 1000 simulations dans le cas theta=1


for i=1:1000
[t(i),f(i)]=estimateur(100,theta)
end

//Calculs des risques quadratiques de T100 et F100


bt=mean(t)-exp(-theta)
vt=mean((t-mean(t)).^2)
rt=vt+bt^2

bf=mean(f)-exp(-theta)
vf=mean((f-mean(f)).^2)
rf=vf+bf^2

disp('risque quadratique de T100 ='+string(rt))


disp('risque quadratique de F100 ='+string(rf))

Sur les trois essais effectués, on constate que le risque quadratique de T100 est bien plus faible que celui de F100.
Ceci confirme donc la conjecture selon laquelle T100 est meilleur estimateur de e −θ que F100.

Estimateur convergent : Soit ( Tn )n ≥1 une suite d’estimateurs de g(θ ) .

• Si pour tout θ ∈ Θ , lim r(Tn ) = 0 alors l’estimateur Tn est dit convergent.


n →+∞

Exercice 8 : On considère un n-échantillon ( X 1 , , X n ) de la loi de poisson de paramètre θ et on définit l’estimateur de


Monte-Carlo X n afin d’estimer θ . On verra en cours que cet estimateur est sans biais.
On souhaite visualiser le fait que cet estimateur est convergent.
En complétant et en exécutant le programme TP9_Ex8_Etudiants, observez la convergence de l’estimateur X n .
Justifier votre observation par un commentaire.

14
Lycée Paul Gauguin CPGE –ECE 2
//TP9_Ex8
clear

//Création de l'estimateur Tn=Xn barre

function t=estimateur(n, theta)


X=grand(1,n,'poi',theta)
t=sum(X)/n // ou t=mean(X)
endfunction

//Initialisation du numero de la fenêtre d'affichage de l'histogramme


j=1

for n=[100 1000 5000]

//valeur de theta
theta=1

//initialisation des vecteurs estimations


t=zeros(1,1000)

//réalisation des 1000 simulations de Tn dans le cas theta=1

for i=1:1000
t(i)=estimateur(n,theta)
end

//Histogrammes : Loi empirique de Tn


subplot(1,3,j)
x=0.5:0.01:1.5
histplot(x,t)
legend('Loi empirique de T'+string(n))
j=j+1

//Calculs des risques quadratiques de Tn


bt=mean(t)-theta
vt=mean((t-mean(t)).^2)
rt=vt+bt^2
disp('risque quadratique de T'+string(n)+ '='+string(rt))

end

On constate que les lois empiriques des estimateurs Tn sont de plus en plus condensées autour de θ quand n grandit
confirmant ainsi que le risque quadratique diminue lorsque n tend vers +∞ et permettant de conjecturer que l’estimateur
est convergent.

15
Lycée Paul Gauguin CPGE –ECE 2
Intervalle de confiance
Donner une seule estimation ne suffit à estimer θ car on ne connait pas la proximité de θ de cette estimation et on ne
connait pas la probabilité de se tromper. C’est pour cette raison que nous introduirons la notion d’intervalle de confiance
qui donne non pas une estimation de θ mais un intervalle dans lequel on est « sûr » que θ se trouve avec un certain niveau
de confiance (On se fixe à l’avance la valeur de la probabilité que θ se trouve dans cet intervalle)

Intervalle de confiance : Soit U et V deux estimateurs de θ tels que U ≤ V

On dit que [ U, V ] est UN intervalle de confiance de θ au niveau de confiance 1 − α , α ∈ [ 0;1] si

P (θ ∈ [ U, V ]) ≥ 1 − α

(
De façon équivalente, on a P θ ∉ [ U, V ] ≤ α )

Dans la pratique, on étudie souvent un seul estimateur T et on cherche à encadrer θ entre T − ε et T + ε

( )
On est alors satisfaits lorsque le niveau de confiance est d’au moins 95 %, ce qui signifie que P θ ∈ [ T − ε , T + ε ] ≥ 0.95
Cela signifie qu’au moins 95 fois sur 100, l’intervalle [ T − ε , T + ε ] contiendra le paramètre inconnu θ

Exercice 9 : On considère un n-échantillon ( X 1 , , X n ) de X → B(p) et on considère l’estimateur (moyenne empirique)


X n pour estimer le paramètre inconnu p. On souhaite dans cet exercice vérifier à l’aide de scilab que l’intervalle
 1 1 
Xn − ; Xn +  est un intervalle de confiance au niveau de confiance 0.95
 n n

1. Compléter dans le programme TP9_Ex9_Etudiants la fonction afin de créer l’estimateur X n .

//TP9 Ex9
clear, clf

function t=moyemp(p, n)
X=grand(1,n,'bin',1,p)
t=mean(X)
endfunction

//estimation du paramètre pour p=0.7 et n=1000 puis n=10 000


//disp(moyemp(0.7,1000))
//disp(moyemp(0.7,10000))

p=input('donner la valeur du paramètre p à estimer')


n=input('donner la longueur de l échantillon')
N=100
plot([0 N+1],[p p],color="black")
//S=0
for i=1:N do
t=moyemp(p,n)
if p>=t-1/sqrt(n) & p<=t+1/sqrt(n) then
plot([i i],[t-1/sqrt(n) t+1/sqrt(n)], color="red")
//S=S+1
else
plot([i i],[t-1/sqrt(n) t+1/sqrt(n)], color="green")
end
end

//disp('fréquence des valeurs de p dans l intervalle = '+string(S/N))

16
Lycée Paul Gauguin CPGE –ECE 2
2. Exécuter la fonction dans la console pour n = 1000 et
p ∈ [ 0.2;0.8] . Que retrouvez-vous ?

function t=moyemp(p, n)
X=grand(1,n,'bin',1,p)
t=mean(X)
endfunction

estimation du paramètre pour p=0.7 et n=1000 puis n=10 000


disp(moyemp(0.7,1000))
disp(moyemp(0.7,10000))

Les résultats obtenus montre que l’estimation obtenue par la méthode de Monte-Carlo est bien proche du paramètre à estimer.

3. Expliquer dans le programme TP9_Ex9_Etudiants complété le rôle de la boucle (ligne 18 à 26)

La boucle permet de savoir si pour une réalisation donnée, le résultat est dans l’intervalle proposée (coloration en
rouge) ou pas dans l’intervalle (coloration en vert) et le compteur permet alors d’en connaitre le nombre total
(variable S)

4. Exécuter ce programme pour différentes valeurs de n et p.

Pour p=0.7 et n=100.

 1 1 
5. A l’aide du graphique obtenu, estimer P ( p ∈  X n − ; Xn + 
 n n
Sur le graphique précédent

3 valeurs en vert donc 97 valeurs dans l’intervalle.


  1 1 
Pour cette simulation P  p ∈  X n − ; Xn +   ≈ 0.97 ≥ 0.95
  n n 
Ceci semble confirmer la notion d’intervalle de confiance au seuil de confiance 0.95
17
Lycée Paul Gauguin CPGE –ECE 2
6. Enlever dans le programme les commentaires devant les lignes 17, 22 et 28 et modifier le programme pour qu’il
fasse 1000 simulations de X n . Exécuter alors le programme pour différentes valeurs de n et p.
Proposer une interprétation des résultats en lien avec la notion d’intervalle de confiance.

N=100, p=0.7 , n=100.

N=100 p=0.5, n=200.

 1 1 
On remarque que l’on obtient presque toujours une fréquence de l’événement p ∈  X n − ; Xn +  supérieure à
 n n
 1 1 
0.95. Ceci semble bien confirmer que  X n − ; Xn +  est un intervalle de confiance au niveau de confiance 0.95.
 n n

18

Vous aimerez peut-être aussi