Statistique computationnelle : Simulation et Monte Carlo
Statistique computationnelle : Simulation et Monte Carlo
Statistique computationnelle
MASTER
Année académique : 2023-2024
Email : [email protected]
1 Simulation 4
1.1 Simulation de variable aléatoire discrète . . . . . . . . . . . . . . . . . . 4
1.1.1 Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.2 Loi de binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.3 Loi géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.4 Simulation suivant une loi discrète quelconque . . . . . . . . . . . 5
1.2 Simulation de variable aléatoire à densité . . . . . . . . . . . . . . . . . . 5
1.2.1 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2 Méthode d'inversion de la fonction de répartition . . . . . . . . . 5
1.2.3 Méthode polaire pour la loi normale centrée réduite . . . . . . . . 6
1.3 Méthode de rejet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Méthode de Monte Carlo 9
2.1 Estimateur de Monte-Carlo . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Réduction de variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.1 Méthode de variable de contrôle . . . . . . . . . . . . . . . . . . . 12
2.2.2 Méthode d'échantillonnage préférentiel . . . . . . . . . . . . . . . 13
2.2.3 Méthode de variables antithétiques . . . . . . . . . . . . . . . . . 15
3 Rééchantillonnage 17
3.1 Le jackknife . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.1 Estimation du biais . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Simulation
Soit B(p) la loi de Bernoulli de paramètre p ∈ [0, 1]. Si U U ([0, 1]) alors
X = 1{U ⩽p} ∼ B(p).
En eet X prend les valeurs 0 ou 1 et D'après ce qui précède, les variables aléatoires
i=1
C'est la loi du temps de premier succès dans une suite d'espériences aléatoires indé-
pendantes avec probabilité de succès p, notons là Geo(p). Ainsi, si les (U ) sont i i∈{1,··· ,n}
Soit X une variable aléatoire qui prend les valeurs (x ) avec probabilités respec-
i i∈N∗
Pour implémenter cette méthode très générale, il faut programmer une boucle sur i
avec comme test d'arrêt p + · · · + p ⩾ U. Cela peut s'avérer coûteux en temps de calcul
1 i
Soit a et b deux nombres réels avec a < b. Si U est uje variable aléatoire sur [0, 1],
alors
X = a + (b − a)U ∼ U ([a, b]) .
Comme F est continue et strictementcroissante sur R et vérie lim x−→−∞ F (x) = 1, elle
admet une fonction inverse F :]0, 1[−→ R. −1
Soient a et b deux nombres réels avec a < b. Comme F est strictement croissante,
{a < X ⩽ b} = {a < F −1 (U ) ⩽ b} = {F (a) < U ⩽ F (b)}.
Ainsi Z b
P(1{F (a)<U ⩽F (b)} )du = F (b) − F (a) = f (y)dy.
a
sont des variables normales centrée réduites indépendantes. De plus (X, Y ) a la même
p
loi que −2ℓn(U1 ) cos(2πU2 ), −2ℓn(U1 ) sin(2πU2 ) où U1 et U2 sont des variables
p
A partir de cette proposition nous pouvons donc proposer le corolaire suivant qui
développe une propriété pour simuler une loi normale.
Proposition 1.3. Soit µ, σ ∈ R et U1 , U2 deux variables aléatoires uniformes sur [0, 1]
indépendantes. alors
On souhaite simuler une variable aléatoire qui possède la fonction de densité f sur
R dans le cas où il existe une densité g sur R suivant laquelle on sait simuler et une
d d
1. Tant que kU (w) > (w) cela signie que le rapport au point Y (w) entre la
i
f (Yi )
g(Yi ) i
Théorème 1.1. La variable aléatoire N suit la loi géométrique de paramètre k1 . Elle est
indépendante du couple (YN , kg(YN )UN ) qui est uniformément réparti sur
Df = {(x, z) ∈ Rd × R : 0 ⩽ z ⩽ f (x)}.
En particulier
X = YN
possède la densité f.
le temps de calcul, on a donc bien sûr intérêt à priviligier le choix d'une densité g telle
que sup soit aussi petit que possible et à poser k = sup
f (x)
x∈Rd g(x) . f (x)
x∈Rd g(x)
Exemple 1.2. On souhaite simuler une variable aléatoire qui possède la loi gamma de
paramètre 3
2
et 1 (dont la fonction de densité est dénie par
2 √ −x
f (x) = √ xe 1x>0
π
par la méthode de rejet avec g(x) = λe−λx 1x>0 . Quel est la choix optimal de λ ? Que
vaut alors E(N ). √ (λ−1)x
xe
On veut trouver λ ∈]0, +∞[ qui minimise h(λ) = supx⩾0 . pour λ ⩾
λ
1
1, h(λ) = +∞. On montre que h(λ) = p pour λ ∈]0, 1[. Ainsi le λ qui
2eλ2 (1 − λ)
√
minimise λ = 32 et supx∈Rd fg(x)
(x)
= 33/2 / 2πe. Par ailleurs
√
E(N ) = k = 33/2 / 2πe.
sait simuler. Dans ce contexte, l'estimateur Monte-Calo de base est déni par
n
1X
In = φ(Xi ),
n i=1
où les X sont générées de façon I.i.d. selon f . Outre les propriétés de cet estimateur,
i
La preuve de ce théorème est une conséquence de la loi forte des grands nombres.
Exemple 2.1. On se propose d'estimer par la méthode de Monte-Carlo l'intégrale
Z
I= φ(x)dx.
[0,1]d
Soit U1 , · · · , Un n vecteurs i.i.d. et uniformément distribués sur [0, 1]d . Alors un estima-
teur par la méthode de Monte-Carlo de I est donnée par
n
1X
In = φ(Ui .)
n i=1
Exemple 2.2. Dans cet exemple nous allons utiliser la méthode de Monte-Carlo pour
proposer un estimateur de π. Soit (X, Y ) un vecteur aléatoire uniforme sur le carré
C = [0, 1] × [0, 1] et que φ(x, y) = 1x2 +y2 ⩽1 et φ la fonction dénie sur R2 par
où (Xi , Yi ), i, j ∈ {1, · · · , n} sont des vecteurs i.i.d. de loi uniforme sur C. Ainsi
p.s.
4In −→ π
n→+∞
avec Z
2
σ = V(φ(X)) = φ(x)2 f (x)dx − I 2 .
n
1X
σn2 = φ(Xi )2 − In2 .
n i=1
D'après la loi forte des grands nombres σ est un estimateur fortement convergent de
2
n
√ In − I L
n −→ N(0, 1).
σn n→+∞
pourquoi l'on fait appel à des méthodes dites de réduction de variance. L'idée générale
est de donner une autre représentation de la quantité à approcher, E[φ(X)], sous la
forme d'une espérance E[Y ] où Y est une autre variable aléatoire réelle dont la variance
est censée être plus petite que σ . 2
Nous proposons dans la suite les méthodes de réduction de variance suivantes : la mé-
thode de variable de contrôle, la méthode d'échantillonnage préférentiel, la méthode de
variables antithétiques, la méthode de stratication et la méthode de conditionnement.
2.2.1 Méthode de variable de contrôle
On pose Y = φ(X) − Z + E(Z) où Z est une v.a.r. appelée variable de contrôle, pour
laquelle on sait calculer E(Z) et V(Y ) ⩽ V(φ(X)). En pratique, on essaie de trouver
Z sous la forme Z = h(X) où la fonction h (appelée elle aussi variable de contrôle par
abus de langage) doit être susamment proche de g pour assurer que V(Y ) soit petite.
Ainsi l'estimateur de I par la méthode de variable de contrôle est donné par
n
1X
In = (φ(Xi ) − Zi ) + E(Z).
n i=1
On a alors
V(φ(U ) − h(U )) = V(eU ) + e − 3 + 1/12 ≈ 0, 04
d'où une variance inférieure. Ainsi, l'utilisation de la variable de contrôle réduit sensi-
blement la variance dans cet exemple.
donc plus approprié de modier la loi pour tirer plus de points dans l'intervalle [2, 3] .
Comment faire? Supposons que le vecteur aléatoire X à valeurs dans R ait une densité d
LA propriété suivante donne une condition susante pour que la variance de Y soit
plus petite que celle de φ(X).
Statistique computationnelle Dr. Amour GBAGUIDI AMOUSSOU
Réduction de variance 14
avec f la densité de X.
Démonstration.
φ(Z)f (Z)
V(Y ) = V
g(Z)
φ(Z)2 f (Z)2
2
= E − E φ(X)
g(Z)2
φ(z)2 f (z)2
Z
g(z) − E φ(X)2
= 2
g(z)
φ(z)2 f (z)
Z
f (z) − E φ(X)2
=
g(z)
φ(X)2 f (X)
− E φ(X)2
= E
g(X)
E[φ(X)2 ] − E φ(X)2
⩽
⩽ V(φ(X))
Sans donner une réponse très précise à cette question, remarquons que d'après une
conséquence de l'inégalité de Cauchy-Schwarz, la variance étant nulle si et seulement si
la v.a.r. est p.s. constante. Ainsi
φ(z)f (z)
V(Y ) = 0 ⇐⇒ = c = cte
g(z)
pour presque tout z On montre que c = E(φ(X)).
En revanche, ceci permet de comprendre comment doit être choisie g : aussi proche
que possible de la fonction φf , tout en assurant qu'elle est bien une de densité sur R d
L'idée directrice de la méthode est d'essayer de construire des v.a.r. de même loi et
négativement corrélées, en se basant sur le lemme suivant, dont la démonstration est
évidente.
Lemma 2.1. Soient Z et Z ′ deux variables aléatoires réelles ayant la même variance.
Alors on a l'équivalence suivante :
Z + Z′
V(Z)
V ⩽ ⇐⇒ Cov(Z, Z ′ ) ⩽ 0.
2 2
On conclut que les variables aléatoires φ(X) et φ(T (X)) sont antithétiques.
Ainsi, en pratique, on applique la méthode de Monte-Carlo classique à la v.a.r.
φ(X) + φ(T (X))
Y =
2
plutôt qu'à φ(X) car elles ont la même espérance mais Y a une variance au moins deux
fois plus petite.
Les deux exemples typiques pour lesquels la méthode des variables antithétiques
s'applique (quasi-)systématiquement sont les cas uniforme et gaussien.
Lorsque X ∼ N(0; Id ), alors T peut être x 7→ −x
d
Rééchantillonnage
3.1 Le jackknife
Le jackknife est une méthode statistique introduite par Quenouille en 1949 pour
estimer le biais d'un estimateur. On doit à John Tukey (1958) l'appellation jackknife de
même qu'une extension de la méthode à l'estimation de la variance d'un estimateur.
3.1.1 Estimation du biais
Lorsque cet estimateur a une moyenne, son biais est déni par
Bias θ̂n = E θ̂n − θ.
avec θ̂ (·) = 1
n
Pn
i=1 θ̂(i) . Puisque
E θ̂n = θ = Bias θ̂n ,
. De plus
θ̂Jack = X.
2
(b) θ̂n = 1
n
Xi − X est
1
BJack θ̂n = θ̂n
1−n
. De plus
1 2
θ̂Jack = Xi − X .
n−1
2
(c) θ̂n = X est
1
BJack θ̂n = α̂2
n
2
avec α̂2 = 1
n−1
Xi − X . De plus
2 1
θ̂Jack = X − α̂2 .
n
3.2 Le bootstrap
Démonstration. En exercice.
Théorème 3.2.1.2. La convergence de Fn vers F est presque sûrement uniforme, i.e. :
(p.s.)
Dn = sup |Fn (x) − F (x)| −→n→+∞ 0.
x
Cas discret
Soit X une variable aléatoire discrète prenant les valeurs x , x , · · · et soit F sa 1 2
étant Z X
E(X) = g(x)dF (x) := g(xi )P(X = xi )
i
tant dans le cas discret que dans le cas continu. Nous nous servons souvent de cette
notation dans la suite.
3.2.3 Estimateur bootstrap idéal
Dénition 3.1. Soit θ(F ) un nombre réel dépendant de F . On appelle estimateur boots-
trap idéal de θ(F ) la variable aléatoire θ(F̂n ) obtenue en substituant F par F̂n dans θ(F ).
Nous allons voir qu'il est en eet généralement impossible de calculer la valeur exacte
de l'estimateur bootstrap idéal. Dans la pratique, on visera plutôt à obtenir une approxi-
mation de l'estimateur bootstrap idéal par une simulation appropriée. Nous examinons
d'abord le problème d'estimation d'une variance.
On applique ici le bootstrap idéal à l'estimation de la variance d'un estimateur. Soit
X , · · · , X une suite de v.a. i.i.d. de fonction de répartition F et soit θ̂ = θ̂ (X , · · · , X )
1 n 1 n
(3.1)
2
V (θ̂) = E
F Fθ̂(X) − E (θ̂(X))
F
(3.2)
Z Z
2
= [θ̂(x) − θ̂(y)dF (y ) · · · dF (y )] dF (x ) · · · dF (x ).
1 n 1 n
Pratique du rééchantillonnage