0% ont trouvé ce document utile (0 vote)
39 vues22 pages

Statistique computationnelle : Simulation et Monte Carlo

Transféré par

Anago Parfait
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
39 vues22 pages

Statistique computationnelle : Simulation et Monte Carlo

Transféré par

Anago Parfait
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

1

African School of Economics (ASE)

Statistique computationnelle

MASTER

Année académique : 2023-2024

Dr. Amour GBAGUIDI AMOUSSOU

Email : [email protected]

Statistique computationnelle Dr. Amour GBAGUIDI AMOUSSOU


Table des matières

1 Simulation 4
1.1 Simulation de variable aléatoire discrète . . . . . . . . . . . . . . . . . . 4
1.1.1 Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.2 Loi de binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.3 Loi géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.4 Simulation suivant une loi discrète quelconque . . . . . . . . . . . 5
1.2 Simulation de variable aléatoire à densité . . . . . . . . . . . . . . . . . . 5
1.2.1 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2 Méthode d'inversion de la fonction de répartition . . . . . . . . . 5
1.2.3 Méthode polaire pour la loi normale centrée réduite . . . . . . . . 6
1.3 Méthode de rejet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Méthode de Monte Carlo 9
2.1 Estimateur de Monte-Carlo . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Réduction de variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.1 Méthode de variable de contrôle . . . . . . . . . . . . . . . . . . . 12
2.2.2 Méthode d'échantillonnage préférentiel . . . . . . . . . . . . . . . 13
2.2.3 Méthode de variables antithétiques . . . . . . . . . . . . . . . . . 15
3 Rééchantillonnage 17
3.1 Le jackknife . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.1 Estimation du biais . . . . . . . . . . . . . . . . . . . . . . . . . . 17

Statistique computationnelle Dr. Amour GBAGUIDI AMOUSSOU


TABLE DES MATIÈRES 3

3.1.2 Estimation de la variance . . . . . . . . . . . . . . . . . . . . . . 19


3.2 Le bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2.1 Fonction de répartition empirique . . . . . . . . . . . . . . . . . . 19
3.2.2 Espérance mathématique et fonction de répartition . . . . . . . . 19
3.2.3 Estimateur bootstrap idéal . . . . . . . . . . . . . . . . . . . . . . 20
3.2.4 Estimation du biais et de la variance . . . . . . . . . . . . . . . . 21
3.3 Application du bootstrap sur l'estimateur à noyau . . . . . . . . . . . . . 21
4 Pratique du rééchantillonnage 22

Statistique computationnelle Dr. Amour GBAGUIDI AMOUSSOU


Chapitre Premier

Simulation

1.1 Simulation de variable aléatoire discrète

1.1.1 Loi de Bernoulli

Soit B(p) la loi de Bernoulli de paramètre p ∈ [0, 1]. Si U U ([0, 1]) alors
X = 1{U ⩽p} ∼ B(p).

En eet X prend les valeurs 0 ou 1 et Z 1


P(X = 1) = P(U ⩽ p) = 1{u⩽p} du = p.
0

1.1.2 Loi de binomiale

Soit B(n, p) la loi de binomiale de paramètre n ∈ N et p ∈ [0, 1]. Si U , · · · , U sont



1 n

n variables i.i.d. uniformes sur [0, 1] alors


n
X
X = 1{U1 ⩽p} + · · · + 1{Un ⩽p} = 1{Ui ⩽p} ∼ B(n, p).

En eet X prend les valeurs 0 ou 1 et D'après ce qui précède, les variables aléatoires
i=1

1{Ui ⩽p}, i ∈ {1, · · · , n} sont des variables de Bernoulli de paramètre p indépendantes. La


variable aléatoire X , somme de ces n variables suit donc la loi binomiale de paramètres
n et p.

1.1.3 Loi géométrique

C'est la loi du temps de premier succès dans une suite d'espériences aléatoires indé-
pendantes avec probabilité de succès p, notons là Geo(p). Ainsi, si les (U ) sont i i∈{1,··· ,n}

Statistique computationnelle Dr. Amour GBAGUIDI AMOUSSOU


Simulation de variable aléatoire à densité 5

des variables uniformes sur [0, 1] indépendantes


N = inf{i ⩾ 1 : Ui ⩽ p} ∼ Geo(p).

1.1.4 Simulation suivant une loi discrète quelconque

Soit X une variable aléatoire qui prend les valeurs (x ) avec probabilités respec-
i i∈N∗

tives (p ) (avec les p ⩾ 0 telle que P p = 1) à l'aide d'une seule variable U


i i∈N∗ i i∈N∗ i

uniforme sur [0, 1] en posant


X = x1 1{U ⩽p1 } + x2 1{p1 <U ⩽p1 +p2 } + · · · + xi 1{p1 +···+pi−1 <U ⩽p1 +···+pi } + · · · .

Pour implémenter cette méthode très générale, il faut programmer une boucle sur i
avec comme test d'arrêt p + · · · + p ⩾ U. Cela peut s'avérer coûteux en temps de calcul
1 i

lorsque la série de terme général p converge lentement vers 1.


i

1.2 Simulation de variable aléatoire à densité

1.2.1 Loi uniforme

Soit a et b deux nombres réels avec a < b. Si U est uje variable aléatoire sur [0, 1],
alors
X = a + (b − a)U ∼ U ([a, b]) .

1.2.2 Méthode d'inversion de la fonction de répartition

Soit f une densité de probabilité sur R strictement positive et F la fonction de


répartition dénie par Z x
F (x) = f (y)dy.
−∞

Comme F est continue et strictementcroissante sur R et vérie lim x−→−∞ F (x) = 1, elle
admet une fonction inverse F :]0, 1[−→ R. −1

Proposition 1.1. Si U ∼ U ([]0, 1), alors X = F −1 (U ) possède la densité f.

Statistique computationnelle Dr. Amour GBAGUIDI AMOUSSOU


Simulation de variable aléatoire à densité 6

Démonstration. Posons X := F (U ) et montrons que la loi de X est dénie par f.


−1

Soient a et b deux nombres réels avec a < b. Comme F est strictement croissante,
{a < X ⩽ b} = {a < F −1 (U ) ⩽ b} = {F (a) < U ⩽ F (b)}.

Ainsi Z b
P(1{F (a)<U ⩽F (b)} )du = F (b) − F (a) = f (y)dy.
a

Par conséquent la densité de X est f.


Exemple 1.1 (Simulation de la loi exponentielle à partir de la loi uniforme). La loi
exponentielle de paramètre λ > 0 est la loi de densité f dénie par

f (x) = λe−λx 1{x>0} .

La fonction de répartition associée est



Z x  1 − e−λx

si x>0
F (x) = λe−λx 1{x>0} = .
−∞  0 sinon

Pour u ∈]0, 1[, on a


1
F (x) = u ⇐⇒ x = − ℓn(1 − u).
λ
Par conséquent Si U ∼ U ([0, 1]) alors − λ1 ℓn(1 − U ) ε(λ). Or 1 − U et U sont égales en
loi donc
1
− ℓn(U ) ∼ ε(λ).
λ

1.2.3 Méthode polaire pour la loi normale centrée réduite

La proposition suivante donne une technique de simulation d'un vecteur aléatoire


gaussien à partir d'une loi exponentielle et d'une loi uniforme.
Proposition 1.2. Soit E de loi exponentielle de paramètre 1
2
et U la loi uniforme sur
[0, 2π] indépendentes. alors
√ √
X= E cos(U ) et Y = E sin(U )

Statistique computationnelle Dr. Amour GBAGUIDI AMOUSSOU


Méthode de rejet 7

sont des variables normales centrée réduites indépendantes. De plus (X, Y ) a la même
p 
loi que −2ℓn(U1 ) cos(2πU2 ), −2ℓn(U1 ) sin(2πU2 ) où U1 et U2 sont des variables
p

aléatoires uniformes sur [0, 1].

A partir de cette proposition nous pouvons donc proposer le corolaire suivant qui
développe une propriété pour simuler une loi normale.
Proposition 1.3. Soit µ, σ ∈ R et U1 , U2 deux variables aléatoires uniformes sur [0, 1]
indépendantes. alors

−2ℓn(U1 ) cos(2πU2 ) ∼ N(µ, σ 2 ).


p
µ+σ

1.3 Méthode de rejet

On souhaite simuler une variable aléatoire qui possède la fonction de densité f sur
R dans le cas où il existe une densité g sur R suivant laquelle on sait simuler et une
d d

constante k > 0 telle que


∀x ∈ Rd , f (x) ⩽ kg(x).

En intégrant cette inégalité sur R on obtient que nécessairement k ⩾ 1.


d

Soit (Y , U ), i ∈ N une suite de variables aléatoires i.i.d. avec Y de densité g et U


i i

1 1

uniforme sur [0, 1] indépendantes.


Principe de la méthode de rejet

1. Tant que kU (w) > (w) cela signie que le rapport au point Y (w) entre la
i
f (Yi )
g(Yi ) i

densité f suivant laquelle on souhaite simuler et la densité g de Y est en certaini

sens trop petit et on rejette le couple d'indice i (d'où le nom de la méthode) et


on passe au couple d'indice i + 1.
2. Si kU (w) ⩽ (w), on pose X(w) = Y (w).
i
f (Yi )
g(Yi ) i

D'un point de vu plus formalisé on pose


N (w) = inf{i > 1 : kg(Yi )Ui (w) ⩽ f (Yi )(w)} et X(w) = YN (w) (w).

Statistique computationnelle Dr. Amour GBAGUIDI AMOUSSOU


Méthode de rejet 8

Théorème 1.1. La variable aléatoire N suit la loi géométrique de paramètre k1 . Elle est
indépendante du couple (YN , kg(YN )UN ) qui est uniformément réparti sur

Df = {(x, z) ∈ Rd × R : 0 ⩽ z ⩽ f (x)}.

En particulier
X = YN

possède la densité f.

Le moyen de tirage (Y , U ) nécessaires pour générer X est E(N ) = k. Pour diminuer


i i

le temps de calcul, on a donc bien sûr intérêt à priviligier le choix d'une densité g telle
que sup soit aussi petit que possible et à poser k = sup
f (x)
x∈Rd g(x) . f (x)
x∈Rd g(x)

Exemple 1.2. On souhaite simuler une variable aléatoire qui possède la loi gamma de
paramètre 3
2
et 1 (dont la fonction de densité est dénie par
2 √ −x
f (x) = √ xe 1x>0
π

par la méthode de rejet avec g(x) = λe−λx 1x>0 . Quel est la choix optimal de λ ? Que
vaut alors E(N ). √ (λ−1)x
xe
On veut trouver λ ∈]0, +∞[ qui minimise h(λ) = supx⩾0 . pour λ ⩾
λ
1
1, h(λ) = +∞. On montre que h(λ) = p pour λ ∈]0, 1[. Ainsi le λ qui
2eλ2 (1 − λ)

minimise λ = 32 et supx∈Rd fg(x)
(x)
= 33/2 / 2πe. Par ailleurs

E(N ) = k = 33/2 / 2πe.

Statistique computationnelle Dr. Amour GBAGUIDI AMOUSSOU


Chapitre Deux

Méthode de Monte Carlo

Monte-Carlo est le quartier le plus célèbre de Monaco du continent Européen, au


point d'être parfois confondu avec le pays entier, ou considéré (à tort) comme sa capitale
ou comme une seconde commune au sein de la principauté. Les plaques d'immatricula-
tion des automobiles de la principauté portent la mention "MC" rappelant Monte-Carlo
alors qu'il s'agit d'une abréviation de Monaco.
Il est installé au sein de ce quatier Monte-Carlo un grand centre de jeux appelé Casino
de Monte-Carlo. Le Casino de Monte-Carlo propose, au c÷ur de ses salons de jeu, des
tables de Roulette européenne, Trente et Quarante, Black Jack, Roulette Anglaise, Craps
etc.
Le terme méthode de Monte-Carlo, ou méthode Monte-Carlo, désigne une famille
de méthodes algorithmiques visant à calculer une valeur numérique approchée en uti-
lisant des procédés aléatoires, c'est-à-dire des techniques probabilistes. Le nom de ces
méthodes, qui fait allusion aux jeux de hasard pratiqués au casino de Monte-Carlo, a
été inventé en 1947 par Nicholas Metropolis, et publié pour la première fois en 1949
Une application classique des méthodes Monte-Carlo est le calcul de quantités de
type Z
I = E (φ(X)) = φ(x)f (x)dx,

où φ : R −→ R une fonction donnée et X un vecteur aléatoire de densité f laquelle on


d

sait simuler. Dans ce contexte, l'estimateur Monte-Calo de base est déni par
n
1X
In = φ(Xi ),
n i=1

où les X sont générées de façon I.i.d. selon f . Outre les propriétés de cet estimateur,
i

Statistique computationnelle Dr. Amour GBAGUIDI AMOUSSOU


Estimateur de Monte-Carlo 10

ce chapitre explique comment on peut éventuellement améliorer sa précision grâce à des


techniques de réduction de variance.

2.1 Estimateur de Monte-Carlo

Dans cette partie nous donnerons les propriétés de l'estimateur I de I. n

Dénition 2.1. In est appelé un estimateur de Monte-Carlo de l'intégrale I.

Proposition 2.1. Si E∥φ(X)∥ < ∞, alors l'estimateur de Monte-Carlo In est I est


p.s.
fortement convergent, i.e. In −→ I.
n→+∞

La preuve de ce théorème est une conséquence de la loi forte des grands nombres.
Exemple 2.1. On se propose d'estimer par la méthode de Monte-Carlo l'intégrale
Z
I= φ(x)dx.
[0,1]d

Soit U1 , · · · , Un n vecteurs i.i.d. et uniformément distribués sur [0, 1]d . Alors un estima-
teur par la méthode de Monte-Carlo de I est donnée par
n
1X
In = φ(Ui .)
n i=1

Exemple 2.2. Dans cet exemple nous allons utiliser la méthode de Monte-Carlo pour
proposer un estimateur de π. Soit (X, Y ) un vecteur aléatoire uniforme sur le carré
C = [0, 1] × [0, 1] et que φ(x, y) = 1x2 +y2 ⩽1 et φ la fonction dénie sur R2 par

φ(x, y) = 1x2 +y2 ⩽1 .

En utilisant un changement de variable polaire on montre que


Z Z
π
I := 1D (x, y)dxdy = .
C 4

Par ailleurs un estimateur de Monte-Carlo de I est donné par


n
1X
In = 1D (Xi , Yi )
n i=1

Statistique computationnelle Dr. Amour GBAGUIDI AMOUSSOU


Estimateur de Monte-Carlo 11

où (Xi , Yi ), i, j ∈ {1, · · · , n} sont des vecteurs i.i.d. de loi uniforme sur C. Ainsi
p.s.
4In −→ π
n→+∞

et par conséquent 4In est un estimateur fortement convergent de π.

Proposition 2.2. Si E∥φ(X)∥2 < ∞, alors


√ L
n (In − I) −→ N(0, σ 2 ),
n→+∞

avec Z
2
σ = V(φ(X)) = φ(x)2 f (x)dx − I 2 .

Un estimateur de Monte-Carlo de σ est donné par 2

n
1X
σn2 = φ(Xi )2 − In2 .
n i=1

D'après la loi forte des grands nombres σ est un estimateur fortement convergent de
2
n

σ et d'après le lemme de Slutsky on a


2

√ In − I L
n −→ N(0, 1).
σn n→+∞

On en déduit bien entendu des intervalles de conance asymptotiques pour I .


Proposition 2.3. Soit α ∈]0, 1[ xé. Un intervalle de conance de niveau asymptotique
1 − α pour I est  
σn σn
In − q1−α/2 √ ; In + q1−α/2 √
n n
où q1−α/2 désigne le quantile d'ordre 1 − α/2 de la loi normale centrée réduite.

Pour α = 0.05 on a q 1−α/2 ≃ 1.96.

Exemple 2.3. En utilisant la méthode de Monte-Carlo détermine un intervalle de


conance π.

Remarque : la méthode Monte-Carlo, avec une vitesse en O(1/pn), est insensible


à la dimension d de X et peut donc s'avérer plus avantageuse dès que l'on travaille en
dimension grande ou sur une fonction φ irrégulière (par exemple si φ n'est pas dérivable).
Statistique computationnelle Dr. Amour GBAGUIDI AMOUSSOU
Réduction de variance 12

2.2 Réduction de variance

En considérant l'estimateur I de I on note que V (I ) = l'entier n étant la taille


n n
σ2
n

de l'échantillon considérée. Ainsi l'erreur quadratique de cet estimateur sera la plus


petite possible si σ qui est la vriance de φ(X) est la plus petite que possible, et c'est
2

pourquoi l'on fait appel à des méthodes dites de réduction de variance. L'idée générale
est de donner une autre représentation de la quantité à approcher, E[φ(X)], sous la
forme d'une espérance E[Y ] où Y est une autre variable aléatoire réelle dont la variance
est censée être plus petite que σ . 2

Nous proposons dans la suite les méthodes de réduction de variance suivantes : la mé-
thode de variable de contrôle, la méthode d'échantillonnage préférentiel, la méthode de
variables antithétiques, la méthode de stratication et la méthode de conditionnement.
2.2.1 Méthode de variable de contrôle

On pose Y = φ(X) − Z + E(Z) où Z est une v.a.r. appelée variable de contrôle, pour
laquelle on sait calculer E(Z) et V(Y ) ⩽ V(φ(X)). En pratique, on essaie de trouver
Z sous la forme Z = h(X) où la fonction h (appelée elle aussi variable de contrôle par
abus de langage) doit être susamment proche de g pour assurer que V(Y ) soit petite.
Ainsi l'estimateur de I par la méthode de variable de contrôle est donné par
n
1X
In = (φ(Xi ) − Zi ) + E(Z).
n i=1

Exemple 2.4. Posons Z 1


I= eu du = e − 1.
0

On se propose d'approcher I par la méthode de variable de contrôle. Si l'on note U ∼


U([0, 1]) alors I = E(φ(U )) où φ(u) = eu . Par ailleurs V(φ(U )) = E(e2U ) − (E(eU ))2 =
e2 −1
2
− (e − 1)2 ≈ 0, 24.
En utilisant le développement de Taylor de la fonction φ au voisinage de 0, on peut
envisager de considérer pour variable de contrôle la fonction h(u) = 1 + u, de sorte que
R1
E(h(U )) = 0
(1 + u)du = 3/2.

Statistique computationnelle Dr. Amour GBAGUIDI AMOUSSOU


Réduction de variance 13

On a alors
V(φ(U ) − h(U )) = V(eU ) + e − 3 + 1/12 ≈ 0, 04

d'où une variance inférieure. Ainsi, l'utilisation de la variable de contrôle réduit sensi-
blement la variance dans cet exemple.

Exemple 2.5. En utilisant la méthode de variable de contrôle donne une approximation


de Z 1
2
I= eu du.
0

2.2.2 Méthode d'échantillonnage préférentiel

L'idée de l'échantillonnage préférentiel (importance sampling en anglais) est de modi


er la loi du vecteur aléatoire X sous laquelle est dé
nie l'espérance E[g(X)] pour tirer des points mieux choisis par rapport à la fonction g.
Par exemple, supposons que X ∼ N(0, 1) et que le support de la fonction φ soit contenu
dans l'intervalle [2, 3]. Dans ce cas, les φ(X ) intervenant dans la mise en ÷uvre de la
i

méthode de Monte-Carlo classique ne contiendront que très peu de valeurs diérentes


de 0, la probabilité que les X soit comprise entre 2 et 3 étant inme. Ainsi, il serait
i

donc plus approprié de modier la loi pour tirer plus de points dans l'intervalle [2, 3] .
Comment faire? Supposons que le vecteur aléatoire X à valeurs dans R ait une densité d

f . Pour modier l'échantillonnage, on introduit une densité de probabilité g , appelée


fonction d'importance, que l'on suppose strictement positive sur le support de f . On a
Z Z
φ(x)f (x)
E(φ(X)) = φ(x)f (x)dx = g(x)dx = E(Y ),
Rd Rd g(x)
où Y est une v.a.r. dénie par le ratio
φ(X)f (X)
Y =
g(X)

le vecteur aléatoire Z à valeur dans R admettant g pour densité.


d

LA propriété suivante donne une condition susante pour que la variance de Y soit
plus petite que celle de φ(X).
Statistique computationnelle Dr. Amour GBAGUIDI AMOUSSOU
Réduction de variance 14

Proposition 2.4. Soit Y =


h i
φ(Z)2 f (Z)
φ(Z)f (Z)
g(Z)
avec Z une variable aléatoire de loi g. Si E g(Z)

E (φ(X)2 ) alors
V(Y ) ⩽ V(φ(X))

avec f la densité de X.

Démonstration.
 
φ(Z)f (Z)
V(Y ) = V
g(Z)
φ(Z)2 f (Z)2
 
2

= E − E φ(X)
g(Z)2
φ(z)2 f (z)2
Z  
g(z) − E φ(X)2

= 2
g(z)
φ(z)2 f (z)
Z  
f (z) − E φ(X)2

=
g(z)
φ(X)2 f (X)
 
− E φ(X)2

= E
g(X)
E[φ(X)2 ] − E φ(X)2


⩽ V(φ(X))

Comment construire une densité g ayant la propriété


φ(Z)2 f (Z)
 
⩽ E φ(X)2 ?

E
g(Z)

Sans donner une réponse très précise à cette question, remarquons que d'après une
conséquence de l'inégalité de Cauchy-Schwarz, la variance étant nulle si et seulement si
la v.a.r. est p.s. constante. Ainsi
φ(z)f (z)
V(Y ) = 0 ⇐⇒ = c = cte
g(z)
pour presque tout z On montre que c = E(φ(X)).
En revanche, ceci permet de comprendre comment doit être choisie g : aussi proche
que possible de la fonction φf , tout en assurant qu'elle est bien une de densité sur R d

dont la loi est facile à simuler.


Statistique computationnelle Dr. Amour GBAGUIDI AMOUSSOU
Réduction de variance 15

Exemple 2.6. Déterminons une approximation de l'intégrale


Z 2
I= e−x dx.
1

On prend la fonction de densité g dénie par

g(x) = 1[1,2] (x).

2.2.3 Méthode de variables antithétiques

Contrairement aux méthodes par variable de contrôle ou par échantillonnage pré-


férentiel, la méthode des variables antithétiques nous assure systématiquement une ré-
duction de variance d'un facteur au moins 2, sous réserve que l'on arrive à tirer parti de
certaines symétries d'une distribution et de la corrélation négative entre deux v.a.r.
Dénition 2.2. Deux v.a.r. de carré intégrable X1 et X2 sont sont dites antithétiques
si
1. Cov(X1 , X2 ) ⩽ 0 ( négativement corrélées)
2. E(X1 ) = E(X2 )
3. V(X1 ) = V(X2 ).

L'idée directrice de la méthode est d'essayer de construire des v.a.r. de même loi et
négativement corrélées, en se basant sur le lemme suivant, dont la démonstration est
évidente.
Lemma 2.1. Soient Z et Z ′ deux variables aléatoires réelles ayant la même variance.
Alors on a l'équivalence suivante :
Z + Z′
 
V(Z)
V ⩽ ⇐⇒ Cov(Z, Z ′ ) ⩽ 0.
2 2

Proposition 2.5. Soit φ une fonction borélienne monotone de R dans R. S Si la loi


de la variable aléatoire X est invariante (même loi) par une transformation borélienne
T : R → R décroissante alors les variables aléatoires g(X) et φ(T (X)) sont antithétiques

Statistique computationnelle Dr. Amour GBAGUIDI AMOUSSOU


Réduction de variance 16

Démonstration. Soit X une variable aléatoire indépendante de X et de même loi que


(φ(X) − φ(X ′ )) (φ(T (X)) − φ(T (X ′ )))


(φ(X) − φ(X ′ ))
= (T (X) − T (X ′ )) (φ(T (X)) − φ(T (X ′ )))
T (X) − T (X ′ )
(φ(X) − φ(X ′ )) (X − X ′ )
= (T (X) − T (X ′ )) (φ(T (X)) − φ(T (X ′ ))) .
X − X′ T (X) − T (X ′ )

En utilisant la monotonie de φ, la décroissante de T et l'équation précédente, on montre


que
(φ(X) − φ(X ′ )) (φ(T (X)) − φ(T (X ′ ))) ⩽ 0.

En passant à l'espérance, en utilisant l'indépendance puis l'égalité en loi on a


Cov(φ(X), φ(T (X))) ⩽ 0.

On conclut que les variables aléatoires φ(X) et φ(T (X)) sont antithétiques.
Ainsi, en pratique, on applique la méthode de Monte-Carlo classique à la v.a.r.
φ(X) + φ(T (X))
Y =
2
plutôt qu'à φ(X) car elles ont la même espérance mais Y a une variance au moins deux
fois plus petite.
Les deux exemples typiques pour lesquels la méthode des variables antithétiques
s'applique (quasi-)systématiquement sont les cas uniforme et gaussien.
 Lorsque X ∼ N(0; Id ), alors T peut être x 7→ −x
d

 Lorsque X ∼ U([0, 1]) , la transformation T peut-ête dénie par T (x) = 1 − x.

Statistique computationnelle Dr. Amour GBAGUIDI AMOUSSOU


Chapitre Trois

Rééchantillonnage

Les méthodes de rééchantillonnage, telles que le bootstrap, le jackknife, le sous-


échantillonnage et la validation croisée, permettent entre autres d'estimer la variance
et le biais d'une multitude d'estimateurs, de même que de construire des intervalles de
conance pour les paramètres que ces estimateurs estiment. Ces méthodes étant de plus
en plus utilisées en statistique, elles devraient désormais faire partie du bagage d'outils
de tout statisticien appliqué. Les dés sont tout aussi intéressants pour le théoricien
puisque la démonstration de la validité des méthodes de rééchantillonnage est rarement
simple.

3.1 Le jackknife

Le jackknife est une méthode statistique introduite par Quenouille en 1949 pour
estimer le biais d'un estimateur. On doit à John Tukey (1958) l'appellation jackknife de
même qu'une extension de la méthode à l'estimation de la variance d'un estimateur.
3.1.1 Estimation du biais

Soit X , · · · , X n variables aléatoires indépendantes identiquement distribuées de


1 n

fonction de répartition F. Soit θ̂ := θ̂ (X , · · · , X ) un estimateur d'un paramètre θ.


n n 1 n

Lorsque cet estimateur a une moyenne, son biais est déni par
   
Bias θ̂n = E θ̂n − θ.

Statistique computationnelle Dr. Amour GBAGUIDI AMOUSSOU


Le jackknife 18

On dénit les n échantillons jackknife de taille n − 1 par


(X1 , · · · , Xi−1 , Xi+1 , · · · , Xn ).

Sur ces échantillons, ion peut calculer les n réplications jackknife de θ̂ : n

θ̂(i) := θ̂n (X1 , · · · , Xi−1 , Xi+1 , · · · , Xn ) .

Ainsi l'estimateur du biais est donné par


 
bjack = (n − 1) θ̂(·) − θ̂n

avec θ̂ (·) = 1
n
Pn
i=1 θ̂(i) . Puisque
   
E θ̂n = θ = Bias θ̂n ,

on en arrive à dénir l'estimateur jackknife corrigé par le biais :


θ̂Jack = θ̂n − bjack = nθ̂n − (n − 1)θ̂(·) .

La proposition suivante donne un estimateur du biais jackknife de la moyenne, de


l'écart-type, du carré de la moyenne.
Proposition 3.1. Soit X1 , · · · , Xn n variables aléatoires indépendantes identiquement
distribuées de fonction de répartition F. Alors le biais jackknife de l'estimateur θ̂n d'un
paramètre θ avec
(a) θ̂n = X n := Xi est
1
Pn
n i=1
 
BJack θ̂n = 0

. De plus
θ̂Jack = X.
2
(b) θ̂n = 1
n
Xi − X est
  1
BJack θ̂n = θ̂n
1−n
. De plus
1 2
θ̂Jack = Xi − X .
n−1

Statistique computationnelle Dr. Amour GBAGUIDI AMOUSSOU


Le bootstrap 19

2
(c) θ̂n = X est
  1
BJack θ̂n = α̂2
n
2
avec α̂2 = 1
n−1
Xi − X . De plus
2 1
θ̂Jack = X − α̂2 .
n

3.1.2 Estimation de la variance

Tukey (1958) propose d'estimer la variance d'une statistique θ̂ par n


n 
n−1 X 2
vJack = θ̂(i) − θ̂()˙
n i=1

3.2 Le bootstrap

3.2.1 Fonction de répartition empirique

On appelle fonction de répartition empirique d'un échantillon (X , X , · · · , X ) la 1 2 n

fonction F dénie par


n
n
X 1
Fn (x) = 1{Xi <x} , x ∈ R.
n i=1

Théorème 3.2.1.1. Soit (X1 , X2 , · · · , Xn ) un n-échantillon de même loi que X de


fonction de répartition empirique Fn et F la fonction de répartition de X . Alors
(p.s.)
Fn (x) −→n→+∞ F (x), ∀x ∈ R.

Démonstration. En exercice.
Théorème 3.2.1.2. La convergence de Fn vers F est presque sûrement uniforme, i.e. :
(p.s.)
Dn = sup |Fn (x) − F (x)| −→n→+∞ 0.
x

3.2.2 Espérance mathématique et fonction de répartition

Cas discret
Soit X une variable aléatoire discrète prenant les valeurs x , x , · · · et soit F sa 1 2

fonction de répartition. On dénit l'intégrale d'une fonction g par rapport à F comme


Statistique computationnelle Dr. Amour GBAGUIDI AMOUSSOU
Le bootstrap 20

étant Z X
E(X) = g(x)dF (x) := g(xi )P(X = xi )
i

pourvu que la somme du membre droit converge absolument.


Cas continu
Soit X une variable aléatoire possédant une densité f et une fonction de répartition
F . On dénit l'intégrale d'une fonction g par rapport à F comme étant
Z Z
E(X) = g(x)dF (x) := g(x)f (x)dx

pourvu que l'intégrale de |g(x)| par rapport à f (x)dx soit nie.


Les deux dénitions précédentes permettent de représenter E[g(X)] par l'intégrale
Z
g(x)dF (x),

tant dans le cas discret que dans le cas continu. Nous nous servons souvent de cette
notation dans la suite.
3.2.3 Estimateur bootstrap idéal

Soit X une variable aléatoire de fonction de distribution F . Soit (X , · · · , X ) un n


1 n

échantillons et F̂ la fonction de répartition empirique de F .


n

Dénition 3.1. Soit θ(F ) un nombre réel dépendant de F . On appelle estimateur boots-
trap idéal de θ(F ) la variable aléatoire θ(F̂n ) obtenue en substituant F par F̂n dans θ(F ).

Proposition 3.2. Soit X1 , · · · , Xn une suite de variable aléatoire i.i.d de fonction de


répartition F et F̂n la fonction de répartition empirique de F. Alors
(a) l'estimateur bootstrap idéal de θ(F ) = E(X1 ) est la moyenne empirique X n ,
(b) l'estimateur bootstrap idéal de θ(F ) = V(X1 ) est la variance empirique Sn2 =
1
Pn 2
n i=1 Xi − X n ,

Statistique computationnelle Dr. Amour GBAGUIDI AMOUSSOU


Application du bootstrap sur l'estimateur à noyau 21

Nous allons voir qu'il est en eet généralement impossible de calculer la valeur exacte
de l'estimateur bootstrap idéal. Dans la pratique, on visera plutôt à obtenir une approxi-
mation de l'estimateur bootstrap idéal par une simulation appropriée. Nous examinons
d'abord le problème d'estimation d'une variance.
On applique ici le bootstrap idéal à l'estimation de la variance d'un estimateur. Soit
X , · · · , X une suite de v.a. i.i.d. de fonction de répartition F et soit θ̂ = θ̂ (X , · · · , X )
1 n 1 n

un estimateur de variance nie V (θ̂). Posons X = (X , · · · , X ). On a donc


F 1 n

(3.1)
  2
V (θ̂) = E
F Fθ̂(X) − E (θ̂(X))
F

(3.2)
Z Z
2
= [θ̂(x) − θ̂(y)dF (y ) · · · dF (y )] dF (x ) · · · dF (x ).
1 n 1 n

Dénition 3.2. On appelle estimateur bootstrap de VF (ˆ) l'estimateur


vBoot := VF (θ̂)

obtenu par le principe de substitution

Proposition 3.3. L'estimateur bootstrap idéal de la variance de θ̂ = X est


1 X
(Xi − X)2
n2 i

3.2.4 Estimation du biais et de la variance

Soit θ̂ un estimateur du paramètre θ. La valeur de θ pour l'échantillon observé


(X , · · · , X ) est noté θ̂ . Soit B le nombre d'échantillon bootstrap. On désigne par θ̂
1 n 0

i

l'application de l'estimateur θ̂ à l'échantillon bootstrap i avec i ∈ {1, · · · , n}. Selon le


principe du bootstrap, l'erreur type de kl'estimateur est donnée par l'écart-type de θ̂ ∗
i

tandis que son biais correspondant est donné par


θ̂∗ − θ̂0 .

Pour avoir l'échantillon bootstrap et calculer la valeur de la statistique sous R on


utilise la fonction boot(x,function,B) sous la library boot.

3.3 Application du bootstrap sur l'estimateur à noyau

Statistique computationnelle Dr. Amour GBAGUIDI AMOUSSOU


Chapitre Quatre

Pratique du rééchantillonnage

Statistique computationnelle Dr. Amour GBAGUIDI AMOUSSOU

Vous aimerez peut-être aussi