Methodes de Monte Carlo
Methodes de Monte Carlo
MEMOIRE DE MASTER
EN MATHEMATIQUES
Option : Probabilités-Statistiques
Méthodes de Monte-Carlo
i
Table des matières
1 Introduction iii
2 Simulation de variables aléatoires. 1
2.1 Simulation de la loi uniforme . . . . . . . . . . . . . . . . . 1
2.2 Méthode d'inversion . . . . . . . . . . . . . . . . . . . . . . . 1
2.3 Méthode de rejet . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.4 Simulation des lois normales . . . . . . . . . . . . . . . . . . 10
5 Conclusion 33
6 Annexe 34
ii
1 Introduction
probabilité et h est une fonction donnée. Il existe des cas où on ne peut pas
simuler π par les méthodes précédentes de simulation, la méthode de Monte
Carlo par chaîne de Markov pour résoudre de tels problèmes "plus nis" et
c'est le thème de la troisième section.
iii
2 Simulation de variables aléatoires.
principe
1
Pour la preuve nous avons besoin du lemme suivant :
Lemme 2.1. Pour tout u ∈ [0, 1], x ∈ R
F −1 (u) ≤ x ⇐⇒ u ≤ F (x).
nous avons donc F (x) ≥ u, quant à l'implication réciproque elle est triviale.
Démonstration de la proposition.
∀x ∈ R, P (X ≤ x) = P (F −1 (U ) ≤ x) = P (U ≤ F (x)) = F (x).
Exemples
1. La loi exponentielle : soit X une variable aléatoire réelle qui suit une
loi exponentielle de paramètre λ. La fonction réciproque de sa fonction
de répartition vaut pour u ∈ [0, 1],
− ln(1 − u)
F −1 (u) = ,
λ
et si U est une variable aléatoire de loi uniforme sur [0, 1], X est de
même loi que
− ln(1 − U )
,
λ
ou encore
− ln U
.
λ
Le code R suivant donne 100 observations de la loi exponentielle de
paramètre 1
2
N = 100
U =runif(N )
X = −log(1 − U )
3
Figure 2 100 observations de la loi de Cauchy de paramètre 1.
Lois discrètes
4
Si X suit une loi de Poisson de paramètre λ, il n'y a pas d'expression simple
pour la fonction de répartition et l'ensemble des valeurs possibles est inni.
Il faut donc calculer les valeur Fi au fur et à mesure.
L'algorithme relatif à une telle simulation est donc :
X←0
P ← exp −λ
F ←P
choix ← Random
Tant que (choix > F ) faire
X ←X +1
P ← P λ/X
F ←F +P
n Tant que
X ← X − 1.
On suppose que l'on sait simuler une loi uniforme surD, et que l'on veut
simuler une loi uniforme sur C ⊂ D. Alors l'algorithme de simulation par la
méthode de rejet est le suivant :
répéter
tirer un point X au hasard dans D
jusqu'à (X ∈ C).
5
On choisit D = le carré [−1, 1]2 .
L'algorithme est :
répéter
X ← 2 Random − 1
Y ← 2 Random − 1
S ← X2 + Y 2
jusqu'à (S ≤ 1).
Démonstration. Pour l'implication direct , (X, U ) suit une loi uniforme sur
D, alors sa fonction de densité est :
1
f(X,U ) (x, u) = 1D (x, u),
vol(D)
Z Z
fX (x) = f(X,U ) (x, u)du = 1D (x, u)du
R R
Z f (x)
= du = f (x),
0
6
pour le point 2 :
f(X,U ) (x, u)
fUX=x (u) =
fX (x)
1
= 1D (x, u)
f (x)
1
= 1 (u).
f (x) [0,f (x)]
Nous allons voir une proposition qui permet à partir d'une densité g facile
à simuler, simuler une loi de densité f.
Proposition 2.3. Soit µ une mesure positive sur Rd , f et g deux densités
de probabilité sur (Rd , µ) telles qu'il existe une constante c vériant :
∀x ∈ Rd , cg(x) ≥ f (x).
Soit X une variable aléatoire de densité g (par rapport à µ) et U une variable
aléatoire de loi uniforme sur[0, 1], indépendante de X . Alors la loi condition-
nelle de X sachant l'événement {cU g(X) < f (X)}, a pour densité f par
rapport à µ.
7
Démonstration. On cherche la loi conditionnelle de X sachant l'évènement
A = {cU g(X) < f (X)},
donc c 6= 0 et cg(x)
f (x)
≤ 1.
D'autre part, le support de f est inclus dans le support de g , alors
P (X ∈ B/A) = c P ({X ∈ B} ∩ A)
Z Z f (x)
cg(x)
=c g(x)( du)dµ(x)
{x,g(x)>0}∩B 0
8
L'algorithme de simulation de la méthode de rejet est alors :
répéter
simuler X de densité g
U ← Random
jusqu'à (cU g(X) < f (X)).
P (N = k) = (1 − p)k−1 p,
d'après la preuve de la proposition précédente nous avons :
1
p = P (cU g(X) < f (X)) = .
c
L'espérance de N c'est-à-dire le nombre moyen d'itération à eectuer avant
d'obtenir une réalisation de la densité f vaut c.
E(N ) = c.
9
si U < 1
2
X ← ln(2U )
sinon
X ← − ln(2(1 − U )).
f (x) ≤ c g(x),
10
(x, y) −→ (r, θ)
r et θ les coordonnées polaires associées à (x,y), alors φ est bijective.
donc
1 1
f(R,Θ) (r, θ) = r exp(− r2 )1R+ (r)1[0,2π] .
2π 2
Alors on déduit que R et Θ sont indépendantes, De plus fR (r) = r exp(−r2 /2)1R+ (r),
et Θ suit la loi uniforme sur [0, 2π].
L'algorithme
p de simulation peut alors être formulé :
R ←− (−2 ln(Random))
Θ ←− 2πRandom
X ←− R cos Θ
Y ←− R sin Θ.
11
Soit h : R −→ R mesurable bornée ou positive, posons Z = R2
E(h(Z)) = E(h(R2 ))
Z
= h(r2 )fR (r)dr
ZR
−r 2
= rh(r2 )e 2 1R+ (r)dr,
R
12
Figure 3 50 observations du couple de variables indépendantes N (0, 1).
Carlo.
I = E(g(X)),
13
que l'on peut simuler. le théorème de la limite centrale précise la vitesse de
convergence.
Théorème 3.1. : limite centrale
Soit (Xn )n≥1 une suite de variables aléatoires réelles, indépendantes et de
même loi avec E(X12 ) < ∞, alors
Sn − nE(X1 )
√
nσX1
converge en loi vers une variable N (0, 1).
Démonstration. Supposons au départ que E(X1 ) = 0 et V ar(X1 ) = 1,
Sn − nE(X1 ) Sn
√ =√ ,
nσX1 n
a comme fonction caractéristique :
Sn
it √
X 1
it √n t
ϕ√
Sn (t) = E(e n ) = (E(e ))n = (ϕX1 ( √ ))n .
n n
X1 à carré intégrable, nous pouvons donc dériver deux fois sa fonction ca-
ractéristique
0
ϕX1 (0) = 0, ϕ”X1 (0) = −1
pour tout u au voisinage de 0, un développement limité de la fonction carac-
téristique donne
u2
ϕX1 (u) = 1 − + ◦(u2 ).
2
Donc
t n
Sn (t) = lim (ϕX1 ( √ ))
lim ϕ √
n→∞ n n→∞ n
u 2 u2
= lim (1 − + ◦( ))n
n→∞ 2n n
t2
= e− 2 ,
qui est la fonction caractéristique d'une loi N (0, 1). On en déduit alors la
convergence en loi de √Sn
n
vers la loi gaussienne centrée réduite.
Si E(X1 ) 6= 0 ou V ar(X1 ) 6= 1, posons pour tout i ∈ N,
Xi − E(Xi )
Yi = ,
σXi
les Yi sont des variables centrées réduites, on applique alors la première partie
de la démonstration.
14
Par le théorème de la limite centrale nous avons :
∀ h : R −→ R mesurable bornée avec P (N ∈ D) = 0, où N est une variable
aléatoire réelle de loi N (0, 1), et D l'ensemble des point de discontinuité de
h,
√ n Z +∞
n 1X 1 x2
lim E(h( ( g(Xk ) − E(g(X1 ))))) = h(x) √ e− 2 dx,
n→∞ σ n −∞ 2π
1
σ = σg(X1 ) .
Alors pour tous réels a et b avec a < b, nous avons aussi
n Z b
σ 1X σ 1 x2
lim P (a √ ≤ g(Xk ) − E(g(X1 )) ≤ b √ ) = √ e− 2 dx.
n→∞ n n n a 2π
1
La vitesse de convergence est en √1n , ce qui n'est pas très rapide, mais c'est
parfois la seule méthode accessible, car elle ne dépend pas de la régularité de
la fonction intégrée de plus la vitesse ne change pas si nous sommes en grande
dimension. L'erreur de la méthode de Monte-Carlo est souvent présentée soit
en donnant leur écart-type, c'est à dire √σn , soit en donnant l'intervalle de
conance à 95%. De la table de la fonction de répartition de la loi gaussienne
centrée réduite, nous avons :
n
1X σ
P (| g(Xk ) − E(g(X1 ))| ≤ 1.96 √ ) ' 0.95,
n n
1
Il faut se souvenir que la variance σ 2 n'est pas plus connue que la so-
lution cherchée E(g(X1 )). Nous pouvons alors faire une estimation de cette
variance.
Estimation de la variance
15
et c'est un estimateur sans biais de σ 2 .
L'inégalité de Chebychev donne une estimation de la probabilité que la
moyenne empirique soit loin de l'espérance, mais c'est une estimation
très grossière, et peut être nettement améliorée par l'inégalité de Hoeding.
Théorème 3.2. : Hoeding
Soit (Xn )n≥1 une suite de variables aléatoires indépendantes. Supposons que
pour tout i, il existe ai , bi ∈ R tels que ai ≤ Xi ≤ bi . Alors pour tout c > 0,
n n
X X −2c2
P (| Xi − E( Xi )| ≥ c) ≤ 2 exp( Pn 2
).
1 1 1 (bi − ai )
remplaçons x par
Pn
1 (Xi − E(Xi )) − c
Pn
1Pn1 (Xi −E(Xi ))−c≥0 ≤ eh( 1 (Xi −E(Xi ))−c) ,
prenons l'espérance
n
X Pn
P ( (Xi − E(Xi )) ≥ c) ≤ e−hc E(eh( 1 (Xi −E(Xi )) ),
1
Posons alors
Yi = Xi − E(Xi ),
et montrons que
h2
(bi −ai )2
E(ehYi ) ≤ e 8 .
Pour tout i ≥ 1,
ai − E(Xi ) ≤ Yi ≤ bi − E(Xi ),
que l'on peut réécrire sous la forme
16
avec
Yi − bi + E(Xi ) bi − Xi
αi = = .
ai − bi bi − ai
D'autre part, la fonction x 7−→ ehx est convexe, alors
ce qui implique
hi bi − E(Xi ) ai − E(Xi ) hi
avec Li (hi ) = (ai − E(Xi )) + ln( − e ).
bi − ai bi − ai bi − ai
Posons
E(Xi ) − ai
pi = ,
bi − ai
Li (hi ) = −pi hi + ln((1 − pi ) + pi ehi ).
Le développement de Taylor Lagrange d'ordre 1 de Li au voisinage de 0
donne
17
donc
0 L”i (ξi ) 2
Li (hi ) = Li (0) + Li (0)hi + hi , ξi ∈]0, hi [
2
L”i (ξi ) 2
= hi .
2
Pour montrer
h2
(bi −ai )2
E(ehYi ) ≤ e 8 ,
il sut de vérier que
1
L”i (ξi ) ≤ .
4
pi ), en eet :
La fonction L”i possède un maximum au point ln( 1−p i
(3) pi (1 − pi )eu (1 − pi − pi eu )
Li (u) = ,
(1 − pi + pi eu )3
(4) 1 − pi
Li (ln( )) = −2(1 − pi ) < 0.
pi
Ainsi
1 − pi (1 − pi )2 1
∀u ∈ R, L”i (u) ≤ L”i (ln( )) = 2
= .
pi 4(1 − pi ) 4
Il en découle alors
n n
X Y 1 2 2
−hc
P ( (Xi − E(Xi )) ≥ c) ≤ e e 8 h (bi −ai )
1 1
h2 Pn 2
= e−hc+ 8 1 (bi −ai ) .
18
Posons n
h2 X
g(h) = −hc + (bi − ai )2 ,
8
1
n
0 h X
g (h) = −c + (bi − ai )2 ,
4
1
g (h) = 0 implique
0
4c
h0 = Pn 2
1 (bi − ai )
,
n
1X
g ” (h) = (bi − ai )2 ≥ 0,
4
1
19
4 Méthode de Monte-Carlo par Chaînes de Mar-
kov.
Dénition 4.1. On dit qu'une suite de variables aléatoires (Xn )n∈N , à va-
leurs dans (E, P(E)) et dénie sur un espace probabilisé (Ω, A, P ), est une
chaîne de Markov si, pour tout (n + 1) uplet (i0 , ..., in ) de points de E tel que
P (∩n−1
j=0 {Xj = ij }) > 0,
P {Xn = in / ∩n−1
j=0 {Xj = ij }} = P {Xn = in /Xn−1 = in−1 } (1)
Autrement dit, la loi de Xn conditionnellement à (X0 , ..., Xn−1 ) et la loi de
Xn conditionnellement à Xn−1 sont identiques.
On appelle E l'espace des états. La loi de X0 est appelé la loi ou la mesure
initiale, et l'égalité (1) s'appelle propriété de Markov.
20
Dénition 4.2. On dit qu'une chaîne de Markov (Xn )n∈N est homogène si,
pour tout couple (i, j) de points de E , P (Xn+1 = j/Xn = i) est indépendant
de n, n décrivant l'ensemble des entiers pour lesquels P (Xn = i) > 0.
Dénition 4.3. Une matrice M = (Mij )i,j∈E est une matrice stochastique
si elle vérie
(i) MP ij ≥ 0 pour tout i, j ∈ E
(ii) j∈E Mij = 1 pour tout i ∈ E
Proposition 4.1. Le produit de deux matrices stochastiques est encore une
matrice stochastique.
Démonstration. Soient A = (aij )i,j∈E et B = (bij )i,j∈E deux matrices sto-
chastiques, montons que AB = (cij )i,j∈E est une matrice stochastique,
pour tout i, j ∈ E , X
cij = aik bkj ,
k∈E
on a
i- cP
ij ≥ 0,
ii- j∈E cij = j∈E k∈E aik bkj = k∈E (aik j∈E bkj ) = 1,
P P P P
donc AB est une matrice stochastique.
Soit (Xn )n∈N une chaîne de Markov homogène. On note alors pi,j la va-
leur commune des P (Xn+1 = j/Xn = i) et P = (pij )i,j∈E . La matrice P est
appelée matrice de transition de la chaîne, et c'est une matrice stochastique.
Dans la suite, X = (Xn )n≥0 est une chaîne de Markov homogène, dénie
sur un espace probabilisé (Ω, A, P), à valeurs dans (E, P(E)), de matrice de
transition P = (pij )i,j∈E et de loi initiale π0 .
Théorème 4.1. :
1− Pour tout n ≥ 1 et tous i0 , ..., in ∈ E ,
P (X0 = i0 , ..., Xn = in ) = π0 (i0 )pi0 i1 ...pin−1 in .
2− Pour tous A0 , ..., An−1 , B1 , ..., Bm ∈ P(E), i ∈ E
P (Xn+1 ∈ B1 , ..., Xn+m ∈ Bm /X0 ∈ A0 , ..., Xn−1 ∈ An−1 , Xn = i)
21
Démonstration . Le point 1 du théorème :
P (X0 = i0 , ..., Xn = in )
Le point 2 :
22
Démonstration. i- Elle se fait par récurrence, pour n = 1
P (X1 = j) = P (X1 = j, Ω)
X
= P (X1 = j, X0 = k)
k∈E
X
= P (X1 = j/X0 = k)P (X0 = k)
k∈E
X
= π0 (k)pkj .
k∈E
On suppose qu'elle est vraie pour n xé, et on montre qu'elle est vraie pour
n + 1,
P (Xn+1 = j) = P (Xn+1 = j, Ω)
X
= P (Xn+1 = j, Xn = i)
i∈E
X
= P (Xn+1 = j/Xn = i)P (Xn = i)
i∈E
X X
= pij π0 (k)pnki
i∈E k∈E
X
= π0 (k)pn+1
kj .
k∈E
23
X
iii − P (Xn+m = j/X0 = i) = P (Xn+m = j, Xn = k/X0 = i)
k∈E
X
= P (Xn+m = j/Xn = k)P (Xn = k/X0 = i)
k∈E
X
= P (Xm = j/X0 = k)P (Xn = k/X0 = i).
k∈E
Notation 4.1. :
Soit A ∈ P(E),
TA = inf{n > 0, Xn ∈ A}.
(k) (k−1)
TA = inf{n > TA , Xn ∈ A}.
.
Soient i, j ∈ E
ρij = P (Tj < ∞/X0 = i) = Pi (Tj < ∞).
X
Ni = 1{Xn =i} .
n≥1
24
Remarque 4.2. :
1− ∀ i, j ∈ E
ρij > 0 ⇐⇒ ∃n ≥ 1, pnij > 0.
En eet :
ρij > 0 ⇐⇒ Pi (Tj < ∞) > 0
⇐⇒ Pi (∪n≥1 {Xn = j}) > 0
⇐⇒ ∃n ≥ 1, Pi (Xn = j) > 0
⇐⇒ ∃n ≥ 1, pnij > 0. par le point 2 du corollaire 4.1
2− Si E est irréductible, la chaîne est dite irréductible.
3− Si tous les états sont récurrents la chaîne est dite récurrente. Elle est
dite transiente si les états sont transients.
4− La relation ” ” est une relation d'équivalence sur l'ensemble des états
récurrents, en eet :
Soient i, j, k des états récurrents. Commençons par ” ” réexive, on a
ρii = 1,
implique
i i.
Pour ” ” symétrique, montrons que si i j alors j i
i j ⇐⇒ ∃n ≥ 1, pnij > 0,
on a
pnij Pj (Ti = ∞) ≤ Pi (Ti = ∞) = 0,
car l'ensemble des trajectoires qui passent de l'états i à l'états j en n étapes,
puis qui n'atteignent jamais i est inclus dans l'ensemble des trajectoires qui
partant de i n'atteignent jamais i, ainsi
Pj (Ti = ∞) = 0,
implique
Pj (Ti < ∞) = ρji = 1,
alors j i.
Il reste à montrer ” ” est transitive, on a :
i j et j k , montrons que i k
i j ⇐⇒ ∃n ≥ 1, pnij > 0,
25
j k ⇐⇒ ∃m ≥ 1, pm
jk > 0,
pn+m
ik ≥ pnij pm
jk > 0,
donc i → k.
Dénition 4.8. Soit i un état récurrent, on note Ei (Ti ) = E(Ti /X0 = i),
i− i est dit récurrent positif si Ei (Ti ) < ∞.
ii− i est dit récurrent nul si Ei (Ti ) = +∞.
Dénition 4.9. Soit µ une mesure positive sur E , on note aussi par µ le
vecteur ligne (µ{i}, i ∈ E). µ est dit mesure invariante de la chaîne si
µP = µ.
mij = Ei (Tj ), i, j ∈ E
Pour i ∈ E , on a
Nn (j) ρij
lim Ei ( )= .
n→∞ n mjj
Théorème 4.3. Soit (Xn )n≥0 une chaîne de Markov homogène, irréductible
récurrente positive de matrice de transition P , alors (Xn )n≥0 admet une loi
invariante π, donnée par :
1
π({i}) = .
mii
26
Démonstration. Supposons d'abord que (Xn )n≥0 admet une loi invariante π,
et montrons que
1
π(i) = , ∀i ∈ E
mii
π loi invariante, elle vérie :
π = πP,
c'est-à-dire pour tout i ∈ E ,
X
π(i) = π(j)pji ,
j∈E
ainsi X XX
1= π(i) = π(j)pji ,
i∈E i∈E j∈E
on a
n n
X 1 X m 1 XX
π(j)( pji ) = π(j)pm
ji
n n
j∈E m=1 m=1 j∈E
n X
1 X
= π(j)P (Xm = i/X0 = j)
n
m=1 j∈E
n X
1 X
= P (Xm = i, X0 = j)
n
m=1 j∈E
n
1 X
= π(i)
n
m=1
= π(i),
or
n n
1 X m 1 X
lim pji = lim P (Xm = i/X0 = j)
n→∞ n n→∞ n
m=1 m=1
n
1 X
= lim Pj (Xm = i)
n→∞ n
m=1
n
1 X
= lim Ej (1Xm =i )
n→∞ n
m=1
Nn (i)
= lim Ej ( )
n→∞ n
ρji
= , d'après le théorème 4.2.
mii
27
ρji = 1, en eet :
(Xn )n≥0 chaîne de Markov irréductible, alors
∀i, j ∈ E, i j ou j i,
∀i, j ∈ E, i j et j i,
i j ⇐⇒ ∃n ≥ 1, pnij > 0,
on a
pnij Pj (Ti = ∞) ≤ Pi (Ti = ∞) = 0,
ainsi
Pj (Ti = ∞) = 0,
implique
Pj (Ti < ∞) = ρji = 1
.
Par passage à la limite quand n tend vers l'inni dans l'équation
n
X 1 X m
π(j)( pji ) = π(i),
n
j∈E m=1
on trouve X 1
π(j) = π(i),
mii
j∈E
implique
1
π(i) = .
mii
Montrons maintenant l'existence de la loi invariante, soit E1 ⊂ E ni, on a :
X 1 Xn n
1 X X m
( pm
ji ) = ( pji )
n n
i∈E1 m=1 m=1 i∈E1
n X
1 X
≤ ( pm
ji )
n
m=1 i∈E
= 1,
28
on prend la limite quand n tend vers l'inni, on obtient
X 1
≤ 1,
mii
i∈E1
D'autre part,
X 1 Xn n
m 1 X X m
( pki )pij = ( pki pij )
n n
i∈E1 m=1 m=1 i∈E1
n X
1 X
≤ ( pm
ki pij )
n
m=1 i∈E
n
1 X
= pm+1
kj ,
n
m=1
quand n −→ ∞, on a
X 1 1
pij ≤ ,
mii mjj
i∈E1
en sommant sur j ,
X 1 X 1
≤ ,
mii mjj
i∈E j∈E
or X 1 X 1
= ,
mii mjj
i∈E j∈E
donc les inégalités précédentes sont des égalités, on pose π(i) = mii ,
1
X
π(i)pij = π(j),
i∈E
29
Dénition 4.10. Soit π une loi de probabilité sur E . La matrice de transi-
tion P est dite réversible par rapport à π si
π({i})pij = π({j})pji ,
pour tout i, j ∈ E .
Proposition 4.2. Si P est réversible par rapport à π alors π est une proba-
bilité invariante.
Démonstration. Pour montrer que π est une probabilité invariante, il sut
de montrer que : X
∀i ∈ E, π({i}) = π({j})pji .
j∈E
= π({i}).
et
∃l ≥ 1, plji > 0,
ainsi
pk+l k l
ii ≥ pij pji > 0,
30
alors di divise k + l.
Soit n ≥ 1 tel que pnjj > 0
pk+l+n
ii ≥ pkij pnjj plji > 0,
donc di divise k + l + n.
On a di divise k + l et divise k + l + n, donc divise n, ce qui implique que
di ≤ dj ,
Conséquence 4.1. Si (Xn )n≥0 est une chaîne de Markov irréductible récur-
rente, alors
∀i, j ∈ E di = dj = d.
d est appelé la période de la chaîne, si d = 1 la chaîne est dite apériodique.
π.
Théorème 4.5. Soit (Xn )n≥0 une chaîne de Markov sur E irréductible ré-
currente positive, π la loi invariante
R de la chaîne alors pour toute fonction
f dénie sur E telle que f ≥ 0 ou f (x)dπ(x) < ∞, on a :
n Z
1X
f (Xk ) −→ f (x)dπ(x) p.s
n
1
31
Algorithme de Metropolis
Dans de nombreux cas, la loi π que l'on cherche à simuler n'est pas donnée
a priori comme la mesure invariante d'une chaîne de Markov. l'algorithme
de Metropolis produit une chaîne de Markov réversible par rapport à π .
On se donne une matrice de transition markovienne Q sur E , appellée matrice
de sélection, telle que pour tout couple (i, j) ∈ E
pour i 6= j , et X
pii = 1 − pij
i6=j
32
Si U < R(Xn , y) accepter la sélection.
Xn+1 = y.
Sinon refuser la sélection
Xn+1 = Xn .
5 Conclusion
33
6 Annexe
34
Donc, par linéarité de l'espérance, indépendance et centrage des Xi ,
X X X
E(Sn4 ) = E(Xi4 ) + 4 E(Xi3 )E(Xj ) + 3 E(Xi2 )E(Xj2 )
1≤i≤n 1≤i6=j≤n 1≤i6=j≤n
X X
+6 E(Xi )E(Xj )E(Xk2 ) + E(Xi )E(Xj )E(Xk )E(Xl )
1≤i,j,kdistincts≤n 1≤i,j,k,ldistincts≤n
est convergente, ce qui donne la convergence de la serie n≥1 P (|Sn | > nδ).
P
35
Par le point précédent Tnn converge p.s. vers 0, car les Yi sont indépendantes,
de même loi , centrées et étagées ( étagées donc dansL4 ). Donc il sut de
montrer que :
1 X
lim sup |Xi − Yi |,
n→∞ n
1≤i≤n
1 X
= P( max Zi ≥ 2E(Z1 ) + δ, (∪1≤i≤2k+1 {Zi ≤ 2k }) ∪ (∪1≤i≤2k+1 {Zi > 2k }))
2k <n≤2k+1 n
1≤i≤n
1 X
≤ P ( max Zi ≥ 2E(Z1 ) + δ, ∪1≤i≤2k+1 {Zi ≤ 2k })
2k <n≤2k+1 n
1≤i≤n
1 X
+ P ( max Zi ≥ 2E(Z1 ) + δ, ∪1≤i≤2k+1 {Zi > 2k })
2k <n≤2k+1 n
1≤i≤n
1 X
≤ P ( max Zi ≥ 2E(Z1 ) + δ, ∪1≤i≤2k+1 {Zi ≤ 2k }) + P (∪1≤i≤2k+1 {Zi > 2k })
2k <n≤2k+1 n
1≤i≤n
1 X
= P ( max Zi 1[0,2k ] (Zi ) ≥ 2E(Z1 ) + δ) + P (∃i ∈ {1, 2, ..., 2k+1 } : Zi > 2k ).
k
2 <n≤2 k+1 n
1≤i≤n
Nous avons
1 X 1 X
max Zi 1[0,2k ] (Zi ) ≤ max max Zi 1[0,2k ] (Zi )
2k <n≤2k+1 n 2k <n≤2k+1 n 2k <n≤2k+1
1≤i≤n 1≤i≤n
1 X
= k Zi 1[0,2k ] (Zi ),
2 k+1
1≤i≤2
Ce qui implique
1 X 1 X
{ max Zi 1[0,2k ] (Zi ) ≥ 2E(Z1 )+δ} ⊂ { k Zi 1[0,2k ] (Zi )) ≥ 2E(Z1 )+δ}.
2k <n≤2k+1 n 2
1≤i≤n 1≤i≤2k+1
De plus on a
k+1
2X k+1
2X
k+1 k
{ Zi 1[0,2k ] (Zi ) ≥ 2 E(Z1 )+2 δ} ⊂ { Zi 1[0,2k ] (Zi ) ≥ 2k+1 E(Z1 1[0,2k ] (Z1 ))+2k δ}
1 1
36
Donc
2 k+1
1 X
P( max Zi > 2E(Z1 ) + δ)
2k <n≤2k+1 n
1
X
≤ 2k+1 P (Z1 > 2k ) + P ( Zi 1[0,2k ] (Zi ) ≥ 2k+1 E(Z1 ) + 2k δ)
1≤i≤2k+1
X
≤ 2k+1 P (Z1 > 2k ) + P ( [Zi 1[0,2k ] (Zi ) − E(Zi 1[0,2k ] (Zi ))] ≥ 2k δ).
1≤i≤2k+1
37
De plus
X X
2−k E(Z12 1[0,2k ] (Z1 )) = E(Z12 2−k 1[0,2k ] (Z1 ))
k≥0 k≥0
≤ 4E(Z1 ).
En eet :
pour chaque ω soit 0 ≤ Z1 (ω) ≤ 1 ou bien ∃p ≥ 0/ 2p < Z1 (ω) ≤ 2p+1 ,
pour 2p < Z1 (ω) ≤ 2p+1
X X
Z12 (ω) 2−k 1[0,2k ] (Z1 (ω)) = Z12 (ω) 2−k 1[0,2k ] (Z1 (ω))
k≥0 k≥p+1
X
≤ 22p+2 2−k = 2p+2
k≥p+1
≤ 4Z1 (ω),
< ∞,
38
puisque δ est arbitraire,
1 X
lim sup Zi ≤ 2E(Z1 ).
n→∞ n
1≤i≤n
39
Références
40