Cours Simulation Aléatoire
Cours Simulation Aléatoire
Simulations aléatoires
2023-2024
2
Chapitre I
3
4 CHAPITRE I. SIMULATION DE V.A. ET MÉTHODE DE MC (2 SEMAINES)
linéaire comme
Xn+1 = 16807Xn ( mod 231 − 1)
(Ici, 2−31 Xn suit approximativement la loi uniforme sur [0, 1]). Le premier terme X0 de la
suite est appelé la graine (en anglais, seed) de l‘algorithme.
Remarque : Il existe également des moyens d’introduire du “vrai hasard” dans la géné-
ration de nombres pseudo-aléatoires, an utilisant des éléments extérieurs au programme :
par exemple, on peut utiliser l’horloge de l’ordinateur, ou des phénomènes physiques (ra-
dioactivité, phénomènes quantiques, etc.)
En général, la graine est fixée en fonction du nombre de millisecondes de l’horloge de
l’ordinateur au moment où l’on commence la simulation (seed(a = None)). Attention, on
n’utilise cette méthode que pour la graine, tandis que les tirages suivants s’en déduiront :
c’est une forme de compromis entre l’aléas pur et le déterminisme.
A partir de maintenant, nous allons supposer que le problème de la génération de
nombres aléatoires est résolu et donc que nous avons le moyen de simuler une suite arbi-
trairement longue de variables aléatoires indépendantes, uniformes sur [0, 1] en utilisant
successivement la même fonction uniform(). On va maintenant décrire le moyen de simuler
des variables suivant d’autres lois.
Ainsi, pour simuler une variable aléatoire X ∼ B(n, p), on commence par tirer n va-
riables aléatoires U1 , . . . , Un indépendantes uniformes sur [0, 1], puis on construit les n
variables de Bernoulli Yk = 1[0,p] (Uk ) , pour 1 ≤ k ≤ n et on pose enfin X = Y1 + · · · + Yn .
Alors, X est une variable aléatoire de loi discrète P = p1 δx1 + p2 δx2 + · · · + pn δxn .
Proposition 2.2. Si U est une variable uniforme sur [0, 1], alors a+(b−a)U est uniforme
sur [a, b].
Exemple 2 : On veut simuler une v.a. à valeurs dans [0, 1] et de densité 2x. On se rend
compte que si U1 et U2 sont deux variables indépendantes et uniformes sur [0, 1], alors
max(U1 , U2 ) a la bonne densité (calculer la fonction de répartition). On en déduit qu’il
suffit de prendre le maximum entre deux uniformes pour simuler notre v.a.
6 CHAPITRE I. SIMULATION DE V.A. ET MÉTHODE DE MC (2 SEMAINES)
Exemple 3 : Si V est uniforme sur [0, π/2], calculons la loi de sin2 (V ). Pour toute
fonction mesurable bornée g, on a
2 π/2
Z
2
E[sin (V )] = g(sin2 (θ))dθ
π 0
2 1 √
Z
= g(x)d arcsin( x)
π 0
2 1
Z
1 1
= g(x) √ q dx
π 0 2 x √ 2
1− x
Z 1
1
= g(x) p dx.
0 π x(1 − x)
On en déduit que si U est uniforme sur [0, 1], sin2 (πU/2) suit la loi sur [0, 1], de densité
p
x 7→ 1/(π x(1 − x)), c’est à dire la loi beta de paramètres 1/2 et 1/2. Cette loi est
également appelée loi de l’arc sinus, car sa fonction de répartition fait intervenir la fonction
x 7→ arcsin x.
Proposition 2.3. Si U et V sont deux variables indépendantes uniformes sur [0, 1], alors
√ √
( U cos(2πV ), U sin(2πV )) est uniforme sur le disque unité.
On rappelle que F est croissante, continue à droite, admet une limite à gauche en tout
point, tend vers 0 en −∞ et vers 1 en +∞.
On remarque en particulier que G(t) est finie à cause des limites de F en ±∞.
Quelques propriétés
Proposition 2.6. Soit U une variable aléatoire uniforme sur [0, 1], alors, la variable
aléatoire G(U ) suit la loi µ.
Démonstration. Si U est uniforme sur [0, 1], U est presque sûrement dans (0, 1), donc la
variable aléatoire G(U ) est bien définie.
Calculons maintenant la fonction de répartition de la variable G(U ).
Corollaire 2.7. Si (Xn )n≥1 sont indépendantes, uniformes sur [0, 1], alors (G(Xn ))n≥1
sont indépendantes uniformes de loi µ.
Proposition 2.8. Si Un est une variable uniforme sur [0, 1], et λ > 0, alors on a
−(1/λ) log(Un ) est une suite de v.a. indépendantes de loi exponentielle de paramètre λ.
1
u = 1 − e−λt ⇔ t = − log(1 − u).
λ
On en déduit donc que si U suit une loi uniforme alors −1/λ log(1 − U ) suit une loi
exponentielle.
Il reste à remarquer que si U suit une loi uniforme sur [0, 1] alors 1 − U également, on
en déduit donc la proposition.
ce qui prouve que −(1/λ) log(Xn ) est une variable exponentielle de paramètre λ.
Proposition 2.9. Si N, X1 , · · · , Xn sont des v.a. réelles avec N à valeurs dans {1, · · · , n}
de masses α1 , . . . , αn ≥ 0 et indépendante des autres, alors la v.a. XN a pour loi
α1 PX1 + . . . + αn PXn .
Mélange de loi
On simule une réalisation k de N à valeurs dans {1, · · · , n} de probas α1 , . . . , αn ,
puis on simule X de loi µk .
Par exemple, la loi µ sur R de densité ρ par rapport à la mesure de Lebesgue, avec
2 √ 2 √
ρ(x) = e−x /2 / 8π si x ∈/ [0, 1] et ρ(x) = (1/2) + e−x /2 / 8π si x ∈ [0, 1], est la demi-
somme de la loi uniforme sur [0, 1] et de la loi gaussienne centrée réduite. On en déduit
que si Z1 , Z2 , J sont des variables indépendantes, respectivement uniforme sur [0, 1],
gaussienne centrée réduite et uniforme sur {1, 2}, alors ZJ suit la loi µ.
On peut généraliser la proposition précédente pour un mélange infini de lois :
Proposition 2.10. Si (Xt )t∈R sont des v.a. réelles de densités ft , et si T est une variable
v.a. réelle de densité g, et indépendante des (Xt )t∈R , alors la v.a. XT a pour densité
Z
x 7→ ft (x)g(t)dt.
R
Mélange de loi
On simule une réalisation t de T , puis on simule X de densité ft .
10 CHAPITRE I. SIMULATION DE V.A. ET MÉTHODE DE MC (2 SEMAINES)
Conditionnement par A
On répète la même simulation et on garde uniquement les valeurs qui vérifient A
On a
P[K = n] = (1 − P[A])n−1 · P[A],
donc K est un temps aléatoire qui suit une loi géométrique de paramètre P[A] (espérance
1/P[A]). Donc plus A est probable, et plus la simulation est rapide.
donc la loi de X uniforme sur B sachant que X ∈ C ⊂ B est en fait la loi uniforme sur
C.
et η = µ(·|A) où
A = (x2 + y 2 ≤ 1 .
On rejette donc avec probabilité 1 − π/4 ' 0.21 soit un peu plus de 20 pourcent des
indices.
b) Méthode du rejet
f (x) ≤ c · g(x)
12 CHAPITRE I. SIMULATION DE V.A. ET MÉTHODE DE MC (2 SEMAINES)
Méthode du rejet
On simule plusieurs fois Y de densité g et U uniforme jusqu’à ce que cU g(Y ) ≤ f (Y ).
La dernière variable Y suit la loi de X de densité f .
Pour avoir un algorithme aussi rapide que possible, il est souhaitable de ne pas trop rejeter
d’indices, et donc que c soit aussi petit que possible. L’optimum est en prenant pour c le
maximum de ρ mais dans certains cas il n’est pas facile à calculer, on se contente alors
d’un majorant “raisonnable”.
Pour la méthode de rejet on peut choisir comme loi auxiliaire, la loi d’un produit
d’une variable exponentielle de paramètre λ > 0 (simulée précédemment) par une variable
uniforme sur {−1, 1}. Cette loi a pour densité par rapport à la mesure de Lebesgue
λ −λ|x|
f (x) = e .
2
2. SIMULATIONS DE VARIABLES ALÉATOIRES SUR R 13
En effet,
1 1
E(φ(sE)) = E(φ(−E)) + E(φ(E))
2Z 2
1 ∞ 1 ∞
Z
= φ(−x)λ exp(−λx)dx + φ(x)λ exp(−λx)dx
2 0 2 0
Ainsi, la densité r
f (x) 2 1 λ|x|−x2 /2
ρ(x) = = e ,
g(x) πλ
dont le maximum est obtenu pour x = q±λ 2(étudier le logarithme de ρ). Ce maximum
λ /2
peut être pris pour c et on a alors c = π2 e λ .
Afin d’optimiser la méthode, il faut choisir c pour avoir une probabilité de rejet la
plus faible possible. On rappelle que la probabilité de rejet vaut 1 − 1/c, c’est à dire qu’on
souhaite minimiser c (ou de manière équivalente, on minimise son logarithme). Le choix
de λ optimisant c est λ = 1, qui donne c ' 1.31 et une probabilité de rejeter de l’ordre
de 24%.
Proposition 2.13 (Méthode de Box and Müller). Si U, V sont des indépendantes uni-
formes sur [0, 1], alors les variables aléatoires définies par
p p
−2 log(U ) cos(2πV ) et −2 log(U ) sin(2πV )
On voit ainsi que l’on obtient ainsi la loi de deux variables indépendantes, l’une S ex-
ponentielle de paramètre 1 et l’autre uniforme θ sur [0, π). Pour conclure il suffit de
rappeller qu’on peut obtenir une variable exponentielle à partir d’une variable uniforme
√
U par − log(U ). En utilisant le changement de variable x = r cos(θ) = 2s cos(θ) et
√
y = 2s sin(θ), on en déduit que si U et V sont deux variables indépendantes, uniforme
p p
sur [0, 1], alors −2 log(U ) cos(2πV ) et −2 log(U ) sin(2πV ) sont deux variables gaus-
siennes centrées réduites indépendantes.
Toutes les variables gaussiennes à valeurs réelles peuvent être immédiatement obtenues
à partir de variables gaussiennes centrées réduites.
Proposition 2.14. Soit X est une variable gaussienne centrée réduite, alors σX + µ est
une variable gaussienne de moyenne µ et de variance σ 2 .
Ceci rejoint parfaitement l’intuition qu’on a d’une probabilité P[X ∈ A] : c’est la propor-
tion de X qui tombe dans A lorsqu’on tire un grand nombre de fois X.
Méthode de Monte-Carlo
On simule X1 , . . . , XN indépendantes de même loi que X. La proportion
1
Card {n entre 1 et N tels que Xn ∈ A}
N
d’incides tels que Xn ∈ A est une approximation de P[X ∈ A].
Pour estimer
|A|, il suffit donc d’estimer P[X
∈ A] ce qui revient à calculer la proportion
1
N
Card {n entre 1 et N tels que Xn ∈ A} pour Xn points tirés uniformément dans |B|.
avec probabilité supérieureà P [|Z| ≤ a], la vraie valeur P[X ∈A] appartient à l’intervalle
aléatoire de centre N1 Card {n entre 1 et N tels que Xn ∈ A} et de demi-largeur 2√aN .
Par exemple, pour a = 1, 96 de telle sorte que P [|Z| ≤ a] ' 1, 96, ceci donne :
P[X ∈ A] = |A|/|B|
0,98
centré en N1 Card {n entre 1 et N tels que Xn ∈ A} et de demi-largeur √ .
N
Pour en
faire un intervalle de confiance pour |A|, il suffit de le multiplier par |B|.
Chapitre II
1 Définitions et simulations
Définition 1.1. Une variable aléatoire gaussienne centrée réduite est une variable
aléatoire réelle de densité 2
1 x
f (x) = √ exp − .
2π 2
Une variable aléatoire gaussienne est une variable aléatoire X = µ + σZ avec µ, σ ∈ R
et Z une variable aléatoire gaussienne centrée réduite. On note X ∼ N (µ, σ 2 ). Si σ 6= 0,
la densité de X est alors
(x − µ)2
1
f (x) = √ exp − .
2πσ 2 2σ 2
Rappelons que pour simuler une variable aléatoire centrée réduite, on peut utiliser
la méthode de Box-Müller : si U, V sont des indépendantes uniformes sur [0, 1], alors les
variables aléatoires définies par
p p
−2 log(U ) cos(2πV ) et −2 log(U ) sin(2πV )
17
18 CHAPITRE II. MODÈLE GAUSSIEN (2 SEMAINE)
2 Estimateur et conditionnement
Etant donné un couple de v.a. (X, Y ), on souhaite estimer X en observant Y . Une
stratégie naturelle est de prendre, parmi les fonctions f (Y ) de Y , la variable aléatoire
f (Y ) qui minimise l’erreur quadratique
Définition 2.2. Etant donné une variable aléatoire X et un vecteur Y de variables aléa-
toires, on appelle espérance conditionnelle de X sachant Y la projection orthogonale de
X sur L2 (Y ), c’est-à-dire la seule variable aléatoire E(X|Y ) ∈ L2 (Y ) qui vérifie
E (X − E(X|Y ))Z = 0
pour tout Z ∈ L2 (Y ).
La première partie nous dit que la projection est en fait une projection sur un espace
vectoriel de dimension fini, ce qui rend les calculs plus faciles.
X − µX + ΣXY Σ−1
T
E Y (Y − µY ) Y
=0
Grace à la remarque précédente, on en déduit que les deux vecteurs ont une coviariance
nulle, et comme le vecteur est gaussien, cela signifie que les coordonnées sont indépen-
dantes des Yi .
Chaque coordonnée est alors indépendantes de toute variable aléatoire Z ∈ L2 (Y ). On
a donc
E (Xi − E(Xi |Y ))Z = 0
pour tout Z ∈ L2 (Y ), comme voulu.
Démonstration. Le caractère gaussien vient du fait que tout est combinaison linéaire d’un
vecteur gaussien. Ensuite, il suffit de calculer explicitement la covariance.
!
X
Résumé Dans le cadre des vecteurs gaussiens on peut écrire
Y
X = E(X|Y ) + X − E(X|Y )
Comme corollaire, on peut donc obtenir des intervalles de confiance pour l’estima-
teur E[X|Y = y] de X.
Attention ! On dit parfois par abus de language, que la loi de X sachant Y est celle
d’un vecteur gaussien de moyenne E(X|Y ) et de matrice de covariance ΣX|Y .
3 Filtre de Kalman
On s’intéresse à un état xk ∈ Rn qui évolue selon un temps discret. On a donc une
suite (xk )k≥0 de variables aléatoires. On veut
— une estimation de l’état xk au cours du temps ;
— à partir d’observations incomplètes ou bruitées de xk ;
— connaissant un modèle théorique d’évolution pour xk .
Historiquement Ce problème s’est posé dans les années 1960 pour suivre la trajectoire
des modules Apollo. Il fallait estimer la position xk à partir des mesures terrestres yk
(soumis à une certaine incertitude), et connaissant un modèle physique xk+1 = F xk
(déplacement d’un point dans un champ de gravité) soumis encore une fois à une certaine
incertitude des forces environnantes.
22 CHAPITRE II. MODÈLE GAUSSIEN (2 SEMAINE)
xk+1 = F xk + k
où F est une matrice n × n connue et (k )k≥0 une suite indépendantes de gaussiennes
centrée N (0, Q) de taille n.
Malheureusement on a ni accès aux (k )k≥0 ni aux (xk )k≥0 . Pour connaître xk , on a des
observations indirectes. On a accès à des mesures yk ∈ Rm qui sont des transformations
linéaires bruitées de xk :
yk = Hxk + ηk
où H est une matrice m × n et (ηk )k≥0 une suite indépendantes de gaussiennes centrée
N (0, R) de taille m.
Pour avoir un modèle théorique d’évolution, il est parfois utile d’intégrer dans l’état xk
des grandeurs auxiliaires en plus des grandeurs d’intérêt, comme dans les deux exemples
suivants, où on rajoute la vitesse en plus de la position.
Exemple 1 : Si on veut modéliser la position d’un véhicule avec deux coordonnées (x, y),
on utilise pour notre modèle une version discrétisée (avec un pas h = ∆t) de l’équation
position/vitesse v x = dtd x et v y = dtd y : c’est-à-dire xk+1 = xk + h · vkx et yk+1 = yk + h · vky .
Le modèle d’évolution des coordonnées positions/vitesses s’écrit alors
xk+1 xk
y y
k+1 k
x = F · x + k ,
vk+1 vk
y
vk+1 vky
avec
1 0 h 0
0 1 0 h
F = .
0 0 1 0
0 0 0 1
Le GPS nous donne la position, donc on récupère les coordonnées bruitées
! x k
x̃k y
k
= H · x + ηk ,
ỹk vk
vky
avec !
1 0 0 0
H= .
0 1 0 0
3. FILTRE DE KALMAN 23
Exemple 2 : Si on veut modéliser les oscillations x(t) d’un pendule soumis à l’équation
on va formuler
! l’évolution sous la forme!vectorielle y 0 (t) = Ay(t) pour le vecteur y(t) =
x(t) 0 1
0
et la matrice A = . On a donc y(t + h) = ehA y(t). Pour utiliser le
x (t) −ω 2 0
filtre de Kalman, on écrit notre modèle sous une version discrétisée (avec un pas h = ∆t) :
wk = H · zk + δηk ,
avec H = 1 0 , et ηn des gaussiennes (la variance du bruit δηk est δ 2 ).
Idée générale du filtre de Kalman On va estimer l’état xk+1 à partir d’une estimation
de xk (calculée précédemment) et de l’observation yk+1 .
Cette estimation se fait en deux étapes :
— On appellera x̂k|k l’estimation de xk à partir des données jusqu’à l’instant k : c’est-
à-dire l’espérance conditionnelle de xk sachant (y0 , . . . , yk ).
— On va noter d’autre part x̂k+1|k l’estimation de xk+1 à partir des données jusqu’à
l’instant k : c’est-à-dire l’espérance conditionnelle de xk+1 sachant (y0 , . . . , yk ).
—
D’après la section précédente,
et
xk − x̂k|k ∼ N 0, Pk|k .
on dit alors que la loi de xk sachant (y0 , . . . , yk ) est une gaussienne N (x̂k|k , Pk|k ).
De façon similaire, on note
et
xk+1 − E(xk+1 |(y0 · · · , yk )) ∼ N (0, Pk+1|k )
Les espérances conditionnelles x̂k|k et x̂k+1|k et les matrices de covariance Pk|k et Pk+1|k
sont des quantités qu’on peut calculer au fur et à mesure grâce à la proposition suivante.
Or comme les deux variables alétaoires sont indépendants, leurs variances se somment :
et
! ! ! ! !T !
xk+1 xk+1 In In 0 0
−E |(y0 , . . . , yk ) ∼ N 0, · Pk+1|k · +
yk+1 yk+1 H H 0 R
Pour en déduire la loi de xk+1 conditionnée par (y0 , . . . , yk+1 ), on travaille conditionnel-
lement à (y0 , · · · yk ). Il suffit alors de conditionner la première !
coordonnée par la seconde
xk+1
coordonnée dans cette loi conditionnelle gaussienne de sachant (y0 , · · · yk ). Dans
yk+1
ce cas là on peut montrer (admis ici) que le résultat de la section précédente sur le condi-
tionnement s’applique également et on obtient que l’espérance conditionnelle de xk+1 par
rapport à (y0 , . . . , yk+1 ) vaut
On peut aussi réunir les deux étapes et calculer directement Pk+1|k en fonction de
Pk|k−1 . C’est ce qu’on appelle l’équation de Riccati, qui s’écrit alors
−1
Pk+1|k = Q + F Pk|k−1 F T − F Pk|k−1 H T · HPk|k−1 H T + R · HPk|k−1 F T .
26 CHAPITRE II. MODÈLE GAUSSIEN (2 SEMAINE)
Chapitre III
λk
P(X = k) = exp(−λ), ∀k ∈ N.
k!
En particulier, E(X) = λ et P (X = 0) = exp(−λ).
Dans cette section, nous allons voir comment simuler de telles variables aléatoires.
27
28 CHAPITRE III. POISSON ET FILES D’ATTENTES
∞
X
X= k1(sk−1 ≤U <sk ) .
k=0
Toutefois cette méthode est difficile à implémenter telle quelle numériquement car elle
nécessite de connaitre toutes les sommes cumulées de probabilités sk . Un astuce consiste
en fait à calculer récursivement uniquement les probabilités cumulées nécessaire :
On déduit donc que l’on peut simuler une variable aléatoire de Poisson de la façon
suivante :
1. SIMULATIONS DE VARIABLES ALÉATOIRES DE LOI DE POISSON 29
et que par définition, les variables aléatoires Xk+1 et Sk sont indépendantes. Aussi si l’on
note fSk et fXk+1 leurs densités respectives, on a
Z Z
P (Sk ≤ 1 < Sk+1 ) = 1s≤1<x+s fSk (s)fXk+1 (x)dsdx.
Z Z
= 1s≤1 1x>1−s fSk (s)fXk+1 (x)dsdx.
Z 1 Z ∞
= dsfSk (s) dxfXk+1 (x)
0 1−s
2 Processus de Poisson
Nous allons maintenant introduire le processus de Poisson. C’est un premier exemple
de processus en temps continu.
Définition 2.1. Soit (Xn ) une suite de variables aléatoires i.i.d. de lois exponentielles
de paramètre λ, on définit comme précédemment Sn = nk=1 Xk et S0 = 0. Pour chaque
P
Quelques propriétés
P((S1 , · · · Sn ) ∈ Γ, Nt = n)
P((S1 , · · · Sn ) ∈ Γ|Nt = n) =
P(Nt = n)
Z
n!
= nn 1sn ≤t<sn+1 1(s1 ,...,sn )∈Γ λn+1 exp(−λsn+1 )10≤s1 <s2 <...<sn <sn+1 ds1 · · · dsn+1
λ t exp(λt)
Z Z ∞
n!λ
= n 10≤s1 <s2 <...<sn <t exp(−λsn+1 )dsn+1
t Γ t
Z
n!
= n 10≤s1 <s2 <...<sn <t ds1 ...dsn
t Γ
Finalement il reste à montrer que si on considère un tirage de (U1 , ...Un ) variables aléatoires
uniformes indépendantes sur [0, t], alors le n-uplet trié (U(1) , ...U(n) ) a la même densité.
Ceci provient simplement du fait qu’il existe n! ordre pour ces tirages et que tous ont la
même probabilité de ce produire, ce qui donne facilement le résultat.
Proposition 2.3. Considérons deux intervalles de temps disjoints ]T1 , T2 ] et ]T3 , T4 ] alors
les variables aléatoires NT2 − NT1 et NT4 − NT3 sont des variables aléatoires indépendantes
de lois de Poisson de paramètres respectifs (T2 − T1 )λ et (T4 − T3 )λ
Proposition 2.4. Soit (Nt )t≥0 un processus de Poisson de paramètre λ > 0, alors
Nt
−→ λ p.s..
t t→∞
32 CHAPITRE III. POISSON ET FILES D’ATTENTES
Ainsi, comme les variables aléatoires Nk − Nk−1 sont indépendantes et de même lois
P oiss(λ), on peut appliquer la loi forte des grands nombre pour en déduire que
Nn
−→ λ p.s..
n n→∞
Ensuite, on utilise la croissance du processus Nt pour en déduire que pour tout t ∈
[n, n + 1],
Nn n Nt Nn+1 n + 1
≤ ≤
n+1n t n n+1
En faisant tendre n → ∞, on obtient la conclusion.
Il existe de nombreuses généralisation des processus de Poisson, que ce soit dans des
espaces spatiaux temporels, ou avec des fonctions d’intensités qui dépendent du temps.
3 Files d’attentes
Dans la suite, nous allons voir une utilisation des processus de Poisson à la modélisation
des files d’attentes. L’étude des files d’attente est un domaine actif très utile notamment
pour la gestion des serveurs, des requêtes et dans de nombreux domaines d’ingénierie.
Une file d’attente est caractérisée par trois paramètres
— la loi décrivant les arrivées successives de clients dans la file. On utilise souvent
un processus de Poisson, c’est à dire que l’on suppose qu’entre deux arrivées de
clients, il se passe un temps exponentiel de paramètre λ.
— une loi décrivant le temps nécessaire pour servir un client. Ce sont des variables
aléatoires que l’on considère en général comme indépendantes et de même loi. Là
encore, c’est la loi exponentielle qui donne le traitement mathématique le plus
simple.
— un paramètre qui décrit le nombre de serveurs disponibles : ce peut être un entier
N > 0 qui correspond au nombre de guichet ou bien l’infini. Lorsque le nombre de
serveur est infini chaque client qui arrive est immédiatement pris en charge.
sont servis en un temps exponentiel de paramètre β. Le ’M’ représente alors le fait que la
loi exponentielle est sans mémoire et donc la file d’attente est un processus de Markov à
temps continu.
On souhaite étudier le nombre Wt de personnes dans la file d’attente. C’est la différence
entre le nombre d’arrivées At et le nombre de départ Dt . Ainsi, lorsque Wt = 0, la file
comme le guichet sont libres, lorsqueWt = 1 ceci signifie qu’une personne est au guichet,
et personne en attente, et lorsque Wt ≥ 2, le guichet est occupé et Wt − 1 personnes sont
en attentes.
Chaine de Markov incluse On peut choisir de n’étudier que les variations du nombre
de clients dans la file sans prendre en compte l’aspect temporel. On définit alors un
processus à temps discret Zn = WTn où Tn est le temps aléatoire du nme évènement.
On peut montrer que Zn est une chaine de Markov sur N dont les transitions sont
décrites par
Q(0, 1) = 1
λ
Q(i, i + 1) = = 1 − Q(i, i − 1), i≥1
λ+β
On a alors des résultats sur le comportement asymptotique de la chaine de Markov
(Zn )n≥0 .
Pour un processus irréductible, comme pour une chaîne irréductible apériodique, trois
cas sont possibles en fonction du retour dans un état donné.
34 CHAPITRE III. POISSON ET FILES D’ATTENTES
— Si le processus, partant d’un état donné, a une probabilité non nulle de ne jamais y
retourner, il est dit transient. En pratique cela signifie que le nombre que l’on étudie
(taille de population ou nombre de clients) tend vers l’infini. Nous interprétons cette
situation comme une saturation du système.
— Si le processus, partant d’un état donné, y revient nécessairement au bout d’un
temps fini en moyenne, il est dit récurrent positif. Dans ce cas, il converge en loi
vers sa mesure stationnaire, interprétée comme une situation d’équilibre du système
étudié.
— Si le processus, partant d’un état donné, y revient avec probabilité 1 mais que
l’espérance du temps de retour est infinie, il est dit récurrent nul.
On peut alors montrer le résultat suivant :
Démonstration. Voir en TD
λ
E(π) = .
β−λ
— la loi du temps passé dans la file d’attente par un client est donnée en régime
stationnaire par E(β − λ).
Pour ce dernier résultats, remarquons que quand la chaine est vide, le temps d’attente
d’un client est E(β).
Lorsqu’il y a déjà n clients devant lui, son temps d’attente est donc la somme des n + 1
3. FILES D’ATTENTES 35
services des n clients précédents et du sien. Comme chaque service est i.i.d de loi E(β), la
loi du temps de service a pour densité
β n+1 tn
exp(−βt)
n!
Si le nombre de client suit la loi π on en déduit donc que la densité du temps de service
est
X β n+1 tn X λ n β n+1 tn
fT (t) = πn exp(−βt) = exp(−βt)
n≥0
n! n≥0
β n!
λ
=β 1− exp(−βt) exp(λt)
β
= (β − λ) exp(−(β − λ)t).
Branchement (1 semaine)
1 Fonction génératrice
Soit X une variable aléatoire discrète sur N, de loi déterminée par les probabilités
Exemples :
— si X suit la loi de Poisson P(λ) de paramètre λ > 0. Alors
X λk
GX (k) = e−λ · sk = esλ e−λ = e(s−1)λ .
k≥0
k!
37
38 CHAPITRE IV. BRANCHEMENT (1 SEMAINE)
1. elle est analytique sur ]−1, 1[ (c’est-à-dire développable en série entière au voisinage
de chacun des points de ] − 1, 1[).
2. elle est croissante sur [0, 1].
3. elle est convexe (et même strictement convexe si P[X ≥ 2] > 0) sur [0, 1].
1
4. elle caractérise la loi de X car pX (n) = n!
G(n) (0).
5. si E[X] < +∞, alors GX est dérivable (à gauche) en 1 et G0X (1) = E[X].
6. GX (0) = pX (0) = P[X = 0].
et même G00 (s) > 0 dès que s ∈]0, 1[ et qu’un des pX (k) est strictement positif pour
k ≥ 2.
4. Plus généralement, sur ] − 1, 1[,
X
G(n) (s) = k(k − 1) · · · (k − n + 1)pX (k) · sk−n
k≥n
E[X] lorsque s converge vers 1 (par convergence monotone par exemple). On déduit
alors du théorème des accroissements finis que cette limite est la dérivée à gauche
G0X (1).
6. Par définition, GX (0) = E[sX ] = E[1X=0 ] = pX (0).
Les fonctions génératrice sont particulièrement adapté pour traiter la somme de va-
riables aléatoires discrètes indépendantes.
Plus généralement, il est possible de traiter une somme d’un nombre aléatoire de
variables aléatoires.
Théorème 1.4. Soit N une variable discrète sur N et (Xn )n≥1 des variables aléatoires
indépendantes à valeurs dans N, de même loi et donc de même fonction génératrice GX ,
et indépendantes de N . Alors, considérant la variable aléatoire
N
X
SN = Xk ,
k=1
mais comme
h Pn i h Pn i n
E 1N =n s( k=1 Xk ) = P[N = n]E s( k=1 Xk ) = P[N = n]
Y
E sXk = P[N = n]GX (s)n ,
k=1
on obtient
∞
X
SN
E[s ]= P[N = n]GX (s)n = GN (GX (s)).
n=0
2 Processus de Galton-Watson
On considère une population d’individus (ce peut être n’importe quoi, des particules,
des gènes, des animaux etc) dont la taille évolue au cours d’un temps discret. Pour encoder
la taille, on va donc considérer une suite de variables aléatoires (Xn )n≥0 discrètes sur N.
Ces variables ne sont pas indépendantes, puisque le nombre d’invidus à un certain instant
n + 1 dépend du nombre d’individus à l’instant d’avant n avec une règle simple : chaque
individu va engendrer k individus avec la probabilité pk , indépendamment des autres
individus. On a donc le modèle suivant.
40 CHAPITRE IV. BRANCHEMENT (1 SEMAINE)
Définition 2.1. Soit (Yn,k )n,k∈N une suite de variables aléatoires indépendantes de même
loi. On définit le processus de Galton-Watson comme la suite de variables aléatoires
(Xn )n≥0 de la façon suivante : X0 = 1 et pour n ≥ 0,
Xn
X
Xn+1 = Yn,k .
k=1
GXn+1 = GXn ◦ G
puisque Xn est fonction des (Ym,k )m<n,k et est donc indépendant des (Yn,k )k . De cette
formule, on peut déduire que :
et que par conséquent, (E[Xn ])n est une suite géométrique de raison m.
GXn = |G ◦ ·{z
· · ◦ G}
n fois
alors
GXn+1 = GXn ◦ G = G
| ◦ ·{z
· · ◦ G} ◦G = G
| ◦ ·{z
· · ◦ G} .
n fois n+1 fois
· · ◦ G}(0) = G ◦ G
xn+1 = GXn+1 = |G ◦ ·{z | ◦ ·{z
· · ◦ G}(0) = G(GXn (0)) = G(xn ).
n+1 fois n fois
P
avec G(1) = k≥0 pk = 1. On va étudier la fonction F (s) = G(s) − s, qui va de F (0) =
G(0) > 0 à F (1) = 1 − 1 = 0. En effet, les points fixes de G sont les réels où F s’annule.
Sa dérivée est F 0 (s) = G0 (s) − 1 sur [0, 1], et on remarque que F 00 (s) = G00 (s) ≥ 0 donc
cette dérivée F 0 (s) est croissante (strictement si k≥2 pk > 0).
P
on a F 0 (s) < 0 pour s ∈ [0, 1[ ce qui signifie que F (s) est strictement décroissante de
F (0) > 0 à F (1) = 0. Elle ne s’annule donc qu’en s = 1 : le seul point fixe de G est q = 1.
Supposons maintenant que m = G0 (1) > 1.
42 CHAPITRE IV. BRANCHEMENT (1 SEMAINE)
3 Cas sous-critique
On a vu que si m ≤ 1, la population s’éteint presque sûrement. Pour autant, il y a une
différence entre le cas m < 1 et le cas m = 1. On peut par exemple regarder l’espérance
de la taille totale de la population
"∞ # ∞ ∞
X X X
E Zn = E [Zn ] = mn
n=0 n=0 n=0
qui est finie si m < 1 et qui est infinie si m = +∞. Le théorème suivant permet de
quantifier la convergence de P[Xn > 0] vers 0 lorsque n grandit.
P[Xn > 0] ≤ mn .
Démonstration. Puisque E[Xn ] = E[Xn |Xn > 0]P[Xn > 0] + 0 × P[Xn = 0], On a
E[Xn ]
P[Xn > 0] = ≤ E[Xn ] = mn .
E[Xn |Xn > 0]
4 Cas critique
Si m = 1, l’espérance E[Xn ] reste toujours égale à 1. La taille de Xn lorsque la
population n’est pas éteinte doit donc être très grande pour maintenir une espérance
constante. En fait, on peut montrer que supn Xn n’est pas intégrable, car sinon, on aurait
par convergence dominée l’égalité absurde suivante
Autrement dit, la martingale Xn converge vers 0 p.s. mais n’est pas convergente au sens
L2 . Le théorème suivant permet de mieux comprendre la taille de Xn lorsque la population
n’est pas éteinte dans le cas critique.
4. CAS CRITIQUE 43
converge vers E[Yn,k (Yn,k − 1)] = σ 2 lorsque s tend vers 1 (convergence monotone). Par
conséquent, G est deux fois dérivable à gauche en 1, et on a la formule de Taylor avec
reste intégral en 1 à l’ordre 2
1
G(s) = s + (s − 1)2 σ 2 + (s − 1)2 R(s)
2
ave R(s) borné sur [0, 1] et qui tend vers 0 quand s → 1. Autrement dit, on a
5 Cas sur-critique
Rappelons que si m > 1, la probabilité d’extinction q est l’unique point fixe < 1 de la
fonction génératrice associée à la loi de Yn,k . Il y a donc une probabilité non-triviale que
la population survive.
Pour étudier plus finement (Xn )n≥0 , on introduit la suite (Xn /mn )n≥0 . Son utilité vient
du fait que c’est une martingale pour la filtration naturelle Fn = σ(X0 , . . . , Xn ) :
Xn+1 E [ Xn+1 | Xn ]
E n+1
Fn =
m mn+1
P`
car Xn est une chaîne de Markov ; or E [Xn+1 | Xn = `] = k=1 E[Yn,k ] = `m donc
E [Xn+1 | Xn ] = Xn m et
Xn+1 E [Xn+1 | Xn ] mXn Xn
E n+1
Fn = n+1
= n+1 = n .
m m m m
Comme c’est une martingale positive, elle converge p.s. vers une variable aléatoire réelle
positive. En fait, contrairement au cas où m = 1, on a même ici la convergence L2 .
Le dernier point signifie en fait que l’événement {L > 0} est égal presque sûrement à
l’événement de la survie de la population.
Démonstration. On vérifie que (Xn /mn )n≥0 est une martingale bornée dans L2 en calcu-
lant la variance
n−1
n 2
X
E[(Xk+1 /mk+1 − Xk /mk )2 ].
E (Xn /m − 1) =
k=0
On calcule
Xn
n+1 n 1 X
Xn+1 /m − Xn /m = (Yn,k − m)
mn+1 k=1
ce qui donne
!2
`
1 X 1
E[(Xk+1 /mk+1 − Xk /mk )2 |Xn = `] = 2n+2 E (Yn,k − m) = 2n+2 `σ 2
m k=1
m
5. CAS SUR-CRITIQUE 45
1
E[(Xk+1 /mk+1 − Xk /mk )2 ] = mσ 2
m2n+2
puis
n−1
n 2
X 1 2 1 σ2
E (Xn /m − 1) = σ →n→∞ .
k=0
mk+2 m2 1 − 1/m
Le deuxième point est une conséquence de la moyenne constante E[Xn /mn ] = 1 et de la
limite σ 2 /(m2 − m) de la variance de Xn /mn .
Pour le dernier point, on va conditionner par rapport à X1 :
∞
X ∞
X
P[L = 0] = P[L = 0|X1 = k]P[X1 = k] = P[L = 0]k P[X1 = k] = G(P[L = 0]).
k=0 k=0
Les méthodes de Monte-Carlo par chaînes de Markov proposent des estimateurs en uti-
lisant des propriétés de convergence de chaînes de Markov vu dans le cours de probabilités,
comme par exemple la loi des grands nombres.
1 Algorithme de Metropolis-Hastings
Le but de l’algorithme de Metropolis-Hastings est de simuler une mesure de probabilité
π sur un espace d’état E en simulant une chaîne de Markov dont la mesure invariante
est π. Sous de bonnes hypothèses, cette chaîne de Markov convergera donc en loi vers π
(ergodicité). Cet algorithme est en particulier utilisé dans le cas, où la mesure π n’est pas
connue exactement, mais à constante près.
Le cadre général est donc le suivant : la mesure de probabilité π s’écrit
f (x)λ(dx)
π(dx) = R ,
E
f (x)λ(dx)
où
— f est une fonction mesurable de E 7→ R+
— λ est une mesure positive de référence (la mesure de Lebesgue par exemple)
R
La constante de renormalisation E f (x)λ(dx) n’est pas connue. On écrit en général que
la mesure π est proportionnelle à f (x)λ(dx) :
π ∼ f (x)λ(dx).
47
48 CHAPITRE V. MCMC
Définition 1.1. La chaîne de Markov (Xn )n≥0 définie par Metropolis-Hastings à partir
d’une mesure π sur E et d’une matrice de transition Q est la chaîne de Markov homogène
de matrice de transition
(
π(y)Q(y,x)
Q(x, y) min 1, π(x)Q(x,y) si x 6= y
P (x, y) = P
1 − z6=x P (x, z) si x = y
Metropolis-Hastings
X0 = simulation selon une loi initiale quelconque ;
pour i entre 1 et n,
y = tirage alatoire selon la loi Q(Xi−1 , ·)
π(y)Q(y,Xi−1 )
si unif orm() < π(X i−1 )Q(Xi−1 ,y)
Xi = y
sinon faire
Xi = Xi−1
sortir (X0 , . . . , Xn );
1. ALGORITHME DE METROPOLIS-HASTINGS 49
Proposition 1.2. On suppose que π(x) 6= 0 pour tout x ∈ E et que Q(x, y) > 0 ⇔
Q(y, x) > 0.
i) π est la mesure de probabilité invariante pour la chaîne (Xn )n≥0 de matrice de
transition P .
ii) Si de plus Q est irréductible, alors P l’est aussi et on a donc les convergences
usuelles vers π quand n → ∞.
Preuve de ii) : On a P (x, y) > 0 dès que Q(x, y) > 0 comme on a supposé que π(x) 6=
0. Par conséquent, toutes les trajectoires réalisables par Q le sont par P , et l’irréductibilité
de Q entraîne l’irréductibilité de P .
1
Exemple : On veut simuler sur l’espace {1, · · · n} la mesure π telle que π(k) ∝ (k+1) 2.
On se sert de la chaine de Markov auxiliaire définie comme suit : à chaque étape, lorsque
la chaine se trouve en position k, elle se déplace avec une chance sur deux sur l’un des
entiers voisins k − 1 et k + 1. Lorsque la chaine est sur un bord comme il n’y a qu’un
seul voisin disponible, avec une chance sur deux elle reste sur place, et sinon elle va sur
l’entier voisin. La matrice Q de cette chaine s’écrit alors
1/2 1/2
1/2 0 1/2
. ...
Q= 1/2 . .
..
. 0 1/2
1/2 1/2
Dans cet exemple, on remarque le fait que la matrice Q soit symétrique, simplifie
grandement les calculs.
Xi = Y
sinon faire
Xi = Xi−1
sortir (X0 , . . . , Xn );
C’est le cas dit de la marche aléatoire : si q(x, y)dy indique la loi de l’endroit où on
saute en partant de x, g désigne la loi de la taille du saut y − x.
Plus précisément, on peut remarquer que pour x fixé, la loi d’une variable Y distribuée
selon la mesure q(x, y)dy = g(y − x)dy est celle de la variable aléatoire x + Z où Z est
distribuée selon la densité g.
Plutôt que de changer de noyau d’exploration quand l’état x évolue, on peut donc toujours
utiliser la même densité g, qui nous montre la taille du prochain saut. De plus, on remarque
que dans ce cas
q(y, x) g(x − y) g(−Z)
= =
q(x, y) g(y − x) g(Z)
52 CHAPITRE V. MCMC
Xi = Y
sinon faire
Xi = Xi−1
sortir (X0 , . . . , Xn );
Cas symétrique Le cas symétrique, où Q(x, y) = Q(y, x), est intéressant car certaines
simplifications apparaissent. En effet, la probabilité d’acceptation/rejet devient tout sim-
plement π(y)/π(x).
Pour le cas continu, un noyau symétrique signifie que q(x, y) = q(y, x), et donne la
probabilité d’acceptation/rejet f (y)/f (x).
Toutefois, nous n’avons pas quantifié la vitesse de convergence de l’algorithme, qui permet
de savoir au bout de combien d’itération de la chaine de Markov, la variable simulée est
bien distribuée selon la loi invariante. Dans le cas des algorithmes de Métropolis Hastings,
cette vitesse de convergence va dépendre de la chaine de Markov auxiliaire Q choisie dans
l’algorithme.
1
Proposition 2.2. i) Pour x ∈ E, lim µT (x) = .
T →∞ Card(E)
ii) Pour x ∈ E,
1
si x ∈ M
lim µT (x) = Card(M)
T →0
0 sinon.
c’est-à-dire que
ZT X 1 ∗
= exp − (V (x) − V ) .
e−V ∗ /T x∈E
T
Du coup, on peut faire lemême raisonnement que précédemment.
Pour x ∈ E,
1 1
lim exp − (V (x) − V ∗ ) = 1 si x ∈ M et lim exp − (V (x) − V ∗ ) = 0
T →0 T T →0 T
sinon. D’où
X
ZT X 1 ∗
lim ∗ = lim exp − (V (x) − V ) = 1 = Card(M),
T →0 e−V /T T →0 T
x∈E x∈M
µT (y)Q(y, x) V (x) − V (y)
min 1, n = min 1, exp .
µTn (x)Q(x, y) Tn
Recuit simulé
X0 = simulation selon une loi initiale quelconque ;
pour i entre 1 et n,
y = simulation selon la loi Q(X i−1 , y)
V (Xi−1 )−V (y)
si unif orm() < exp Ti
Xi = y
sinon faire
Xi = Xi−1
sortir Xn
Comme précédemment, dès qu’un saut se fait en direction qui diminue la fonction
V , il va être automatiquement accepté. En revanche, le recuit simulé laisse une chance à
l’algorithme de passer d’un état x à un état y même si V (y) > V (x). Toutefois, comme TN
tend vers 0, la probabilité d’effectuer un tel saut décroit avec n. On peut ainsi se sortir de
minima locaux. Les algorithmes déterministes comme par exemple la descente de gradient
risquent au contraire de se coincer dans un minimum local en refusant de ré-augmenter
la valeur de la fonction V .
Le théorème suivant, qu’on ne va pas démontrer, justifie la convergence de cet algo-
rithme.
Théorème 2.3. Pour toute fonction V , il existe une constante C qui dépend de V telle
que l’algorithme de recuit simulé avec la suite de température Tn = logCn+1 se concentre
sur l’ensemble M des points où V atteint son minimum :
lim P[Xn ∈ M] = 1.
n→∞
1 Cadre général
Cet algorithme a été introduit en 1950 par Robbins et Monro dans le but de rechercher
les zéros d’une fonction h. Il reste encore très utilisé. C’est un algorithme récursif ( donc
économe en mémoire), basé sur des simulations aléatoires.
Son but est d’identifier la solution θ∗ de l’équation h(θ) = 0. Il s’applique dans tous
les cas où la fonction h peut s’écrire comme une espérance
h(θ) = E(H(θ, Y ))
avec
— (γn+1 )n≥0 une suite de pas positifs tels que
X X
γn = +∞ γn2 < ∞
57
58 CHAPITRE VI. ROBBINS-MONRO
h(θ) = E(θ − f (Y ))
Nous allons voir qu’il s’agit en fait d’une généralisation de la méthode de Monte Carlo.
Prenons γn+1 = 1/(n + 1), on obtient alors
1 f (Yn+1 )
θn+1 = θn (1 − )+
n+1 n+1
soit
(n + 1)θn+1 = nθn + f (Yn+1 )
vn+1 = vn + f (Yn+1 )
soit en fait
n
X
vn = f (Yk+1 )
k=1
ou encore
n
1X
θn = f (Yk+1 )
n k=1
0 = F (θ) − α
= E(1Y ≤θ − α)
L’avantage de cet algorithme par rapport aux autres méthodes d’estimation de quan-
tile, notamment basées sur des méthodes de tri est son coup de calcul très faible.
où (Yn )n≥1 est une suite de copies de Y indépendantes et (γn )n≥0 une suite de pas qui
tend vers 0.
→ En TD on appliquera ceci pour la regression linéaire.
Exemple d’utilisation dans un cadre non stationnaire : Dans les exemples pré-
cédents, les variables aléatoires (Yn )n≥1 étaient identiquement distribuées.
Nous allons passer à une situation où nous ne sommes plus seulement observateur
de la quantité aléatoire (Yn )n≥1 , mais aussi acteur (imaginez une température intérieure
60 CHAPITRE VI. ROBBINS-MONRO
où (Yn )n≥1 est une suite de variables aléatoires de lois conditionnelles fixées : pθn
est la loi conditionnelle Yn+1 sachant θn ; et (γn )n≥0 est une suite de pas qui tend vers 0.
On peut l’écrire comme ceci.
lim θn = θ∗ ps
n→∞
et
θn − θ∗
lim √ = gaussienne en loi.
n→∞ γn
2 Convergence de l’algorithme
Pour rappel, cherche à trouver la solution θ∗ de l’équation h(θ) = 0, avec θ un réel (ou
à valeurs dans Rd ) mais on n’a pas accès à h directement. On sait que
où (Yn )n≥1 est une suite de copies de Y indépendantes et (γn )n≥0 une suite de pas qui
tend vers 0.
P P 2
Si n γn = +∞ et n γn < +∞, et sous de bonnes hypothèses sur H, on a les
convergences suivantes :
lim θn = θ∗ ps
n→∞
et
θn − θ∗
lim √ = gaussienne en loi.
n→∞ γn
Dans cette partie du cours nous allons donner un cadre pour la première convergence
et nous illustrerons en TP la seconde convergence.
Pour démonter la convergence presque sure de l’algorithme de Robbins-Monro, l’idée
principale est d’utiliser la structure récursive de cet algorithme et de mettre en évidence
l’existence d’une sur-martingale positive associée.
Pour cela, on a besoin de définir la filtration associée à l’algorithme. Pour tout n ≥ 0,
on définit Fn la tribu engendrée par les variables aléatoires (θ0 , · · · , θn , Y0 , · · · Yn ).
On remarque alors que
car θn est Fn mesurable est Yn+1 est indépendante de la tribu Fn . On peut donc écrire
avec
∆Mn+1 = h(θn ) − H(θn , Yn+1 ))
Théorème 2.1 (Théorème de Robbins-Siegmund). Soient (Un ), (Vn ), (αn ) et (βn ) quatre
suites de variables aléatoires positives et Fn -adaptées telles que
(1) (αn ), (βn ) et (Un ) sont prévisibles (i.e. αn+1 est Fn − mesurable).
(2) supn∈N nk=1 (1 + αk ) < ∞ presque surement
Q
P∞
(3) n=0 E(βn ) < ∞
(4) Pour tout n ∈ N,
Alors
a) Vn −→ V∞ presque surement et V∞ ∈ L1
b) supn∈N E(Vn ) < ∞
P P
c) n E(Un ) < ∞ et n Un < ∞ presque sûrement.
Le reste de la section est consacrée à la preuve de ce résultat. C’est une preuve tech-
nique mais instructive, car elle détaille la construction d’une sur-martingale positive et
exploite le fait qu’une sur-martingale positive converge presque surement vers une variable
aléatoire intégrable.
n+1
! n+1
X X
E Vn+1 + Uk |Fn = E (Vn+1 |Fn ) + Uk
k=1
|k=1{z }
prévisible
n+1
X
≤ Vn (1 + αn+1 ) + βn+1 − Un+1 + Uk
k=1
n
X
≤ Vn (1 + αn+1 ) + βn+1 + Uk
k=1
n
X
≤ (Vn + Uk )(1 + αn+1 ) + βn+1
k=1
Définissons maintenant Pn
Vn + Uk
k=1
Sn = Qn (VI.2)
k=1 (1 + αk )
alors
βn+1
E(Sn+1 |Fn ) ≤ Sn + Qn+1 (VI.3)
k=1 (1 + αk )
Considérons la suite
n
X βk
Bn = Qk
k=1 j=1 (1 + αj )
La variable Bn est une somme de terme positifs, aussi la suite Bn est croissante et elle
converge presque surement vers B∞ (une quantité qui peut être infinie). On veut montrer
que E(B∞ ) est finie. Pour ce faire, remarquons que
n
! n ∞
X βk X X
E(Bn ) = E Qk ≤ E(βk ) ≤ E(βk ) < ∞
k=1 j=1 (1 + αj ) k=1 k=1
par l’hypothèse (3). Donc E(B∞ ) < ∞ et par conséquent la variable B∞ est finie presque
surement.
Finalement on définit
Sen = Sn + E(B∞ |Fn ) − Bn .
64 CHAPITRE VI. ROBBINS-MONRO
On en déduit donc que Sen est une sur-martingale positive et donc qu’elle converge vers
une variable aléatoire Se∞ qui est intégrable.
Conclusions : Ecrivons maintenant
d’une part Sen → Se∞ presque surement et par croissance (E(B∞ |Fn ) − Bn ) → 0 presque
surement.
Ainsi
Sn → Se∞ .
Xn n
Y
E(Vn ) + E( Uk ) = E(Sn (1 + αj )).
k=1 j=1
Aussi chacun des termes du membre de gauche est inférieur au membre de droite. Or
n
Y n
Y
sup E(Sn (1 + αj )) ≤ sup (1 + αj )) sup E(Sn )
n n n
j=1 j=1
| {z }
<∞p.s. (2)
Or
E(Sn ) ≤ E(Sen ) ≤ E(Se1 ) < ∞
Donc simultanément
Xn
sup E(Vn ) < ∞ sup E( Uk ) < ∞
n n
k=1
comme tous les termes du membre de droite convergent presque surement vers une variable
L1 on en déduit que Vn −→ V∞ et E(|V∞ |) < ∞.
Définition 2.2. Dans ce cours, on dira qu’une fonction V : E 7→ R+ est une fonction de
Lyapunov si
i) pour tout (x, y) ∈ E 2 , ||∇V (x) − ∇V (y)||≤ L||x − y|| pour L > 0 une constante.
(gradient -Lipschitz)
ii) minx∈E V (x) = m > 0
iii) lim|x|→∞ V (x) = +∞ (coercive)
iv) ||∇V (x)2 ||≤ C(1 + V (x)) (sous quadratique)
Nous allons maintenant donner les conditions de convergence presque sure de l’algo-
rithme.
Théorème 2.3. Supposons qu’il existe une fonction de Lyapunov V vérifiant les hypo-
thèses de la Définition 2.2 et se comportant bien vis à vis de l’algorithme, c’est à dire telle
que :
1) h∇V (x), h(x)i ≥ 0 pour tout x ∈ E (positive le long des trajectoires)
2) |h(x)|2 ≤ C(1 + V (x)) (asymptotique contrôlée par V )
3) E(|∆Mn+1 |2 |Fn ) ≤ C(1 + V (θn )) (contrôle du bruit)
Alors
a) supn E(V (θn )) < ∞
66 CHAPITRE VI. ROBBINS-MONRO
P
b) γn h∇V (θn ), h(θn )i < ∞
c) V (θn ) → V∞ presque surement et V∞ ∈ L1
d) θn+1 − θn → 0 presque surement et dans L2
alors
e) x∗ est l’unique minimum de V
7 x∗ presque surement.
f ) θn →
Le contrôle du terme d’ordre 2 provient du fait que V est gradient Lipchitz, donc sa
hessienne est bornée :
1 2
D V (ξn+1 ).(γn+1 (h(θn ) − ∆Mn+1 )))2 ≤ Cγn+1
2
(h(θn ) − ∆Mn+1 ))2
2
2
≤ Cγn+1 (h(θn )2 + ∆Mn+1 )2 )
E(h∇V (θn ), (h(θn )−∆Mn+1 )i|Fn ) = h∇V (θn ), (h(θn )−E(∆Mn+1 )|Fn )i = h∇V (θn ), h(θn )i
D’où finalement
2
E(V (θn+1 )|Fn ) ≤ V (θn ) − γn+1 h∇V (θn ), h(θn )i + Cγn+1 (1 + V (θn ))
2 2
≤ V (θn )(1 + Cγn+1 ) − γn+1 h∇V (θn ), h(θn )i + Cγn+1 (VI.4)
donc X
E((θn+1 − θn )2 ) < ∞.
On en déduit que E((θn+1 − θn )2 ) → 0 mais aussi que (θn+1 − θn )2 < ∞ presque
P
Preuve de la proposition 2.4. Pour le premier point remarquons déjà que tous les minimas
de V sont inclus dans l’ensemble {x, h∇V (x), h(x)i = 0}. Donc si cet ensemble est un
singleton, V a un unique minimum.
On sait maintenant que V atteint son minimum en x∗ . Montrons que lim V (θn ) = V∞ =
V (x∗ ) et lim ∇V (θn ) = 0 on aura alors lim θn ∈ {x, h∇V (x), h(x)i = 0} ce qui conclura
la preuve.
On se place sur l’événement Ω de probabilité 1, sur lequel V (θn (ω)) → V∞ (ω) et
X
γn+1 h∇V (θn (ω)), h(θn (ω))i < ∞.
En particulier, comme V (θn (ω)) converge, la suite θn (ω) est bornée, donc elle converge
à extraction près vers θ∞ (ω). On déduit de la convergence de la série, que nécessairement
E((θn − θ∗ )2 ).