Poly 2020
Poly 2020
Processus Stochastiques
Cha^
nes de Markov, martingales
et mouvement brownien
0 Introduction 5
0.1 Espace de probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
0.2 Processus stochastiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
0.3 Deux résultats fondamentaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1 Chaı̂nes de Markov 13
1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2 Probabilités de transition à m pas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3 Exemples de chaı̂nes de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3.1 Chaı̂ne de markov à deux états . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3.2 Marche aléatoire sur Z et sur Zd . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3.3 Marches aléatoires simples sur Z avec barrières . . . . . . . . . . . . . . . . . . 17
1.3.4 Modèle d’Ehrenfest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.3.5 Processus du renouvellement . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.3.6 Processus de branchement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4 Propriété de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.5 Visites à un sous-ensemble . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.6 Récurrence et transience . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.7 Décomposition en classes de communication . . . . . . . . . . . . . . . . . . . . . . . . 23
1.8 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.8.1 Chaı̂ne à deux états . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.8.2 Marche aléatoire simple sur Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.8.3 Marche aléatoire simple symétrique sur Zd . . . . . . . . . . . . . . . . . . . . . 26
1.8.4 Processus de renouvellement . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.8.5 Processus de branchement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.9 Probabilités d’absorption . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.9.1 (∗) Processus de branchement . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.10 Mesures et Probabilités invariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.10.1 Existence de mesures invariantes . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.10.2 Probabilités invariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.11 Périodicité et existence de la loi limite au sens fort . . . . . . . . . . . . . . . . . . . . 35
1.11.1 (∗) Classes cycliques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.12 (∗) Complément sur le processus canonique . . . . . . . . . . . . . . . . . . . . . . . . 40
1.12.1 Première construction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
1.12.2 Autre approche : extension de lois fini-dimensionnelles compatibles . . . . . . . 41
2 Espérance conditionnelle 43
2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.1.1 Cas des variables aléatoires dans L2 . . . . . . . . . . . . . . . . . . . . . . . . 44
2.1.2 Cas général : variables aléatoires positives ou dans L1 . . . . . . . . . . . . . . 45
2.2 Propriétés élémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.3 Espérance sachant une v.a. discrète. Loi conditionnelle . . . . . . . . . . . . . . . . . . 49
2.4 Cas des lois à densité. Loi conditionnelle sachant Y . . . . . . . . . . . . . . . . . . . . 50
3
4 TABLE DES MATIÈRES
4 Vecteurs gaussiens 69
4.1 Rappels sur la loi normale unidimensionnelle . . . . . . . . . . . . . . . . . . . . . . . 69
4.2 Extension de la définition à Rd . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.3 Indépendance et conditionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.4 Lois normales et limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
Introduction et Rappels
Les probabilités ont pour but l’étude des phénomènes aléatoires, c’est-à-dire des expériences qui,
lorsqu’elles sont répétées, produisent une succession de résultats imprévisibles. Une variable aléatoire
réelle représente ainsi une certaine quantité mesurée lors d’une expérience aléatoire. Dans le cas
d’expériences qui se déroulent au fil du temps, il est pertinent de s’intéresser à l’évolution de ces
quantités en fonction du temps : elles deviennent donc des fonctions aléatoires (c’est-à-dire des va-
riables aléatoires dont les valeurs sont des fonctions), que l’on nomme processus stochastiques.
Dans le cas où on n’observe l’expérience que lors d’une suite de temps donnés, et non de façon conti-
nue, on parle de processus stochastiques en temps discret, et il s’agit alors plus précisément de
suites aléatoires.
Dans ce premier chapitre, on rappelle brièvement les principales notions et résultats de probabilités
qui seront utilisées dans la suite, et on définit formellement ces processus stochastiques.
Exemple 0.1. Sur Ω, on note P(Ω) l’ensemble de tous les sous-ensembles de Ω y compris l’ensemble
vide. Alors P(Ω) est la plus grande tribu dite tribu discrète, et {∅, Ω} est la plus petite tribu dite
tribu grossière ou tribu triviale. Un espace de probabilité est dit discret si la tribu F dont il est
muni est la tribu discrète. Lorsque Ω est dénombrable, c’est en général le cas (et on peut toujours s’y
ramener).
Exemple 0.2. On constate facilement que l’intersection d’une famille de tribus est encore une tribu.
En particulier, étant donné un ensemble de sous-ensembles C ⊂ P(Ω), l’intersection de toutes les tribus
contenant C est une tribu. C’est la plus petite tribu sur Ω contenant C, appelée tribu engendrée par C
et notée σ(C). Sur Rn , la tribu des boréliens notée B(Rn ) est la tribu engendrée par les ouverts
(elle est aussi engendrée par les fermés, par les pavés ouverts, ou encore par les pavés fermés).
5
6 CHAPITRE 0. INTRODUCTION
Une propriété sur les éléments de Ω est vraie presque sûrement par rapport à la probabilité P
(ce que l’on écrit en abrégé : “P-p.s.”) si elle est vérifiée pour tout ω ∈ Ω \ N où N est un certain
ensemble tel que P(N ) = 0, autrement dit si elle vérifiée pour tout ω ∈ Ω e où Ω
e vérifie P(Ω)
e = 1.
Rappelons deux résultats essentiels pour le maniement des probabilités :
Proposition 0.3. a) Pour toute suite croissante (An )n∈N d’événements (c.-à-d. telle que An ⊂ An+1
pour tout n), la suite (P(An ))n∈N est croissante, et
[
P An = lim P(An ).
n
n
b) Pour toute suite décroissante (An )n∈N d’événements (c.-à-d. telle que An+1 ⊂ An pour tout n), la
suite (P(An ))n∈N est décroissante, et
\
P An = lim P(An ).
n
n
Définition 0.4. Soit (E, E) un espace mesurable. Une variable aléatoire (v.a.) à valeurs dans
E est une application X : (Ω, F) → (E, E) mesurable, c’est-à-dire telle que
∀B ∈ E, {X ∈ B} ∈ F,
{X ∈ B} = {ω ∈ Ω : X(ω) ∈ B} = X −1 (B).
On parle de variable aléatoire (v.a.) réelle pour une v.a. à valeurs dans (R, B(R)), et de vecteur
aléatoire réel pour une v.a. à valeurs dans (Rn , B(Rn )), avec n ≥ 2.
Définition 0.5. La loi d’une variable aléatoire X : (Ω, F, P) → (E, E) est la probabilité PX définie
sur (E, E) par :
∀B ∈ E, PX (B) = P(X ∈ B).
Au besoin, on peut préciser qu’il s’agit de la loi de X sous P.
Pour une variable aléatoire réelle X, la loi de X est donc une probabilité sur R.
On distingue deux cas particuliers importants.
• Si X ne prend qu’un ensemble dénombrable de valeurs dans E, c.-à-d. s’il existe I ⊂ E dénombrable
tel que X ∈ I p.s. (c’est le cas si X est une v.a. réelle dont les valeurs sont entières, ou rationnelles),
on dit que la loi de X est discrète sur E. En introduisant, pour tout x ∈ E, la mesure de Dirac
P tout x ∈ E, px = P(X = x) (= 0 si x ∈
δx en x, et en posant, pour / I), on voit que la loi de la v.a.
discrète X s’écrit PX = x∈I px δx . Pour tout B ⊂ I (et B ⊂ E), on a en effet :
X
P(X ∈ B) = px .
x∈B
0.1. ESPACE DE PROBABILITÉS 7
• Un autre cas important est celui où PX admet une densité f par rapport à la mesure de Lebesgue
dx sur Rd . On note alors PX = f (x)dx et on dit que la loi de X est absolument continue ou
admet une densité sur Rd . Dans ce cas pour tout borélien B ∈ B(Rd ) :
Z
PX (B) = f (x)dx.
B
Lemme 0.6 (Lemme d’unicité). Dans (Ω, F) considérons une classe C de parties de F, stable par
intersections finies. Si P et Q sont deux probabilités telles que
P(C) = Q(C), ∀C ∈ C,
alors
P(A) = Q(A), ∀A ∈ σ(C).
Par exemple, supposons que X et Y sont des v.a. à valeurs dans Rd telles que, pour tout pavé
fermé C, P(X ∈ C) = P(Y ∈ C). Alors leurs lois PX et PY sont des probabilités sur Rd qui coı̈ncident
sur la famille C des pavés fermés de Rd . Or C est stable par intersections finies et engendre B(Rd ),
donc PX = PY : X et Y ont même loi.
Définition 0.7. Pour une v.a. X réelle positive, ou à valeurs dans Rd et intégrable pour la probabi-
lité P, on définit son espérance comme son intégrale sur Ω par rapport à P :
Z
E(X) = X(ω)dP(ω).
Ω
Dire que la v.a. X est intégrable correspond donc à dire que E(|X|) < ∞.
Pour une v.a. X à valeurs dans Rd , pour toute fonction borélienne φ : Rd → Rn (c.-à-d. mesurable
pour les tribus des boréliens), la variable Y = φ(X) est intégrable pour la probabilité P sur Ω si, et
seulement si, φ est intégrable pour PX sur Rd , et
Z
E(φ(X)) = φ(x)dPX (x).
Rd
C’est le théorème de transfert. Si φ ≥ 0, cette formule reste valable sans supposer φ(X) intégrable.
Si X est une v.a. discrète à valeurs dans un ensemble dénombrable I, pour toute fonction φ : I → Rn
on a donc X
E(φ(X)) = φ(x)P(X = x),
x∈I
dès lors que φ ≥ 0 ou x∈I |φ(x)|P(X = x) < ∞. Et si X est une v.a. sur Rd ayant pour densité fX ,
P
pour toute fonction borélienne φ : Rd → Rn on a
Z
E(φ(X)) = φ(x)fX (x)dx.
R
dès lors que φ ≥ 0 ou |φ(x)|fX (x)dx < ∞.
Citons pour mémoire les lois classiques comme : Bernoulli, géométrique, binomiale, Poisson, pour
les lois discrètes ; uniformes, exponentielles, normales, pour les lois absolument continues.
Définition 0.8. Pour une v.a. X sur (Ω, F), à valeurs dans (E, E), on définit la tribu engendrée
par X comme la plus petite tribu sur Ω rendant X mesurable. On la note σ(X) et on a :
σ(X) = {X −1 (B) | B ∈ E} ⊂ F.
Connaı̂tre la valeur de X revient à savoir si les événements de la tribu σ(X) sont réalisés ou non.
De façon générale, on utilisera souvent les sous-tribus de F pour décrire des ensembles d’informations
dont on peut disposer concernant le résultat de l’expérience aléatoire.
Le résultat suivant montre qu’une variable aléatoire Z est σ(X)-mesurable si, et seulement si c’est
une fonction (mesurable) de X.
Proposition 0.9. Considérons une application X : Ω → E, où (E, E) est un espace mesurable. Alors
une application Z : Ω → R est σ(X)-mesurable si et seulement si il existe une application mesurable
f : E → R telle que Z = f (X).
Preuve : On écrit
+∞
X k
Z = lim 1 −n −n (Z).
n→+∞ 2n [k2 ,(k+1)2 [
k=−∞
c’est à dire tel que 1[k2−n ,(k+1)2−n [ (Z) = 1An,k (X). On a alors Z = f (X) en définissant
+∞
X k
pour tout x ∈ E, f (x) = lim inf 1A (x),
n→+∞ 2n n,k
k=−∞
d’où le lemme. 2
La relation d’équivalence entre les variables aléatoires définie par l’égalité presque sûre,
X=Y P-p.s.,
définit des classes de v.a. sur (Ω, F, P). On note L1 (Ω, F, P) et L2 (Ω, F, P) les espaces vectoriels des
classes de v.a. réelles intégrables et de carré intégrable pour la probabilité P. Contrairement aux
espaces L1 (dx) et L2 (dx) pour la mesure de Lebesgue sur Rn , on a toujours
De plus L1 (Ω, F, P) est un espace de Banach pour la norme ∥X∥1 = E(|X|) et L2 (Ω, F, P) est un
espace de Hilbert pour le produit scalaire suivant : ⟨X, Y ⟩ = E(XY ).
Définition 0.10. Sur (Ω, F, P).
• Deux évènements A et A′ sont indépendants si
P(A ∩ A′ ) = P(A)P(A′ ).
pour tous A1 ∈ A1 , . . . , An ∈ An .
• Une v.a. X est dite indépendante de la tribu G si σ(X) et G sont indépendantes.
• Des variables aléatoires X1 , . . . , Xn sont indépendantes si les tribus σ(X1 ), . . . , σ(Xn ) sont
indépendantes ; autrement dit, dans le cas de v.a. réelles, si
n
\ n
Y
P Xi ∈ Bi = P Xi ∈ Bi ,
i=1 i=1
dès lors que φ ≥ 0 ou que φ(X1 , . . . , Xn ) est intégrable, où les intégrales peuvent être calculées dans
un ordre quelconque. En particulier, pour toutes fonctions f1 : E1 → R,..., fn : En → R mesurables,
dès lors que ces fonctions sont positives, ou que f1 (X1 ), . . . , fn (Xn ) sont intégrables.
Le lemme d’unicité fournit la proposition suivante qui simplifie souvent la vérification de l’indépendance :
Proposition 0.11. a) Soient C1 ⊂ F et C2 ⊂ F deux classes stables par intersection finie, engendrant
deux tribus A1 et A2 . Si pour tout A1 ∈ C1 et A2 ∈ C2 ,
Preuve : a) Soit B ∈ C2 . Si P(B) = 0, l’égalité est évidente car P(A ∩ B) ≤ P(B) = 0. Supposons
P(B) > 0. Alors l’égalité s’écrit P(A | B) = P(A). Il résulte alors du lemme d’unicité (avec Q = P(· | B))
que, pour tout A ∈ A1 , P(A ∩ B) = P(A)P(B).
Soit A ∈ A1 . De même, si P(A) > 0, il faut montrer que P(B) = P(B | A) pour tout B ∈ A2 ; or
c’est vrai pour tout B ∈ C2 par ce qui précéde, et le lemme permet de conclure, comme prédédemment.
b) On déduit b) de a) et du fait que {{Xi ∈ Ai } | Ai ∈ Ci } engendre σ(Xi ), pour i = 1, 2. Cette
propriété se vérifie ainsi : l’ensemble {Ai ∈ Ei | {Xi ∈ Ai } ∈ σ({{Xi ∈ Bi } | Bi ∈ Ci })} est une tribu
contenant Ci , donc elle contient σ(Ci ) = Ei . 2
Par exemple, supposons que X et Y sont des v.a. à valeurs dans Rd telles que, pour tous pavés
fermés A et B, P(X ∈ A, Y ∈ B) = P(X ∈ A)P(Y ∈ B). Alors elles sont indépendantes. De même sur
R pour deux v.a. X et Y qui vérifieraient P(X ≤ s, Y ≤ t) = P(X ≤ s)P(Y ≤ t) pour tous s, t ∈ R.
On étend ces définitions à des familles infinies :
Définition 0.12. Une famille infinie d’événements (resp. de variables aléatoires, resp. de tribus) est
indépendante si toute sous-famille finie de celle-ci est indépendante.
En général, disposer de l’information qu’un événement A est réalisé modifie la probabilité des
événements. Il s’agit alors de la probabilité conditionnelle sachant A :
Définition 0.13. Pour deux événements A et B tels que P(A) > 0, la probabilité conditionnelle
de B sachant A est
P(A ∩ B)
P B A = .
P(A)
Remarquons que P(· | A) est une probabilité sur (Ω, F). On peut donc considérer l’espérance as-
sociée, notée E(· | A).
10 CHAPITRE 0. INTRODUCTION
Proposition 0.14. Pour toute variable aléatoire X intégrable, et tout événement A tel que P(A) > 0,
on a
E(X1A )
E(X | A) = .
P(A)
Preuve : Cette égalité est vraie lorsque X = 1B par la définition même de la probabilité condi-
tionnelle, et s’étend donc par linéarité aux fonctions étagées, puis par convergence monotone (resp.
dominée) aux fonctions positives (resp. intégrables). 2
On peut aussi considérer la loi d’une variable aléatoire X sous P(· | A) (on parlera de loi condi-
tionnelle sachant A), ou dire que deux variables aléatoires X et Y sont indépendantes sous P(· | A)
(on parlera d’indépendance conditionnelle sachant A). Ces notions joueront un rôle important.
Durant ce cours, on donnera un sens à ces définitions dans certains cas où P(A) = 0 et aussi dans
des cas de conditionnement par une tribu.
Définition 0.17. Une famille (Xi )i∈I de v.a. est dite i.i.d. (pour indépendante et identiquement
distribuée) si ces variables sont indépendantes et ont toutes la même loi.
Théorème 0.18 (Loi (forte) des grands nombres). Soit (Xn )n≥1 une suite de v.a. i.i.d., intégrables
à valeurs dans Rd , ayant même loi qu’une v.a. X. On a
1
lim (X1 + · · · + Xn ) = E(X), p.s.
n→∞ n
Rappelons qu’une v.a. réelle X est dite gaussienne si sa densité est de la forme
1 2 /(2σ 2 )
x 7→ √ e−(x−m) , ∀x ∈ R.
2πσ 2
Un vecteur (X1 , . . . , Xn ) est dit gaussien si toute combinaison linéaire nj=1 λj Xj , λj ∈ R, est une
P
v.a. réelle gaussienne. On peut montrer que la loi d’un tel vecteur est caractérisée par son espérance
m = (EX1 , . . . , EXn ) et sa matrice de covariance Γ = (Γkl )1≤k,l≤n avec Γk,l = cov(Xk , Xl ) ; sa loi est
alors notée N (m, Γ).
Théorème 0.19 (Théorème Central Limite). Soit (Xn )n une suite de v.a. i.i.d., de carré intégrable,
à valeurs dans Rd , ayant même loi qu’une v.a. X. Alors quand n → ∞,
n
1 X (loi)
√ (Xi − E(Xi )) −→ N (0, Γ),
n
i=1
où N (0, Γ) est une loi gaussienne sur Rd , centrée et de matrice de variance-covariance Γ donnée par
celle de X :
Γk,l = Cov (X k , X l ), 1 ≤ k, l ≤ d,
en ayant noté (X 1 , . . . , X d ) les composantes de X.
12 CHAPITRE 0. INTRODUCTION
Chapitre 1
Intuitivement, les processus de Markov sont des processus stochastiques dont, à chaque ins-
tant, le comportement futur n’est influencé que par la valeur présente et par toutes les valeurs
passées. Les chaı̂nes de Markov sont des processus de Markov à temps discret. Ces processus per-
mettent de modéliser de nombreux phénomènes ; ils sont par exemple utilisés pour des problèmes de
télécommunication, de théorie du signal, d’imagerie informatique, etc.
Nous nous limiterons ici à des chaı̂nes ayant un espace d’états E dénombrable (souvent, on aura
E ⊂ Z). Cet espace sera muni de la tribu discrète P(E), et la loi d’une variable aléatoire X à valeurs
dans E sera donc donnée par les probabilités élémentaires P(X = x) pour tout x de E.
Soit (Xn , n ≥ 0) un processus stochastique à valeurs dans E. Les éléments de E sont souvent notés
par i, j, k ou x, y, z.
1.1 Définition
Définition 1.1. Le processus (Xn , n ≥ 0) est appelé une chaı̂ne de Markov s’il existe une famille
(P (x, y))x,y∈E de réels, appelés probabilités de transition, telle que, pour tout n ≥ 0, et tous
x0 , . . . , xn , xn+1 ∈ E,
P Xn+1 = xn+1 X0 = x0 , . . . , Xn = xn = P (xn , xn+1 )
13
14 CHAPITRE 1. CHAÎNES DE MARKOV
Soit x ∈ E pour lequel il existe n ≥ 0 tel que P(Xn = x) > 0. D’après la définition, la ligne x de la
matrice P , c’est-à-dire la famille (P (x, y))y∈E , donne la loi de Xn+1 sachant Xn = x, donc elle vérifie
P (x, y) = P(Xn+1 = y | Xn = x) ≥ 0, ∀y ∈ E,
et X
P (x, y) = 1.
y∈E
Preuve : Le sens “chaı̂ne de Markov” ⇒ “la formule” s’obtient par récurrence sur n, laissée comme
exercice. La réciproque s’en déduit car ces probabilités caractérisent la loi du processus. 2
En raison de cette propriété, on pourra donc parler sans ambiguı̈té de la loi de la chaı̂ne de Markov
de loi initiale ν et de matrice de transition P , sans nécessairement préciser la façon dont ce processus
est construit. Il sera constamment utile dans la suite du cours de conserver la même matrice de
transition mais de faire varier la loi initiale de la chaı̂ne de Markov :
Définition 1.5. Supposons qu’une matrice stochastique P = (P (x, y))x,y∈E est donnée. Pour toute loi
ν sur E, on notera Pν une probabilité sur Ω telle que, sous Pν (c’est-à-dire sur l’espace de probabilités
(Ω, Pν )), (Xn )n≥0 est une chaı̂ne de Markov de matrice de transition P et de loi initiale ν.
Cette définition suppose admise la propriété suivante d’existence (pour des détails, voir la sec-
tion 1.12 de complément sur le processus canonique) :
Proposition 1.6. Soit P une matrice stochastique sur E. Il existe un espace mesurable (Ω, F), et un
processus (Xn )n≥0 à valeurs dans E tel que, pour toute probabilité ν sur E, il existe une probabilité
Pν sur Ω sous laquelle (Xn )n≥0 est une chaı̂ne de Markov ayant pour loi initiale ν et pour matrice de
transition P .
Pour x ∈ E, on notera Px au lieu de Pδx la loi de la chaı̂ne de Markov de matrice P et de loi
initiale δx , c’est-à-dire telle que X0 = x p.s.. On dira que c’est la chaı̂ne de Markov issue de x.
Avec ces notations, on vérifie par exemple que conditionner par X0 = x revient à considérer Px :
Lemme 1.7. Soit ν une loi sur E. Pour tout x ∈ E tel que ν(x) > 0, pour tout événement A dépendant
de X0 , X1 , . . .,
Pν (A | X0 = x) = Px (A).
Pour tout événement A dépendant de X0 , X1 , . . .,
X
Pν (A) = Px (A)ν(x),
x∈E
1.2. PROBABILITÉS DE TRANSITION À M PAS 15
Ceci implique la première égalité. La seconde égalité du lemme se déduit alors de la première et de la
formule des probabilités totales. 2
Dans les cas simples, on pourra représenter graphiquement les transitions possibles en 1 pas (c.-à-d.
entre Xn et Xn+1 ) sous la forme d’un graphe orienté.
Définition 1.8. Le graphe de la chaı̂ne de Markov (Xn )n≥0 d’espace d’états E et de matrice de
transition P = (P (x, y))x,y∈E est le graphe orienté G = (S, A) dont l’ensemble des sommets est S = E
et l’ensemble des arêtes est
A = (x, y) ∈ E × E P (x, y) > 0 .
Dans le cas où E = {1, . . . , r}, P et Q sont des matrices carrées et cela correspond au produit
matriciel. On définit de même par récurrence P n = P n−1 P , avec P 0 = IdE .
Proposition 1.10. Soit m ∈ N. Pour tous x, y ∈ E,
La notion de produit s’étend aux vecteurs comme dans le cas usuel des matrices :
16 CHAPITRE 1. CHAÎNES DE MARKOV
Définition 1.11. Soit P un noyau de transition sur E, ν une probabilité sur E et f : E → R+ une
fonction. La probabilité νP est la probabilité définie par
X
νP (x) = ν(y)P (y, x).
y∈E
Dans le cas où E = {1, . . . , r}, νP est le produit du vecteur-ligne ν par la matrice P , P f est le
produit de la matrice P par le vecteur-colonne f , et de même pour νf .
Corollaire 1.12. Soit m ∈ N. Pour toute loi ν sur E, la loi de Xm sous Pν est νP m . Ainsi, pour
toute fonction f : E → R+ ,
Eν (f (Xm )) = νP m f,
et en particulier pour tout x ∈ E,
Ex (f (Xm )) = P m f (x).
(1 − α − β)n
n 1 β α α −α
P = +
α+β β α α+β −β β
P(ξn = x) = q(x), ∀n ≥ 1, ∀x ∈ Z,
1.3. EXEMPLES DE CHAÎNES DE MARKOV 17
C’est une chaı̂ne de Markov sur Z du fait de l’indépendance de la suite des ξi qui représentent les
pas de la marche (exercice : vérifier que c’est une chaı̂ne de Markov). On vérifie facilement que sa
probabilité de transition est
P (a, b) = q(b − a), ∀a, b ∈ Z.
Un exemple classique est la marche aléatoire simple sur Z, ou “marche de l’ivrogne” : pour
p ∈]0, 1[ fixé, q(+1) = p et q(−1) = 1 − p, autrement dit
(À chaque instant, on fait un pas à droite avec la probabilité p ou un pas à gauche avec la probabilité
1 − p). On vérifiera facilement que la probabilité de transition s’écrit :
Xn décrit par exemple la fortune accumulée après n parties d’un jeu de hasard qui rapporte un euro
en cas de gain, et fait perdre un euro sinon, en partant d’une fortune de x0 euros.
Selon le même principe d’homogénéité spatiale, on peut considérer des marches aléatoires sur Zd ,
définies par Xn = x0 + ξ1 + · · · + ξn où ξ1 , ξ2 , . . . sont des variables aléatoires indépendantes et suivant
la même loi sur Zd . L’exemple le plus courant est la marche aléatoire simple symétrique sur Zd :
1
P(ξn = ei ) = P(ξn = −ei ) = pour i = 1, . . . , d,
2d
où (e1 , . . . , ed ) est la base canonique de Rd . Autrement dit, à chaque pas, la marche choisit uni-
formément l’une des 2d directions.
P (x, x − 1) = 1 − p et P (x, x + 1) = p, ∀x ∈ {a + 1, . . . , b − 1}
et par
P (a, a) = 1 P (b, b) = 1.
Ainsi, si Xn = a, alors Xn+k = a p.s. pour tout k ≥ 0, par récurrence, et de même pour b. On parle
de barrières absorbantes.
Alternativement, on peut définir P (x, y) de la même façon quand x ̸= a, b, et par
P (a, a + 1) = 1 P (b, b − 1) = 1.
Proposition 1.14. Le processus (Xn )n≥0 est une chaı̂ne de Markov à valeurs dans N et de probabilité
de transition P de la forme
p0,0 p0,1 0 0 0 0 ...
p1,0 0 p1,2 0 0 0 ...
p2,0 0 0 p2,3 0 0 ...
P =
p3,0 0
,
0 0 p3,4 0 ...
... 0 0 0 ... ... ...
... 0 0 ... ... ... ...
avec
pi,0 = P Y = i + 1 Y >i , pi,i+1 = P Y > i + 1 Y >i .
où Zn,i représente le nombre d’enfants du i-ième individu de la génération n, et les v.a. (Zn,i )n,i∈N
sont i.i.d. de même loi que Z.
1.4. PROPRIÉTÉ DE MARKOV 19
Proposition 1.15. Le processus (Xn , n ≥ 0) est une chaı̂ne de Markov à valeurs dans E = N et de
noyau de transition P = (pi,j )i,j≥0 donné par
P Z1 + · · · + Zi = j , si i > 0 et j ≥ 0 ;
pi,j = 1, si i = j = 0 ;
0, si i = 0 et j > 0,
comme annoncé. 2
dès lors que l’événement par lequel on conditionne n’a pas une probabilité nulle.
Preuve : La proposition précédente s’écrit aussi, en explicitant la probabilité conditionnelle :
et il suffit alors de prendre xk = x et de sommer cette identité sur tous les x0 , . . . , xk−1 ,xk+1 , . . . , xk+n
tels que (x0 , . . . , xk−1 , x) ∈ B et (x, xk+1 , . . . , xk+n ) ∈ A. 2
La suite de cette partie contient différents énoncés de la propriété de Markov simple au temps k,
qui sont simplement différentes formulations de la proposition précédente.
Proposition 1.18. Soit k ≥ 1. Pour tout x ∈ E et tout B ⊂ E k+1 , la loi du processus (Xk , Xk+1 , . . .)
sous Pν (· | (X0 , . . . , Xk ) ∈ B, Xk = x) est Px : c’est une chaı̂ne de Markov de matrice P issue de x.
On rappelle que les événements de la forme {(X0 , . . . , Xk ) ∈ B} forment la tribu σ(X0 , . . . , Xk ) ;
on prendra l’habitude d’utiliser la notation suivante et, en général, de penser en terme de tribus :
Définition 1.19. Pour tout k ≥ 0, la tribu du passé avant le temps k est
Fk = σ(X0 , . . . , Xk ).
20 CHAPITRE 1. CHAÎNES DE MARKOV
La proposition précédente a pour conséquence directe, en terme d’espérance, les formules suivantes :
Proposition 1.20 (Propriété de Markov au temps k). Soit k ≥ 1. Pour tout x ∈ E, pour toute
fonction f : E N → R mesurable positive ou bornée, pour tout événement H ∈ Fk ,
Eν f (Xk , Xk+1 , . . .) H ∩ {Xk = x} = Ex f (X0 , X1 , . . .) .
Plus généralement,
Eν f (Xk , Xk+1 , . . .)1H = Eν F (Xk )1H
où la fonction F : E → R est définie par
F (x) = Ex f (X0 , X1 , . . .) , x ∈ E.
Plus généralement, pour toute fonction g : E k → R positive ou bornée, avec la même notation,
Eν f (Xk , Xk+1 , . . .)g(X0 , . . . , Xk ) = Eν F (Xk )g(X0 , . . . , Xk ) .
Preuve : La première égalité vient directement de la dernière proposition : la loi de (Xk , Xk+1 , . . .)
sous Pν (· | H ∩ {Xk = x}) est Px , donc l’espérance de f sous ces deux lois est la même. En explicitant
l’espérance conditionnelle (rappelons que E(Z | A) = E(Z1A )/P(A)), cette égalité devient :
Eν f (Xk , Xk+1 , . . .)1H 1{Xk =x} = Ex f (X0 , X1 , . . .) Eν (1H 1{Xk =x} )
= F (x)Eν (1H 1{Xk =x} ) = Eν F (x)1H 1{Xk =x}
= Eν F (Xk )1H 1{Xk =x} .
En sommant cette égalité sur toutes les valeurs x ∈ E, on obtient la seconde égalité de l’énoncé.
Ceci prouve la dernière égalité lorsque g(X1 , . . . , Xk ) = 1H . On en déduit le cas général de façon
classique : par linéarité on obtient le cas où g est étagée, puis par convergence monotone ou dominée
le cas où g est positive ou bornée. 2
Preuve : On procède par récurrence sur r ≥ 1. Pour r = 1, c’est la Proposition 1.10. Supposons le
résultat vrai pour r. Soit x0 , . . . , xr+1 ∈ E et 0 ≤ n1 ≤ · · · ≤ nr+1 . On a, d’après la propriété de
Markov simple au temps n1 ,
Px0 (Xn1 = x1 , . . . , Xnr+1 = xr+1 ) = Px0 (Xn1 = x1 )Px1 (Xn2 −n1 = x2 , . . . , Xnr+1 −nr = xr+1 )
= P n1 (x0 , x1 )Px1 (Xn2 −n1 = x2 , . . . , Xnr+1 −nr = xr+1 )
(la seconde égalité vient de la Proposition 1.10), ce qui conclut, par l’hypothèse de récurrence. Le cas
d’une loi initiale ν s’en déduit en décomposant selon la valeur de X0 (ou via le Lemme 1.7). 2
Quitte à construire la chaı̂ne de Markov sur Ω = E N (cf. Appendice), muni de la tribu produit, on
peut toujours supposer qu’il existe une application θ : Ω → Ω mesurable telle que, pour tout n ∈ N,
Xn ◦ θ = Xn+1 .
Cette application s’appelle le décalage (ou “shift” en anglais). On posera θ0 = Id, θ1 = θ, . . . , θn+1 =
θn ◦ θ. Alors Xn ◦ θk = Xn+k , pour tous n, k ≥ 0. Avec ces notations, la propriété de Markov simple
s’écrit comme suit :
1.5. VISITES À UN SOUS-ENSEMBLE 21
Proposition 1.22 (Propriété de Markov simple au temps k). Pour tout k ≥ 1 et pour toute v.a.
réelle Z qui est σ(X)-mesurable, positive ou bornée, et pour toute v.a. réelle W qui est Fk -mesurable,
pour toute loi initiale ν, on a
Eν Z ◦ θk W = Eν F (Xk )W ,
où
F (x) := Ex Z .
Preuve : Toute v.a. Z qui est σ(X)-mesurable s’écrit en effet Z = f (X) = f (X0 , X1 , . . .) et toute
v.a. W qui est Fk -mesurable est de la forme W = g(X0 , . . . , Xk ). Comme Z ◦ θk = f (X ◦ θk ) =
f (Xk , Xk+1 , . . .), cette proposition ré-exprime la dernière formule de la Proposition 1.20. 2
où la troisième égalité est due à la propriété de Markov au temps n. Nous avons donc
Preuve : On a
∞
X
Ex (Ny ) = Ex (Ny 1{Ty =n} ),
n=0
Ex (Ny 1{Ty =n} ) = Ex (Ny ◦ θn 1{Ty =n} ) = Ex (F (Xn )1{Ty =n} ) = Ex (F (y)1{Ty =n} ) = F (y)Px (Ty = n),
+∞
X +∞
X +∞
X
n
G(x, y) = Ex (Ny ) = P (x, y) = Ex 1y (Xn ) = Ex 1y (Xn )
n=0 n=0 n=0
Avec cette notation, la proposition précédente s’écrit G(x, y) = Px (Ty < ∞)G(y, y), d’où en
particulier
G(x, y) ≤ G(y, y).
Définition 1.26. Un état x est récurrent si Px (τx < +∞) = 1. Dans le cas contraire, x est dit
transient.
Théorème 1.27. Si pour la chaı̂ne X l’état x est transient, le nombre de visites Nx suit, sous la
probabilité Px , la loi géométrique de paramètre
Pτx −1
Preuve : Soit x transient. Sous Px , X0 = x et j=0 1(Xj =x) = 1. Il vient, pour tout k ≥ 1,
∞
X
Px Nx = k + 1 = Px τx = n, Nx ◦ θn = k ,
n=1
P∞
où Nx ◦θn = j=0 1(Xj+n =x) est le nombre de visite en x par la chaı̂ne après le temps n. D’après la pro-
priété de Markov au temps n (Proposition 1.22), on a Px (τx = n, Nx ◦θn = k) = Ex (1{τx =n} 1{Nx ◦θn =k} ) =
Ex (1{τx =n} EXn (1{Nx =k} )) = Px (τx = n)Px (Nx = k) d’où
∞
X
Px Nx = k + 1 = Px τx = n Px Nx = k = Px τx < ∞ Px Nx = k .
n=1
2
Ce qui prouve le théorème puisque Px Nx = 1 = Px τx = ∞ = a.
Par la Proposition 1.24, on en déduit que si x est transient alors le nombre de visites Nx est fini
presque sûrement, quel que soit le point de départ : Py (Nx < ∞) = 1 pour tout y ∈ E.
Corollaire 1.28. Si l’espace d’états E est fini, alors il existe au moins un état récurrent.
P
Preuve : Prenons un état initial z quelconque. On a, Pz -p.s., ∞ = x∈E Nx (le temps total passé
dans E est infini), mais Nx < ∞ Pz -p.s. pour tout x transient, d’où la conclusion. 2
Preuve :
• 1 =⇒ 2 : On a montré dans la preuve du Théorème 1.27 que la propriété de Markov donne,
pour tout k ∈ N, Px (Nx = k + 1) = Px (τx < ∞)Px (Nx P= k). Si x est récurrent on a donc, pour
tout k ∈ N, Px (Nx = k) = Px (Nx = k + 1). Comme k∈N Px (Nx = k) = Px (Nx < ∞) < ∞
et que tous les termes de la somme sont égaux entre eux, ils sont nécessairement tous nuls et
donc Px (Nx < ∞) = 0.
• 2 =⇒ 3 : trivial.
• 3 =⇒ 1 : provient du théorème précédent.
2
Remarquons que, si x est récurrent, on peut parfois avoir Nx < ∞ si le point de départ n’est pas
x ; cela dépend des classes de communication de x et du point de départ.
Définition 1.31. On dit que l’état y est accessible à partir de l’état x, et on note x → y, s’il
existe n > 0 tel que P n (x, y) > 0. On dit que les deux états x et y communiquent si x → y et y → x,
et on note alors x ↔ y.
Preuve : Par hypothèses, il existe n, m ≥ 1 tels que P n (x, y) > 0 et P m (y, z) > 0. Or
X
P n+m (x, z) = P n (x, w)P m (w, z) ≥ P n (x, y)P m (y, z) > 0,
w∈E
d’où le résultat. 2
On a donc
Étant donné un état x, on note C(x) l’ensemble des états qui communiquent avec x. Il est possible
que C(x) = ∅ ; dans ce cas, x ̸↔ x, et x est appelé un état de non-retour. Remarquons que tout état
de non-retour est clairement transient. On note Enr l’ensemble des états de non-retour, et Er = E\Enr .
Alors sur Er , la relation ↔ est une relation d’équivalence. Ses classes d’équivalence sont appelées les
classes de communication (ou plus simplement les classes) de la chaı̂ne de Markov : ce sont donc
les ensembles C1 , . . . , Cr (où r ∈ N∗ ∪ {∞}) tels que E est partitionné en
r
[
E = Enr ∪ Ck ,
k=1
et pour i = 1, . . . , r, tous les états de Ci communiquent entre eux, et ne communiquent avec aucun
autre : pour tout i ∈ {1, . . . , r} et x, y ∈ Ci , on a x → y, et pour tous i, j ∈ {1, . . . , r} distincts, et tous
x ∈ Ci , y ∈ Cj , on a x ̸→ y ou y ̸→ x.
Définition 1.34. Une chaı̂ne de Markov est irréductible si tous ses états communiquent, autrement
dit s’il n’y a pas d’état de non-retour et qu’il n’y a qu’une classe de communication.
Définition 1.35. Un ensemble C ⊂ E est dit fermé si aucun état y ̸∈ C n’est accessible à partir d’un
état quelconque x ∈ C, autrement dit si
P n (x, y) = 0, ∀n ≥ 1, x ∈ C, y ̸∈ C.
Ainsi, si C ⊂ E est fermé alors pour tout x ∈ C, Px -p.s., pour tout n ≥ 1, Xn ∈ C et donc, sous Px ,
(Xn )n≥0 est une chaı̂ne de Markov d’espace d’états C et de matrice de transition (P (x, y))x,y∈C . On
l’appelle la chaı̂ne de Markov restreinte à C.
Naturellement, les transitions en 1 pas suffisent à déterminer si un ensemble d’états est fermé :
P (x, y) = 0, ∀ x ∈ C, y ̸∈ C.
Preuve : La partie “seulement si” est immédiate. Pour la partie “si”, on procède par récurrence en
n. 2
Proposition 1.37. Toute partie non vide C ⊂ E fermée et finie contient au moins un état récurrent.
Preuve : Nous montrons par l’absurde que y → x. Supposons que y ̸→ x, i.e. pour tout n ≥ 1,
P n (y, x) = 0. Comme x → y, il existe un n ≥ 1 tel que P n (x, y) = Px (Xn = y) > 0.
Remarquons que Nx = ∞ si, et seulement si Nx ◦ θn = ∞. En appliquant la propriété de Markov
au temps n, on a ainsi :
or
X X
Py (Nx = ∞) ≤ Py (Nx ≥ 1) = Py (∃k ≥ 1 tel que Xk = x) ≤ Py (Xk = x) = P k (y, x) = 0,
k≥1 k≥1
Corollaire 1.39.
• Deux états qui communiquent ont la même nature (tous récurrents ou tous transients).
; On dira qu’une classe de communication est récurrente (resp. transiente) si tous ses états
le sont. Toute classe est donc ou bien récurrente, ou bien transiente.
• Une classe récurrente est fermée. Par conséquent, une classe non fermée est transiente.
• Une classe fermée et finie est récurrente.
Remarque. Ce résultat permet donc de déterminer la nature de tous les états d’une chaı̂ne de
Markov sur un espace d’états fini à partir de son graphe (ou de sa matrice de transition). En revanche
elle ne permet pas toujours de conclure quand l’espace d’états est infini, car savoir qu’une classe de
communication infinie est fermée ne suffit pas à connaı̂tre sa nature.
1.8 Exemples
1.8.1 Chaı̂ne à deux états
Si 0 < α ≤ 1 et si 0 < β ≤ 1, la chaı̂ne est irréductible récurrente.
Si α = 0 et 0 < β ≤ 1, les classes sont T = {1}, transiente, et C = {0}, récurrente.
Si α = β = 0, les classes sont C1 = {0} et C2 = {1}, toutes deux récurrentes.
De plus, si T est fini, les relations (1.2) caractérisent les probabilités (qi (x))x∈T .
Preuve : Soit i ∈ {1, . . . , N }. Pour simplifier on note Ti = TCi = inf{n ≥ 1 : Xn ∈ Ci } le temps
d’entrée dans la classe Ci . Soit x ∈ T . On remarque que, sous Px , on a Ti > 0, et que Ti = Ti ◦ θ1 . Par
la propriété de Markov au temps 1, on a donc :
X X
Px (Ti < ∞) = Px (X1 = z, Ti < ∞) = Px (X1 = z, Ti ◦ θ1 < ∞)
z∈E z∈E
X X
= Px (X1 = z)Pz (Ti < ∞) = P (x, z)qi (z).
z∈E z∈E
1.9. PROBABILITÉS D’ABSORPTION 27
S
En écrivant E = T ∪ Ci ∪ j̸=i Cj , et vu que qi (z) = 1 si z ∈ Ci et que qi (z) = 0 si z ∈ Cj avec j ̸= i,
on obtient (1.2). Remarquons que la première somme de (1.2) est égale à Px (X1 ∈ Ci ) = Px (Ti = 1).
Supposons que T est fini et qu’une fonction f : T → [0, 1] vérifie (1.2) pour tout x ∈ T . Alors par
itération,
X X
f (x) = Px (Ti = 1) + P (x, z) Pz (Ti = 1) + P (z, z ′ )f (z ′ )
z∈T z ′ ∈T
X
= Px (Ti ≤ 2) + P 2 (x, y)f (y).
y∈T
Or pour tout état transient y, d’après le lemme suivant, limn→∞ P n (x, y) = 0. Ce qui entraı̂ne, comme
T est fini, que f (x) = limn→∞ Px (Ti ≤ n) = Px (Ti < ∞) = qi (x). 2
lim P n (x, y) = 0.
n→∞
n (x, y),
P
Preuve : Par la proposition 1.24, G(x, y) ≤ G(y, y) < ∞, or G(x, y) = Ex (Ny ) = nP d’où
le résultat. 2
d’où, en passant à la limite quand n → ∞, à l’aide du lemme précédent, et du fait que T est fini,
X N
X
1= 0+ Px (Ti < ∞),
y∈T i=1
ce qui conclut. 2
NB. Si T est infini, la formule de la proposition peut être fausse. C’est clairement le cas s’il n’y a pas
de classe récurrente. C’est aussi le cas, par exemple, pour les processus de branchement sur-critiques,
c’est-à-dire où la probabilité d’extinction est non nulle (voir ci-dessous).
La probabilité d’extinction est la probabilité d’absorption par la classe {0}, autrement dit
∞
[
P(M), où M = {Xn = 0}.
n=0
Il est clair que {Xn = 0} ⊂ {Xn+1 = 0}, donc ces événements forment une suite croissante et
Théorème 1.43. Supposons que X0 = 1. Alors la probabilité d’extinction est la plus petit nombre
a ≥ 0 tel que
g(a) = a,
où g(a) = E(aZ ) = ∞ j
P
j=0 a P(Z = j) est la fonction génératrice de Z.
i=0
g(0) ≤ g(a) = a,
d’où
g2 (0) = g(g(0)) ≤ g(a) = a,
ainsi par récurrence, pour tout n ≥ 1, gn (0) ≤ a d’où, en passant à la limite, q ≤ a. 2
Théorème 1.44. Supposons que X0 = 1 et P(Z = 1) < 1. Alors la probabilité d’extinction vaut 1 si
et seulement si E(Z) ≤ 1.
Preuve : On remarque que E(Z) = g ′ (1) (dérivée à gauche, ∈ [0, +∞]). Par un raisonnement d’analyse
réelle élémentaire (faire un dessin), dans ce cas, g ′ (1) ≤ 1 si et seulement si 1 est l’unique point fixe
de g. 2
NB. On pourra remarquer que les équations (1.2) donnant la probabilité d’absorption sont ici
équivalentes à g(q) = q, où q = q{0} (1) est la probabilité d’extinction, c’est-à-dire la probabilité
d’absorption par {0} partant de l’état 1 (on peut en effet remarquer que q{0} (n) = q{0} (1)n ). Lorsque
g a plusieurs points fixes, ces équations ne caractérisent donc pas les probabilités d’absorption.
1.10. MESURES ET PROBABILITÉS INVARIANTES 29
Définition 1.45. On dit qu’une mesure (resp. une probabilité) m sur E est une mesure invariante
(resp. une probabilité invariante) de la chaine de Markov de noyau de transition P si mP = m,
i.e. X
m(x) = m(y)P (y, x), ∀ x ∈ E.
y∈E
Notons qu’une mesure m sur E équivaut à la donnée de la famille (m(x))x∈E d’éléments de [0, +∞],
où m(x) = m({x}), et que dans la notation mP on considère cette famille comme un vecteur ligne.
Dans ce cours, on supposera toujours que les mesures sur E vérifient m(x) < +∞ pour tout x ∈ E,
afin d’éviter des cas pathologiques.
Remarquons que, si m est invariante, alors tous ses multiples λm, où λ ∈ R+ , sont des mesures
invariantes.
Définition 1.46. Un processus (Xn , n ≥ 0) est dit stationnaire si, pour tout k ∈ N, les deux
processus (X0 , X1 , . . .) et (Xk , Xk+1 , . . .) ont la même loi.
Proposition 1.47. Une chaı̂ne de Markov (Xn , n ≥ 0) est stationnaire si et seulement si la loi initiale
est invariante.
Théorème 1.48. Soit x un état récurrent fixé de la chaı̂ne de Markov. On définit, pour tout y ∈ E,
x −1
τX
m(y) = Ex 1{Xn =y} .
n=0
Preuve : On démontre d’abord l’invariance, en autorisant a priori m(y) à prendre la valeur +∞.
Sous Px , on a τx < ∞ par récurrence de x, et X0 = Xτx = x, si bien que
x −1
τX τx
X x −1
τX
1{Xn =y} = 1{Xn =y} = 1{Xk+1 =y} .
n=0 n=1 k=0
30 CHAPITRE 1. CHAÎNES DE MARKOV
Si x est récurrent, le théorème suivant montre que la mesure m relie asymptotiquement le temps
passé en chaque état y au temps passé en x :
Théorème 1.49 (Théorème ergodique). Soit x un état récurrent. Pour tout état y, Px -presque
sûrement, Pn−1
k=0 1y (Xk )
Pn−1 −→ m(y),
n→∞
k=0 1x (Xk )
où m est la mesure (dépendant de x) définie par le théorème précédent. Plus généralement, pour toutes
fonctions f, g : E → R+ , Px -presque sûrement,
Pn−1 R
k=0 f (Xk ) f dm
Pn−1 −→ R
k=0 g(Xk )
n→∞ g dm
R
si g dm est fini et non nul.
Remarquons que, pour toute fonction mesurable f : E → R+ ,
Z X x −1
τX
f dm = f (y)m(y) = Ex f (Xk ) .
y∈E k=0
La première formule est simplement l’intégrale par rapport à une mesure discrète ; la deuxième corres-
pond, dans le cas f = 1{y} ,P
à la définition de m(y), et s’en déduit dans le cas général par convergence
monotone en écrivant f = y∈E f (y)1{y} .
Preuve : La démonstration de ce théorème repose sur l’application de la loi forte des grands nombres
aux excursions successives de la chaı̂ne de Markov en-dehors de l’état x. Soit f : E → R+ une fonction.
Notons α0 = 0, α1 = τx et, plus généralement, pour tout entier r ≥ 0, αr le temps de r-ième retour
en x : pour tout entier r ≥ 0,
αr+1 = inf{k > αr | Xk = x}.
Comme x est récurrent, on a αr < ∞ p.s. pour tout r ≥ 0. Le résultat suivant sera plus facilement
démontré avec le formalisme des lois conditionnelles introduit au chapitre suivants, et notamment avec
la propriété de Markov “forte” ; on reporte sa preuve à la section 2.5.
1.10. MESURES ET PROBABILITÉS INVARIANTES 31
Lemme 1.50. Supposons que x est un état récurrent de la chaı̂ne de Markov (Xn )n . Alors, sous la
probabilité Px , pour toute f : E → R+ , les variables aléatoires
αr+1 −1
X
Zr = f (Xk ), r ∈ N,
k=αr
Remarquons que
αNn −1
X NX X−1
n −1 αr+1 n −1
NX
f (Xk ) = f (Xk ) = Zr .
k=0 r=0 k=αr r=0
De même, on a aussi
αNn +1 −1 Z
1 X
Px -p.s., f (Xk ) −→ f dm
Nn + 1 n→∞
k=0
donc, vu que Nn ∼ Nn + 1 quand n → ∞ (car Nn → +∞), on déduit de (1.3) par encadrement que
n−1 Z
1 X
Px -p.s., f (Xk ) −→ f dm.
Nn n→∞
k=0
Le théorème permet de comparer le nombre de visites en deux états x et y ; mais quel est l’ordre
(x)
de grandeur du nombre Nn de visites en x avant le temps n ? La preuve donne plus précisément
n−1 Z
1 X
Px -p.s., (x)
f (Xk ) −→ f dm,
Nn n→∞
k=0
32 CHAPITRE 1. CHAÎNES DE MARKOV
R
et cela reste vrai si f dm = ∞, en utilisant, dans la preuve, la loi forte des grands nombres pour les
variables positives non intégrables (si Xn ≥ 0 sont i.i.d. et E(Xi ) = ∞, n1 (X1 + · · · + Xn ) → +∞ p.s.).
En particulier, en prenant f ≡ 1, on obtient
(x)
Nn 1 1
Px -p.s., −→ = ,
n n→∞ m(E) Ex (τx )
avec comme limite 0 si m(E) = ∞, c’est-à-dire si Ex (τx ) = ∞. Ainsi, deux comportements très
différents sont possibles :
• si m est une mesure finie, alors x (et donc tout état) est visité une proportion positive du
temps ;
• alors que si m est une mesure infinie, la proportion de temps passé en x est asymptotiquement
nulle.
Intéressons-nous plus précisément au premier cas.
Proposition 1.51. Soit m une mesure invariante. On suppose ou bien que l’ensemble T des états
transients est fini, ou bien plus généralement que m(T ) < ∞ (ce qui est le cas par exemple si m est
une probabilité invariante). Alors
a) m ne charge pas T : pour tout état transient x, on a m(x) = 0.
(
m(x) si x ∈ C,
b) Pour toute classe récurrente C, la restriction mC de m à C, définie par mC (x) =
0 sinon,
est invariante.
Par suite, m se décompose en une somme de mesures invariantes portées par chaque classe récurrente :
X
m= mC
C classe récurrente
Preuve : a) Soit x un état transient. Rappelons que, par le lemme 1.41, P n (y, x) → 0 pour tout
y ∈ E, et que, par la proposition 1.38, pour tout y récurrent, y ̸→ x, c’est-à-dire P n (y, x) = 0 pour
tout n ∈ N. Comme m est invariante on a, pour tout n ≥ 0, m = mP n , ce qui donne en particulier,
grâce à ce qui précède,
X X
m(x) = m(y)P n (y, x) = m(y)P n (y, x) −→ 0,
n→∞
y∈E y∈T
où, selon l’hypothèse considérée, l’échange de somme et de limite est justifié ou bien par
P le fait que
T est fini, ou par théorème de convergence dominée vu que m(y)P n (y, x) ≤ m(y) et y∈T m(y) =
m(T ) < ∞.
b) Vu ce qui précède, pour tout x ∈ C et tout y ∈ E, si y est transient alors m(y) = 0, et si y est
récurrent et y ∈
/ C alors y ̸→ x vu la proposition1.38, si bien que l’invariance de m s’exprime par :
X X
pour tout x ∈ C, m(x) = m(y)P (y, x) = m(y)P (y, x),
y∈E y∈C
c’est-à-dire mC = mC P . 2
Remarquons que l’opération inverse de la restriction est aussi possible, de façon plus évidente :
1.10. MESURES ET PROBABILITÉS INVARIANTES 33
Lemme 1.52. Soit C une classe de communication fermée. Soit m une mesure invariante pour la
restriction (P (x, y))x,y∈C de P à C. Si on étend m sur E par m(x)
e := 0 si x ̸∈ C, alors m
e est une
mesure invariante pour P .
Preuve : Si x ∈ C, comme m est invariante on a
X X
mP
e (x) = m(y)P
e (y, x) = m(y)P (y, x) = m(x) = m(x).
e
y∈E y∈C
Si x ∈
/ C, comme C est fermée on a P (y, x) = 0 si y ∈ C et donc
X X
mP
e (x) = m(y)P
e (y, x) = m(y)P
e (y, x) = 0 = m(x)
e
y∈E y∈C
2
Proposition 1.54. (Unicité) Si une chaı̂ne de Markov irréductible possède une probabilité inva-
riante π, toute autre mesure invariante est proportionnelle à π. En particulier, π est la seule probabilité
invariante.
Preuve : On suppose que π est une probabilité invariante. Soit m une mesure invariante et x un état
fixé de E. Si m ≡ 0, le lemme est vrai. Supposons m ̸≡ 0, d’où m(y) > 0 pour tout y ∈ E par le
π(x)
lemme précédent. Posons λ = m(x) et m′ = λm. Remarquons que m′ est invariante et m′ (x) = π(x).
Il faut montrer que m′ = π. Définissons une mesure µ sur E, en posant, pour tout y ∈ E, µ(y) =
min(m′ (y), π(y)). Alors
X X
(µP )(y) = µ(z)P (z, y) ≤ m′ (z)P (z, y) = m′ (y)
z∈E z∈E
car m′ est une mesure invariante. On voit de la même façon que (µP )(y) ≤ π(y). On a donc
(µP )(y) ≤ min(m′ (y), π(y)) = µ(y).
Mais on a aussi
X XX X X X
µP (y) = µ(z)P (z, y) = µ(z) P (z, y) = µ(z)
y∈E y∈E z∈E z∈E y∈E z∈E
P P
et ces sommes sont finies car y µ(y) ≤ y π(y) = 1, ce qui permet de calculer leur différence, et
X
(µ(y) − µP (y)) = 0.
y∈E
Les termes de la somme étant positifs ou nuls, ils sont donc tous nuls : µP (y) = µ(y) pour tout y ∈ E.
Ainsi, µ est invariante. Comme π et m′ aussi sont invariantes, m1 = π − µ(≥ 0) et m2 = m′ − µ(≥ 0)
sont également des mesures invariantes. Or m′ (x) = π(x) = µ(x) (grâce au choix de λ), d’où m1 (x) =
m2 (x) = 0, si bien que le lemme précédent implique que m1 = m2 ≡ 0, d’où π = µ = m′ . 2
34 CHAPITRE 1. CHAÎNES DE MARKOV
L’unicité de la probabilité invariante est donc assurée, sous réserve d’irréductibilité. L’important
résultat suivant relie l’existence d’une probabilité invariante à l’intégrabilité des temps de retour.
Théorème 1.55. Considérons une chaı̂ne de Markov (Xn ) irréductible. Les conditions suivantes sont
équivalentes :
(i) il existe un état x ∈ E tel que Ex (τx ) < +∞ ;
(ii) pour tout état x ∈ E, Ex (τx ) < +∞ ;
(iii) la chaı̂ne de Markov possède une probabilité invariante π.
Sous ces conditions la chaı̂ne est récurrente, et dite récurrente positive. π est alors la seule proba-
bilité invariante. De plus, pour tout y ∈ E,
1
π(y) =
Ey (τy )
Preuve : Montrons d’abord que (i) implique (iii). Supposons donc (i). En particulier τx < ∞, Px -
p.s., donc x est récurrent. On note m la mesure invariante associée à l’état récurrent x définie au
Théorème 1.48. Se rappelant que m(E) = Ex (τx ), on définit alors une probabilité invariante par
m
π= , (1.4)
Ex (τx )
Or, comme π est invariante, π(x) > 0 par le lemme 1.53, et, pour tout n, la loi de Xn sous Pπ est π
donc
∞
X X∞
Eπ [Nx ] = Pπ (Xn = x) = π(x) = +∞.
n=0 n=0
On en déduit que Ex [Nx ] = ∞, et donc que x est récurrent. Puisque la mesure m associée à x est une
mesure invariante, il résulte de la proposition 1.54 que m et π sont proportionnelles, donc que m(E)
est fini. Or m(E) = Ex (τx ), donc Ex (τx ) est fini, ce qui montre (ii). Puisque (ii) entraı̂ne (i) de façon
évidente, ceci prouve les équivalences du théorème.
L’unicité de π résulte de la proposition 1.54. La deuxième formule donnant π est la formule (1.4).
Cette formule appliquée à x donne
P x −1
Ex ( τn=0 1x (Xn )) 1
π(x) = = .
Ex (τx ) Ex (τx )
Dans le cas non irréductible, on peut appliquer le théorème précèdent à toute classe récurrente.
Les conditions du théorème peuvent alors être satisfaites ou non selon la classe, d’où les définitions
suivantes.
Définition 1.56. Un état récurrent x est récurrent positif si Ex (τx ) < ∞, et récurrent nul sinon.
On étend ces définitions à toute une classe de communication.
Corollaire 1.57. Lorsque E est fini, toute chaı̂ne irréductible est récurrente positive.
1.11. PÉRIODICITÉ ET EXISTENCE DE LA LOI LIMITE AU SENS FORT 35
Preuve : L’existence d’un état récurrent résulte du Corollaire 1.28. On sait qu’à cet état récurrent,
on peut associer une mesure invariante. Elle est de masse finie car l’espace est fini. 2
Pour les chaı̂nes récurrentes positives, le théorème ergodique prend la forme d’une loi des grands
nombres :
Théorème 1.58 (Théorème ergodique des chaı̂nes de Markov récurrentes positives). Si (Xn ) est
une chaı̂ne de Markov irréductible récurrente positive de probabilité invariante π, alors pour toute loi
initiale ν, pour tout état y ∈ E, Pν -presque sûrement,
n−1
1X
lim 1y (Xk ) = π(y),
n→+∞ n
k=0
et pour tous x, y ∈ E,
n−1
1X k
lim P (x, y) = π(y).
n→∞ n
k=0
Preuve : Pour tout état x, il résulte du Théorème 1.49, appliqué à g = 1, que (∗) est vraie Px -presque
sûrement (se souvenir que π ne dépend pas de x). C’est encore vrai Pν -p.s. car
X
Pν (·) = ν(x)Px (·).
x∈E
Ce théorème donne deux moyens pratiques d’approcher π si, comme c’est souvent le cas, on ne sait
pas la calculer explicitement. La première façon est la méthode de Monte Carlo, qui consiste à simuler
sur ordinateur une longue trajectoire Xn (ω) de la chaı̂ne,
R puis à faire la moyenne de f le long de cette
trajectoire. D’après (∗) on obtient ainsi à peu près f dπ. L’autre façon est de calculer itérativement
P n , par exemple dans le cas où E est fini. Puis de faire la moyenne des P n (x, y) pour approcher π(y)
(on peut montrer que la vitesse de convergence est exponentielle). C’est très souvent beaucoup plus
rapide que la recherche d’un vecteur propre de la transposée de P .
existe et définit une loi invariante (et l’unique loi invariante). Parfois, le résultat plus fort suivant est
valable :
lim P n (x, y) = π(y),
n→∞
Lemme 1.60. Pour tous x, y ∈ E, si x ↔ y alors d(x) = d(y). Autrement dit, la période est un
nombre qui ne dépend que de la classe à laquelle appartient l’état considéré.
Preuve : Soit x, y ∈ E tels que x ↔ y. Il existe m, l > 0 tels que P m (x, y) > 0 et P l (y, x) > 0. On a
alors
P m+l (x, x) ≥ P m (x, y)P l (y, x) > 0
donc d(x) divise m + l. Pour tout n tel que P n (y, y) > 0, on a
donc d(x) divise m + n + l, ce qui implique, avec ce qui précède, que d(x) divise n. Par définition de
d(y), on a donc d(x) ≤ d(y). Par symétrie on a aussi d(y) ≤ d(x), donc d(x) = d(y). 2
Définition 1.61. Une chaı̂ne de Markov irréductible (resp. une classe) est apériodique si la période
commune à tous les états de E (resp. à toute la classe) est 1, périodique sinon.
Proposition 1.62. Soit C une classe récurrente. On note d sa période. Pour tout x ∈ C, il existe n0
tel que, pour tout n ≥ n0 , P dn (x, x) > 0.
Preuve : Soit (nl )l≥1 la famille des entiers positifs tels que P nl (x, x) > 0. Pour tout s ≥ 1, posons
ds := pgcd(n1 , . . . , ns ). La suite d’entiers positifs (ds )s≥1 est décroissante donc stationne en une valeur
dt : ds = dt pour tout s ≥ t. Or dt divise tous les nl donc divise aussi leur pgcd d : on a dt |d. D’autre
part, d|nl pour l = 1, . . . , t donc d|dt . Ainsi, d = dt = pgcd(n1 , . . . , nt ).
Par le lemme qui suit, il existe donc un entier N tel que, pour tout n ≥ N , on a nd = α1 n1 +· · ·+αt nt
pour certains entiers naturels α1 , . . . , αt et donc
t
Y
P nd
(x, x) ≥ (P nl (x, x))αl > 0.
l=1
Preuve : En divisant tous les nl par d, on réduit le problème au cas d = 1. D’après le lemme de
Bézout, il existe une combinaison linéaire β1 n1 + · · · + βt nt = 1, avec des coefficients βl ∈ Z.
En rassemblant séparément les termes positifs et négatifs, on obtient alors p − q = 1 où p et q sont
des sommes de termes positifs. Posons N = q 2 − 1. Alors si n ≥ N , la division de n par q donne
n = αq + β,
Théorème 1.64 (Convergence en loi des chaı̂nes de Markov). Considérons une chaı̂ne de Markov X
de matrice de transition P irréductible, récurrente positive et apériodique. On note π la loi invariante.
Pour toute loi initiale ν,
lim Pν (Xn = j) = πj , ∀j ∈ E.
n→∞
En particulier, on a
lim P n (i, j) = πj , ∀i, j.
n→∞
1.11. PÉRIODICITÉ ET EXISTENCE DE LA LOI LIMITE AU SENS FORT 37
Preuve : On utilise un argument de couplage : Soit Y une autre chaı̂ne de Markov de noyau de
transition P , de loi initiale π, indépendante de X. Une telle chaı̂ne Y existe : pour construire le couple
(X, Y ), il suffit de se placer sur l’espace produit E N × E N muni de la probabilité produit Pν × ππ . Soit
Wn = (Xn , Yn ) la chaı̂ne couplée. W est une chaı̂ne de Markov de loi initiale ν × π et de matrice de
transition Pe((i, k), (j, l)) = P (i, j)P (k, l). La chaı̂ne W est irréductible et apériodique, car pour tout
n, Pen ((i, k), (j, l)) = P n (i, j)P n (k, l) qui est strictement positif pour tout n assez grand (c’est ici on
a utilisé l’apériodicité du P , sinon on ne peut pas garantir que P n (i, j)P n (k, l) > 0 pour tout couple
(i, k) et (j, l), donc W ne serait même pas irréductible).
Il est immédiat de vérifier que la loi π e(i, l) := πi πl définie sur E × E est une loi invariante pour Pe.
Alors W est une chaı̂ne récurrente positive irréductible et apériodique. Le temps d’atteinte T de
la diagonale de E × E par W :
T := inf{n ≥ 1 : Xn = Yn },
est Peν×π -p.s. fini car T est plus petit que le premier temps d’atteinte de n’importe quel (i, i) par W ,
qui est presque sûrement fini. On définit maintenant une nouvelle chaı̂ne (Zn ) par
Xn (ω), sur {T (ω) > n} ;
Zn (ω) :=
Yn (ω), sur {T (ω) ≤ n}.
On remarque que ZT = XT = YT et que Z0 = X0 a pour loi initiale ν. On vérifie maintenant que sous
eν×π , Z est une chaı̂ne de Markov de noyau de transition P ; En fait,
P
On discute ces trois cas séparément. Sur {T > n}, Zn+1 = Xn+1 et An = {X0 = i0 , . . . , Xn = in }.
D’après la propriété de Markov de X en n (X et Y sont indépendants),
eν×π (Zn+1 = j, T > n, An ) = P (i, j)P
P eν×π (T > n, Xn = in , . . . , X0 = i0 ) = P (i, j)P
eν×π (T > n, An ).
donc P
eν×π (Zn+1 = j|Zn = in , . . . , Z0 = i0 ) = P (i, j) en sommant ces trois cas dans (1.5).
On voit que X et Z ont la même loi initiale et même noyau de transition donc ont la même loi.
Donc
Pν (Xn = j) − πj = P
eν×π (Xn = j) − P eν×π (Zn = j) − P
eν×π (Yn = j) = P eν×π (Yn = j).
Pν (Xn = j) − πj ≤ P
eν×π (Zn = j, n < T ) − P
eν×π (Yn = j, n < T ) ≤ P
eν×π (n < T ) → 0,
d’où b). 2
C (0) , . . . , C (d−1) sont appelées les sous-classes cycliques de C. Nous étendons la définition de C (ν)
à tout entier ν ≥ 0 en posant C (s) := C (ν) si s ≡ ν mod d.
Proposition 1.66. Soit C une classe récurrente de période d.
a) C (0) , . . . , C (d−1) sont deux à deux disjointes et leur réunion donne C.
(n)
b) si j ∈ C (ν) et Pjk > 0 (n > 0), alors k ∈ C (ν+n) . Donc
X
P n (j, k) = 1.
k∈C (ν+n)
Preuve : a) est une conséquence de la proposition 1.65. Quant à b), considérons un m > 0 tel que
P m (i, j) > 0, on a
P m+n (i, k) ≥ P m (i, j)P n (j, k) > 0.
Ceci en vue de la proposition précédente (b) implique que
m + n ≡ νk mod d,
On a
m = ν mod d, n = s mod d.
D’autre part,
P m+n (i, k) ≥ P m (i, j)P n (j, k) > 0,
0 0 1/2 1/2 0
1/2 0 0 0 1/2
P =
0 1 0 0 0
0 1 0 0 0
0 0 1/2 1/2 0
Supposons que la chaı̂ne part de 0 ∈ C (0) . En un seul pas, elle peut aller à 2 ou 3 qui vont
appartenir forcément à C (1) . Ensuite on va à 1 donc 1 ∈ C (2) , puis de 1 on va à 0 ∈ C (3) ou 4 ∈ C (3) ,
ceci implique C (3) = C (0) . La période vaut donc 3 et C (0) = {0, 4}, C (1) = {2, 3} et C (2) = {1}.
πj
lim P nd+a (i, j) = = dπj ,
n→∞ π(C (a) )
1
Preuve : On P
P vérifie d’abord que π(C (a) ) = d. Comme π = πP et que pour j ∈ C (0) , πj =
i∈E πi Pi,j = i∈C (d−1) πi Pi,j , donc
X X X X X
π(C (0) ) = πi Pi,j = πi Pi,j = πi
j∈C (0) i∈C (d−1) i∈C (d−1) j∈C (0) i∈C (d−1)
car j∈C (0) Pi,j = 1 pour tout i ∈ C (d−1) ; donc π(C (0) ) = π(C (d−1) ). En considérant π = πP 2 =
P
· · · = πP d−1 , on obtient que π(C (0) ) = π(C (1) ) = · · · = π(C (d−1) ) = d1 puisque les sommes de
π(C (1) ), . . . , π(C (d) ) vaut 1.
On traite par exemple le cas a = 0. La matrice P d apériodique et pour tout i ∈ C (0) , Pi,j d = 0 si
π
j ̸∈ C (0) . Alors la mesure π bj := π(Cj(0) ) , j ∈ C (0) est une loi sur C (0) , de plus, elle est invariante pour
P d . Alors appliquer (1) on obtient la limite annoncée. 2
40 CHAPITRE 1. CHAÎNES DE MARKOV
En effet, pour tout n ∈ N, fµ (U ) = n si, et seulement si U ∈]µ(0) + · · · + µ(n − 1), µ(0) + · · · + µ(n)],
et cet intervalle a pour largeur µ(n).
Supposons donnée une suite (Un )n≥0 de variables aléatoires indépendantes et de loi uniforme sur
[0, 1]. On discutera de l’existence (non évidente) d’une telle suite plus bas.
Alors on peut définir par récurrence la suite (Xn )n≥0 de variables aléatoires par : X0 = fµ (U0 ) et,
pour tout n ≥ 0,
Xn+1 = fP (Xn ,·) (Un+1 ),
où P (Xn , ·) est la mesure de probabilité donnée par la ligne Xn de la matrice P . Par cette construction,
X0 suit la loi µ et, pour tout n, la loi de Xn+1 sachant {X0 = x0 , . . . , Xn = xn } est la loi de
fP (xn ,·) (Un+1 ) (car Un+1 est indépendante de X0 , . . . , Xn ), c’est-à-dire P (xn , ·). Le processus (Xn )n≥0
est donc une chaı̂ne de Markov de loi initiale µ et de matrice de transition P . Notons Pµ sa loi :
c’est une mesure de probabilité sur l’espace E N des suites à valeurs dans E, muni de sa tribu produit
(voir rappels). L’existence de Pµ étant maintenant acquise, on va remplacer X par une version plus
“standard”.
Considérons l’espace canonique Ω = E N des suites à valeurs dans E, muni de sa tribu produit
F. Le processus canonique sur E est défini par X = IdΩ : c’est la fonction identité X = (Xn )n≥0 :
Ω → E N . Pour toute probabilité µ sur E, sous Pµ , ce processus X est une chaı̂ne de Markov de loi
initiale µ et de matrice P .
Avec l’espace canonique Ω = E N , on travaille donc toujours avec le même processus X : E N → E N
(l’identité), mais sous différentes lois Pµ . De plus, on peut définir l’opérateur de décalage (ou shift)
θ : Ω → Ω par
θ((xn )n≥0 ) = (xn+1 )n≥0 , pour tout (xn )n≥0 ∈ Ω,
les variables (Un )n≥0 sont indépendantes, du fait de la propriété d’indépendance par paquets, et suivent
toutes la loi uniforme sur [0, 1], comme rappelé plus haut.
1.12. (∗) COMPLÉMENT SUR LE PROCESSUS CANONIQUE 41
Il s’agit de prolonger P en une probabilité sur σ(∪n Fn ). Remarquons que ∪n Fn étant stable par
intersection finie, ce prolongement sera unique. L’existence de ce prolongement a été montrée par
Kolmogorov et on a :
Théorème 1.68. Soit (µn )n≥0 une famille de probabilités sur (E n+1 , E ⊗(n+1) ) vérifiant (1.6). Il existe
une unique probabilité P sur l’espace canonique (Ω, F) défini par (1.7) telle que (Ω, F, (Xn )n≥0 , P) soit
un processus de répartitions finies (µn )n≥0 .
Exemple 1. Soient ν0 , . . . , νn . . . une suite de probabilités sur (E, E). On veut construire un modèle
pour une suite de v.a. indépendantes de lois ν0 , . . . , νn , . . .. On définit µn sur (E n+1 , E ⊗(n+1) ) par
µn = ν0 ⊗ . . . ⊗ νn et on applique le Théorème 1.68. On obtient une probabilité P sur (Ω, F) telle que
(Xn )n soit une suite de v.a. indépendantes de loi ν0 , . . . , νn , . . ..
Exemple 2. Cet exemple fournit la construction des chaı̂nes de Markov. On considère un ensemble
E dénombrable muni d’une probabilité µ et d’une matrice de transition Q(x, y), x, y ∈ E, c’est à dire
une matrice à termesXpositifs telle que pour tous x, y ∈ E,
Q(x, y) ≥ 0, Q(x, y) = 1.
y∈E
On définit µn sur E n+1 par µn (x0 , x1 , . . . , xn ) = µ(x0 )Q(x0 , x1 ) . . . Q(xn−1 , xn ) et on applique le
Théorème 1.68. On obtient une probabilité Pµ sur (Ω, F) telle que les vecteurs (X0 , X1 , . . . , Xn ) aient
pour loi µn .
42 CHAPITRE 1. CHAÎNES DE MARKOV
Chapitre 2
Espérance conditionnelle
Nous allons introduire un des outils fondamentaux des probabilités qui sera en particulier nécessaire
au chapitre prochain pour l’étude des martingales.
Introduction
Cette introduction intuitive peut être omise si on souhaite aborder directement la construction
mathématique de l’espérance conditionnelle.
La notion de conditionnement apparaı̂t en probabilité chaque fois que l’on dispose d’informations
partielles supplémentaires telles que la réalisation de certains événements.
On a jusque-là défini l’espérance conditionnelle d’une variable aléatoire X (positive ou intégrable)
sachant un événement A tel que P(A) > 0 :
E(X1A )
E(X | A) = .
P(A)
C’est la moyenne des valeurs de X parmi les résultats de l’expérience aléatoire pour lesquels A est
réalisé. Cela peut aussi se comprendre comme la moyenne des valeurs de X pour l’expérience modifiée
par la donnée de l’information que A est réalisé.
On souhaite étendre cette notion d’espérance conditionnelle dans le cas où l’on dispose d’une
information plus riche que la réalisation d’un événement, à savoir la réalisation de toute une famille
d’événements. Cependant, au lieu de définir l’espérance de X sachant que ces événements sont réalisés,
il sera plus pertinent de définir l’espérance de X sachant si ces événements sont réalisés, autrement
dit ce sera une fonction qui dépend de la réalisation ou non de ces événements ; ceci étant aléatoire,
ce sera donc une variable aléatoire. On aura ainsi typiquement
(
E(X | A) si A est réalisé
“L’espérance de X sachant si A est réalisé” =
E(X | Ac ) sinon.
Disposer d’une information sur l’expérience, cela revient à savoir si les événements d’un ensemble
G ⊂ F sont réalisés ou non. Remarquons que, si on sait si A est réalisé, on sait aussi siSAc est réalisé (à
savoir, si A ne l’est pas), et si on sait si An est réalisé pour tout n ≥ 0, on sait aussi si n An est réalisé
(en vérifiant un à un si l’un des An est réalisé). On constate donc que l’ensemble des événements dont
on peut connaı̂tre la réalisation est stable par complémentaire et par union dénombrable. De plus,
on sait toujours si ∅ et Ω sont réalisés (jamais et toujours, respectivement). On constate donc que G
forme une tribu.
Pour toute tribu G ⊂ F, l’espérance conditionnelle E(X | G) sera ainsi une variable aléatoire qui
dépendra seulement du fait que les événements de G sont réalisés ou non, ce qui formellement signifie
que ce sera une variable aléatoire G-mesurable. L’exemple précédent correspond ainsi à E(X | σ(A))
où σ(A) = {∅, A, Ac , Ω} est la plus petite tribu contenant A.
Un cas important sera celui de l’espérance de X sachant une autre variable aléatoire Y . Cela
revient à connaı̂tre la réalisation de tous les événements de la forme {Y ∈ B} (avec B mesurable),
43
44 CHAPITRE 2. ESPÉRANCE CONDITIONNELLE
autrement dit à connaı̂tre la tribu σ(Y ) engendrée par Y . Alors E(X | Y ) sera σ(Y )-mesurable, c’est-
à-dire (par le Lemme 0.9) une fonction mesurable de Y . Notons que l’exemple précédent correspond
aussi à E(X | 1A ) car σ(1A ) = {∅, A, Ac , Ω} = σ(A).
2.1 Définition
Soit un espace de probabilité (Ω, F, P). Rappelons d’abord une propriété simple de l’espérance :
Proposition 2.1. Soit X une variable aléatoire réelle, de carré intégrable. L’espérance E(X) de X
2
est le réel qui minimise la fonction a 7→ E (X − a) :
2
min E (X − a)2 ) = E (X − E(X)) = Var X.
a∈R
Preuve : Il suffit de développer E((X − a)2 ) = E(X 2 ) − 2aE(X) + a2 = (a − E(X))2 + Var X ≥ Var X,
et de noter qu’il y a égalité si, et seulement si a = E(X). 2
Autrement dit E(X) est la constante qui approche le mieux X, au sens de la norme L2 . C’est donc
la projection orthogonale de X sur le sous-espace R1 des variables aléatoires constantes. C’est de cette
façon de définir l’espérance que l’on part pour introduire l’espérance conditionnelle.
On donne la définition en deux étapes. D’abord lorsque X ∈ L2 (Ω, F, P) (rappelons que c’est un
espace de Hilbert) :
Comme la projection est linéaire, E(· | G) est linéaire sur L2 (Ω, F, P). En tant que projection
orthogonale, elle est contractante :
Remarquons que, comme l’espérance usuelle, elle est aussi croissante et vérifie l’inégalité triangu-
laire :
Lemme 2.3. Soit X, Y ∈ L2 (Ω, F, P).
a) Si X ≥ 0 p.s., alors E(X | G) ≥ 0 p.s..
b) Si X ≤ Y p.s., alors E(X | G) ≤ E(Y | G) p.s..
c) |E(X | G)| ≤ E(|X| | G) p.s..
Preuve : a) Posons Y = E(X | G). On a {Y < 0} ∈ G donc 1{Y <0} est G-mesurable, et bornée donc
dans L2 , d’où par (ii)
0 ≤ E(X1{Y <0} ) = E(Y 1{Y <0} ) ≤ 0,
ce qui implique E(Y 1{Y <0} ) = 0, or la v.a. Y 1{Y <0} est négative, et strictement négative sur {Y < 0},
donc nécessairement P(Y < 0) = 0, comme annoncé.
b) se déduit de a) par linéarité en l’appliquant à Y − X.
c) se déduit de b) : comme X ≤ |X|, E(X | G) ≤ E(|X| | G), de même −X ≤ |X| donne −E(X | G) ≤
E(|X| | G), d’où c). 2
2.1. DÉFINITION 45
La dernière propriété ci-dessus montre que E(· | G) est contractante sur L2 ⊂ L1 , pour la norme L1 .
Or L2 est dense dans L1 (par exemple, le théorème de convergence dominée montre que, pour toute
variable aléatoire X ∈ L1 , E(|X − X1{|X|≤n} |) → 0, en dominant par |X|, or X1{|X|≤n} est bornée
donc dans L2 ). Il en résulte que E(· | G) s’étend par continuité de façon unique à L1 . On va en fait
utiliser (i) et (ii) pour introduire une définition un peu plus générale car elle inclut toutes les variables
positives (c’est-à-dire à valeurs dans [0, ∞] p.s.).
En effet, (ii) en est le cas particulier Z = 1A , et (ii) implique (ii’) par linéarité (si Z est étagée) et par
approximation croissante (si Z est positive, Z = limn Zn avec 0 ≤ Z1 ≤ Z2 ≤ · · · étagées positives, et
on utilise le théorème de convergence monotone ; et dans le cas où ZX est intégrable, on applique le
théorème à Z+ et Z− qui sont positives, puis Z = Z+ − Z− ).
Le cas particulier suivant est essentiel :
Définition 2.6. Pour toute variable aléatoire X positive (resp. intégrable), et pour toute variable
aléatoire Y à valeurs dans un espace mesurable (E, E), on note
C’est donc (via le Lemme 0.9) l’unique variable aléatoire de la forme E(X | Y ) = h(Y ) (avec h : E → R
mesurable) telle que, pour toute fonction mesurable g : E → R positive (resp. bornée),
E g(Y )X = E g(Y )E(X | Y ) .
46 CHAPITRE 2. ESPÉRANCE CONDITIONNELLE
On pourra bien sûr considérer en particulier E(X | X1 , . . . , Xn ) = E(X | σ(X1 , . . . , Xn )), qui est
une fonction mesurable de X1 , . . . , Xn .
Preuve du Théorème 2.5. Unicité. Démontrons d’abord l’unicité dans le cas X ∈ L1 . Soit Y et
Ye deux variables aléatoires intégrables vérifiant (i) et (ii) : Y et Ye sont G-mesurables et, pour tout
A ∈ G, E(Y 1A ) = E(X1A ) = E(Ye 1A ). Prenant A = {Y < Ye }, on a A ∈ G et donc E(Y 1A ) = E(Ye 1A ),
d’où E((Ye − Y )1A ) = 0, or (Ye − Y )1A est nulle hors de A et > 0 sur A, donc on doit avoir P(A) = 0,
c’est-à-dire Y ≥ Ye p.s.. Par symétrie, Y = Ye p.s..
Considérons maintenant l’unicité dans le cas X ≥ 0. Pour tout n ∈ N, on note An = {Y < Ye ≤ n}.
On a An ∈ G par (i) et donc
0 ≤ E(Y 1An ) = E(Ye 1An ) ≤ n < ∞,
d’où Y 1An , Ye 1An ∈ L1 et E((Ye − Y )1An ) = 0, or (Ye − Y )1An > 0 sur An et = 0 ailleurs, donc
P(An ) = 0. La suite (An )n est croissante, d’où
[
0 = lim P(An ) = P An = P(Y < Ye < ∞).
n
n
Par symétrie, P(Ye < Y < ∞) = 0, donc p.s., si Y, Ye < ∞, alors Y = Ye . Il reste à voir que, p.s.,
Y = ∞ si et seulement si Ye = ∞. Or, avec Bn = {Y < n, Ye = ∞} ∈ G, on a
∞ · P(Bn ) = E(Ye 1Bn ) = E(Y 1Bn ) ≤ n,
ce qui impose P(Bn ) = 0. La suite (Bn )n est croissante, d’où
[
0=P Bn = P(Y < ∞, Ye = ∞).
n
Dans le cas X ∈ L1 , (Xn )n tend vers X dans L1 , et comme on a vu que E(· | G) est contractante
sur L2 pour la norme ∥·∥1 , il en résulte que (Yn )n est de Cauchy dans L1 donc converge dans L1 vers
une variable aléatoire Y . Comme la convergence L1 implique la convergence p.s. d’une sous-suite, Y
est G-mesurable. Et la propriété (ii) pour Y s’obtient par la convergence L1 : pour tout A ∈ G, pour
tout n, E(Xn 1A ) = E(Yn 1A ), et |E(Xn 1A ) − E(X1A )| ≤ E(|X − Xn |1A ) ≤ E(|X − Xn |) → 0, et de
même pour (Yn )n et Y , d’où à la limite E(X1A ) = E(Y 1A ). 2
Exemple 2.7. Soit A un événement de F de probabilité non nulle et X une variable aléatoire positive.
Calculons W = E(X | σ(A)).
On note que σ(A) = {A, Ac , ∅, Ω} = σ(1A ), de sorte que W , qui est une fonction σ(A)-mesurable
est une fonction de 1A , et est donc de la forme
W = α1A + β1Ac .
Et en écrivant (ii) pour A et Ac , on obtient
E(X1A ) E(X1Ac )
α= = E(X | A), et β= = E(X | Ac ),
P(A) P(Ac )
donc
E(X | σ(A)) = E(X | A)1A + E(X | Ac )1Ac .
2.2. PROPRIÉTÉS ÉLÉMENTAIRES 47
Exemple 2.8. Soit Y une variable aléatoire discrète, à valeurs dans E dénombrable, et X une variable
aléatoire positive. Calculons W = E(X | Y ). P
Comme E(X | Y ) est σ(Y )-mesurable, il existe f : E → R+ telle que E(X | Y ) = f (Y ) = y∈E f (y)1{Y =y} .
Pour tout y ∈ E, on a alors, en écrivant (ii) pour A = {Y = y}, par TCM,
On voit ainsi que, si Y est discrète à valeurs dans E, E(X | Y ) = f (Y ) où, pour toute valeur y ∈ E,
f (y) = E(X | Y = y) est l’espérance conditionnelle classique.
Notation abusive (mais pratique). Par extension, on utilisera quelquefois, pour n’importe quelle
variable Y (même non discrète), la notation abrégée suivante : si E(X | Y ) = f (Y ), alors
E(X | Y = y) = f (y).
Cette écriture, qui mathématiquement n’a pas de sens classique si P(Y = y) = 0, facilite le formalisme
R certains calculs. Par exemple, la propriété E(E(X | Y )) = E(X) (qui est (ii’) avec Z = 1) s’écrit
de
E(X | Y )dP = E(X) d’où, avec le théorème de transfert et la notation précédente,
Z
E(X | Y = y)dPY (y) = E(X).
et donc ∥E(X | G)∥1 ≤ ∥X∥1 , ce qui signifie que E(· | G) est contractante donc continue.
h) Sur L2 (Ω, F, P), l’application X 7→ E X G est la projection orthogonale sur L2 (Ω, G, P), en par-
2
ticulier elle est contractante : pour X ∈ L , ∥E(X G ∥2 ≤ ∥X∥2 .
Toutes ces propriétés sont des conséquences simples de la définition, ou ont été vues dans la
partie précédente dans L2 et peuvent s’étendre par approximation (à titre d’exercice, démontrer
notamment la propriété d) en vérifiant directement (i) et (ii)). Attention, bien qu’on ne le précise
pas systématiquement, les (in)égalités des propriétés ci-dessus sont valables presque sûrement, car
l’espérance conditionnelle sachant G est une variable aléatoire, qui de plus n’est définie qu’à égalité
presque partout près.
48 CHAPITRE 2. ESPÉRANCE CONDITIONNELLE
Ces propriétés peuvent se retenir en remarquant qu’elles satisfont à l’intuition suivante : E(· | G)
se calcule comme une espérance dans laquelle on “considère comme constantes” les variables G-
mesurables. Notons que considérer ces variables aléatoires comme constantes altère en général la
loi des autres variables aléatoires... à moins qu’elles ne soient indépendantes de G :
Proposition 2.10. Soient X et Y deux v.a. et G une sous-tribu de F. Soit ϕ une fonction borélienne,
positive ou telle que ϕ(X, Y ) soit intégrable.
a) On suppose que X est G-mesurable et Y est indépendante de la tribu G. Alors
Pour l’autre égalité, on note que E(X | G1 ) est G1 -mesurable et, pour tout A ∈ G1 , en écrivant le point
(ii) de la définition de E(X | G1 ) puis de la définition de E(X | G2 ) (car A ∈ G2 aussi), on a :
Notons que, sans l’inclusion, il n’y a pas de formule générale (les projections orthogonales ne
commutent pas, en général).
Comme on l’a déjà vu, l’espérance conditionnelle se comporte, par bien des propriétés, comme une
espérance. On en donne deux exemples de plus ci-dessous.
Proposition 2.12 (TCM pour l’espérance conditionnelle). Pour toute suite croissante (Xn , n ≥ 0)
de v.a. positives, on a :
lim ↑ E(Xn |G) = E lim ↑ Xn G , p.s.
n→∞ n→∞
Preuve : La mesurabilité étant préservée par limite de suite, le résultat s’obtient par passage à la
limite (croissante) dans la relation (ii). 2
2.3. ESPÉRANCE SACHANT UNE V.A. DISCRÈTE. LOI CONDITIONNELLE 49
Proposition 2.13 (Inégalité de Jensen). Soit X une v.a. réelle intégrable. Si φ : R → R est une
fonction convexe positive ou telle que φ(X) est intégrable, on a
φ E(X | G) ≤ E(φ(X) | G), p.s.
Preuve : La fonction φ étant convexe, son graphe est l’intersection des demi-espaces qui le contiennent :
où
Eφ = {(a, b) ∈ R2 | ∀x ∈ R, φ(x) ≥ ax + b}.
On peut vérifier qu’on a aussi
donc
E(φ(X) | G) ≥ sup (aE(X | G) + b) = φ(E(X | G)).
(a,b)∈Eφ ∩Q2
E(φ(X)1
{Y =y} )
où E(φ(X) | Y = y) = P(Y =y) est l’espérance conditionnelle classique. Le calcul de l’espérance
conditionnelle est donc explicite dans ce cas.
Rappelons que, pour tout y ∈ E, par le théorème de transfert,
Z Z
E(φ(X) | Y = y) = φ(X)dP(· | Y = y) = φ(x)dPX | Y =y (x),
Ω R
où PX | Y =y est la loi de X sous P(· | Y = y), appelée loi conditionnelle de X sachant Y = y.
On constate alors que l’espérance de φ(X) sachant Y s’écrit comme une espérance
Z
E(φ(X) | Y ) = φ(x)dPX | Y (x),
R
On vérifie alors facilement que, pour toute fonction g positive ou telle que g(X, Y ) est intégrable,
Z
E(g(X, Y ) | Y ) = g(x, Y )dPX | Y (x)
R
d’où, en prenant l’espérance, la formule de désintégration
Z Z
E(g(X, Y )) = E(E(g(X, Y ) | Y )) = g(x, y)dPX | Y =y (x) dPY (y).
Signalons enfin que le cas particulier où Y et X sont toutes deux discrètes est particulièrement
simple. La loi de X sachant Y = y est alors donnée par les valeurs
P((X, Y ) = (x, y))
P(X = x | Y = y) = ,
P(Y = y)
et on a, pour toute fonction g positive, ou telle que g(X, Y ) est intégrable,
X P((X, Y ) = (x, y))
E(g(X, Y ) | Y = y) = g(x, y) . (2.1)
x
P(Y = y)
Exemple 2.14. Tirages sans remise. Soit un entier N ≥ 2. On considère une v.a. W = (X, Y ) de
loi uniforme dans l’ensemble des couples d’entiers distincts entre 1 et N :
AN 2
2 = {(k, l) ∈ {1, . . . , N } | k ̸= l}.
Proposition 2.15. Soient X et Y deux v.a. réelles telles que le couple (X, Y ) ait une densité f(X,Y )
sur R2 : dP(X,Y ) (x, y) = f(X,Y ) (x, y)dxdy. Alors, pour toute fonction g positive ou telle que g(X, Y )
est intégrable,
Z
E(g(X, Y ) | Y ) = ψ(Y ) p.s., où ψ(y) = g(x, y)fX | Y =y (x)dx,
R
avec
f(X,Y ) (x, y)
fX | Y =y (x) = .
fY (y)
La fonction fX | Y =y est appelée la densité conditionnelle de X sachant Y = y.
2.5. PROPRIÉTÉ DE MARKOV FORTE ET SES APPLICATIONS 51
Signalons que, p.s., fY (Y ) > 0, car la probabilité P(fY (Y ) = 0) est l’intégrale de f sur l’ensemble
{y ∈ R | fY (y) = 0}, donc est nulle. Cela justifie qu’il n’est pas nécessaire de définir ϕ(y), et donc
fX | Y =y , lorsque fY (y) = 0.
Ce résultat se généralise immédiatement au cas où X et Y sont à valeurs dans Rm et Rn .
(par la remarque précédente, la première intégrale peut se ramener, sans changer sa valeur, au domaine
R × {fY (·) > 0}, ce qui rend possible la division par fY (y)). C’est la relation attendue. 2
Notons que la formule peut se réécrire, avec l’écriture abusive déjà introduite, sous la forme pratique
suivante, à rapprocher de (2.1) :
Z
E(g(X, Y ) | Y = y) = g(x, y)fX | Y =y (x)dx.
Notons que, pour lever toute ambiguı̈té, le terme de droite devrait, comme dans le Chapitre 1,
s’écrire F (Xn ) avec, pour tout x ∈ E, F (x) = Ex (f (X0 , X1 , . . .)).
pour tout n ∈ N, {τ ≤ n} ∈ Fn .
Lemme 2.18. Une variable aléatoire τ à valeurs dans N ∪ {∞} est un temps d’arrêt pour (Fn )n≥0
si, et seulement si, pour tout n ∈ N, {τ = n} ∈ Fn .
Théorème 2.20 (Propriété de Markov forte). Pour tout temps d’arrêt T , pour toute fonction mesu-
rable f : E N → R, bornée ou positive, pour toute loi initiale µ,
sur l’événement {T < +∞}, Eµ f (XT , XT +1 , . . .) FT = EXT f (X0 , X1 , . . .) .
Preuve : Soit H ∈ FT . On note, pour x ∈ E, F (x) = Ex f (X0 , X1 , . . .) . Comme F (XT ) est FT -
mesurable, il suffit de vérifier que
Eµ f (XT , XT +1 , . . .)1H 1(T <∞) = Eµ F (XT )1H 1(T <∞) .
d’où le théorème. 2
On signale un cas particulier très courant :
Corollaire 2.21 (Propriété de Markov forte (version simplifiée)). On note µ la loi initiale de (Xn )n≥0 .
Soit T un temps d’arrêt de la chaı̂ne de Markov (Xn )n∈N sur E tel que :
• p.s., T < ∞ ;
• il existe x ∈ E tel que, p.s., XT = x.
Alors sous Pµ , le processus (XT , XT +1 , . . .) est indépendant de la tribu FT et a la même loi que la
chaı̂ne (X0 , X1 , . . .) sous Px . En d’autre termes, pour toute fonction mesurable f : E N → R, par
exemple bornée ou positive, et pour tout événement H ∈ FT , on a
Eµ f (XT , XT +1 , . . .)1H = Pµ (H) Ex f (X0 , X1 , . . .) .
2.5. PROPRIÉTÉ DE MARKOV FORTE ET SES APPLICATIONS 53
Xn ◦ θ = Xn+1 .
Proposition 2.22 (Autre forme de la propriété de Markov forte). Pour toute v.a. Z : Ω → R,
σ(Xk , k ∈ N)-mesurable, positive ou bornée, on a, sur {T < +∞},
Eν Z ◦ θT FT = EXT Z .
(r)
Si x est récurrent alors, sous Px , τx < ∞ pour tout r ≥ 0, et la propriété de Markov forte nous donne
le résultat admis lors de la preuve du théorème ergodique au chapitre précédent :
Théorème 2.23. Supposons que x est un état récurrent de la chaı̂ne de Markov (Xn )n . Alors, sous
la probabilité Px , pour toute f : E → R+ , les variables aléatoires
(r+1)
τx X−1
Zr = f (Xk ), r ∈ N,
(r)
k=τx
Preuve : Soit r ∈ N. Remarquons que Zr = Z0 ◦ θτ (r) . Soit W une v.a. Fτ (r) -mesurable bornée, et
x x
ψ : R → R une fonction borélienne. On a, par la définition de l’espérance conditionnelle,
(r)
Comme τx est un temps d’arrêt fini p.s. (du fait de la récurrence) et que Zτ (r) = x p.s., il résulte de
x
(r)
la propriété de Markov forte (version simplifiée) au temps τx que
donc finalement
Ex (W ψ(Zr )) = Ex (W )Ex (ψ(Z0 )).
Ceci montre que Zr est indépendante de la tribu Fτ (r) et de même loi que Z0 . Puisque les variables
x
aléatoires Z0 , Z1 , . . . , Zr−1 sont Fτ (r) -mesurables (à vérifier), on en déduit par récurrence sur r que les
x
v.a. Zr , r ≥ 0, sont indépendantes. 2
54 CHAPITRE 2. ESPÉRANCE CONDITIONNELLE
Chapitre 3
3.1 Introduction
La notion de martingale peut être approchée à partir de l’exemple suivant : considérons un jeu où
à chaque coup on gagne ou on perd 1 euro avec la probabilité 1/2. La suite des “gains algébriques”
(c’est-à-dire positifs ou négatifs) est donnée par la suite de v.a. i.i.d. (Xn , n ≥ 1) telle que, pour tout
n ≥ 1,
1
P(Xn = 1) = P(Xn = −1) = .
2
Soit a0 > 0 la fortune initiale du joueur. Sa fortune au bout de n coups (on dira aussi, “au temps n”)
sera la v.a.
Sn = a0 + X1 + . . . + Xn , avec en particulier S0 = a0 .
Ce que l’on peut espérer comme fortune au (n + 1)-ième coup compte tenu de ce que l’on a gagné les
n premiers coups est donné par
E Sn+1 X1 , . . . , Xn = a0 + X1 + . . . + Xn + E(Xn+1 )
E(Sn+1 | Fn ) = Sn , ∀ n ≥ 0.
Imaginons maintenant que le joueur décide de faire varier sa mise. Lors du n-ième jeu, il joue une
somme ϕn (positive) : ou bien il gagne +ϕn (si Xn = 1), ou bien il gagne −ϕn (si Xn = −1), autrement
dit son gain est Xn · ϕn . Sa fortune au temps n sera donc
Mn = a0 + X1 · ϕ1 + X2 · ϕ2 + · · · + Xn · ϕn .
55
56 CHAPITRE 3. MARTINGALES EN TEMPS DISCRET
Notons que la mise ϕn+1 est décidée juste avant de jouer au temps n + 1, donc peut dépendre de tout
le passé avant le temps n : ici, ϕn+1 est une fonction de S0 , . . . , Sn , elle est Fn -mesurable. Ce processus
sera dit prévisible. On constate que, dans cet exemple, comme Mn+1 = Mn + ϕn+1 · Xn+1 et ϕn+1
est Fn -mesurable tandis que Xn+1 est indépendante de Fn et d’espérance nulle,
Ainsi, quelle que soit la stratégie de mise employée, la fortune satisfait encore la propriété de martin-
gale : le jeu reste équitable. En écrivant ci-dessus Xn+1 = Sn+1 − Sn , on aurait obtenu cette propriété
dans le cas général où S est une martingale.
Si on avait initialement considéré un jeu favorable, c’est-à-dire que E(Xn ) ≥ 0 pour tout n, alors
la suite (Sn )n aurait satisfait E(Sn+1 | Fn ) ≥ Sn . On parlera de sous-martingale. Dans ce cas, on
vérifie que M est aussi une sous-martingale.
Inversement, un jeu défavorable (E(Xn ) ≤ 0) mène à la notion de sur-martingale.
Donnons maintenant des définitions et propriétés générales.
Ainsi, (Sn )n est adapté si à chaque instant l’information fournie par les valeurs passées du processus
est contenue dans l’information donnée par la filtration (Fn )n . Et la filtration naturelle du processus
est la plus petite filtration à laquelle il soit adapté.
On suppose dorénavant donnée une filtration (Fn )n∈N sur (Ω, F).
Définition 3.2. Un processus (Mn )n∈N à valeurs réelles est une (Fn )n∈N -martingale si
(i) (Mn )n∈N est adapté à la filtration (Fn )n∈N ;
(ii) pour tout n ∈ N, Mn est intégrable ;
(iii) pour tout n ∈ N, E(Mn+1 |Fn ) = Mn , p.s.
Il peut être utile d’introduire une variante de la définition, pour des variables positives, d’espérance
finie ou infinie :
Définition 3.3. Un processus (Mn )n∈N à valeurs dans [0, ∞] est une (Fn )n∈N -martingale positive
si
(i) (Mn )n∈N est adapté à la filtration (Fn )n∈N ;
(iii) pour tout n ∈ N, E(Mn+1 |Fn ) = Mn , p.s.
Remplaçant “=” par “≤” ou “≥” dans la propriété de martingale, ou obtient les notions suivantes :
3.2. DÉFINITIONS ET EXEMPLES 57
Définition 3.4. Un processus (Mn )n∈N est une (Fn )n∈N -surmartingale (resp. sous-martingale)
si
(i) (Mn )n∈N est (Fn )n∈N adapté ;
(ii) pour tout n ∈ N, Mn est intégrable ;
(iii) pour tout n ∈ N, E(Mn+1 |Fn ) ≤ Mn , (resp. ≥ Mn ) p.s.
On peut aussi définir sous-martingales et surmartingales positives, de la même façon que pour les
martingales.
On notera qu’une martingale est à la fois une surmartingale et une sous-martingale, et que si (Mn )n
est une surmartingale, alors (−Mn )n est une sous-martingale. On mémorisera qu’une sous-martingale
a une tendance à croı̂tre, tandis qu’une surmartingale à une tendance à décroı̂tre, contrairement à ce
que l’appellation pourrait suggérer.
On peut également définir des (sur-,sous-)martingales à valeurs dans Rd en demandant que chaque
composante soit une (sur-,sous-)martingale.
Il est important de bien noter que toutes ces définitions sont liées à la filtration. Lorsque la filtration
n’est pas précisée, il s’agit implicitement de la filtration naturelle du processus.
Exemple 3.5. Somme de v.a. i.i.d.. Soit (Xn )n∈N une suite de v.a. réelles i.i.d. intégrables. Pour
tout n, posons
Sn = X0 + · · · + Xn .
Pour tout n, la v.a. Sn est Fn -mesurable, pour Fn = σ(X0 , . . . , Xn ), et intégrable, de plus
E Sn+1 σ(X0 , . . . , Xn ) = X0 + · · · + Xn + m = Sn + m,
parce que Xn+1 est indépendante de σ(X0 , . . . , Xn ) et m = E(Xi ) est l’espérance commune des va-
riables Xi (elles ont la même loi). On en déduit :
• Si m = 0, (Sn )n∈N est une (Fn )n∈N -martingale ;
• Si m > 0, (Sn )n∈N est une (Fn )n∈N -sous-martingale ;
• Si m < 0, (Sn )n∈N est une (Fn )n∈N -surmartingale.
Exemple 3.6. Produit de v.a. i.i.d.. Soit (Xn )n∈N une suite de v.a. réelles i.i.d. positives. Pour
tout n, posons
Un = X0 · · · Xn .
Pour tout n, la v.a. Un est Fn -mesurable, pour Fn = σ(X0 , . . . , Xn ), et positive, de plus
E Un+1 σ(X0 , . . . , Xn ) = X0 · · · Xn m = Un m,
parce que Xn+1 est indépendante de σ(X0 , . . . , Xn ) et m = E(Xi ) est l’espérance commune des va-
riables Xi (elles ont la même loi). On en déduit (avec la positivité de X1 , . . . , Xn ) :
• Si m = 1, (Un )n∈N est une (Fn )n∈N -martingale ;
• Si m > 1, (Un )n∈N est une (Fn )n∈N -sous-martingale ;
• Si m < 1, (Un )n∈N est une (Fn )n∈N -surmartingale.
Notons que la positivité ne joue pas de rôle pour le cas martingale, et peut alors être remplacée par
une hypothèse d’intégrabilité.
Exemple 3.7. Martingale de Doob (ou de Lévy). Soit X ∈ L1 (Ω, F, P) et (Fn )n≥0 une filtration.
La suite des espérances conditionnelles
Xn = E(X | Fn ), n ∈ N,
est une martingale adaptée à (Fn , n ∈ N). Cela vient de la propriété de double conditionnement.
Exemple 3.8. Origine du nom sur/sous-martingale. Soit (Xn )n≥0 une chaı̂ne de Markov sur
un espace d’états E, de matrice de transition P , et f : E → R+ une fonction positive. On dit que
f est harmonique (resp. sous-harmonique, resp. sur-harmonique), si f = P f (resp. f ≤ P f ,
resp. f ≥ P f ) ; voir page 16 pour la définition de P f . On note (Fn )n la filtration naturelle de (Xn )n .
On vérifie simplement que
58 CHAPITRE 3. MARTINGALES EN TEMPS DISCRET
Proposition 3.9. Soit (Mn , n ∈ N) une (Fn )-martingale (resp. surmartingale, resp. sous-martingale).
Pour tout couple (n, p) d’entiers ≥ 0 on a :
et
E(Mn+p ) = E(Mn ), (resp. ≤, resp. ≥).
Preuve : Il suffit en effet d’appliquer comme dans l’exemple ci-dessus le double conditionnement. 2
En particulier, on voit qu’une martingale est un processus à espérance constante.
On vérifie en outre facilement les résultats suivants, en se rappelant la notation pratique a ∨ b =
max(a, b) et a ∧ b = min(a, b), pour a, b ∈ R :
Proposition 3.10. a) Soient (Xn )n et (Yn )n deux martingales. Pour tous réels a et b, (aXn + bYn )n
est une martingale. De plus, (Xn ∨ Yn )n est une sous-martingale et (Xn ∧ Yn )n est une sur-
martingale.
b) Soient (Xn )n et (Yn )n deux sur- (resp. sous-) martingales. Pour tous réels a, b ≥ 0, (aXn + bYn )n
est encore une sur- (resp. sous-) martingale.
Proposition 3.11. Soit (Mn , n ∈ N) une (Fn )-martingale (resp. surmartingale ou sous-martingale).
On suppose que (Mn ) est aussi adaptée à une autre filtration (Gn ) avec Gn ⊂ Fn pour chaque n ≥ 0.
Alors (Mn , n ∈ N) est aussi une (Gn )-martingale (resp. surmartingale ou sous-martingale).
Proposition 3.12. Soit (Mn ) une martingale (resp. une sous-martingale) et ϕ une fonction convexe
(resp. une fonction convexe croissante) telle que, pour tout n, ϕ(Mn ) soit intégrable ou positive. Alors
(ϕ(Mn )) est une sous-martingale.
Définition 3.13. Un temps d’arrêt de la filtration (Fn ) est une variable aléatoire τ : Ω → N∪{+∞}
telle que
pour tout n ∈ N, {τ ≤ n} ∈ Fn .
La tribu Fτ du passé avant τ est définie comme l’ensemble des A ∈ F tels que, pour tout n ∈ N,
A ∩ {τ ≤ n} ∈ Fn .
De même que pour les chaı̂nes de Markov (Lemme 2.18), il suffit de vérifier que, pour tout n ∈ N,
{τ = n} ∈ Fn , pour montrer que τ est un temps d’arrêt. Et on a encore :
Soit τ un temps d’arrêt associé à la filtration (Fn ), et (Mn ) un processus adapté à la même
filtration. On définit le processus M arrêté au temps τ comme le processus M τ donné par :
Mnτ := Mn∧τ , n ≥ 0.
Ce processus correspond à la fortune du joueur qui opte pour la stratégie de s’arrêter de jouer au
temps τ .
En suivant l’introduction, on peut définir une notion plus générale de stratégie.
Définition 3.15. Un processus (ϕn )n≥0 est dit prévisible pour une filtration (Fn )n≥0 (ou (Fn )n -
prévisible) si pour tout n ≥ 1, ϕn est Fn−1 -mesurable, et si ϕ0 est F0 -mesurable.
Pour tout processus (Xn )n≥0 on introduit une notation pour les accroissements :
On note par exemple que la propriété de martingale de (Mn )n est équivalente à E(∆Mn | Fn−1 ) = 0.
Définition 3.16. Soit M = (Mn )n≥0 une martingale (resp. sur- ou sous-martingale) associée à une
filtration (Fn )n≥0 et ϕ = (ϕn )n≥0 un processus à valeurs réelles, prévisible pour la filtration (Fn ).
On appelle transformée de la martingale (resp. sur- ou sous-martingale) M par le pro-
cessus prévisible ϕ, le processus noté ⟨ϕ, M ⟩ = (⟨ϕ, M ⟩n )n≥0 défini par ⟨ϕ, M ⟩0 = ϕ0 M0 et
∆⟨ϕ, M ⟩n = ϕn ∆Mn , n ≥ 1.
Autrement dit,
n
X
⟨ϕ, M ⟩n = ϕ0 M0 + ϕi ∆Mi .
i=1
Exemple 3.17.
• Si ϕ ≡ 1, alors ⟨ϕ, M ⟩n = Mn pour tout n.
• Dans l’introduction, Sn est, après n parties, la fortune d’un joueur qui mise une somme 1 à
chaque partie ; s’il choisit de miser plutôt ϕn lors du n-ième coup (avec ϕ0 = 1), alors sa fortune
au temps n est Mn = ⟨ϕ, S⟩n (le gain ∆Sn est multiplié par ϕn en cas de mise).
• Soit τ un temps d’arrêt associé à la filtration (Fn ). Posons
ϕn = 1(τ ≥n) , n ≥ 0.
60 CHAPITRE 3. MARTINGALES EN TEMPS DISCRET
c’est à dire que ⟨ϕ, M ⟩ = M τ . Le processus arrêté d’une martingale (resp. sur- ou sous-
martingale) est donc la transformée de la martingale (resp. sur- ou sous-) initiale par le pro-
cessus prévisible ϕ = (ϕn ) = (1(τ ≥n) )n≥0 . En particulier,
n
X
Mnτ = M0 + 1(τ ≥i) ∆Mi . (3.1)
i=1
Théorème 3.18.
• Si M est une martingale et si le processus prévisible ϕ est borné, alors le processus ⟨ϕ, M ⟩ est
aussi une martingale.
• Si M est une sur- (resp. une sous-)martingale et si le processus prévisible ϕ est borné et positif,
alors le processus ⟨ϕ, M ⟩ est aussi une sur- (resp. une sous-)martingale.
Remarque : L’hypothèse ϕ borné (i.e. il existe une constante C > 0 telle que supn |ϕn | ≤ C p.s.) n’est
faite que pour assurer l’intégrabilité de ⟨ϕ, M ⟩n pour tout n, cette hypothèse peut donc être affaiblie
dans beaucoup de cas, par exemple, dans le cas d’une sur- ou sous-martingale positive, il suffit de
supposer que ϕ est un processus positif.
Preuve : Soit M une martingale. Pour tout n dans N, ⟨ϕ, M ⟩n est Fn -mesurable et intégrable puisque
ϕn est bornée. Comme
∆⟨ϕ, M ⟩n = ϕn ∆Mn ,
et ϕn est Fn−1 -mesurable, on a
E(∆⟨ϕ, M ⟩n | Fn−1 ) = ϕn E(∆Mn | Fn−1 ) = 0,
car M est une martingale. D’où le résultat dans le cas martingale. La démonstration s’adapte sans
difficulté au cas des sur- et sous-martingales. 2
Généralisation au cas de martingales à valeurs dans Rd . Soit Mn = (Mn1 , . . . , Mnd ) une (Fn )-
martingale à valeurs dans Rd , et ϕn = (ϕ1n , . . . , ϕdn ) un processus (Fn )-prévisible à valeurs dans Rd .
Considérons pour tout n ≥ 1 le vecteur aléatoire de Rd
∆Mn = (∆Mn1 , . . . , ∆Mnd )
ainsi que le produit scalaire
d
X
ϕn · ∆Mn = ϕin ∆Mni ,
i=1
et définissons comme précédemment le processus ⟨ϕ, M ⟩ à valeurs réelles par ⟨ϕ, M ⟩0 = ϕ0 · M0 et,
pour tout n ≥ 1, ∆⟨ϕ, M ⟩n = ϕn · ∆Mn , c’est-à-dire
n
X
⟨ϕ, M ⟩n = ϕ0 · M0 + ϕk · ∆Mk .
k=1
3.5. THÉORÈME D’ARRÊT 61
Théorème 3.20. Avec les notations précédentes ⟨ϕ, M ⟩ est une martingale à valeurs réelles.
Preuve : On a
d
X
E(∆⟨ϕ, M ⟩n |Fn−1 ) = ϕin E(∆Mni |Fn−1 ) = 0,
i=1
Théorème 3.21 (Théorème d’arrêt, cas borné). Soient S et T deux temps d’arrêt et M une martingale
(resp. surmartingale, resp. sous-martingale), relativement à la même filtration (Fn ). On suppose qu’il
existe un entier N tel que
S ≤ T ≤ N, p.s.
Alors
E MT F S = MS , (resp. ≤, resp. ≥)
N
X
E M T 1A = E MT ∧N 1A∩(S=k)
k=0
XN
≤ E MT ∧k 1A∩(S=k) ,
k=0
2
ce qui montre que E MT FS ≤ MS p.s., puisque MS est FS -mesurable.
Remarque 3.22. En particulier, avec S ≡ 0 et T un temps d’arrêt borné, on obtient E(MT ) = E(M0 )
(resp. ≤ ou ≥).
62 CHAPITRE 3. MARTINGALES EN TEMPS DISCRET
En terme de norme L2 , on a
Avec la même démonstration, on peut généraliser l’inégalité à Lp (avec ∥X∥p = (E(|X|p )1/p ) :
Proposition 3.25 (Inégalité de Doob dans Lp ). Soit p > 1. Pour toute sous-martingale positive X
on a :
p
∥Xn ∥p ≤ sup Xk ≤ ∥Xn ∥p .
0≤k≤n p p−1
E(M∞ | Fn ) = Mn . (3.4)
Preuve : Partie “Seulement si” : (3.3) vient du fait qu’une suite convergente (dans L2 , ici) est bornée.
Partie “Si” : Puisque M est de carré intégrable, (Mn2 ) est une sous-martingale. La suite des
espérances (E(Mn2 ))n est donc croissante ; la condition (3.3) du théorème montre que cette suite
d’espérance est convergente, donc de Cauchy dans R. D’un autre côté en développant le carré on
obtient, par la propriété de martingale, pour tous n, p ≥ 0,
E (Mn+p − Mn )2 Fn = E(Mn+p 2
| Fn ) − 2Mn E(Mn+p | Fn ) + Mn2 = E(Mn+p
2
|Fn ) − Mn2 (3.5)
La suite de v.a. (Mn )n est donc de Cauchy dans L2 (Ω, F, P) et converge donc vers une v.a. M∞ ∈
L2 (Ω, F, P) (par complétude de L2 ).
Enfin, L’égalité (3.4) vient de la continuité de l’application de L2 dans L2 de projection X 7→
E(X | Fn ) (cette application est contractante), qui justifie de passer à la limite dans Mn = E(Ml | Fn )
lorsque l → ∞. 2
La démonstration de ce théorème est plus délicate que la précédente ; elle utilise en particulier les
inégalités maximales pour contrôler les fluctuations.
Preuve : Pour n ≥ 0, on pose Vn := supi,j≥n |Mi − Mj |. Presque sûrement, (Vn )n est une suite
décroissante positive, donc admet une limite V = limn Vn . Soit n ≥ 0. D’après l’inégalité de Doob
(appliquée à la martingale (Mn+j − Mn )j≥0 ) on a, pour tout k,
E sup |Mj+n − Mn |2 ≤ 4E (Mk+n − Mn )2 .
0≤j≤k
64 CHAPITRE 3. MARTINGALES EN TEMPS DISCRET
Pour k → ∞, on a E supj≥0 |Mj+n − Mn |2 ≤ 4E (M∞ − Mn )2 . Donc
E(Vn2 ) ≤ 2E sup |Mj+n − Mn |2 ≤ 8E (M∞ − Mn )2 = 8∥Mn − M∞ ∥22 .
j≥0
Alors E(Vn2 ) → 0 et donc E(V 2 ) = 0 par convergence dominée, d’où V = 0 p.s.. Autrement dit, p.s.,
(Mn )n est une suite de Cauchy et nécessairement M∞ est sa limite puisque (Mn )n converge dans L2
vers M∞ (donc p.s. une sous-suite de (Mn )n converge vers M∞ ). 2
Ce théorème se déduit aussi du résultat essentiel suivant, qui est beaucoup plus général. Rappelons
d’abord que, pour tout réel x on note x+ = sup(x, 0) et x− = sup(−x, 0).
Théorème 3.28 (Doob). Toute sous-martingale (Xn )n∈N telle que supn≥1 E(Xn+ ) < ∞ converge p.s.
vers une v.a. X∞ intégrable.
De même, toute surmartingale (Xn )n∈N telle que supn≥1 E(Xn− ) < ∞ converge p.s. vers une v.a. X∞
intégrable.
Immédiatement on obtient le corollaire suivant, qui est le cas d’application le plus fréquent :
Un peu plus généralement, toute surmartingale minorée par une v.a. intégrable (par exemple une
constante), et toute sous-martingale majorée par une v.a. intégrable, convergent presque sûrement (si
Xn ≤ Z alors Xn+ ≤ Z + ≤ |Z| donc supn E(Xn+ ) ≤ E(|Z|)). Et donc toute martingale majorée ou
minorée par une v.a. intégrable converge presque sûrement. Rappelons tout de même que la condition
du théorème est plus générale.
Vu que Xn+ ≤ |Xn |, on obtient aussi que toute sur- ou sous-martingale bornée dans L1 converge
presque sûrement. À la différence du cas L2 vu précédemment, il se peut en revanche qu’elle ne converge
pas dans L1 ; on reviendra sur ce point après la preuve du théorème 3.28.
Lemme 3.30. Soit (Xn ) une sous-martingale. On a pour tous a < b, pour tout n ∈ N,
(n)
E((Xn − a)+ ) E(Xn+ ) + |a|
E νa,b ≤ 1 + ≤1+ .
b−a b−a
Preuve : Soit n ∈ N. On a, pour tout k ≥ 1, τk−1 ≤ σk , d’où n ∧ τk−1 ≤ n ∧ σk ≤ n, donc le
théorème d’arrêt appliqué à la sous-martingale X et aux temps d’arrêt bornés n ∧ τk−1 et n ∧ σk donne
E(Xn∧τk−1 ) ≤ E(Xn∧σk ), c’est-à-dire
E(Xn∧σk − Xn∧τk−1 ) ≥ 0.
(n)
En remarquant que {νa,b ≥ k} = {τk ≤ n} ⊂ {σk ≤ n}, on en déduit, pour tout k ≥ 2,
Par ailleurs, les événements {τk−1 < n < σk }, pour k ≥ 2, sont disjoints, donc en sommant sur k ≥ 2
on obtient
X (n) E((Xn − a)+ 1F )
P(νa,b ≥ k) ≤ ,
b−a
k≥2
S (n)
où F = k≥2 {τk−1 < n < σk }. Comme νa,b est à valeurs dans N, on a alors
(n)
X (n) X (n) E((Xn − a)+ 1F ) E((Xn − a)+ )
E νa,b = P νa,b ≥ k ≤ 1 + P νa,b ≥ k ≤ 1 + ≤1+ .
b−a b−a
k≥1 k≥2
C’est la première inégalité annoncée. La seconde vient du fait que (Xn − a)+ ≤ Xn+ + |a|. 2
Preuve du Théorème 3.28 : Soit X une sous-martingale telle que supn E(Xn+ ) < ∞. Montrer que
(Xn ) converge presque sûrement dans R est équivalent à montrer que
P lim sup Xn > lim inf Xn = 0.
n→∞ n→∞
Remarquons que
[
{lim sup Xn > lim inf Xn } ⊂ {lim sup Xn > b > a > lim inf Xn },
n→∞ n→∞ n→∞ n→∞
a<b,
a, b rationnels
(n)
et {lim sup Xn > b > a > lim inf Xn } ⊂ { lim νa,b = ∞}. Mais d’après le lemme précédent, et par
n→∞ n→∞ n→∞
convergence monotone, vu l’hypothèse du théorème,
E(|X∞ |) = E lim |Xn | ≤ lim inf E(|Xn |) ≤ 2 sup E(Xn+ ) − E(X0 ) < ∞
n→∞ n→∞ n
d’après l’hypothèse, donc X∞ est intégrable. Notamment, X∞ est donc presque sûrement finie. 2
66 CHAPITRE 3. MARTINGALES EN TEMPS DISCRET
Proposition 3.32.
a) Si (Xi )i∈I est uniformément intégrable, alors elle est bornée dans L1 : sup ∥Xi ∥L1 < ∞.
i∈I
b) Soit p > 1. Si (Xi )i∈I est bornée dans Lp ,
alors (Xi )i∈I est uniformément intégrable.
1
c) Pour toute v.a. Y ∈ L , et toute filtration (Fn )n , la suite (Xn )n donnée par Xn = E Y Fn est
uniformément intégrable.
d) Si Xn → X∞ p.s. et que (Xn )n≥1 est uniformément intégrable, alors Xn converge vers X∞ dans
L1 (et donc en particulier E(Xn ) → E(X∞ )).
Preuve : a) En choisissant
λ suffisamment
grand pour que sup i∈I E |Xi |1 {|Xi |≥λ} ≤ 1, on a pour
tout i ∈ I, E |Xi | ≤ λ + E |Xi |1{|Xi |≥λ} ≤ λ + 1, d’où la conclusion.
b) Par l’inégalité de Hölder,
1/q 1/q
E |Xi |1{|Xi |≥λ} ≤ ∥Xi ∥Lp P(|Xi | ≥ λ) ≤ C P(|Xi | ≥ λ) ,
où C := supi∈I ∥Xi ∥Lp < ∞, et d’après l’inégalité de Markov, P(|Xi | ≥ λ) ≤ λ1p E(|Xi |p ) ≤ C p λ−p → 0
quand λ → ∞, uniformément par rapport à i ∈ I, ce qui montre l’uniforme intégrabilité.
c) On a, pour tout M > 0, pour tout n ∈ N, par l’inégalité triangulaire (ou de Jensen) puis par la
définition de l’espérance conditionnelle, la croissance de l’espérance et enfin l’inégalité de Markov,
E |Xn |1{|Xn |≥λ} ≤ E E(|Y | | Fn )1{|Xn |≥λ} = E |Y |1{|Xn |≥λ}
= E |Y |1{|Y |≤M } 1{|Xn |≥λ} + E |Y |1{|Y |>M } 1{|Xn |≥λ}
≤ M P(|Xn | ≥ λ) + E(|Y |1{|Y |>M } )
M
≤ E(|Y |) + E(|Y |1{|Y |>M } ),
λ
en utilisant aussi le fait que E(|Xn |) ≤ E(|Y |). Ainsi, pour tout M > 0,
lim sup sup E |Xn |1{|Xn |≥λ} ≤ E(|Y |1{|Y |>M } ).
λ→∞ n
Or, par théorème de convergence dominée, E(|Y |1{|Y |>M } ) → 0 quand M → ∞, donc la limsup
précédente est majorée par 0, ce qui donne l’uniforme intégrabilité de (Xn )n .
d) Le lemme de Fatou montre que E(|X∞ |) ≤ lim inf n→∞ E(|Xn |) ≤ supn≥1 ∥Xn ∥L1 < ∞, donc
X∞ ∈ L1 et on déduit facilement l’uniforme intégrabilité
de (Xn −X∞ )n≥1 de celle de (Xn )n≥1 . D’autre
part, E(|Xn − X∞ |) = E |Xn − X∞ |1{|Xn −X∞ |≤λ} + E |Xn − X∞ |1{|Xn −X∞ |>λ} . Par convergence
dominée, on a pour tout λ > 0,
lim sup E(|Xn − X∞ |) ≤ lim sup E |Xn − X∞ |1{|Xn −X∞ |>λ} ,
n→∞ n→∞
Théorème 3.33 (Doob). Soit (Mn )n une martingale. Les propriétés suivantes sont équivalentes :
(1) il existe une v.a. Y ∈ L1 telle que, pour tout n, Mn s’écrit Mn = E(Y |Fn ) (on dira que (Mn ) est
une martingale régulière) ;
(2) (Mn )n est uniformément intégrable ;
(3) (Mn )n converge vers M∞ dans L1 .
Et dans ce cas on a, pour tout n, Mn = E(M∞ |Fn ).
Preuve : (3) =⇒ (1) : si Mk → M∞ dans L1 , alors par continuité de E(· | Fn ) sur L1 ,
or la suite ci-dessus est constante égale à Mn , d’où Mn = E(M∞ | Fn ) par unicité de la limite.
(1) =⇒ (2) est le point b) de la proposition 3.32.
(2) =⇒ (3) : On rappelle que, par le point “a)” de la Proposition 3.32, toute famille uniformément
intégrable est bornée dans L1 . D’après le théorème de convergence p.s. de martingale (Théorème 3.28),
Mn converge donc p.s. vers une certaine limite notée M∞ . Comme (Mn ) est uniformément intégrable,
la convergence p.s. entraı̂ne la convergence dans L1 par le point d) de la Proposition 3.32, donc Mn
converge dans L1 vers M∞ . 2
E(An∧T ) = E(Xn∧T ) ≤ C,
où la borne C est donnée par l’uniforme intégrabilité (ii). Donc E AT ≤ C par convergence monotone,
ce qui, au vu de l’inégalité |Mn∧T | ≤ |Xn∧T |+AT , implique que la famille (Mn∧T )n≥0 est uniformément
intégrable. Si on avait montré le théorème pour le cas martingale, alors on saurait que MT et MS sont
intégrables et que E(MT |FS ) = MS p.s., d’où XT et XS intégrables (puisque AS ≤ AT ∈ L1 ) et
E(XT |FS ) ≥ E(MT |FS ) + AS = XS p.s., ce qui conclut la preuve dans le cas sous-martingale. Le cas
surmartingale s’en déduit car −X est une sous-martingale.
Montrons donc le théorème dans le cas où X est une martingale. Comme XT = limn→∞ Xn∧T p.s.
et que (Xn∧T ) est uniformément intégrable, Xn∧T converge dans L1 vers XT et a fortiori, XT ∈ L1 .
Pour tous k ≤ n, S ∧ k ≤ T ∧ n ≤ n p.s. En appliquant le Théorème 3.21, on a
E XT ∧n | FS∧k = XS∧k .
où dans la 2e égalité, on utilisé le fait que A ∩ {S ≤ k} ∈ FS∧k (vérification : pour tout j ≤ k − 1,
A ∩ {S ≤ k} ∩ {S ∧ k = j} = A ∩ {S = j} ∈ Fj et A ∩ {S ≤ k} ∩ {S ∧ k = k} = A ∩ {S = k} ∈ Fk ).
Montrons enfin que (ii’) implique (ii). Justifions que XT est intégrable. On se place (quitte à
considérer −X) dans le cas d’une sous-martingale. Notons Yn = Xn∧T . On a, pour tout n, |Yn | =
Yn+ + Yn− = Yn+ + (−Yn + Yn+ ) = 2Yn+ − Yn , et E(Yn ) ≥ E(Y0 ) car (Yn )n est une sous-martingale, donc
E(|XT |) = E lim |Yn | ≤ lim inf E(|Yn |) ≤ 2 sup E(Yn+ ) − E(Y0 ) < ∞
n→∞ n→∞ n
d’après l’hypothèse, donc XT est intégrable. Montrons alors (ii). Pour tout λ > 0,
E(|Xn∧T |1{|Xn∧T |>λ} ) = E(|Xn |1{|Xn |>λ} 1{n<T } ) + E(|XT |1{|XT |>λ} 1{n≥T } )
≤ E(|Xn |1{|Xn |>λ} ) + E(|XT |1{|XT |>λ} )
d’où
sup E(|Xn∧T |1{|Xn∧T |>λ} ) ≤ sup E(|Xn |1{|Xn |>λ} ) + E(|XT |1{|XT |>λ} )
n≥0 n≥0
et le membre de droite tend vers 0 quand λ → ∞, par (ii’) et par le fait que XT est intégrable
(convergence dominée). Donc le membre de gauche aussi : c’est ce qu’il nous fallait démontrer.
2
Chapitre 4
Vecteurs gaussiens
De plus cette loi a pour espérance 0 (par parité de sa densité) et variance 1 (faire une intégration
2
par parties en intégrant xe−x /2 et en dérivant x).
Loi normale
Considérons l’image de la loi N (0, 1) par une application affine.
Si Z ∼ N (0, 1), et m ∈ R, σ ∈ R∗ , la variable aléatoire X = m + σZ suit la loi de densité
(x−m)2
x 7→ √ 1 2 e− 2σ2 (preuve par changement de variable) et a pour espérance m et variance σ 2 . Cette
2πσ
loi ne dépend que de m et σ 2 , on la note N (m, σ 2 ), appelée loi normale de moyenne m et de
variance σ 2 (ou d’écart-type σ, avec σ > 0). On dit qu’une variable aléatoire X suit une “loi normale”
ou que X est “gaussienne” si elle suit l’une de ces lois. Il est naturel de donner un sens au cas particulier
σ = 0 : alors X = m est constante. Ainsi, on définira N (m, 0) = δm .
Proposition 4.1. Quelques propriétés des gaussiennes réelles :
a) (Stabilité par application affine) L’image d’une variable gaussienne par une application affine est
gaussienne : si X ∼ N (m, σ 2 ) alors aX + b ∼ N (am + b, a2 σ 2 ) pour tous a, b ∈ R.
1 2 2
b) Si X ∼ N (m, σ 2 ), sa fonction caractéristique est ΦX : t 7→ E[eitX ] = eitm− 2 t σ
.
c) (Stabilité par convolution, ou par somme indépendante) La somme de variables gaussiennes indépendantes
est gaussienne : si X ∼ N (mX , σX 2 ) et Y ∼ N (m , σ 2 ) sont indépendantes, alors X + Y ∼
Y Y
2
N (mX + mY , σX + σY ). 2
Preuve : a) c’est évident par la définition de N (m, σ 2 ), car la composée de deux fonctions affines est
affine.
b) On raisonne pour Z ∼ N (0, 1), le cas X ∼ N (m, σ 2 ) s’en déduit par ΦX (t) = E[eit(m+σZ) ] =
eitm ΦX (σt). On a Φ′Z (t) = E[iZeitZ ] par dérivation sous l’espérance (justifiée par E[|Z|] < ∞), puis
69
70 CHAPITRE 4. VECTEURS GAUSSIENS
2
Φ′Z (t) = −tΦZ (t) par intégration par parties, d’où ΦZ (t) = Ce−t /2 pour un certain C par résolution
d’équation différentielle, et C = 1 par ΦZ (0) = 1.
c) Cela se déduit de la fonction caractéristique : ΦX+Y (t) = E[eit(X+Y ) ] = E[eitX eitY ] = ΦX (t)ΦY (t) =
1 2 2 2
eit(mX +mY )− 2 t (σX +σY ) = ΦW (t) où W ∼ N (mX + mY , σX 2 + σ 2 ).
Y 2
et aussi, par échange entre série et intégrale (à justifier par Fubini-Lebesgue par exemple)
∞ ∞ ∞
hX (iZ)k k i X ik E[Z k ] k X (−1)n E[Z 2n ] 2n
ΦZ (t) = E[eitZ ] = E t = t = t
k! k! (2n)!
k=0 k=0 n=0
(vu que E[Z 2k+1 ] = 0 par symétrie) d’où, d’ailleurs, par unicité du développement en série entière de
rayon de convergence > 0 (ici, de rayon infini),
(2n)! (2n)(2n − 1) · · · 2 · 1
E[Z 2n ] = n
= = (2n − 1)(2n − 3) · · · 3 · 1.
2 n! (2n)(2(n − 1)) · · · (2 · 2)(2 · 1)
Proposition 4.2 (Cas de R2 ). Si X, Y sont indépendantes et de loi N (0, 1), notons R > 0 et Θ ∈
[0, 2π[ les coordonnées polaires de (X, Y ). Alors
• R et Θ sont indépendantes,
• Θ suit la loi uniforme sur [0, 2π], et
r2
• R a pour fonction de répartition FR (t) = P(R ≤ t) = 1 − e− 2 pour t ≥ 0.
En particulier, on en déduit la méthode√ loi N (0, 1) : si U, V sont indépendantes
polaire de simulation de la √
et de loi uniforme sur [0, 1], alors X = −2 ln U cos(2πV ) et Y = −2 ln U sin(2πV ) sont indépendantes,
de loi N (0, 1).
∥t∥2
pour t = (t1 , . . . , td ) ∈ Rd , ΦZ (t) = E[ei⟨t, Z⟩ ] = ΦZ1 (t1 ) · · · ΦZd (td ) = e− 2 .
où Γ = AAT . Cette loi ne dépend que de m et de Γ, notons-là N (m, Γ). On note que m est la moyenne
de X : E[X] = m + E[AZ] = m + AE[Z] = m, et que Γ est sa matrice de covariance :
Une matrice de covariance est toujours symétrique (ΓT = Γ) et positive (pour tout t ∈ Rd , tT Γt ≥ 0).
Inversement, si Γ est une matrice symétrique positive, il existe A ∈ Md (R) (non unique) tel que
AAT = Γ : algorithmiquement, on peut calculer A (triangulaire) par la méthode de Cholesky ; d’un
T
pointde vue théorique,
2
Γ = P DP en base orthonormée, avec P ∈ On (R),
on peut diagonaliser
σ1 σ1
D=
. .. , puis considérer A = P
.. T
P .
.
σd2 σd
On a donc défini la loi N (m, Γ) pour tout m ∈ Rd et Γ symétrique positive. C’est la loi normale
de moyenne m et de matrice de covariance Γ. Un vecteur aléatoire X est dit “gaussien” s’il suit l’une
de ces lois.
Pour simuler la loi N (m, Γ), on calcule donc A tel que Γ = AAT , on simule Z ∼ N (0, Id ) (les
composantes de Z sont indépendantes, de loi N (0, 1)), et on pose X = m + AZ.
Proposition 4.3. Quelques propriétés des vecteurs gaussiens :
a) (Stabilité par application affine) Soit d, d′ ≥ 1 L’image d’un vecteur gaussien par une application
′ ′
affine Rd → Rd est un vecteur gaussien : si X ∼ N (m, Γ) dans Rd , et A ∈ Md′ ,d (R), b ∈ Rd ,
alors AX + b ∼ N (Am + b, AΓAT ).
b) (Stabilité par convolution, ou par somme indépendante) La somme de vecteurs gaussiens de Rd
indépendants est gaussienne : si X ∼ N (mX , ΓX ) et Y ∼ N (mY , ΓY ) sont indépendantes, alors
X + Y ∼ N (mX + mY , ΓX + ΓY ).
c) (Support) Si X ∼ N (0, Γ), alors p.s. X ∈ im Γ. Plus précisément, im Γ est le support de X.
d) (Densité) Si Γ est inversible, X a une densité donnée par
1 1 T Γ−1 (x−m)
x 7→ p e− 2 (x−m)
(2π)d/2 |det Γ|
Preuve : a) C’est clair par définition si A est carrée (d′ = d). Mais le calcul de ΦX précédent
′
fonctionne aussi si A est rectangulaire et montre que l’on obtient un vecteur gaussien de Rd dans ce
cas. Comme la composée de deux applications affines est affine, on en déduit a). Vérifions la covariance :
de façon générale, la matrice de covariance de AX est
Proposition 4.4. Un vecteur aléatoire X est gaussien si, et seulement si toutes les combinaisons
linéaires de ses composantes sont gaussiennes.
Preuve : Une combinaison linéaire des composantes est une application linéaire Rd → R, donc si X
est gaussien alors les combinaisons linéaires de ses composantes sont gaussiennes.
Inversement, si la propriété est vraie pour X, alors pour tout t ∈ Rd la variable ⟨t, X⟩ = t1 X1 +
· · · + td Xd est gaussienne, de moyenne ⟨t, m⟩ (où m = E[X]) et de variance
On dira plus généralement qu’une famille infinie (Xi )i∈I de variables aléatoires réelles est un
processus gaussien si toute sous-famille finie (Xi )i∈J (J ⊂ I) est un vecteur gaussien. Par la
proposition précédente, on conclut que (Xi )i∈I un processus gaussien si, et seulement si toutes les
combinaisons linéaires de ses composantes sont gaussiennes.
où a se détermine grâce à l’espérance (elle vaut E[X]), et on peut déterminer α1 , . . . , αl grâce aux
covariances : pour tout i,
0 = Cov(E[X | Y ] − X, Yi ) = Cov(α1 Y1 + · · · + αl Yl − X, Yi ) = · · ·
4.4. LOIS NORMALES ET LIMITES 73
Cov(X − X,
e Yi ) = E[(X − X)Y
e i ] = ⟨X − X,
e Yi ⟩L2 = 0
par définition de la projection orthogonale. Par la propriété précédente (point b)), on en déduit que
X −X e et Y sont indépendants. En particulier, on calcule alors
E[X | Y ] = E[X
e + (X − X)
e |Y ] = X
e + E[X − X]
e = X,
e
Plus précisément, on a :
X
Proposition 4.7. Soit un vecteur gaussien, avec X ∈ R et Y ∈ Rl . Alors la loi conditionnelle
Y
de X sachant Y est la loi N E[X | Y ], Var(X − E[X | Y ]) .
Preuve : Quitte à remplacer X par X − E[X], on peut supposer X centré. En poursuivant la preuve
précédente, on constate que
X = E[X | Y ] + (X − E[X | Y ]),
avec E[X | Y ] qui est σ(Y )-mesurable, et X −E[X | Y ] qui est indépendante de Y , et de loi N (0, Var(X −
E[X | Y ])) (car c’est une variable gaussienne). La proposition en résulte directement : formellement, si
on pose X e = E[X | Y ] = h(Y ) et Xb = X − X,e alors X b est indépendante de Y et de loi N (0, Var(X −
E[X | Y ])) donc pour toute fonction mesurable f : R → R+ , par la proposition 2.10,
Preuve : Dans le cas d = 1 : notons, pour tout n, mn = E[Xn ] et σn2 = Var(Xn ). Notons aussi
1 2 2
X une limite. Alors pour tout t ∈ R, ΦXn (t) = eitmn − 2 t σn → ΦX (t). En prenant le module, on a
1 2 2
e− 2 t σn → |ΦX (t)|, et comme ΦX (0) = 1 on peut choisir t tel que ΦX (t) ̸= 0, d’où la convergence de
σn2 vers une limite positive ou nulle σ 2 en prenant le logarithme. Pour les espérances, on constate que
si une sous-suite mφ(n) converge vers une limite µ ∈ R, alors par passage à la limite on a, pour tout
1 2 2
t ∈ R, ΦX (t) = eitµ− 2 t σ
donc X est gaussienne. Il suffit par conséquent de montrer que l’on n’a pas
74 CHAPITRE 4. VECTEURS GAUSSIENS
|mn | → +∞. Supposons par exemple que, quitte à extraire une sous-suite, mn → +∞. Alors, pour
tout réel x, pour tout n assez grand, mn > x, et donc
1
FXn (x) = P(Xn ≤ x) ≤ P(Xn ≤ mn ) =
2
par symétrie de la gaussienne, si bien que la limite de la suite des fonctions de répartition de Xn (en les
points de continuité de FX ) ne peut pas être une fonction de répartition (elle doit avoir pour limite 1
en +∞), en contradiction avec la convergence en loi.
Dans le cas d ≥ 2 : si Xn → X en loi, alors pour tout t ∈ Rd , ⟨t, Xn ⟩ → ⟨t, X⟩ en loi (par
continuité), et ces variables sont gaussiennes, donc le cas d = 1 montre que ⟨t, X⟩ est gaussienne :
toute combinaison linéaire des composantes de X est gaussienne, donc X est une vecteur gaussien. 2
Théorème 4.9 (Théorème Central Limite multidimensionnel). Soit X1 , X2 , . . . une suite de vec-
teurs aléatoires indépendants et de même loi, à valeurs dans Rd , de carré intégrable. On note m leur
espérance et Γ leur matrice de covariance communes. Alors
√ X1 + · · · + Xn (loi)
n − m −→ N (0, Γ).
n n→∞
Preuve : En notant (Wn )n la suite ci-dessus, il faut montrer que, pour tout t ∈ Rd ,
1 T
ΦWn (t) = E[ei⟨t, Wn ⟩ ] → e− 2 t Γt
,
mais
√ ⟨t, X1 ⟩ + · · · + ⟨t, Xn ⟩
⟨t, Wn ⟩ = n − ⟨t, m⟩ ,
n
et les variables ⟨t, Xi ⟩ sont indépendantes, de même loi d’espérance ⟨t, m⟩ et de variance tT Γt donc
la convergence ci-dessus vient du TCL unidimensionnel. 2
Chapitre 5
L’objectif de ce chapitre est d’introduire un processus en temps continu (Bt )t∈[0,∞[ , appelé mou-
vement brownien.
Ce processus fut initialement introduit (en 1827 par Brown, puis plus formellement en 1901 par
Bachelier puis 1905 par Einstein) pour décrire le mouvement d’une particule de pollen soumise à des
chocs par de petites particules environnantes, puis utilisé dans des modèles financiers. Il s’interprète
en effet comme une limite de marches aléatoires dont les intervalles de temps entre les sauts sont de
plus en plus courts, en normalisant l’amplitude des sauts de façon appropriée.
Mathématiquement, le mouvement brownien est un objet central en probabilités, dont le rôle parmi
les processus aléatoires peut se rapprocher de celui de la gaussienne parmi les distribution de proba-
bilités. C’est notamment l’unique processus continu, à accroissements indépendants et stationnaires :
• presque sûrement, la trajectoire (aléatoire) t 7→ Bt est continue ;
• pour tout h > 0, pour tous s, t > 0, les accroissements Bt+h − Bt et Bs+h − Bs sont de même
loi, et indépendants si s + h < t.
Ce chapitre s’appuie sur tous les précédents : nous allons voir que le mouvement brownien est un
processus de Markov, d’une martingale et d’un processus gaussien, et étudier quelques-unes
de ses propriétés.
5.1 Définition
5.1.1 Motivation : limite d’échelle de marches aléatoires
Soit X1 , X2 , . . . une suite de variables aléatoires, indépendantes et de même loi de carré intégrable,
centrée (E(Xi ) = 0) et réduite (Var(Xi ) = 1). Par exemple, Xi = ±1, de façon symétrique, ou
Xi ∼ N (0, 1).
Le processus (Sn )n≥0 défini par
pour tout n ≥ 0, Sn = X1 + · · · + Xn
(avec S0 = 0) est appelé une marche aléatoire (c’est une chaı̂ne de Markov au sens du chapitre 1
quand les Xi sont discrètes).
On peut voir ce processus comme indexé par les temps réels en le choisissant constant par morceaux
entre deux sauts : ce processus peut se noter (S⌊t⌋ )t∈[0,∞[ , où ⌊t⌋ est la partie entière de t. On pourrait
aussi le prolonger continûment et linéairement entre les valeurs entières.
4
-2
-4
0 5 10 15 20 25 30
75
76 CHAPITRE 5. INTRODUCTION AU MOUVEMENT BROWNIEN
20
10
-10
-20
-30
0 50 100 150 200 250 300
SN
Par le théorème central limite, √ N
converge en loi vers la loi normale N (0, 1). Ceci suggère que la
√ (N )
bonne normalisation est 1/ N : on va étudier la suite de processus B (N ) = (Xt )t≥0 où
(N ) 1
Bt = √ S⌊N t⌋ , t ≥ 0.
N
On a alors
(N ) SN (loi)
B1 =√ −→ N (0, 1)
N N →∞
et, plus généralement, pour tout t ≥ 0,
p
(N ) S⌊N t⌋ S⌊N t⌋ ⌊N t⌋ (loi)
Bt = √ =p √ −→ N (0, t),
N ⌊N t⌋ N N →∞
√
car si Z ∼ N (0, 1) alors Z t ∼ N (0, t). On a donc une convergence ponctuelle en loi. Pour décrire
la loi de l’éventuel processus limite, il faut également décrire les lois jointes en différents temps. On
observe tout d’abord que, si 0 < s < t, alors on peut décomposer
(N ) (loi) (N ) (loi)
Bs(N ) et Bs,t sont indépendants pour tout N , Bs(N ) −→ N (0, s), et Bs,t −→ N (0, t − s),
N →∞ N →∞
si bien que
(loi)
s 0
(N )
(Bs(N ) , Bs,t ) −→ N 0,
N →∞ 0 t−s
De même, pour tous 0 < t1 < · · · < tk , les accroissements entre ces temps sont indépendants et ont
une limite gaussienne :
t1 0 ··· 0
(N ) (N ) (N ) (loi)
0 t2 − t1 0
(Bt1 , Bt1 ,t2 , . . . , Btk −tk−1 ) −→ N 0, .
N →∞ 0 . ..
0 0
0 0 0 tk − tk−1
5.1. DÉFINITION 77
Le mouvement brownien (Bt )t≥0 va être défini comme un processus “limite” de B (N ) : tel que,
pour tous 0 < t1 < · · · < tk ,
t1 0 ··· 0
0 t2 − t1 0
(Bt1 , Bt2 − Bt1 , . . . , Btk − Btk−1 ) ∼ N 0, .
..
0 0 . 0
0 0 0 tk − tk−1
Il s’avère que préciser ces lois (autrement dit les lois de (Bt1 , . . . , Btk )) pour tous k ∈ N∗ et
0 < t1 < · · · < tk ne donne pas toute l’information que l’on souhaite connaı̂tre sur un processus
indexé par [0, ∞[, en raison du caractère indénombrable de cet ensemble : par exemple, l’existence
d’une limite limt→0+ Bt dépend d’une infinité non dénombrable de composantes donc ne se réduit pas
aux lois précédentes. Sans définir de notion de loi de processus (on en dira juste un mot plus loin), on
notera simplement qu’il suffira, pour étudier toutes les propriétés qui suivront, d’ajouter une condition
de continuité (point (iv) ci-dessous).
5.1.2 Définition
Définition 5.1. Un processus (Bt )t∈[0,∞[ est un mouvement brownien réel (standard) si
(i) B0 = 0 p.s. ;
(ii) pour tout k ∈ N∗ et 0 < t1 < · · · < tk , les accroissement Bt1 , Bt2 − Bt1 ,. . .,Btk − Btk−1 sont
indépendants ;
(iii) pour tous 0 < s < t, Bt − Bs suit la loi N (0, t − s) ;
(iv) p.s., la trajectoire t 7→ Bt est continue sur [0, ∞[.
(i’) B0 = x p.s.,
(iii’) pour tous 0 < s < t, Bt − Bs suit la loi N 0, σ 2 (t − s) .
On observe immédiatement que, si B est un mouvement brownien standard, alors (x + σBt )t≥0 est
un mouvement brownien issu de x et de diffusivité σ 2 .
Définition 5.2. Un processus B(t) t∈[0,∞[ = B1 (t), . . . , Bd (t) t∈[0,∞[ à valeurs dans Rd est un
donc, pour tous s, t > 0, Cov(Bs , Bt ) = s ∧ t. Comme la matrice de covariance caractérise la loi d’un
vecteur gaussien centré, les points (ii) et (iii) sont équivalents à
5.1.3 Construction
Nous avons motivé la définition de B comme “limite” de marches aléatoires, mais nous n’avons
pas prouvé la convergence de B (N ) comme variables aléatoires et en particulier nous n’avons pas
construit de limite. Nous avons prouvé la convergence les lois fini-dimensionnelles, c’est-à-dire des
(N ) (N )
lois de tous les vecteurs (Bt1 , . . . , Btk ), mais il faudrait une convergence en un sens plus fort pour
assurer l’existence d’un processus limite qui vérifie (i),(ii),(iii), et de toute façon on a déjà remarqué
que le travail sur ces lois fini-dimensionnelles ne peut suffire à obtenir (iv). Il reste donc à justifier
l’existence d’un mouvement brownien. On en propose une construction qui sera instructive.
On se contentera de construire (Bt )t∈[0,1] . Il resterait ensuite à en concaténer des copies indépendantes
pour obtenir le processus sur [0, ∞[.
On va définir (Bt )t∈[0,1] comme limite uniforme d’une suite de fonctions aléatoires X (0) , X (1) , . . .
continues, affines par morceaux, et telles que
(1) pour tout n, X (n) est continue, affine sur chacun des intervalles de la subdivision définie par les
points dyadiques
nk o
n
Dn = 0 ≤ k ≤ 2 ;
2n
(n)
(2) pour tout n, le vecteur (Xt )t∈Dn a la loi attendue, ce qui équivaut à :
(n) (n) (n)
X0 = 0, et X k+1 − X k k=0,...,N −1
sont indépendants et de loi N (0, 2−n );
2n 2n
(3) pour tout n, X (n+1) coı̈ncide avec X (n) sur Dn : pour k = 0, . . . , 2n , X (n+1) ( 2kn ) = X (n) ( 2kn ).
Pour cela on peut construire X (0) , X (1) , . . . par récurrence : il suffit, pour tout n, de se donner des
valeurs de X (n+1) sur Dn+1 \ Dn qui assurent le point (2), les valeurs de X (n+1) sur Dn étant celles
de X (n) vu (3), et les valeurs intermédiaires se déduisant par interpolation linéaire vu (1).
(0)
On commence par définir X (0) par Xt = tZ où Z ∼ N (0, 1). En effet D0 = {0, 1}.
Puis, pour n ∈ N donné, supposons X (n) construit, vérifiant (1) et (2). On définit donc X (n+1) sur
(n+1)
Dn par les valeurs de X (n) (cf. (3)), et il reste à le définir sur Dn+1 \Dn . Pour que X|Dn+1 ait la loi vou-
(n+1)
lue, il suffit que X|Dn ait la loi voulue (c’est le cas par (2) vu la récurrence) et que la loi conditionnelle
(n+1) (n+1)
de X|Dn+1 \Dn sachant X|Dn soit celle voulue. Déterminons donc cette loi conditionnelle.
Pour simplifier les notations, on écrit ici (Bt )t∈Dn+1 pour désigner un vecteur ayant la loi voulue
(autrement dit un vecteur gaussien de covariance Cov(Bs , Bt ) = s ∧ t pour s, t ∈ Dn+1 , ou de façon
équivalente B0 = 0 et les accroissement B(k+1)/2n+1 −Bk/2n+1 sont indépendants et de loi N (0, 2−(n+1) ).
Comme c’est un vecteur gaussien, on sait (chapitre précédent) que la loi de (Bt )t∈Dn+1 \Dn sachant
(Bt )t∈Dn est la loi
N E(X | Y ), Var(X − E(X | Y )) , où X = (Bt )t∈Dn+1 \Dn et Y = (Bt )t∈Dn ,
où ici “Var” désigne la matrice de covariance. On calcule l’espérance conditionnelle par composante :
pour 0 ≤ k < 2N , on a
B 2k+1 = B 2k + B 2k+1 − B 2k = B kn + B 2k+1 − B 2k
2n+1 2n+1 2n+1 2n+1 2 2n+1 2n+1
donc
E B 2k+1 B|Dn = B k + E B 2k+1 − B k B k+1 −B k .
2n+1 2n 2n+1 2n 2n 2n
En effet, 2kn ∈ Dn donc le premier terme est σ(B|Dn )-mesurable. Et, pour le second terme, conditionner
par B|Dn revient à conditionner par les accroissements de B entre les points de Dn , qui sont tous
indépendants de l’accroissement dont on prend l’espérance, sauf celui de l’intervalle [ 2kn , k+1
2n ]. On
utilise ici implicitement le lemme suivant :
Lemme 5.3. Si X est F-mesurable et intégrable, et G, H sont des tribus telles que σ(F ∪ G) et H
sont indépendantes, alors E(X | G, H) = E(X | G).
5.1. DÉFINITION 79
Preuve : En effet, pour toute variable aléatoire bornée Z de la forme Z = GH, où G et H sont des
variables aléatoires bornées respectivement G- et H-mesurables, on a, d’après les hypothèses,
On admettra que ce cas particulier suffit à conclure. Cela vient du fait que les événements A ∩ B, où
A ∈ G et B ∈ H, engendrent σ(G ∪ H). 2
E(Z1 | Z1 + Z2 ).
donc finalement
1 B kn + B k+1
2 2n
E(B 2k+1 | B|Dn ) = B + (B k+1
k − B k ) = .
2n+1 2n 2 2n 2n 2
L’espérance conditionnelle en un point de Dn+1 \ Dn sachant les valeurs sur Dn est donc simplement
la moyenne des valeurs aux deux points de Dn qui l’encadrent.
Calculons la matrice Σ de covariance de la loi condionnelle, c’est-à-dire la matrice du covariance
du vecteur formé par les différences entre les Bt , t = 2k+1
2n+1
et les moyennes des deux points de Dn qui
k k+1
l’encadrent (c’est-à-dire 2n et 2n ).
Remarquons que, quels que soient 0 ≤ s < t,
Bs + Bt B s+t − Bs Bt − B s+t
2 2
B s+t − = + ,
2 2 2 2
donc cette variable ne dépend que des accroissements sur [s, s+t s+t
2 ] et [ 2 , t], qui sont dans [s, t]. Par
suite, vu l’indépendance des incréments sur des intervalles disjoints, la matrice de covariance Σ est
diagonale, et les coefficients diagonaux se déduisent de
X (n) (n) √
k + X k+1
2−n
2n 2n
+ Zn,k ,
2 2 0≤k≤2n −1
où les variables aléatoires (Zn,k )k,n sont indépendantes et de loi N (0, 1). Vu que X (n) est définie par
interpolation affine, on note que le vecteur précédent est aussi exactement
√
2−n
(n)
X 2k+1 + Zn,k .
2n+1 2 0≤k≤2n −1
Lemme 5.4. Il existe K > 0 tel que, pour tout n, si Z1 , . . . , Zn sont des variables aléatoires indépendantes
et de loi N (0, 1), alors p
E max(|Z1 |, . . . , |Zn |) ≤ K log n.
x2
Preuve : En notant ϕ : x 7→ e 4 , la fonction ϕ est convexe, croissante sur R+ , donc par l’inégalité de
Jensen on a (avec l’inégalité évidente max(a, b) ≤ a + b si a, b ≥ 0) :
ϕ E(max|Zi |) ≤ E ϕ(max|Zi |) ≤ E ϕ(|Z1 | + · · · + |Zn |) ≤ E(ϕ(|Z1 |) + · · · + ϕ(|Zn |)) = nE ϕ(|Z1 |)
i i
donc, en notant C = E(ϕ(|Z1 |)) (qui est fini, vu la densité gaussienne), on en déduit, pour tout n ≥ 2,
q p p
E(max|Zi |) = 4 log ϕ(E(max|Zi |)) ≤ 4 log(nC) ≤ K log n,
i i
Ainsi, √ p
n n
E[ ∥X (n+1) − X (n) ∥∞ ≤ 2− 2 −1 K log(2n ) = 2− 2 −1 K n log 2.
p
En particulier, on en déduit que (avec le théorème de convergence monotone pour la première étape)
∞
X ∞
X
(n+1) (n)
E ∥X (n+1) − X (n) ∥∞ < ∞.
E ∥X − X ∥∞ =
n=0 n=0
Par suite,
∞
X
presque sûrement, ∥X (n+1) − X (n) ∥∞ < ∞.
n=0
Cette condition implique que la suite (X (n) )n converge uniformément (si une série converge absolument
dans l’espace complet C([0, 1]) alors elle converge dans cet espace, ce qui revient ici à la convergence
uniforme de (X (n) )n ) d’où la conclusion : presque sûrement, X (n) converge uniformément, quand
n → ∞, vers une fonction B qui est donc continue.
Par construction, pour tout n, pour tous 0 ≤ t1 < · · · < tk dans Dn , Bt1 , Bt2 − Bt1 , . . . , Btk − Btk−1
(n) (n) (n) (n) (n)
sont égaux à Xt1 , Xt2 − Xt1 , . . . , Xtk − Xtk−1 et donc indépendants et de lois N (0, t1 ), N (0, t2 −
t1 ), . . . , N (0, tk − tk−1 ). S
Cette propriété s’étend à tous 0 ≤ t1 < · · · < tk ≤ 1 par densité de n Dn dans [0, 1]. En effet,
cela peut se voir via la fonction caractéristique : la fonction caractéristique de (Bt1 , Bt2 − Bt1 , . . .)
est la limite de celles prises en des points dyadiques qui approchent t1 , t2 , . . . par continuité de B (et
théorème de convergence dominée), or ces fonctions caractéristiques sont explicites vu le cas dyadique,
et convergent vers celle de la loi attendue.
Cela achève de prouver que B est un mouvement brownien (sur l’intervalle de temps [0, 1]).
Remarque 5.5. On a montré ici que (X (n) )n converge presque sûrement vers un mouvement brow-
nien, dans l’espace vectoriel normé (C([0, 1]), ∥·∥∞ ). En particulier, on pourrait dire que (X (n) )n
converge en loi vers le mouvement brownien, en tant que variable aléatoire à valeurs dans cet es-
pace, muni de sa tribu des boréliens.
5.2. PROPRIÉTÉS 81
Mais a-t-on montré que la marche aléatoire B (N ) de l’introduction “converge en loi” vers le mou-
vement brownien ? Pour cela, il faudrait voir B (N ) comme une variable aléatoire à valeurs dans un
espace mesuré. On ne peut pas utiliser C([0, 1]) car B (N ) n’est pas continue. On pourrait a priori vou-
loir considérer tout l’espace R[0,1] avec sa tribu produit B(R)⊗[0,1] , et dans ce cas on aurait bien montré
la convergence en loi en montrant la convergence des lois jointes d’un nombre fini de marginales ; ce-
pendant les parties mesurables ne dépendent que d’une infinité dénombrable de composantes, ce qui
empêche de parler de limites ou de continuité et rend cet espace peu approprié. Une bonne solution est
de considérer un espace normé de fonctions ayant des discontinuités (fonctions “càd-làg” : continues
à droites, avec limites à gauche). Cela dit, notre argument ne suffit alors pas à assurer la convergence
en loi, qui requiert de s’assurer que certaines quantités mesurant la continuité de B (N ) n’explosent pas
quand N est grand.
La convergence en loi de B (N ) vers un mouvement brownien peut néanmoins être démontrée (dans
l’espace des fonctions càd-làg avec une bonne norme), et connue comme le théorème de Donsker,
ou théorème central limite fonctionnel.
5.2 Propriétés
Soit B = (Bt )t≥0 un mouvement brownien réel.
5.2.1 Régularité
On commence par des résultats qui illustrent plutôt l’irrégularité de B.
Proposition 5.6. Presque sûrement, B n’est monotone sur aucun intervalle non trivial.
Preuve : Soit un intervalle I = [a, b] avec a < b réels. Soit n ∈ N∗ . On note an,k = a + nk (b − a) pour
k = 0, . . . , n. Si B est monotone sur I, alors en particulier les n accroissements Bak+1 − Bak (où 0 ≤
k < n) sont de même signe. Or ces variables sont indépendantes (par indépendance des accroissements
sur des intervalles disjoints) et ont des signes uniformes dans {−1, +1}, donc cet événement a pour
probabilité 2−(n−1) (probabilité que n pièces tombent du même côté). Par suite,
P(B est monotone sur I) ≤ 2−(n−1) .
Ceci vaut quel que soit n, donc la probabilité est nulle. On a obtenu : pour tout intervalle I non trivial,
p.s. B n’est pas monotone sur I. Il reste à justifier que p.s., pour tout intervalle I non trivial, B n’est
pas monotone sur I. Si B était monotone sur un intervalle non trivial, alors B serait en particulier
monotone sur n’importe quel intervalle à extrêmités rationnelles inclus dans celui-ci. Ainsi,
P(B est monotone sur un intervalle non trivial)
≤ P( ∃a, b ∈ Q, 0 < a < b, tels que B est monotone sur [a, b])
X
≤ P(B est monotone sur [a, b]) = 0,
a,b∈Q, 0<a<b
Preuve : Si B est dérivable en un point de [0, 1], alors il existe C ∈ N et n ∈ N∗ tel que B est
C-lipschitzienne sur un ensemble [x − n3 , x + n3 ] où x ∈ [0, 1]. Il suffit donc de montrer que, pour tout
C > 0 et n ∈ N, ceci ne se produit presque sûrement pas. On note An cet événement.
Sur cet événement, il existe un entier k tel que k−1 k+2 3
n , . . . , n sont tous dans [0, 1] et à distance ≤ n
k k−1 5
du point x de la notation précédente, et on a alors | n −s|+| n −s| ≤ n (penser au cas où s est proche
de 0 pour comprendre le 5) d’où |B k − B k−1 | ≤ 5C n par inégalité triangulaire avec Bs et propriété
n n
lipschitzienne au voisinage de x ; de même pour les accroissements |B k+1 − B k | et |B k+2 − B k+1 |.
n n n n
Ainsi, An ⊂ Bn , où
5C
Bn = {∃1 ≤ k ≤ n − 2 tel que max(|B k − B k−1 |, |B k+1 − B k |, |B k+2 − B k+1 |) ≤ }.
n n n n n n n
Or
n−2
X 5C
P(Bn ) ≤ P max(|B k − B k−1 |, |B k+1 − B k |, |B k+2 − B k+1 |) ≤
n n n n n n n
k=1
3
5C
≤ nP |B1/n − B0 | ≤
n
3 3
5C 10C K
= nP |B1 | ≤ √ ≤n √ √ = √ −→ 0,
n 2π n n n→∞
en utilisant le fait que B1/n ∼ N (0, 1/n) a même loi que √1n B1 , et l’inégalité
Z a −x2 /2 Z a
e 1 2a
P(|B1 | ≤ a) = √ dx ≤ √ dx = √ .
−a 2π −a 2π 2π
Ainsi, P(An ) → 0, or on constate que la suite An est croissante, donc ceci montre que P(An ) = 0 pour
tout n. C’est ce qu’il nous fallait démontrer. 2
1
On peut en revanche prouver que B est localement Hölderien d’indice α, pour tout α < 2 : presque
sûrement, il existe C > 0 tel que, pour tous 0 < s < t < 1,
|Bt − Bs | ≤ C|t − s|α .
Cela pourrait se montrer à partir de notre construction précédente.
5.2.2 Invariances
Proposition 5.9. Soit B un mouvement brownien. Soit σ > 0, s > 0. La loi de B satisfait les
invariances suivantes :
a) (symétrie axiale) −B est un mouvement brownien.
b) (changement d’échelle) √1σ Bσt est un mouvement brownien.
t≥0
c) (propriété de Markov au temps s) (Bs+t − Bs )t≥0 est un mouvement brownien, indépendant de
Fs = σ((Bu )u≤s ).
d) (inversion du temps) tB1/t , prolongé par la valeur 0 en 0, est un mouvement brownien.
t>0
e) (retournement du temps) (Bs−t − Bs )t∈[0,s] est un mouvement brownien (sur [0, s]).
Preuve : Il faut vérifier les points (i) à (iv) dans chaque cas. Le point (i) est toujours évident.
Vérifier (ii) et (iii) revient à vérifier que le processus défini B
e est gaussien et a pour covariance
Cov(Bs , Bt ) = s ∧ t. Ce calcul est laissé en exercice. Le point (iv) est évident sauf pour d) en t = 0 ;
e e
on peut remarquer que l’existence d’une limite nulle en 0 s’exprime à l’aide des valeurs en t > 0 (et
même t ∈ Q+ par continuité sur ]0, ∞[), et utiliser l’identité en loi vérifiée sur ces valeurs avec le fait
qu’il existe un mouvement brownien (donc continu en 0). 2
où Z
Pt f (x) = pt (x, y)f (y)dy,
avec
1 − (y−x)2
pt (x, y) = √ e 2t (densité de N (x, t) en y).
2πt
Cette écriture est à rapprocher des formules suivantes que l’on connaı̂t pour les chaı̂nes de Markov :
X
E(f (Xk+n ) | Fk ) = EXk (f (Xn )) = P n f (Xk ) avec P n f (x) = P n (x, y)f (y).
y
L’analogue de la famille (P n )n≥0 de puissances (ou d’itérés) d’une matrice (infinie) est une famille
(Pt )t≥0 d’opérateurs s’appliquant aux fonctions mesurables bornées, qui vérifie aussi une relation de
semi-groupe :
Pt Ps f (x) = Ps+t f (x).
Cela vient de la propriété de Markov : en intégrant la relation plus haut,
Pt f (x) − f (x) 1
Df (x) = lim = lim Ex [f (Xt )] − f (x) ,
t→0+ x t→0+ t
c’est-à-dire que
Ex [f (Xt )] = f (x) + tDf (x) + ot→0+ (t).
Pour le mouvement brownien, avec la définition de Pt ci-dessus, on obtient que D = 21 ∆, où ∆
d2
est l’opérateur laplacien (= dx 2 en dimension 1). On voit notamment que cette relation n’aura de
sens qu’appliquée à des fonctions f assez régulières : l’opérateur D n’est pas défini sur autant de
fonctions que Pt . Cette apparition du laplacien peut être mise en parallèle avec la marche aléatoire
simple symétrique sur Z : dans ce cas,
1 1 f (x + 1) + f (x − 1) − 2f (x)
Ex [f (X1 )] = f (x − 1) + f (x + 1) = f (x) + ,
2 2 2
ce qui fait apparaı̂tre une dérivée seconde discrète.
Plus généralement, on peut définir des processus de Markov, donnés par un semi-groupe (Pt )t≥0
ou par un générateur D opérant sur un sous-domaine D des fonctions mesurables bornées.
84 CHAPITRE 5. INTRODUCTION AU MOUVEMENT BROWNIEN
Proposition 5.11. Pour la filtration (Ft )t≥0 définie par Ft = σ((Bu )0≤u≤t ) pour tout t,
a) (Bt )t≥0 est une martingale ;
b) (Bt2 − t)t≥0 est une martingale ;
σ2
c) pour tout réel σ, exp(σBt − 2 t) t≥0 est une martingale.
Preuve : Les preuves sont similaires au cas discret. On traite a) par exemple : (i) est vérifié par
définition de la filtration, (ii) est vérifié par intégrabilité des lois gaussiennes, et (iii) vient de la
propriété de Markov pour B : pour tous 0 ≤ s < t,
Proposition 5.12 (Théorème de Doob). Soit (Xt )t≥0 une martingale telle que supt≥0 E[(Xt )+ ] < ∞.
Alors presque sûrement Xt −→ X∞ où X∞ ∈ L1 .
t→+∞
Preuve : On peut définir, pour tous a < b, le nombre de franchissements croissants de [a, b] par
(Xt )t≥0 , et observer que c’est la limite croissante du nombre de franchissements par (Xt )t∈Dn (où
Dn = 2−n N), qui se majore par le lemme 3.30 vu dans le cas discret. Comme la majoration est
uniforme, on peut conclure comme dans le cas discret. 2
Notons de plus que le même résultat vaut pour des limites t → (t0 )− , ou t → (t0 )+ en tout
point : ceci montre que l’hypothèse de martingale (et l’hypothèse de Doob, au voisinage de t0 ) assure
l’existence de limites à gauche et à droite.
On a aussi :
Proposition 5.13 (Inégalité de Doob dans L2 ). Si X est une martingale continue, alors pour tout
t > 0,
E[(sup Xs )2 ] ≤ 4E[Xt2 ].
s≤t
Preuve : Soit t > 0. Notons, pour tout n, Dn = 2tn N. On constate que, pour tout n, la suite (Xs )s∈Dn
est une martingale discrète (elle est extraite de la martingale continue X). En particulier, en vertu de
l’inégalité de Doob dans L2 , h i
E max Xs2 ≤ 4E[Xt2 ].
0≤s≤t,
s∈Dn
La proposition s’en déduit par théorème de convergence monotone quand n → ∞ (la continuité de X
assure la convergence du maximum). 2
Proposition 5.14. Si (Xt )t≥0 est une martingale continue de carré intégrable, et T est un temps
d’arrêt, alors X T = (Xt∧T )t≥0 est une martingale.
5.5. APPLICATIONS DE LA PROPRIÉTÉ DE MARTINGALE 85
Ici, un temps d’arrêt est une v.a. T à valeurs dans R+ ∪ +∞ telle que, pour tout t ≥ 0,
{T ≤ t} ∈ Ft .
d’où à la limite (par théorème de convergence dominée, en dominant par supu≤t |Xu | (intégrable d’après
la proposition précédente)),
E(Xt∧T 1A ) = E(Xs∧T 1A ),
ce qui prouve la propriété de martingale : E(Xt∧T | Fs ) = Xs∧T . 2
T = inf{t ≥ 0 | Bt ∈
/ [−a, b]}.
Le temps T est fini p.s. En effet, la martingale arrêtée B T converge p.s. par le théorème de Doob,
ce qui n’est possible que si T < ∞ (en effet, les accroissements avant T sont gaussiens et donc p.s.
non nuls). En particulier on observe que B est non borné : p.s., supt>0 |Bt | = ∞.
Comme (Bt∧T )t≥0 est une martingale, on a pour tout t ≥ 0,
E(Bt∧T ) = E(B0∧T ) = 0.
De plus Bt∧T −→ BT , et |Bt∧T | ≤ max(a, b), donc on peut appliquer le théorème de convergence
t→∞
dominée pour obtenir :
E(BT ) = 0.
Or BT ne prend que −a et b pour valeurs, donc
b
P(BT = −a) = .
a+b
2
Comme (Bt∧T − t ∧ T )t≥0 est une martingale, on a pour tout t ≥ 0
2
E(Bt∧T − t ∧ T ) = 0,
d’où
2
E(Bt∧T ) = E(t ∧ T ).
86 CHAPITRE 5. INTRODUCTION AU MOUVEMENT BROWNIEN
Or le terme de gauche converge vers E(BT2 ) par convergence dominée (on a |Bt∧T | ≤ max(a, b)) et le
terme de droite converge vers E(T ) par convergence monotone. Il en résulte
E(BT2 ) = E(T ).
d’où
a2 b ab2
E(T ) = + = ab.
a+b a+b
Soit a > 0. Considérons le temps d’arrêt
Ta = inf{t ≥ 0 | Bt = a}.
On a montré que p.s. Ta < ∞ ou T−a < ∞, mais on n’a pas prouvé que p.s. Ta < ∞.
σ2
Soit σ > 0. Comme Xt = eσBt − 2 t définit une martingale, (Xt∧Ta )t≥0 est aussi une martingale. En
particulier on en déduit pour tout t,
σ2
(t∧Ta )2
E(eσBt∧Ta − 2 ) = E(X0 ) = 1.
σ2
σ2 σ2
Si Ta = ∞, alors σBt − 2 t ≤ a− 2 t → −∞ quand t → +∞ ; et si Ta < ∞ alors XTa = eσa− T
2 a ,
donc dans tous les cas :
σ2
Xt∧Ta −→ eσa− T
2 a 1{Ta <∞}
t→∞
|Xt∧Ta | ≤ eσa ,
ce qui donne
σ2
E(e− T
2 a 1{Ta <∞} ) = e−σa .
Pour σ → 0, on en déduit en particulier par convergence monotone
P(Ta < ∞) = 1.
Ceci montre que le mouvement brownien est récurrent : p.s., il visite tous les réels :
87