0% ont trouvé ce document utile (0 vote)

60 vues87 pages

Poly 2020

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

60 vues87 pages

Poly 2020

Transféré par

fahdl magdoul

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Année 2020–2021

Cours de MACS 2 et Master 1 Institut Galilée, Université Sorbonne Paris Nord

Processus Stochastiques

Cha^
nes de Markov, martingales
et mouvement brownien

Chargé de cours : Laurent Tournier

Chargés de TD : Bastien Mallein et Laurent Tournier

Basé sur un polycopié de Yueyun Hu

2
Table des matières

0 Introduction 5
0.1 Espace de probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
0.2 Processus stochastiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
0.3 Deux résultats fondamentaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1 Chaı̂nes de Markov 13
1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2 Probabilités de transition à m pas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3 Exemples de chaı̂nes de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3.1 Chaı̂ne de markov à deux états . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3.2 Marche aléatoire sur Z et sur Zd . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3.3 Marches aléatoires simples sur Z avec barrières . . . . . . . . . . . . . . . . . . 17
1.3.4 Modèle d’Ehrenfest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.3.5 Processus du renouvellement . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.3.6 Processus de branchement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4 Propriété de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.5 Visites à un sous-ensemble . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.6 Récurrence et transience . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.7 Décomposition en classes de communication . . . . . . . . . . . . . . . . . . . . . . . . 23
1.8 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.8.1 Chaı̂ne à deux états . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.8.2 Marche aléatoire simple sur Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.8.3 Marche aléatoire simple symétrique sur Zd . . . . . . . . . . . . . . . . . . . . . 26
1.8.4 Processus de renouvellement . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.8.5 Processus de branchement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.9 Probabilités d’absorption . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.9.1 (∗) Processus de branchement . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.10 Mesures et Probabilités invariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.10.1 Existence de mesures invariantes . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.10.2 Probabilités invariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.11 Périodicité et existence de la loi limite au sens fort . . . . . . . . . . . . . . . . . . . . 35
1.11.1 (∗) Classes cycliques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.12 (∗) Complément sur le processus canonique . . . . . . . . . . . . . . . . . . . . . . . . 40
1.12.1 Première construction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
1.12.2 Autre approche : extension de lois fini-dimensionnelles compatibles . . . . . . . 41

2 Espérance conditionnelle 43
2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.1.1 Cas des variables aléatoires dans L2 . . . . . . . . . . . . . . . . . . . . . . . . 44
2.1.2 Cas général : variables aléatoires positives ou dans L1 . . . . . . . . . . . . . . 45
2.2 Propriétés élémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.3 Espérance sachant une v.a. discrète. Loi conditionnelle . . . . . . . . . . . . . . . . . . 49
2.4 Cas des lois à densité. Loi conditionnelle sachant Y . . . . . . . . . . . . . . . . . . . . 50

3
4 TABLE DES MATIÈRES

2.5 Propriété de Markov forte et ses applications . . . . . . . . . . . . . . . . . . . . . . . 51

2.5.1 Temps d’arrêt et propriété de Markov forte . . . . . . . . . . . . . . . . . . . . 51
2.5.2 Application au théorème ergodique . . . . . . . . . . . . . . . . . . . . . . . . . 53

3 Martingales en temps discret 55

3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.2 Définitions et exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.3 Premières propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.4 Stratégies : temps d’arrêt et transformée de martingale . . . . . . . . . . . . . . . . . . 58
3.5 Théorème d’arrêt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.6 Inégalités maximales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.7 Théorèmes de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.7.1 Convergence dans L2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.7.2 Convergence presque sûre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.7.3 Preuve du Théorème 3.28 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4 Vecteurs gaussiens 69
4.1 Rappels sur la loi normale unidimensionnelle . . . . . . . . . . . . . . . . . . . . . . . 69
4.2 Extension de la définition à Rd . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.3 Indépendance et conditionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.4 Lois normales et limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

5 Introduction au mouvement brownien 75

5.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.1.1 Motivation : limite d’échelle de marches aléatoires . . . . . . . . . . . . . . . . 75
5.1.2 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.1.3 Construction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.2.1 Régularité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.2.2 Invariances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.3 Propriétés de Markov et de martingale, et conséquences . . . . . . . . . . . . . . . . . 83
5.3.1 Propriété de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.4 Propriété de martingale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.5 Applications de la propriété de martingale . . . . . . . . . . . . . . . . . . . . . . . . . 85
Chapitre 0

Introduction et Rappels

Les probabilités ont pour but l’étude des phénomènes aléatoires, c’est-à-dire des expériences qui,
lorsqu’elles sont répétées, produisent une succession de résultats imprévisibles. Une variable aléatoire
réelle représente ainsi une certaine quantité mesurée lors d’une expérience aléatoire. Dans le cas
d’expériences qui se déroulent au fil du temps, il est pertinent de s’intéresser à l’évolution de ces
quantités en fonction du temps : elles deviennent donc des fonctions aléatoires (c’est-à-dire des va-
riables aléatoires dont les valeurs sont des fonctions), que l’on nomme processus stochastiques.
Dans le cas où on n’observe l’expérience que lors d’une suite de temps donnés, et non de façon conti-
nue, on parle de processus stochastiques en temps discret, et il s’agit alors plus précisément de
suites aléatoires.
Dans ce premier chapitre, on rappelle brièvement les principales notions et résultats de probabilités
qui seront utilisées dans la suite, et on définit formellement ces processus stochastiques.

0.1 Espace de probabilités

Une expérience aléatoire se modélise par un espace de probabilité (Ω, F, P), donné par trois
éléments :
• Un ensemble Ω . Il représente l’ensemble des résultats possibles de l’expérience aléatoire
considérée. Un élément ω de Ω s’appelle un résultat, ou une réalisation de l’expérience.
• Une tribu (ou σ-algèbre) F de sous-ensembles de Ω . Elle est composée de tous les sous-
ensembles de résultats dont on pourra considérer la probabilité. Un élément A de F s’appelle un
événement et, pour ω ∈ Ω, on dit que A est réalisé par ω si ω ∈ A. On rappelle qu’une classe F de
sous-ensembles de Ω est appelée une tribu (ou σ-algèbre) sur l’ensemble Ω si
(i) F contient ∅ et Ω,
(ii) F est stable par passage au complémentaire : pour tout A ∈ F, Ac ∈ F,
∞
[
(iii) F est stable par union dénombrable : pour toute suite (An )n∈N à valeurs dans F, An ∈ F.
n=0

Exemple 0.1. Sur Ω, on note P(Ω) l’ensemble de tous les sous-ensembles de Ω y compris l’ensemble
vide. Alors P(Ω) est la plus grande tribu dite tribu discrète, et {∅, Ω} est la plus petite tribu dite
tribu grossière ou tribu triviale. Un espace de probabilité est dit discret si la tribu F dont il est
muni est la tribu discrète. Lorsque Ω est dénombrable, c’est en général le cas (et on peut toujours s’y
ramener).
Exemple 0.2. On constate facilement que l’intersection d’une famille de tribus est encore une tribu.
En particulier, étant donné un ensemble de sous-ensembles C ⊂ P(Ω), l’intersection de toutes les tribus
contenant C est une tribu. C’est la plus petite tribu sur Ω contenant C, appelée tribu engendrée par C
et notée σ(C). Sur Rn , la tribu des boréliens notée B(Rn ) est la tribu engendrée par les ouverts
(elle est aussi engendrée par les fermés, par les pavés ouverts, ou encore par les pavés fermés).

5
6 CHAPITRE 0. INTRODUCTION

• Une probabilité P sur F . Elle associe à chaque événement A ∈ F la proportion de chance

correspondant à sa réalisation, c’est-à-dire aussi la proportion asymptotique de fois où le résultat
de l’expérience réalise l’événement A lorsque l’on répète cette expérience indéfiniment. On rappelle
qu’une probabilité P sur (Ω, F) est une mesure (positive) de masse totale égale à 1. C’est donc une
application
P : F → [0, 1],
telle que P(Ω) = 1 et qui est σ-additive : pour toute suite (An )n∈N d’événements disjoints,
∞
[ ∞
X
P An = P(An ).
n=0 n=0

Une propriété sur les éléments de Ω est vraie presque sûrement par rapport à la probabilité P
(ce que l’on écrit en abrégé : “P-p.s.”) si elle est vérifiée pour tout ω ∈ Ω \ N où N est un certain
ensemble tel que P(N ) = 0, autrement dit si elle vérifiée pour tout ω ∈ Ω e où Ω
e vérifie P(Ω)
e = 1.
Rappelons deux résultats essentiels pour le maniement des probabilités :

Proposition 0.3. a) Pour toute suite croissante (An )n∈N d’événements (c.-à-d. telle que An ⊂ An+1
pour tout n), la suite (P(An ))n∈N est croissante, et
[
P An = lim P(An ).
n
n

b) Pour toute suite décroissante (An )n∈N d’événements (c.-à-d. telle que An+1 ⊂ An pour tout n), la
suite (P(An ))n∈N est décroissante, et
\
P An = lim P(An ).
n
n

Définition 0.4. Soit (E, E) un espace mesurable. Une variable aléatoire (v.a.) à valeurs dans
E est une application X : (Ω, F) → (E, E) mesurable, c’est-à-dire telle que

∀B ∈ E, {X ∈ B} ∈ F,

où on utilise la notation pratique

{X ∈ B} = {ω ∈ Ω : X(ω) ∈ B} = X −1 (B).

On parle de variable aléatoire (v.a.) réelle pour une v.a. à valeurs dans (R, B(R)), et de vecteur
aléatoire réel pour une v.a. à valeurs dans (Rn , B(Rn )), avec n ≥ 2.

Définition 0.5. La loi d’une variable aléatoire X : (Ω, F, P) → (E, E) est la probabilité PX définie
sur (E, E) par :
∀B ∈ E, PX (B) = P(X ∈ B).
Au besoin, on peut préciser qu’il s’agit de la loi de X sous P.

Pour une variable aléatoire réelle X, la loi de X est donc une probabilité sur R.
On distingue deux cas particuliers importants.
• Si X ne prend qu’un ensemble dénombrable de valeurs dans E, c.-à-d. s’il existe I ⊂ E dénombrable
tel que X ∈ I p.s. (c’est le cas si X est une v.a. réelle dont les valeurs sont entières, ou rationnelles),
on dit que la loi de X est discrète sur E. En introduisant, pour tout x ∈ E, la mesure de Dirac
P tout x ∈ E, px = P(X = x) (= 0 si x ∈
δx en x, et en posant, pour / I), on voit que la loi de la v.a.
discrète X s’écrit PX = x∈I px δx . Pour tout B ⊂ I (et B ⊂ E), on a en effet :
X
P(X ∈ B) = px .
x∈B
0.1. ESPACE DE PROBABILITÉS 7

• Un autre cas important est celui où PX admet une densité f par rapport à la mesure de Lebesgue
dx sur Rd . On note alors PX = f (x)dx et on dit que la loi de X est absolument continue ou
admet une densité sur Rd . Dans ce cas pour tout borélien B ∈ B(Rd ) :
Z
PX (B) = f (x)dx.
B

Le lemme suivant s’avèrera souvent utile.

Lemme 0.6 (Lemme d’unicité). Dans (Ω, F) considérons une classe C de parties de F, stable par
intersections finies. Si P et Q sont deux probabilités telles que

P(C) = Q(C), ∀C ∈ C,

alors
P(A) = Q(A), ∀A ∈ σ(C).

Par exemple, supposons que X et Y sont des v.a. à valeurs dans Rd telles que, pour tout pavé
fermé C, P(X ∈ C) = P(Y ∈ C). Alors leurs lois PX et PY sont des probabilités sur Rd qui coı̈ncident
sur la famille C des pavés fermés de Rd . Or C est stable par intersections finies et engendre B(Rd ),
donc PX = PY : X et Y ont même loi.

Définition 0.7. Pour une v.a. X réelle positive, ou à valeurs dans Rd et intégrable pour la probabi-
lité P, on définit son espérance comme son intégrale sur Ω par rapport à P :
Z
E(X) = X(ω)dP(ω).
Ω

Dire que la v.a. X est intégrable correspond donc à dire que E(|X|) < ∞.

Pour une v.a. X à valeurs dans Rd , pour toute fonction borélienne φ : Rd → Rn (c.-à-d. mesurable
pour les tribus des boréliens), la variable Y = φ(X) est intégrable pour la probabilité P sur Ω si, et
seulement si, φ est intégrable pour PX sur Rd , et
Z
E(φ(X)) = φ(x)dPX (x).
Rd

C’est le théorème de transfert. Si φ ≥ 0, cette formule reste valable sans supposer φ(X) intégrable.
Si X est une v.a. discrète à valeurs dans un ensemble dénombrable I, pour toute fonction φ : I → Rn
on a donc X
E(φ(X)) = φ(x)P(X = x),
x∈I

dès lors que φ ≥ 0 ou x∈I |φ(x)|P(X = x) < ∞. Et si X est une v.a. sur Rd ayant pour densité fX ,
P
pour toute fonction borélienne φ : Rd → Rn on a
Z
E(φ(X)) = φ(x)fX (x)dx.
R
dès lors que φ ≥ 0 ou |φ(x)|fX (x)dx < ∞.
Citons pour mémoire les lois classiques comme : Bernoulli, géométrique, binomiale, Poisson, pour
les lois discrètes ; uniformes, exponentielles, normales, pour les lois absolument continues.

Définition 0.8. Pour une v.a. X sur (Ω, F), à valeurs dans (E, E), on définit la tribu engendrée
par X comme la plus petite tribu sur Ω rendant X mesurable. On la note σ(X) et on a :

σ(X) = {X −1 (B) | B ∈ E} ⊂ F.

C’est la tribu de tous les événements relatifs à X, c’est-à-dire de la forme {X ∈ B}.

8 CHAPITRE 0. INTRODUCTION

Connaı̂tre la valeur de X revient à savoir si les événements de la tribu σ(X) sont réalisés ou non.
De façon générale, on utilisera souvent les sous-tribus de F pour décrire des ensembles d’informations
dont on peut disposer concernant le résultat de l’expérience aléatoire.
Le résultat suivant montre qu’une variable aléatoire Z est σ(X)-mesurable si, et seulement si c’est
une fonction (mesurable) de X.
Proposition 0.9. Considérons une application X : Ω → E, où (E, E) est un espace mesurable. Alors
une application Z : Ω → R est σ(X)-mesurable si et seulement si il existe une application mesurable
f : E → R telle que Z = f (X).
Preuve : On écrit
+∞
X k
Z = lim 1 −n −n (Z).
n→+∞ 2n [k2 ,(k+1)2 [
k=−∞

Puisque Z est σ(X)-mesurable, pour tous n ≥ 0 et k ∈ Z il existe An,k ∈ E tel que

Z ∈ [k2−n , (k + 1)2−n [ = {X ∈ An,k },

c’est à dire tel que 1[k2−n ,(k+1)2−n [ (Z) = 1An,k (X). On a alors Z = f (X) en définissant
+∞
X k
pour tout x ∈ E, f (x) = lim inf 1A (x),
n→+∞ 2n n,k
k=−∞

d’où le lemme. 2

La relation d’équivalence entre les variables aléatoires définie par l’égalité presque sûre,

X=Y P-p.s.,

définit des classes de v.a. sur (Ω, F, P). On note L1 (Ω, F, P) et L2 (Ω, F, P) les espaces vectoriels des
classes de v.a. réelles intégrables et de carré intégrable pour la probabilité P. Contrairement aux
espaces L1 (dx) et L2 (dx) pour la mesure de Lebesgue sur Rn , on a toujours

L2 (Ω, F, P) ⊂ L1 (Ω, F, P).

De plus L1 (Ω, F, P) est un espace de Banach pour la norme ∥X∥1 = E(|X|) et L2 (Ω, F, P) est un
espace de Hilbert pour le produit scalaire suivant : ⟨X, Y ⟩ = E(XY ).
Définition 0.10. Sur (Ω, F, P).
• Deux évènements A et A′ sont indépendants si

P(A ∩ A′ ) = P(A)P(A′ ).

• Des événements A1 , . . . , An sont indépendants si

P(Ai1 ∩ · · · ∩ Aik ) = P(Ai1 ) · · · P(Aik ),

pour tous 2 ≤ k ≤ n et 1 ≤ i1 < · · · < ik ≤ n.

• Des tribus A1 , . . . , An contenues dans F sont indépendantes si

P(A1 ∩ A2 · · · ∩ An ) = P(A1 )P(A2 ) · · · P(An ),

pour tous A1 ∈ A1 , . . . , An ∈ An .
• Une v.a. X est dite indépendante de la tribu G si σ(X) et G sont indépendantes.
• Des variables aléatoires X1 , . . . , Xn sont indépendantes si les tribus σ(X1 ), . . . , σ(Xn ) sont
indépendantes ; autrement dit, dans le cas de v.a. réelles, si
n
\ n
Y

P Xi ∈ Bi = P Xi ∈ Bi ,
i=1 i=1

pour tous B1 ∈ B(R), . . . , Bn ∈ B(R).

0.1. ESPACE DE PROBABILITÉS 9

Pour X1 à valeurs dans (E1 , E1 ),...,Xn à valeurs dans (En , En ), l’indépendance de X1 , . . . , Xn

équivaut à dire que la loi du vecteur (X1 , . . . , Xn ) est la loi produit des lois de X1 , . . . , Xn :
P(X1 ,...,Xn ) = PX1 ⊗ · · · ⊗ PXn . En conséquence, par les théorèmes de Fubini, on a :
Z Z
E[φ(X1 , . . . , Xn )] = ··· φ(x1 , . . . , xn )dPX1 (x1 ) · · · dPXn (xn ),

dès lors que φ ≥ 0 ou que φ(X1 , . . . , Xn ) est intégrable, où les intégrales peuvent être calculées dans
un ordre quelconque. En particulier, pour toutes fonctions f1 : E1 → R,..., fn : En → R mesurables,

E[f1 (X1 ) · · · fn (Xn )] = E[f1 (X1 )] · · · E[fn (Xn )],

dès lors que ces fonctions sont positives, ou que f1 (X1 ), . . . , fn (Xn ) sont intégrables.
Le lemme d’unicité fournit la proposition suivante qui simplifie souvent la vérification de l’indépendance :

Proposition 0.11. a) Soient C1 ⊂ F et C2 ⊂ F deux classes stables par intersection finie, engendrant
deux tribus A1 et A2 . Si pour tout A1 ∈ C1 et A2 ∈ C2 ,

P(A1 ∩ A2 ) = P(A1 ) P(A2 ),

alors les tribus A1 et A2 sont indépendantes.

b) Soient X1 , X2 deux variables aléatoires, à valeurs dans (E1 , E1 ) et (E2 , E2 ) respectivement. Soient
C1 ⊂ E1 et C2 ⊂ E2 deux classes stables par intersection finie, engendrant E1 et E2 respectivement.
Si pour tout A1 ∈ C1 et A2 ∈ C2 ,

P(X1 ∈ A1 , X2 ∈ A2 ) = P(X1 ∈ A1 ) P(X2 ∈ A2 ),

alors les v.a. X1 et X2 sont indépendantes.

Preuve : a) Soit B ∈ C2 . Si P(B) = 0, l’égalité est évidente car P(A ∩ B) ≤ P(B) = 0. Supposons
P(B) > 0. Alors l’égalité s’écrit P(A | B) = P(A). Il résulte alors du lemme d’unicité (avec Q = P(· | B))
que, pour tout A ∈ A1 , P(A ∩ B) = P(A)P(B).
Soit A ∈ A1 . De même, si P(A) > 0, il faut montrer que P(B) = P(B | A) pour tout B ∈ A2 ; or
c’est vrai pour tout B ∈ C2 par ce qui précéde, et le lemme permet de conclure, comme prédédemment.
b) On déduit b) de a) et du fait que {{Xi ∈ Ai } | Ai ∈ Ci } engendre σ(Xi ), pour i = 1, 2. Cette
propriété se vérifie ainsi : l’ensemble {Ai ∈ Ei | {Xi ∈ Ai } ∈ σ({{Xi ∈ Bi } | Bi ∈ Ci })} est une tribu
contenant Ci , donc elle contient σ(Ci ) = Ei . 2

Par exemple, supposons que X et Y sont des v.a. à valeurs dans Rd telles que, pour tous pavés
fermés A et B, P(X ∈ A, Y ∈ B) = P(X ∈ A)P(Y ∈ B). Alors elles sont indépendantes. De même sur
R pour deux v.a. X et Y qui vérifieraient P(X ≤ s, Y ≤ t) = P(X ≤ s)P(Y ≤ t) pour tous s, t ∈ R.
On étend ces définitions à des familles infinies :

Définition 0.12. Une famille infinie d’événements (resp. de variables aléatoires, resp. de tribus) est
indépendante si toute sous-famille finie de celle-ci est indépendante.

En général, disposer de l’information qu’un événement A est réalisé modifie la probabilité des
événements. Il s’agit alors de la probabilité conditionnelle sachant A :

Définition 0.13. Pour deux événements A et B tels que P(A) > 0, la probabilité conditionnelle
de B sachant A est
P(A ∩ B)
P B A = .
P(A)

Remarquons que P(· | A) est une probabilité sur (Ω, F). On peut donc considérer l’espérance as-
sociée, notée E(· | A).
10 CHAPITRE 0. INTRODUCTION

Proposition 0.14. Pour toute variable aléatoire X intégrable, et tout événement A tel que P(A) > 0,
on a
E(X1A )
E(X | A) = .
P(A)
Preuve : Cette égalité est vraie lorsque X = 1B par la définition même de la probabilité condi-
tionnelle, et s’étend donc par linéarité aux fonctions étagées, puis par convergence monotone (resp.
dominée) aux fonctions positives (resp. intégrables). 2

On peut aussi considérer la loi d’une variable aléatoire X sous P(· | A) (on parlera de loi condi-
tionnelle sachant A), ou dire que deux variables aléatoires X et Y sont indépendantes sous P(· | A)
(on parlera d’indépendance conditionnelle sachant A). Ces notions joueront un rôle important.
Durant ce cours, on donnera un sens à ces définitions dans certains cas où P(A) = 0 et aussi dans
des cas de conditionnement par une tribu.

0.2 Processus stochastiques

Comme il a été dit au début, les processus stochastiques permettent de représenter l’évolution dans
le temps de phénomènes aléatoires. Le mouvement d’une particule dans l’espace, la transmission d’un
signal, le passage dans le temps d’un système à différents états, la variation des cours d’actifs sur un
marché, etc., en sont des exemples.
Dans la pratique, on se fixe un ensemble T ⊂ R+ d’instants d’observation du phénomène étudié.
1. Si T est un intervalle [a, b] on dit que l’étude se fait en temps continu.
2. Si T est formé d’une suite d’observations t0 = 0 < t1 < t2 < · · · < tn < · · · , on dit que l’étude
se fait en temps discret.
Le principe est alors le suivant : pour chaque temps t de T , le phénomène étudié est à un état
aléatoire représenté par une v.a. Xt prenant ses valeurs parmi tous les états a priori possibles pour
le phénomène. Le processus stochastique correspondant est alors défini par la donnée de la famille de
v.a. (Xt )t∈T . Autrement dit :
Définition 0.15. Un espace de probabilité (Ω, F, P) et une partie T de R+ étant donnés, un processus
stochastique (ou processus aléatoire, ou simplement processus) sur l’espace des états E ⊂ Rn
est une famille X = (Xt )t∈T de v.a.
Xt : Ω → E, t ∈ T.
Pour tout ω ∈ Ω fixé, l’application
t 7→ Xt (ω)
s’appelle une trajectoire du processus.
Nous n’étudierons ici que des processus à temps discret (cas 2. pour T ) ; on se limite alors à prendre
T ⊂ N ; on voit que dans ce cas un processus stochastique revient à la donnée d’une suite de v.a..
On rappelle que l’espace E N des suites à valeurs dans un espace mesurable (E, E) peut être muni
de la tribu produit, E ⊗N , qui est la tribu engendrée par l’ensemble des cylindres
B1 × · · · × Bk × E N ⊂ E N , pour B1 , . . . , Bk ∈ E, k ∈ N.
Proposition 0.16. Soit X = (Xn )n∈N un processus stochastique à temps discret à valeurs dans E.
• Alors X : (Ω, F) → (E N , E ⊗N ) est une variable aléatoire. On peut donc considérer sa loi.
• La loi de X est caractérisée par la donnée, pour tout n ≥ 0, de la loi de (X0 , . . . , Xn ).
Le second point vient du lemme d’unicité 0.6 appliqué aux cylindres.
Si E est dénombrable, se donner la loi de X revient donc à connaı̂tre, pour tout n ≥ 0, pour tous
x0 , . . . , xn ∈ E, la probabilité élémentaire
P(X0 = x0 , . . . , Xn = xn ),
et si ces probabilités sont les mêmes pour deux processus X = (Xn )n et Y = (Yn )n , alors les probabilités
de tous les événements relatifs à ces processus seront donc égales.
0.3. DEUX RÉSULTATS FONDAMENTAUX 11

0.3 Deux résultats fondamentaux

On rappelle une abréviation extrêmement courante :

Définition 0.17. Une famille (Xi )i∈I de v.a. est dite i.i.d. (pour indépendante et identiquement
distribuée) si ces variables sont indépendantes et ont toutes la même loi.

Théorème 0.18 (Loi (forte) des grands nombres). Soit (Xn )n≥1 une suite de v.a. i.i.d., intégrables
à valeurs dans Rd , ayant même loi qu’une v.a. X. On a
1
lim (X1 + · · · + Xn ) = E(X), p.s.
n→∞ n
Rappelons qu’une v.a. réelle X est dite gaussienne si sa densité est de la forme
1 2 /(2σ 2 )
x 7→ √ e−(x−m) , ∀x ∈ R.
2πσ 2

Dans ce cas, E(X) = m et Var(X) = σ 2 et on note X ∼ N (m, σ 2 ). La fonction caractéristique

déterminant de façon unique la loi, X ∼ N (m, σ 2 ) si et seulement si
2 t2 /2
EeitX = eitm−σ , ∀t ∈ R.

Un vecteur (X1 , . . . , Xn ) est dit gaussien si toute combinaison linéaire nj=1 λj Xj , λj ∈ R, est une
P
v.a. réelle gaussienne. On peut montrer que la loi d’un tel vecteur est caractérisée par son espérance
m = (EX1 , . . . , EXn ) et sa matrice de covariance Γ = (Γkl )1≤k,l≤n avec Γk,l = cov(Xk , Xl ) ; sa loi est
alors notée N (m, Γ).

Théorème 0.19 (Théorème Central Limite). Soit (Xn )n une suite de v.a. i.i.d., de carré intégrable,
à valeurs dans Rd , ayant même loi qu’une v.a. X. Alors quand n → ∞,
n
1 X (loi)
√ (Xi − E(Xi )) −→ N (0, Γ),
n
i=1

où N (0, Γ) est une loi gaussienne sur Rd , centrée et de matrice de variance-covariance Γ donnée par
celle de X :
Γk,l = Cov (X k , X l ), 1 ≤ k, l ≤ d,
en ayant noté (X 1 , . . . , X d ) les composantes de X.
12 CHAPITRE 0. INTRODUCTION
Chapitre 1

Chaı̂nes de Markov sur un espace

d’états discret

Intuitivement, les processus de Markov sont des processus stochastiques dont, à chaque ins-
tant, le comportement futur n’est influencé que par la valeur présente et par toutes les valeurs
passées. Les chaı̂nes de Markov sont des processus de Markov à temps discret. Ces processus per-
mettent de modéliser de nombreux phénomènes ; ils sont par exemple utilisés pour des problèmes de
télécommunication, de théorie du signal, d’imagerie informatique, etc.
Nous nous limiterons ici à des chaı̂nes ayant un espace d’états E dénombrable (souvent, on aura
E ⊂ Z). Cet espace sera muni de la tribu discrète P(E), et la loi d’une variable aléatoire X à valeurs
dans E sera donc donnée par les probabilités élémentaires P(X = x) pour tout x de E.
Soit (Xn , n ≥ 0) un processus stochastique à valeurs dans E. Les éléments de E sont souvent notés
par i, j, k ou x, y, z.

1.1 Définition
Définition 1.1. Le processus (Xn , n ≥ 0) est appelé une chaı̂ne de Markov s’il existe une famille
(P (x, y))x,y∈E de réels, appelés probabilités de transition, telle que, pour tout n ≥ 0, et tous
x0 , . . . , xn , xn+1 ∈ E,

P Xn+1 = xn+1 X0 = x0 , . . . , Xn = xn = P (xn , xn+1 )

dès que P(X0 = x0 , . . . , Xn = xn ) > 0.

Cette définition équivaut à vérifier les deux propriétés suivantes simultanément :
(i) Pour tout n ≥ 1, et tous x0 , . . . , xn+1 ∈ E,

P Xn+1 = xn+1 X0 = x0 , . . . , Xn = xn = P Xn+1 = xn+1 Xn = xn , (1.1)

dès que P(X0 = x0 , . . . , Xn = xn ) > 0

(ii) pour tous x, y ∈ E, la probabilité P(Xn+1 = y | Xn = x) ne dépend pas du temps n, tel que
P(Xn = x) > 0. (On peut donc la noter P (x, y))
La propriété (i) est appelée la propriété de Markov. Elle exprime le fait que la loi de Xn+1 ne
dépend de X0 , . . . , Xn qu’à travers la valeur de Xn : le “présent” (Xn ) donne autant d’information
sur le “futur” (Xn+1 ) que si l’on connaissait tout le “passé” (X0 , . . . , Xn ).
La propriété (ii) exprime l’homogénéité en temps du processus : la probabilité de transition de
l’état x à l’état y est constante au cours du temps.
La famille (P (x, y))x,y∈E de la définition est appelée noyau de transition ou matrice de transi-
tion : si E est fini, on peut en effet numéroter les états E = {1, . . . , r} de telle sorte que (P (x, y))1≤x,y≤r
est une matrice carrée. On notera indifféremment P (x, y) ou Px,y .
Dans la suite de ce chapitre, sauf mention contraire, X = (Xn )n≥0 désignera une chaı̂ne de Markov
ayant une matrice de transition notée P .

13
14 CHAPITRE 1. CHAÎNES DE MARKOV

Soit x ∈ E pour lequel il existe n ≥ 0 tel que P(Xn = x) > 0. D’après la définition, la ligne x de la
matrice P , c’est-à-dire la famille (P (x, y))y∈E , donne la loi de Xn+1 sachant Xn = x, donc elle vérifie

P (x, y) = P(Xn+1 = y | Xn = x) ≥ 0, ∀y ∈ E,

et X
P (x, y) = 1.
y∈E

Définition 1.2. Une matrice P = (px,y )x,y∈E vérifiant

X
px,y ≥ 0, ∀x, y ∈ E et px,y = 1, ∀x ∈ E
y∈E

s’appelle une matrice stochastique.

De manière intuitive la probabilité de transition indique comment la chaı̂ne “tourne”, et il reste à
dire comment elle “démarre”. C’est le rôle de la loi initiale.
Définition 1.3. La loi initiale de la chaı̂ne de Markov (Xn )n≥0 est la loi de X0 .
Vu que E est dénombrable, la loi initiale de (Xn )n≥0 est donc donnée par la famille ν = (ν(x))x∈E
où ν(x) = P(X0 = x), x ∈ E. On identifiera souvent la loi initiale avec cette famille.
Le lemme suivant montre que le noyau de transition et la loi initiale déterminent complètement la
loi du processus.
Lemme 1.4. Un processus (Xn )n≥0 à valeurs dans E est une chaı̂ne de Markov de matrice de transi-
tion P = (P (x, y))x,y∈E et de loi initiale ν = (ν(x), x ∈ E) si, et seulement si pour tous x0 , . . . , xn ∈ E,

P(X0 = x0 , X1 = x1 , . . . , Xn = xn ) = ν(x0 )P (x0 , x1 ) · · · P (xn−1 , xn ).

Preuve : Le sens “chaı̂ne de Markov” ⇒ “la formule” s’obtient par récurrence sur n, laissée comme
exercice. La réciproque s’en déduit car ces probabilités caractérisent la loi du processus. 2
En raison de cette propriété, on pourra donc parler sans ambiguı̈té de la loi de la chaı̂ne de Markov
de loi initiale ν et de matrice de transition P , sans nécessairement préciser la façon dont ce processus
est construit. Il sera constamment utile dans la suite du cours de conserver la même matrice de
transition mais de faire varier la loi initiale de la chaı̂ne de Markov :
Définition 1.5. Supposons qu’une matrice stochastique P = (P (x, y))x,y∈E est donnée. Pour toute loi
ν sur E, on notera Pν une probabilité sur Ω telle que, sous Pν (c’est-à-dire sur l’espace de probabilités
(Ω, Pν )), (Xn )n≥0 est une chaı̂ne de Markov de matrice de transition P et de loi initiale ν.
Cette définition suppose admise la propriété suivante d’existence (pour des détails, voir la sec-
tion 1.12 de complément sur le processus canonique) :
Proposition 1.6. Soit P une matrice stochastique sur E. Il existe un espace mesurable (Ω, F), et un
processus (Xn )n≥0 à valeurs dans E tel que, pour toute probabilité ν sur E, il existe une probabilité
Pν sur Ω sous laquelle (Xn )n≥0 est une chaı̂ne de Markov ayant pour loi initiale ν et pour matrice de
transition P .
Pour x ∈ E, on notera Px au lieu de Pδx la loi de la chaı̂ne de Markov de matrice P et de loi
initiale δx , c’est-à-dire telle que X0 = x p.s.. On dira que c’est la chaı̂ne de Markov issue de x.
Avec ces notations, on vérifie par exemple que conditionner par X0 = x revient à considérer Px :
Lemme 1.7. Soit ν une loi sur E. Pour tout x ∈ E tel que ν(x) > 0, pour tout événement A dépendant
de X0 , X1 , . . .,
Pν (A | X0 = x) = Px (A).
Pour tout événement A dépendant de X0 , X1 , . . .,
X
Pν (A) = Px (A)ν(x),
x∈E
1.2. PROBABILITÉS DE TRANSITION À M PAS 15

Preuve : Il suffit de traiter le cas où A = {X0 = x0 , . . . , Xn = xn }, pour tous x0 , . . . , xn ∈ E (par le

Lemme d’unicité 0.6). On a

δx (x0 )Pν (X0 = x0 , X1 = x1 , . . . , Xn = xn )

Pν (X0 = x0 , X1 = x1 , . . . , Xn = xn | X0 = x) =
Pν (X0 = x)
δx (x0 )ν(x)P (x, x1 ) · · · P (xn−1 , xn )
=
ν(x)
= δx (x0 )P (x, x1 ) · · · P (xn−1 , xn )
= Px (X0 = x0 , . . . , Xn = xn ).

Ceci implique la première égalité. La seconde égalité du lemme se déduit alors de la première et de la
formule des probabilités totales. 2

Dans les cas simples, on pourra représenter graphiquement les transitions possibles en 1 pas (c.-à-d.
entre Xn et Xn+1 ) sous la forme d’un graphe orienté.
Définition 1.8. Le graphe de la chaı̂ne de Markov (Xn )n≥0 d’espace d’états E et de matrice de
transition P = (P (x, y))x,y∈E est le graphe orienté G = (S, A) dont l’ensemble des sommets est S = E
et l’ensemble des arêtes est
A = (x, y) ∈ E × E P (x, y) > 0 .

1.2 Probabilités de transition à m pas

On a vu que la matrice P décrit les probabilités de transition “à 1 pas”, c’est-à-dire pour passer
de X0 à X1 , ou plus généralement de Xn à Xn+1 . En effet la ligne x de P donne la loi de X1 sachant
que X0 = x :
P (x, y) = P(X1 = y | X0 = x) = Px (X1 = y).
Pour étendre ceci au calcul des transitions de X0 à Xm , on introduit une notion de produit de
noyaux :
Définition 1.9. Soit P, Q deux noyaux de transition sur E. Leur produit P Q est le noyau de tran-
sition sur E défini par : X
(P Q)(x, y) = P (x, z)Q(z, y).
z∈E

Dans le cas où E = {1, . . . , r}, P et Q sont des matrices carrées et cela correspond au produit
matriciel. On définit de même par récurrence P n = P n−1 P , avec P 0 = IdE .
Proposition 1.10. Soit m ∈ N. Pour tous x, y ∈ E,

Px (Xm = y) = P m (x, y).

Ainsi, la loi de Xm sous Px est donnée par la ligne x de P m .

Preuve : On procède par récurrence sur m. Pour m = 0, la propriété est triviale. Soit m ∈ N. On
suppose la propriété vraie pour m. Pour tous x, y ∈ E, pour tout n ∈ N, on a
X
Px (Xm+1 = y) = Px (Xm+1 = y | Xm = z)Px (Xm = z)
z∈E
X
= P (z, y)P m (x, z)
z∈E

d’après la définition de P et l’hypothèse de récurrence. Ceci se réécrit Px (Xm+1 = y) = P m P (x, y) =

P m+1 (x, y), ce qui conclut. 2

La notion de produit s’étend aux vecteurs comme dans le cas usuel des matrices :
16 CHAPITRE 1. CHAÎNES DE MARKOV

Définition 1.11. Soit P un noyau de transition sur E, ν une probabilité sur E et f : E → R+ une
fonction. La probabilité νP est la probabilité définie par
X
νP (x) = ν(y)P (y, x).
y∈E

La fonction P f : E → R+ est définie par

X
P f (x) = P (x, y)f (y).
y∈E

Le réel νf est défini par Z

X
νf = ν(y)f (y) = f dν.
y∈E E

Dans le cas où E = {1, . . . , r}, νP est le produit du vecteur-ligne ν par la matrice P , P f est le
produit de la matrice P par le vecteur-colonne f , et de même pour νf .
Corollaire 1.12. Soit m ∈ N. Pour toute loi ν sur E, la loi de Xm sous Pν est νP m . Ainsi, pour
toute fonction f : E → R+ ,
Eν (f (Xm )) = νP m f,
et en particulier pour tout x ∈ E,
Ex (f (Xm )) = P m f (x).

1.3 Exemples de chaı̂nes de Markov

1.3.1 Chaı̂ne de markov à deux états
Soit E un ensemble à deux éléments, notés par exemple E = {0, 1} : 0 peut représenter un système
à l’arrêt et 1 le même système en fonctionnement. Soit X = (Xn , n ≥ 0) une chaı̂ne de Markov sur E
(ainsi, Xn modélise par exemple l’état de ce système après n jours de fonctionnement). En notant

α = P Xn+1 = 1 | Xn = 0 , β = P Xn+1 = 0 | Xn = 1 ,

la matrice de transition de X est alors donnée par

1−α α
P = .
β 1−β

À titre d’exercice, on peut vérifier (par récurrence en n) le résultat suivant :

Proposition 1.13. On a

(1 − α − β)n

n 1 β α α −α
P = +
α+β β α α+β −β β

On peut en déduire (exercice) la limite de P n quand n → ∞ ; on notera alors que le cas α = β = 1

est particulier.

1.3.2 Marche aléatoire sur Z et sur Zd

Un exemple important est la notion de marche aléatoire sur Z, qui est une chaı̂ne de Markov
sur Z vérifiant de plus une certaine homogénéité spatiale : sachant Xk = x, la loi du processus
(Xk+n − x)n≥0 ne dépend ni de k (homogénéité temporelle), ni de x (homogénéité spatiale). Ceci
revient à la définition suivante. Soit q = (q(x))x∈Z une probabilité sur Z. Soit (ξn , n ≥ 1) une suite de
v.a. i.i.d. de loi commune q :

P(ξn = x) = q(x), ∀n ≥ 1, ∀x ∈ Z,
1.3. EXEMPLES DE CHAÎNES DE MARKOV 17

et soit x0 un élément de Z. On définit la marche aléatoire partant de x0 comme le processus

X = (Xn )n≥0 avec :
Xn
Xn = x0 + ξi , ∀n ≥ 0.
i=1

C’est une chaı̂ne de Markov sur Z du fait de l’indépendance de la suite des ξi qui représentent les
pas de la marche (exercice : vérifier que c’est une chaı̂ne de Markov). On vérifie facilement que sa
probabilité de transition est
P (a, b) = q(b − a), ∀a, b ∈ Z.

Un exemple classique est la marche aléatoire simple sur Z, ou “marche de l’ivrogne” : pour
p ∈]0, 1[ fixé, q(+1) = p et q(−1) = 1 − p, autrement dit

P(ξn = 1) = 1 − P(ξn = −1) = p.

(À chaque instant, on fait un pas à droite avec la probabilité p ou un pas à gauche avec la probabilité
1 − p). On vérifiera facilement que la probabilité de transition s’écrit :

P (z, ·) = pδz+1 + (1 − p)δz−1 , ∀z ∈ Z.

Xn décrit par exemple la fortune accumulée après n parties d’un jeu de hasard qui rapporte un euro
en cas de gain, et fait perdre un euro sinon, en partant d’une fortune de x0 euros.
Selon le même principe d’homogénéité spatiale, on peut considérer des marches aléatoires sur Zd ,
définies par Xn = x0 + ξ1 + · · · + ξn où ξ1 , ξ2 , . . . sont des variables aléatoires indépendantes et suivant
la même loi sur Zd . L’exemple le plus courant est la marche aléatoire simple symétrique sur Zd :

1
P(ξn = ei ) = P(ξn = −ei ) = pour i = 1, . . . , d,
2d

où (e1 , . . . , ed ) est la base canonique de Rd . Autrement dit, à chaque pas, la marche choisit uni-
formément l’une des 2d directions.

1.3.3 Marches aléatoires simples sur Z avec barrières

Soit p ∈ [0, 1], et a < x0 < b des entiers. On peut définir plusieurs processus “restrictions” à
{a, . . . , b} de la marche aléatoire simple issue de x0 , selon le choix des conditions au bord.
Considérons une matrice de transition P sur E = {a, . . . , b} donnée par

P (x, x − 1) = 1 − p et P (x, x + 1) = p, ∀x ∈ {a + 1, . . . , b − 1}

et par
P (a, a) = 1 P (b, b) = 1.

Ainsi, si Xn = a, alors Xn+k = a p.s. pour tout k ≥ 0, par récurrence, et de même pour b. On parle
de barrières absorbantes.
Alternativement, on peut définir P (x, y) de la même façon quand x ̸= a, b, et par

P (a, a + 1) = 1 P (b, b − 1) = 1.

Ainsi, si Xn = a, alors Xn+1 = a + 1 p.s., et si Xn = b, alors Xn+1 = b − 1 p.s.. On parle de barrières

réfléchissantes.
On peut bien sûr considérer des modèles où a est réfléchissante, et b absorbante, et d’autres notions
de conditions au bord (par exemple périodique en b : P (b, a) = p = 1 − P (b, b − 1)).
18 CHAPITRE 1. CHAÎNES DE MARKOV

1.3.4 Modèle d’Ehrenfest

Ce modèle a été introduit par le couple Ehrenfest pour l’expérience suivante : N molécules de gaz
sont réparties dans deux récipients A et B séparés par une cloison percée, et on observe l’évolution de
la quantité de gaz dans le récipient A. Dans ce modèle, on représente les déplacements de molécules
entre récipients de la façon suivante : après un temps fixé, une molécule choisie au hasard (parmi
l’ensemble des molécules) change de récipient, et ceci se répète indéfiniment.
Notons Xn le nombre de molécules dans A après n échanges. Alors (Xn )n est une chaı̂ne de Markov
à valeurs dans E = {0, . . . , N } dont le noyau de transition est donné par p0,1 = 1 = pN,N −1 et, pour
1 ≤ i ≤ N − 1 et 0 ≤ j ≤ N ,

 i/N, si j = i − 1 ;
pi,j = (N − i)/N, si j = i + 1 ;
0, sinon.


1.3.5 Processus du renouvellement

On examine le fonctionnement d’une machine à temps discrets n = 0, 1, . . .. Si la machine tombe en
panne, on la remplace immédiatement par une nouvelle. Supposons que les durées de vie des machines
(Y1 , Y2 , . . .) sont i.i.d. et de même loi qu’une v.a. Y à valeurs dans N∗ . On s’intéresse à Xn , l’âge de la
machine qui fonctionne au temps n (avec Xn = 0 si une machine est tombée en panne au temps n).
Alors en posant
Xk
Zk := Yi
i=1
et
ℓn := max{k : Zk ≤ n},
on constate que l’on a
Xn = n − Zℓn .

Proposition 1.14. Le processus (Xn )n≥0 est une chaı̂ne de Markov à valeurs dans N et de probabilité
de transition P de la forme
 
p0,0 p0,1 0 0 0 0 ...
 p1,0 0 p1,2 0 0 0 ... 
 
 p2,0 0 0 p2,3 0 0 ... 
P =
 p3,0 0
,
 0 0 p3,4 0 ... 

 ... 0 0 0 ... ... ... 
... 0 0 ... ... ... ...
avec
pi,0 = P Y = i + 1 Y >i , pi,i+1 = P Y > i + 1 Y >i .

1.3.6 Processus de branchement

Nous étudions l’évolution d’une population. La population originelle s’appelle la génération 0. Les
enfants de la génération n − 1 constituent la génération n pour tout n ≥ 1.
On note Xn le nombre d’individus de la n-ième génération.
On suppose que le nombre d’enfants de différents individus sont des variables aléatoires indépendantes
et ont tous la même loi qu’une v.a. Z à valeurs dans N. On aura ainsi, pour tout n ≥ 0,
Xn
X
Xn+1 = Zn,i
i=1

où Zn,i représente le nombre d’enfants du i-ième individu de la génération n, et les v.a. (Zn,i )n,i∈N
sont i.i.d. de même loi que Z.
1.4. PROPRIÉTÉ DE MARKOV 19

Proposition 1.15. Le processus (Xn , n ≥ 0) est une chaı̂ne de Markov à valeurs dans E = N et de
noyau de transition P = (pi,j )i,j≥0 donné par

 P Z1 + · · · + Zi = j , si i > 0 et j ≥ 0 ;
pi,j = 1, si i = j = 0 ;
0, si i = 0 et j > 0,


où (Zj )j≥1 sont i.i.d. et de même loi que Z.

Un problème intéressant sera de connaı̂tre la probabilité d’extinction : P(∃n ≥ 0 tel que Xn = 0).

1.4 Propriété de Markov

On souhaite étendre la propriété qui définit les chaı̂nes de Markov à des événements qui concernent
tout le “futur” ou tout le “passé” du processus.
On commence par une extension directe de la définition :
Proposition 1.16 (Propriété de Markov simple au temps k). Soit k, n ≥ 1. Pour tous x0 , . . . , xk ,
xk+1 , . . . , xk+n ∈ E,

Pν (Xk+1 = xk+1 , . . . , Xk+n = xk+n | X0 = x0 , . . . , Xk = xk ) = Pxk (X1 = xk+1 , . . . , Xn = xk+n ).

Preuve : Par le Lemme 1.4, la probabilité de gauche s’écrit :

Pν (X0 = x0 , . . . , Xk+n = xk+n ) ν(x0 )P (x0 , x1 ) · · · P (xk+n−1 , xk+n )
=
Pν (X0 = x0 , . . . , Xk = xk ) ν(x0 )P (x0 , x1 ) · · · P (xk−1 , xk )
= P (xk , xk+1 ) · · · P (xk+n−1 , xk+n )
= Pxk (X1 = xk+1 , . . . , Xn = xk+n ),

comme annoncé. 2

On étend ceci à des événements plus généraux :

Proposition 1.17 (Propriété de Markov simple au temps k). Soit k, n ≥ 1. Pour tout état x ∈ E, et
tous sous-ensembles A ⊂ E n+1 , B ⊂ E k+1 ,

Pν ((Xk , . . . , Xk+n ) ∈ A | (X0 , . . . , Xk ) ∈ B, Xk = x) = Px ((X0 , . . . , Xn ) ∈ A),

dès lors que l’événement par lequel on conditionne n’a pas une probabilité nulle.
Preuve : La proposition précédente s’écrit aussi, en explicitant la probabilité conditionnelle :

Pν (X0 = x0 , . . . , Xk+n = xk+n ) = Pν (X0 = x0 , . . . , Xk = xk )Pxk (X1 = xk+1 , . . . , Xn = xk+n ),

et il suffit alors de prendre xk = x et de sommer cette identité sur tous les x0 , . . . , xk−1 ,xk+1 , . . . , xk+n
tels que (x0 , . . . , xk−1 , x) ∈ B et (x, xk+1 , . . . , xk+n ) ∈ A. 2

La suite de cette partie contient différents énoncés de la propriété de Markov simple au temps k,
qui sont simplement différentes formulations de la proposition précédente.
Proposition 1.18. Soit k ≥ 1. Pour tout x ∈ E et tout B ⊂ E k+1 , la loi du processus (Xk , Xk+1 , . . .)
sous Pν (· | (X0 , . . . , Xk ) ∈ B, Xk = x) est Px : c’est une chaı̂ne de Markov de matrice P issue de x.
On rappelle que les événements de la forme {(X0 , . . . , Xk ) ∈ B} forment la tribu σ(X0 , . . . , Xk ) ;
on prendra l’habitude d’utiliser la notation suivante et, en général, de penser en terme de tribus :
Définition 1.19. Pour tout k ≥ 0, la tribu du passé avant le temps k est

Fk = σ(X0 , . . . , Xk ).
20 CHAPITRE 1. CHAÎNES DE MARKOV

La proposition précédente a pour conséquence directe, en terme d’espérance, les formules suivantes :
Proposition 1.20 (Propriété de Markov au temps k). Soit k ≥ 1. Pour tout x ∈ E, pour toute
fonction f : E N → R mesurable positive ou bornée, pour tout événement H ∈ Fk ,

Eν f (Xk , Xk+1 , . . .) H ∩ {Xk = x} = Ex f (X0 , X1 , . . .) .

Plus généralement,
Eν f (Xk , Xk+1 , . . .)1H = Eν F (Xk )1H
où la fonction F : E → R est définie par

F (x) = Ex f (X0 , X1 , . . .) , x ∈ E.

Plus généralement, pour toute fonction g : E k → R positive ou bornée, avec la même notation,

Eν f (Xk , Xk+1 , . . .)g(X0 , . . . , Xk ) = Eν F (Xk )g(X0 , . . . , Xk ) .

Preuve : La première égalité vient directement de la dernière proposition : la loi de (Xk , Xk+1 , . . .)
sous Pν (· | H ∩ {Xk = x}) est Px , donc l’espérance de f sous ces deux lois est la même. En explicitant
l’espérance conditionnelle (rappelons que E(Z | A) = E(Z1A )/P(A)), cette égalité devient :

Eν f (Xk , Xk+1 , . . .)1H 1{Xk =x} = Ex f (X0 , X1 , . . .) Eν (1H 1{Xk =x} )

= F (x)Eν (1H 1{Xk =x} ) = Eν F (x)1H 1{Xk =x}

= Eν F (Xk )1H 1{Xk =x} .

En sommant cette égalité sur toutes les valeurs x ∈ E, on obtient la seconde égalité de l’énoncé.
Ceci prouve la dernière égalité lorsque g(X1 , . . . , Xk ) = 1H . On en déduit le cas général de façon
classique : par linéarité on obtient le cas où g est étagée, puis par convergence monotone ou dominée
le cas où g est positive ou bornée. 2

On généralise alors facilement le Lemme 1.4 au cas de transitions à plusieurs pas :

Lemme 1.21. Pour tous états x0 , . . . , xr ∈ E et tous temps 0 ≤ n1 ≤ . . . ≤ nr ,

Px0 (Xn1 = x1 , . . . , Xnr = xr ) = P n1 (x0 , x1 )P n2 −n1 (x1 , x2 ) · · · P nr −nr−1 (xr−1 , xr ),

et plus généralement, pour toute loi ν sur E,

Pν (Xn1 = x1 , . . . , Xnr = xr ) = (νP n1 )(x1 )P n2 −n1 (x1 , x2 ) · · · P nr −nr−1 (xr−1 , xr ).

Preuve : On procède par récurrence sur r ≥ 1. Pour r = 1, c’est la Proposition 1.10. Supposons le
résultat vrai pour r. Soit x0 , . . . , xr+1 ∈ E et 0 ≤ n1 ≤ · · · ≤ nr+1 . On a, d’après la propriété de
Markov simple au temps n1 ,

Px0 (Xn1 = x1 , . . . , Xnr+1 = xr+1 ) = Px0 (Xn1 = x1 )Px1 (Xn2 −n1 = x2 , . . . , Xnr+1 −nr = xr+1 )
= P n1 (x0 , x1 )Px1 (Xn2 −n1 = x2 , . . . , Xnr+1 −nr = xr+1 )

(la seconde égalité vient de la Proposition 1.10), ce qui conclut, par l’hypothèse de récurrence. Le cas
d’une loi initiale ν s’en déduit en décomposant selon la valeur de X0 (ou via le Lemme 1.7). 2

Quitte à construire la chaı̂ne de Markov sur Ω = E N (cf. Appendice), muni de la tribu produit, on
peut toujours supposer qu’il existe une application θ : Ω → Ω mesurable telle que, pour tout n ∈ N,

Xn ◦ θ = Xn+1 .

Cette application s’appelle le décalage (ou “shift” en anglais). On posera θ0 = Id, θ1 = θ, . . . , θn+1 =
θn ◦ θ. Alors Xn ◦ θk = Xn+k , pour tous n, k ≥ 0. Avec ces notations, la propriété de Markov simple
s’écrit comme suit :
1.5. VISITES À UN SOUS-ENSEMBLE 21

Proposition 1.22 (Propriété de Markov simple au temps k). Pour tout k ≥ 1 et pour toute v.a.
réelle Z qui est σ(X)-mesurable, positive ou bornée, et pour toute v.a. réelle W qui est Fk -mesurable,
pour toute loi initiale ν, on a
Eν Z ◦ θk W = Eν F (Xk )W ,
où
F (x) := Ex Z .
Preuve : Toute v.a. Z qui est σ(X)-mesurable s’écrit en effet Z = f (X) = f (X0 , X1 , . . .) et toute
v.a. W qui est Fk -mesurable est de la forme W = g(X0 , . . . , Xk ). Comme Z ◦ θk = f (X ◦ θk ) =
f (Xk , Xk+1 , . . .), cette proposition ré-exprime la dernière formule de la Proposition 1.20. 2

1.5 Visites à un sous-ensemble

Soit X = (Xn , n ≥ 0) une chaı̂ne de Markov de probabilité de transition P sur l’espace d’états E.
On introduit de nouvelles variables aléatoires, fonctions de X, relatives aux visites à un sous-ensemble
A de E.
Définition 1.23. Soit A ⊂ E. Le premier temps d’entrée de la chaı̂ne dans A est la v.a.

inf{n ≥ 0 : Xn ∈ A}, si {· · ·} ̸= ∅ ;
TA :=
∞, sinon.
Le premier temps de retour de la chaı̂ne dans A est la v.a.

inf{n ≥ 1 : Xn ∈ A}, si {· · ·} ̸= ∅ ;
τA :=
∞, sinon.
Le nombre de visites de la chaı̂ne à A est la v.a.
X∞
NA = 1(Xn ∈A) ∈ N ∪ {∞}.
n=0

Lorsque A = {x} est un singleton, on note simplement Tx , τx et Nx . Remarquons que si y ̸= x,

τy = Ty , Px -p.s.
Le théorème de convergence monotone pour les séries donne immédiatement la formule suivante
pour tous x, y ∈ E :
∞
X
Ex (Ny ) = P n (x, y).
n=0
Donnons une application de la propriété de Markov :
Proposition 1.24. Pour tout couple (x, y) d’éléments de E, on a
Ex (Ny ) = Px (Ty < ∞)Ey (Ny ).
Preuve : Pour tout entier k ≥ 0,
∞
X
Px (Ny = k) = Px Ty = n, Ny = k
n=0
X∞ ∞
X
= Px Ty = n, 1(Xn+j =y) = k
n=0 j=0
X∞ ∞
X
= Px X0 ̸= y, . . . , Xn−1 ̸= y, Xn = y, 1(Xn+j =y) = k
n=0 j=0
X∞ ∞
X
= Px (Ty = n) Py 1(Xj =y) = k
n=0 j=0
X∞
= Px (Ty = n) Py (Ny = k),
n=0
22 CHAPITRE 1. CHAÎNES DE MARKOV

où la troisième égalité est due à la propriété de Markov au temps n. Nous avons donc

Px (Ny = k) = Px (Ty < ∞)Py (Ny = k),

P
d’où la proposition en sommant k≥0 kPx (Ny = k), et en remarquant que si Px (Ny = ∞) > 0 alors
Py (Ny = ∞) > 0. 2
Donnons une autre démonstration, qui utilise la propriété de Markov sous forme d’espérance :

Preuve : On a
∞
X
Ex (Ny ) = Ex (Ny 1{Ty =n} ),
n=0

et on note que si Ty = n alors Ny = Ny ◦ θn (si la première visite en y a lieu au temps n, alors le

nombre total de visites en y est le même que le nombre de visites en y à partir du temps n). Ainsi,
pour tout n ≥ 0, par la propriété de Markov au temps n, vu que 1{Ty =n} est Fn -mesurable,

Ex (Ny 1{Ty =n} ) = Ex (Ny ◦ θn 1{Ty =n} ) = Ex (F (Xn )1{Ty =n} ) = Ex (F (y)1{Ty =n} ) = F (y)Px (Ty = n),

où, pour tout état z, F (z) = Ez (Ny ). En sommant sur n ∈ N, on obtient

Ex (Ny 1{Ty <∞} ) = Ey (Ny )Px (Ty < ∞),

et le premier terme est égal à Ex (Ny ) car sur l’événement {Ty = ∞} on a Ny = 0. 2

Définition 1.25. La fonction de Green de la chaı̂ne de Markov X est la fonction G : E × E →

R ∪ {∞} donnée par : pour tous x, y ∈ E,

+∞
X +∞
X +∞
X
n

G(x, y) = Ex (Ny ) = P (x, y) = Ex 1y (Xn ) = Ex 1y (Xn )
n=0 n=0 n=0

Avec cette notation, la proposition précédente s’écrit G(x, y) = Px (Ty < ∞)G(y, y), d’où en
particulier
G(x, y) ≤ G(y, y).

1.6 Récurrence et transience

Nous allons étudier le comportement asymptotique des trajectoires d’une chaı̂ne de Markov (Xn )n .
On va ici essentiellement distinguer deux types de comportement suivant que la chaı̂ne “tend vers
l’infini” (cas transient) ou non (cas récurrent).

Définition 1.26. Un état x est récurrent si Px (τx < +∞) = 1. Dans le cas contraire, x est dit
transient.

Théorème 1.27. Si pour la chaı̂ne X l’état x est transient, le nombre de visites Nx suit, sous la
probabilité Px , la loi géométrique de paramètre

a = 1 − Px (τx < ∞) = Px (τx = ∞),

c’est-à-dire que, pour tout k ≥ 1,

Px (Nx = k) = a(1 − a)k−1 , k ≥ 1.

En particulier, Px (Nx < ∞) = 1 et G(x, x) = Ex (Nx ) = 1/a.

1.7. DÉCOMPOSITION EN CLASSES DE COMMUNICATION 23

Pτx −1
Preuve : Soit x transient. Sous Px , X0 = x et j=0 1(Xj =x) = 1. Il vient, pour tout k ≥ 1,
∞
X
Px Nx = k + 1 = Px τx = n, Nx ◦ θn = k ,
n=1
P∞
où Nx ◦θn = j=0 1(Xj+n =x) est le nombre de visite en x par la chaı̂ne après le temps n. D’après la pro-
priété de Markov au temps n (Proposition 1.22), on a Px (τx = n, Nx ◦θn = k) = Ex (1{τx =n} 1{Nx ◦θn =k} ) =
Ex (1{τx =n} EXn (1{Nx =k} )) = Px (τx = n)Px (Nx = k) d’où
∞
X

Px Nx = k + 1 = Px τx = n Px Nx = k = Px τx < ∞ Px Nx = k .
n=1

Par récurrence en k, on obtient

k
Px Nx = k + 1 = Px τx < ∞ Px Nx = 1 .

2

Ce qui prouve le théorème puisque Px Nx = 1 = Px τx = ∞ = a.
Par la Proposition 1.24, on en déduit que si x est transient alors le nombre de visites Nx est fini
presque sûrement, quel que soit le point de départ : Py (Nx < ∞) = 1 pour tout y ∈ E.

Corollaire 1.28. Si l’espace d’états E est fini, alors il existe au moins un état récurrent.
P
Preuve : Prenons un état initial z quelconque. On a, Pz -p.s., ∞ = x∈E Nx (le temps total passé
dans E est infini), mais Nx < ∞ Pz -p.s. pour tout x transient, d’où la conclusion. 2

Théorème 1.29. Les assertions suivantes sont équivalentes :

(1) x est récurrent.
(2) Nx = +∞, Px -p.s.
(3) G(x, x) = +∞.

Preuve :
• 1 =⇒ 2 : On a montré dans la preuve du Théorème 1.27 que la propriété de Markov donne,
pour tout k ∈ N, Px (Nx = k + 1) = Px (τx < ∞)Px (Nx P= k). Si x est récurrent on a donc, pour
tout k ∈ N, Px (Nx = k) = Px (Nx = k + 1). Comme k∈N Px (Nx = k) = Px (Nx < ∞) < ∞
et que tous les termes de la somme sont égaux entre eux, ils sont nécessairement tous nuls et
donc Px (Nx < ∞) = 0.
• 2 =⇒ 3 : trivial.
• 3 =⇒ 1 : provient du théorème précédent.
2
Remarquons que, si x est récurrent, on peut parfois avoir Nx < ∞ si le point de départ n’est pas
x ; cela dépend des classes de communication de x et du point de départ.

1.7 Décomposition en classes de communication

Définition 1.30. Un état x est dit absorbant si P (x, x) = 1.

Bien sûr, un état absorbant est récurrent.

Définition 1.31. On dit que l’état y est accessible à partir de l’état x, et on note x → y, s’il
existe n > 0 tel que P n (x, y) > 0. On dit que les deux états x et y communiquent si x → y et y → x,
et on note alors x ↔ y.

Proposition 1.32 (Transitivité). Si x → y et y → z, alors x → z.

24 CHAPITRE 1. CHAÎNES DE MARKOV

Preuve : Par hypothèses, il existe n, m ≥ 1 tels que P n (x, y) > 0 et P m (y, z) > 0. Or
X
P n+m (x, z) = P n (x, w)P m (w, z) ≥ P n (x, y)P m (y, z) > 0,
w∈E

d’où le résultat. 2
On a donc

Corollaire 1.33. La relation ↔ est une relation symétrique et transitive.

Étant donné un état x, on note C(x) l’ensemble des états qui communiquent avec x. Il est possible
que C(x) = ∅ ; dans ce cas, x ̸↔ x, et x est appelé un état de non-retour. Remarquons que tout état
de non-retour est clairement transient. On note Enr l’ensemble des états de non-retour, et Er = E\Enr .
Alors sur Er , la relation ↔ est une relation d’équivalence. Ses classes d’équivalence sont appelées les
classes de communication (ou plus simplement les classes) de la chaı̂ne de Markov : ce sont donc
les ensembles C1 , . . . , Cr (où r ∈ N∗ ∪ {∞}) tels que E est partitionné en
r
[
E = Enr ∪ Ck ,
k=1

et pour i = 1, . . . , r, tous les états de Ci communiquent entre eux, et ne communiquent avec aucun
autre : pour tout i ∈ {1, . . . , r} et x, y ∈ Ci , on a x → y, et pour tous i, j ∈ {1, . . . , r} distincts, et tous
x ∈ Ci , y ∈ Cj , on a x ̸→ y ou y ̸→ x.

Définition 1.34. Une chaı̂ne de Markov est irréductible si tous ses états communiquent, autrement
dit s’il n’y a pas d’état de non-retour et qu’il n’y a qu’une classe de communication.

Définition 1.35. Un ensemble C ⊂ E est dit fermé si aucun état y ̸∈ C n’est accessible à partir d’un
état quelconque x ∈ C, autrement dit si

P n (x, y) = 0, ∀n ≥ 1, x ∈ C, y ̸∈ C.

Ainsi, si C ⊂ E est fermé alors pour tout x ∈ C, Px -p.s., pour tout n ≥ 1, Xn ∈ C et donc, sous Px ,
(Xn )n≥0 est une chaı̂ne de Markov d’espace d’états C et de matrice de transition (P (x, y))x,y∈C . On
l’appelle la chaı̂ne de Markov restreinte à C.
Naturellement, les transitions en 1 pas suffisent à déterminer si un ensemble d’états est fermé :

Proposition 1.36. Un ensemble C ⊂ E est fermé si, et seulement si

P (x, y) = 0, ∀ x ∈ C, y ̸∈ C.

Preuve : La partie “seulement si” est immédiate. Pour la partie “si”, on procède par récurrence en
n. 2

Proposition 1.37. Toute partie non vide C ⊂ E fermée et finie contient au moins un état récurrent.

Preuve : Cela vient du corollaire 1.28 appliqué à la chaı̂ne de Markov restreinte à C. 2

Proposition 1.38. Si x est récurrent et que x → y, alors y → x et y est aussi récurrent.

Preuve : Nous montrons par l’absurde que y → x. Supposons que y ̸→ x, i.e. pour tout n ≥ 1,
P n (y, x) = 0. Comme x → y, il existe un n ≥ 1 tel que P n (x, y) = Px (Xn = y) > 0.
Remarquons que Nx = ∞ si, et seulement si Nx ◦ θn = ∞. En appliquant la propriété de Markov
au temps n, on a ainsi :

Px (Xn = y, Nx = ∞) = Px (Xn = y, Nx ◦ θn = ∞) = Px (Xn = y)Py (Nx = ∞),

1.8. EXEMPLES 25

or
X X
Py (Nx = ∞) ≤ Py (Nx ≥ 1) = Py (∃k ≥ 1 tel que Xk = x) ≤ Py (Xk = x) = P k (y, x) = 0,
k≥1 k≥1

donc Px (Xn = y, Nx = ∞) = 0, et donc

0 < P n (x, y) = Px (Xn = y) = Px (Xn = y, Nx < ∞) ≤ Px (Nx < ∞),

ce qui montre que x est transient, une contradiction. Donc y → x.

Par conséquent, x ↔ y. Soient j, l ≥ 1 tels que P j (x, y) > 0 et P l (y, x) > 0. On a pour tout n ≥ 0,

P n+j+l (y, y) ≥ P l (y, x)P n (x, x)P j (x, y).

En sommant par rapport à n, on obtient

∞
X
G(y, y) ≥ P m (y, y)
m=n+j+l
∞
X
≥ l
P (y, x)P n (x, x)P j (x, y)
n=0
= P (y, x)P j (x, y)G(x, x) = ∞,
l

d’après la récurrence de x. D’après le théorème 1.29, y est aussi récurrent. 2

Corollaire 1.39.
• Deux états qui communiquent ont la même nature (tous récurrents ou tous transients).
; On dira qu’une classe de communication est récurrente (resp. transiente) si tous ses états
le sont. Toute classe est donc ou bien récurrente, ou bien transiente.
• Une classe récurrente est fermée. Par conséquent, une classe non fermée est transiente.
• Une classe fermée et finie est récurrente.
Remarque. Ce résultat permet donc de déterminer la nature de tous les états d’une chaı̂ne de
Markov sur un espace d’états fini à partir de son graphe (ou de sa matrice de transition). En revanche
elle ne permet pas toujours de conclure quand l’espace d’états est infini, car savoir qu’une classe de
communication infinie est fermée ne suffit pas à connaı̂tre sa nature.

1.8 Exemples
1.8.1 Chaı̂ne à deux états
Si 0 < α ≤ 1 et si 0 < β ≤ 1, la chaı̂ne est irréductible récurrente.
Si α = 0 et 0 < β ≤ 1, les classes sont T = {1}, transiente, et C = {0}, récurrente.
Si α = β = 0, les classes sont C1 = {0} et C2 = {1}, toutes deux récurrentes.

1.8.2 Marche aléatoire simple sur Z

Comme 0 < p < 1, tous les états communiquent. Il suffit donc de regarder par exemple la nature
de l’état 0. On a
(
0, si n est impair ;
P n (0, 0) = P0 (Xn = 0) = n
n/2 n/2
n/2 p (1 − p) , si n est pair.
√
À l’aide de la formule de Stirling (c’est-à-dire n! ∼ (n/e)n 2πn), on obtient
1
P 2m (0, 0) ∼ √ (4p(1 − p))m
πm
d’où :
26 CHAPITRE 1. CHAÎNES DE MARKOV

• si p = 1/2, Pn P n (0, 0) = ∞ et la marche est donc récurrente ;

P
• si p ̸= 1/2, n P n (0, 0) < ∞ et la marche est transiente.
Lorsque p ̸= 1/2, la loi forte des grands nombres permet d’être plus précis : comme Xn = x0 + ξ1 +
· · · + ξn avec ξ1 , ξ2 , . . . indépendantes et de même loi avec E(ξi ) = 2p − 1, on a Xnn → 2p − 1 p.s., donc
• si p < 1/2, alors Xn → −∞ p.s.,
• si p > 1/2, alors Xn → +∞ p.s..
On retrouve d’ailleurs le fait que X est transiente dans ces deux cas, car chaque état n’est visité qu’un
nombre fini de fois.

1.8.3 Marche aléatoire simple symétrique sur Zd

Un calcul direct de P0 (Xn = 0) montre que la marche est récurrente quand d = 2 et transiente
quand d ≥ 3 : pour n pair, on vérifie en effet que l’on a
X n! d d/2
P0 (Xn = 0) = (2d)−n 2 ∼ 2 .
2nπ
n1 +···+nd = n n1 ! · · · nd !
2

1.8.4 Processus de renouvellement

On constate que, sous P0 , τ0 = Y1 donc τ0 < ∞ p.s. : l’état 0 est récurrent.
Selon la loi de Y , il peut y avoir des états de non-retour (par exemple, si Y est toujours pair
alors l’état 1 ne communique pas avec lui-même). Par contre, tous les autres états communiquent
nécessairement avec 0 donc il n’y a qu’une classe, qui est récurrente.

1.8.5 Processus de branchement

On constate que l’état 0 est absorbant. Les autres classes (et les états de non-retour) dépendent
de la loi de reproduction (loi de Z) choisie.
À titre d’exercice, on pourra déterminer les états de non-retour, les classes et leur nature dans les
cas suivants : si P(Z = 0) = 1, si P(Z = 1) = 1, si P(Z > 1) = 1, si P(Z > 1) = 0, P(Z = 0) > 0 et
P(Z = 1) > 0, si P(Z = 0) = 0, P(Z = 1) > 0 et P(Z > 1) > 0, si P(Z = 0) > 0, P(Z = 1) > 0 et
P(Z > 1) > 0.

1.9 Probabilités d’absorption

Notons T l’ensemble des états transients, et C1 , . . . , CN les classes de récurrence (avec N ∈ N∪{∞}).
On a vu que ce sont des classes fermées : une fois entrée dans l’une d’elle, la chaı̂ne n’en sort plus.
Pour i = 1, . . . , N , le temps d’atteinte TCi est ainsi appelé temps d’absorption par la classe Ci , et
pour tout état x ∈ E on définit la probabilité d’absorption par la classe Ci en partant de x par
qi (x) = Px (TCi < ∞).
Remarquons que qi (x) = 0 si x ∈ Cj où j ̸= i, et qi (x) = 1 si x ∈ Ci .
Proposition 1.40. Soit i ∈ {1, . . . , N }. On a :
X X
pour tout x ∈ T , qi (x) = P (x, y) + P (x, z)qi (z). (1.2)
y∈Ci z∈T

De plus, si T est fini, les relations (1.2) caractérisent les probabilités (qi (x))x∈T .
Preuve : Soit i ∈ {1, . . . , N }. Pour simplifier on note Ti = TCi = inf{n ≥ 1 : Xn ∈ Ci } le temps
d’entrée dans la classe Ci . Soit x ∈ T . On remarque que, sous Px , on a Ti > 0, et que Ti = Ti ◦ θ1 . Par
la propriété de Markov au temps 1, on a donc :
X X
Px (Ti < ∞) = Px (X1 = z, Ti < ∞) = Px (X1 = z, Ti ◦ θ1 < ∞)
z∈E z∈E
X X
= Px (X1 = z)Pz (Ti < ∞) = P (x, z)qi (z).
z∈E z∈E
1.9. PROBABILITÉS D’ABSORPTION 27

S
En écrivant E = T ∪ Ci ∪ j̸=i Cj , et vu que qi (z) = 1 si z ∈ Ci et que qi (z) = 0 si z ∈ Cj avec j ̸= i,
on obtient (1.2). Remarquons que la première somme de (1.2) est égale à Px (X1 ∈ Ci ) = Px (Ti = 1).
Supposons que T est fini et qu’une fonction f : T → [0, 1] vérifie (1.2) pour tout x ∈ T . Alors par
itération,
X X
f (x) = Px (Ti = 1) + P (x, z) Pz (Ti = 1) + P (z, z ′ )f (z ′ )
z∈T z ′ ∈T
X
= Px (Ti ≤ 2) + P 2 (x, y)f (y).
y∈T

Par récurrence, on obtient que pour tout n,

X
f (x) = Px (Ti ≤ n) + P n (x, y)f (y).
y∈T

Or pour tout état transient y, d’après le lemme suivant, limn→∞ P n (x, y) = 0. Ce qui entraı̂ne, comme
T est fini, que f (x) = limn→∞ Px (Ti ≤ n) = Px (Ti < ∞) = qi (x). 2

Lemme 1.41. Si y ∈ E est transient alors on a, pour tout x ∈ E,

lim P n (x, y) = 0.
n→∞

n (x, y),
P
Preuve : Par la proposition 1.24, G(x, y) ≤ G(y, y) < ∞, or G(x, y) = Ex (Ny ) = nP d’où
le résultat. 2

La proposition suivante raccourcit souvent le calcul des probabilités d’absorption :

Proposition 1.42. Si T est fini alors, pour tout x ∈ T ,

N
X
qi (x) = 1.
i=1

Preuve : On a en effet, pour tout n ≥ 0,

N
X X N
X
n
1 = Px (Xn ∈ E) = Px (Xn ∈ T ) + Px (Xn ∈ Ci ) = P (x, y) + Px (Ti ≤ n)
i=1 y∈T i=1

d’où, en passant à la limite quand n → ∞, à l’aide du lemme précédent, et du fait que T est fini,

X N
X
1= 0+ Px (Ti < ∞),
y∈T i=1

ce qui conclut. 2

NB. Si T est infini, la formule de la proposition peut être fausse. C’est clairement le cas s’il n’y a pas
de classe récurrente. C’est aussi le cas, par exemple, pour les processus de branchement sur-critiques,
c’est-à-dire où la probabilité d’extinction est non nulle (voir ci-dessous).

1.9.1 (∗) Processus de branchement

On suppose que P(Z = 0) > 0, P(Z = 1) > 0 et P(Z > 1) > 0. Dans ce cas, les classes sont {0} et
N∗ (pourquoi ?), et N∗ n’est pas fermée, donc 0 est récurrent et tous les autres états sont transients.
Cependant, cela ne nous dit pas si l’extinction a lieu presque sûrement ou s’il y a une probabilité
strictement positive de non-extinction. La suite de cette partie est vraie pour toute loi de Z (mais les
classes sont différentes car, si P(Z = 1) = 0, il y a des états de non-retour).
28 CHAPITRE 1. CHAÎNES DE MARKOV

La probabilité d’extinction est la probabilité d’absorption par la classe {0}, autrement dit
∞
[
P(M), où M = {Xn = 0}.
n=0

Il est clair que {Xn = 0} ⊂ {Xn+1 = 0}, donc ces événements forment une suite croissante et

P(M) = lim P(Xn = 0).

n→∞

Théorème 1.43. Supposons que X0 = 1. Alors la probabilité d’extinction est la plus petit nombre
a ≥ 0 tel que
g(a) = a,
où g(a) = E(aZ ) = ∞ j
P
j=0 a P(Z = j) est la fonction génératrice de Z.

Preuve : On établit d’abord

gn = gn−1 ◦ g.
Pour cela, soit s ∈ [0, 1]. On a
∞
X
gn (s) = EsXn = E sXn Xn−1 = i P(Xn−1 = i),

i=0

or d’après l’expression des probabilités de transition,

X X i
E sXn Xn−1 = i = pij sj = P(Z1 + · · · + Zi = j)sj = E(sZ1 +···+Zi ) = EsZ = (g(s))i ,
j≥0 j≥0

d’où gn (s) = gn−1 (g(s)).

Puisque gn = g(· · · (g(s) · · · ) avec n compositions, on
a aussi gn = g(gn−1 ).
Montrons que la probabilité d’extinction q := P M est un point fixe de g : on a

q = lim P Xn = 0 = lim gn (0) = lim g(gn−1 (0)).
n→∞ n→∞ n→∞

Or g est continue, donc on a bien

q = g(q).
Montrons que q est le plus petit point fixe. Soit a ∈ [0, 1] avec g(a) = a. Comme g est croissante,

g(0) ≤ g(a) = a,

d’où
g2 (0) = g(g(0)) ≤ g(a) = a,
ainsi par récurrence, pour tout n ≥ 1, gn (0) ≤ a d’où, en passant à la limite, q ≤ a. 2

Théorème 1.44. Supposons que X0 = 1 et P(Z = 1) < 1. Alors la probabilité d’extinction vaut 1 si
et seulement si E(Z) ≤ 1.

Preuve : On remarque que E(Z) = g ′ (1) (dérivée à gauche, ∈ [0, +∞]). Par un raisonnement d’analyse
réelle élémentaire (faire un dessin), dans ce cas, g ′ (1) ≤ 1 si et seulement si 1 est l’unique point fixe
de g. 2
NB. On pourra remarquer que les équations (1.2) donnant la probabilité d’absorption sont ici
équivalentes à g(q) = q, où q = q{0} (1) est la probabilité d’extinction, c’est-à-dire la probabilité
d’absorption par {0} partant de l’état 1 (on peut en effet remarquer que q{0} (n) = q{0} (1)n ). Lorsque
g a plusieurs points fixes, ces équations ne caractérisent donc pas les probabilités d’absorption.
1.10. MESURES ET PROBABILITÉS INVARIANTES 29

1.10 Mesures et Probabilités invariantes

Dans la théorie des chaı̂nes et des processus de Markov, la notion de probabilité invariante est
essentielle. Elle correspond à celle d’état d’équilibre en physique.

Définition 1.45. On dit qu’une mesure (resp. une probabilité) m sur E est une mesure invariante
(resp. une probabilité invariante) de la chaine de Markov de noyau de transition P si mP = m,
i.e. X
m(x) = m(y)P (y, x), ∀ x ∈ E.
y∈E

Notons qu’une mesure m sur E équivaut à la donnée de la famille (m(x))x∈E d’éléments de [0, +∞],
où m(x) = m({x}), et que dans la notation mP on considère cette famille comme un vecteur ligne.
Dans ce cours, on supposera toujours que les mesures sur E vérifient m(x) < +∞ pour tout x ∈ E,
afin d’éviter des cas pathologiques.
Remarquons que, si m est invariante, alors tous ses multiples λm, où λ ∈ R+ , sont des mesures
invariantes.

Définition 1.46. Un processus (Xn , n ≥ 0) est dit stationnaire si, pour tout k ∈ N, les deux
processus (X0 , X1 , . . .) et (Xk , Xk+1 , . . .) ont la même loi.

Proposition 1.47. Une chaı̂ne de Markov (Xn , n ≥ 0) est stationnaire si et seulement si la loi initiale
est invariante.

Preuve : On note m la loi initiale de X et P sa matrice de transition. D’après le Corollaire 1.12, mP

est la loi de X1 . Donc si X est stationnaire, X1 a la même loi que X0 et par conséquent, mP = m, m
est une loi invariante.
D’autre part, si mP = m, on a par itération mP k = m pour tout k. D’après le Corollaire 1.12 et
la Proposition 1.18, pour tout k, (X0 , X1 , . . .) et (Xk , Xk+1 , . . .) ont donc la même loi. 2

1.10.1 Existence de mesures invariantes

Le résultat suivant est fondamental. Il établit l’existence d’une mesure invariante (non nulle) pour
les chaı̂nes récurrentes, en en construisant un exemple explicite qui sera important dans la suite.

Théorème 1.48. Soit x un état récurrent fixé de la chaı̂ne de Markov. On définit, pour tout y ∈ E,

x −1
τX
m(y) = Ex 1{Xn =y} .
n=0

Alors, pour tout y ∈ E, m(y) < ∞, et m est une mesure invariante.

Remarques. La mesure m vérifie clairement les propriétés suivantes :

• m(x) = 1.
• Si x ̸→ y, alors m(y) = 0. Comme x est récurrent, m est donc portée par la classe de x.
• La masse totale m(E) de la mesure m est égale à l’espérance du temps de retour en x :
X
m(E) = m(y) = Ex (τx ) (∈]0, ∞]).
y∈E

Preuve : On démontre d’abord l’invariance, en autorisant a priori m(y) à prendre la valeur +∞.
Sous Px , on a τx < ∞ par récurrence de x, et X0 = Xτx = x, si bien que

x −1
τX τx
X x −1
τX
1{Xn =y} = 1{Xn =y} = 1{Xk+1 =y} .
n=0 n=1 k=0
30 CHAPITRE 1. CHAÎNES DE MARKOV

Par suite, pour tout y ∈ E,

x −1
τX ∞
X
m(y) = Ex 1{Xk+1 =y} = Ex 1{k<τx } 1{Xk+1 =y}
k=0 k=0
∞
X ∞ X
X
= Px (k < τx , Xk+1 = y) = Px (k < τx , Xk = z, Xk+1 = y)
k=0 k=0 z∈E

et, pour tous k ∈ N et z ∈ E, par la propriété de Markov au temps k,

Px (k < τx , Xk = z, Xk+1 = y) = Px (k < τx , Xk = z)Pz (X1 = y) = Px (k < τx , Xk = z)P (z, y),
d’où, via un échange de sommes justifié par le fait que les coefficients sont ≥ 0,
∞
XX X x −1
τX X
m(y) = Px (k < τx , Xk = z) P (z, y) = Ex 1{Xk =z} P (z, y) = m(z)P (z, y),
z∈E k=0 z∈E k=0 z∈E

c’est-à-dire m(y) = (mP )(y). Ceci prouve l’invariance.

Il reste à s’assurer que m(y) < ∞ pour tout y ∈ E. C’est évident pour y = x car m(x) = 1, et
pour y hors de la classe de x car alors m(y) = 0 (y n’est jamais visité sous Px ). Enfin, si x ↔ y, il
existe n tel que P n (y, x) > 0 et l’équation m(x) = mP n (x) s’écrit
X
1= m(z)P n (z, x) ≥ m(y)P n (y, x),
z∈E

ce qui implique m(y) < ∞. 2

Si x est récurrent, le théorème suivant montre que la mesure m relie asymptotiquement le temps
passé en chaque état y au temps passé en x :
Théorème 1.49 (Théorème ergodique). Soit x un état récurrent. Pour tout état y, Px -presque
sûrement, Pn−1
k=0 1y (Xk )
Pn−1 −→ m(y),
n→∞
k=0 1x (Xk )
où m est la mesure (dépendant de x) définie par le théorème précédent. Plus généralement, pour toutes
fonctions f, g : E → R+ , Px -presque sûrement,
Pn−1 R
k=0 f (Xk ) f dm
Pn−1 −→ R
k=0 g(Xk )
n→∞ g dm
R
si g dm est fini et non nul.
Remarquons que, pour toute fonction mesurable f : E → R+ ,
Z X x −1
τX
f dm = f (y)m(y) = Ex f (Xk ) .
y∈E k=0

La première formule est simplement l’intégrale par rapport à une mesure discrète ; la deuxième corres-
pond, dans le cas f = 1{y} ,P
à la définition de m(y), et s’en déduit dans le cas général par convergence
monotone en écrivant f = y∈E f (y)1{y} .

Preuve : La démonstration de ce théorème repose sur l’application de la loi forte des grands nombres
aux excursions successives de la chaı̂ne de Markov en-dehors de l’état x. Soit f : E → R+ une fonction.
Notons α0 = 0, α1 = τx et, plus généralement, pour tout entier r ≥ 0, αr le temps de r-ième retour
en x : pour tout entier r ≥ 0,
αr+1 = inf{k > αr | Xk = x}.
Comme x est récurrent, on a αr < ∞ p.s. pour tout r ≥ 0. Le résultat suivant sera plus facilement
démontré avec le formalisme des lois conditionnelles introduit au chapitre suivants, et notamment avec
la propriété de Markov “forte” ; on reporte sa preuve à la section 2.5.
1.10. MESURES ET PROBABILITÉS INVARIANTES 31

Lemme 1.50. Supposons que x est un état récurrent de la chaı̂ne de Markov (Xn )n . Alors, sous la
probabilité Px , pour toute f : E → R+ , les variables aléatoires
αr+1 −1
X
Zr = f (Xk ), r ∈ N,
k=αr

sont indépendantes et de même loi.

On note Nn = max{r ∈ N | αr ≤ n} le nombre de retours en x avant le temps n. Alors, pour n ≥ 0,

αNn ≤ n < αNn +1

d’où, puisque f est à valeurs positives,

αNn −1 n−1 αNn +1 −1
X X X
f (Xk ) ≤ f (Xk ) ≤ f (Xk ). (1.3)
k=0 k=0 k=0

Remarquons que
αNn −1
X NX X−1
n −1 αr+1 n −1
NX
f (Xk ) = f (Xk ) = Zr .
k=0 r=0 k=αr r=0

Par la remarque précédant la preuve, on a

Z
f dm = Ex (Z0 ).
R
Supposons f dm < ∞. Alors en particulier Z0 est intégrable donc, par le lemme, la loi forte des
grands nombres s’applique à Z0 , Z1 , . . ., et donne
R−1 x −1
τX Z
1 X
Px -p.s., Zr −→ Ex (Z0 ) = Ex f (Xk ) = f dm.
R R→∞
r=0 k=0
PNn −1
Comme Nn → +∞ p.s. (car x est récurrent), on en déduit que la suite ( N1n r=0 Zr )n≥0 a même
limite (c’est-une sous-suite de la précédente), d’où finalement :
αNn −1 Z
1 X
Px -p.s., f (Xk ) −→ f dm.
Nn n→∞
k=0

De même, on a aussi
αNn +1 −1 Z
1 X
Px -p.s., f (Xk ) −→ f dm
Nn + 1 n→∞
k=0

donc, vu que Nn ∼ Nn + 1 quand n → ∞ (car Nn → +∞), on déduit de (1.3) par encadrement que
n−1 Z
1 X
Px -p.s., f (Xk ) −→ f dm.
Nn n→∞
k=0

Le théorème s’en déduit en écrivant la même limite pour g, et en divisant. 2

Le théorème permet de comparer le nombre de visites en deux états x et y ; mais quel est l’ordre
(x)
de grandeur du nombre Nn de visites en x avant le temps n ? La preuve donne plus précisément
n−1 Z
1 X
Px -p.s., (x)
f (Xk ) −→ f dm,
Nn n→∞
k=0
32 CHAPITRE 1. CHAÎNES DE MARKOV

R
et cela reste vrai si f dm = ∞, en utilisant, dans la preuve, la loi forte des grands nombres pour les
variables positives non intégrables (si Xn ≥ 0 sont i.i.d. et E(Xi ) = ∞, n1 (X1 + · · · + Xn ) → +∞ p.s.).
En particulier, en prenant f ≡ 1, on obtient
(x)
Nn 1 1
Px -p.s., −→ = ,
n n→∞ m(E) Ex (τx )

avec comme limite 0 si m(E) = ∞, c’est-à-dire si Ex (τx ) = ∞. Ainsi, deux comportements très
différents sont possibles :
• si m est une mesure finie, alors x (et donc tout état) est visité une proportion positive du
temps ;
• alors que si m est une mesure infinie, la proportion de temps passé en x est asymptotiquement
nulle.
Intéressons-nous plus précisément au premier cas.

1.10.2 Probabilités invariantes

On s’intéresse à l’ensemble des mesures invariantes d’une chaı̂ne de Markov, et plus particulièrement
à l’ensemble des probabilités invariantes. Remarquons que l’existence d’une probabilité invariante
équivaut à celle d’une mesure invariante dont la masse totale est finie, car diviser une mesure inva-
riance par sa masse totale fournit une probabilité invariante. La proposition qui suit nous permet de
ramener l’étude à celle d’une chaı̂ne irréductible, en se restreignant à chaque classe fermée.

Proposition 1.51. Soit m une mesure invariante. On suppose ou bien que l’ensemble T des états
transients est fini, ou bien plus généralement que m(T ) < ∞ (ce qui est le cas par exemple si m est
une probabilité invariante). Alors
a) m ne charge pas T : pour tout état transient x, on a m(x) = 0.
(
m(x) si x ∈ C,
b) Pour toute classe récurrente C, la restriction mC de m à C, définie par mC (x) =
0 sinon,
est invariante.
Par suite, m se décompose en une somme de mesures invariantes portées par chaque classe récurrente :
X
m= mC
C classe récurrente

Preuve : a) Soit x un état transient. Rappelons que, par le lemme 1.41, P n (y, x) → 0 pour tout
y ∈ E, et que, par la proposition 1.38, pour tout y récurrent, y ̸→ x, c’est-à-dire P n (y, x) = 0 pour
tout n ∈ N. Comme m est invariante on a, pour tout n ≥ 0, m = mP n , ce qui donne en particulier,
grâce à ce qui précède,
X X
m(x) = m(y)P n (y, x) = m(y)P n (y, x) −→ 0,
n→∞
y∈E y∈T

où, selon l’hypothèse considérée, l’échange de somme et de limite est justifié ou bien par
P le fait que
T est fini, ou par théorème de convergence dominée vu que m(y)P n (y, x) ≤ m(y) et y∈T m(y) =
m(T ) < ∞.
b) Vu ce qui précède, pour tout x ∈ C et tout y ∈ E, si y est transient alors m(y) = 0, et si y est
récurrent et y ∈
/ C alors y ̸→ x vu la proposition1.38, si bien que l’invariance de m s’exprime par :
X X
pour tout x ∈ C, m(x) = m(y)P (y, x) = m(y)P (y, x),
y∈E y∈C

c’est-à-dire mC = mC P . 2

Remarquons que l’opération inverse de la restriction est aussi possible, de façon plus évidente :
1.10. MESURES ET PROBABILITÉS INVARIANTES 33

Lemme 1.52. Soit C une classe de communication fermée. Soit m une mesure invariante pour la
restriction (P (x, y))x,y∈C de P à C. Si on étend m sur E par m(x)
e := 0 si x ̸∈ C, alors m
e est une
mesure invariante pour P .
Preuve : Si x ∈ C, comme m est invariante on a
X X
mP
e (x) = m(y)P
e (y, x) = m(y)P (y, x) = m(x) = m(x).
e
y∈E y∈C

Si x ∈
/ C, comme C est fermée on a P (y, x) = 0 si y ∈ C et donc
X X
mP
e (x) = m(y)P
e (y, x) = m(y)P
e (y, x) = 0 = m(x)
e
y∈E y∈C
2

Par conséquent, vu la proposition précédente, déterminer les probabilités invariantes revient à

déterminer les probabilités invariantes de la restriction à chaque classe récurrente. De même pour les
mesures invariantes, lorsqu’il y a un nombre fini d’états transients. On va donc dorénavant supposer
la chaı̂ne irréductible.
On constate tout d’abord que, dans ce cas, une mesure invariante est portée par tous les états :
Lemme 1.53. Si m est une mesure invariante d’une chaı̂ne irréductible, et m ̸≡ 0, alors m(y) > 0
pour tout y ∈ E.
Preuve : Il existe au moins un état x tel que m(x) ̸= 0. Soit y ∈ E. Il existe n tel que P n (x, y) > 0,
et on a alors X
m(y) = mP n (y) = m(z)P n (z, y) ≥ m(x)P n (x, y) > 0.
z∈E
2

Proposition 1.54. (Unicité) Si une chaı̂ne de Markov irréductible possède une probabilité inva-
riante π, toute autre mesure invariante est proportionnelle à π. En particulier, π est la seule probabilité
invariante.
Preuve : On suppose que π est une probabilité invariante. Soit m une mesure invariante et x un état
fixé de E. Si m ≡ 0, le lemme est vrai. Supposons m ̸≡ 0, d’où m(y) > 0 pour tout y ∈ E par le
π(x)
lemme précédent. Posons λ = m(x) et m′ = λm. Remarquons que m′ est invariante et m′ (x) = π(x).
Il faut montrer que m′ = π. Définissons une mesure µ sur E, en posant, pour tout y ∈ E, µ(y) =
min(m′ (y), π(y)). Alors
X X
(µP )(y) = µ(z)P (z, y) ≤ m′ (z)P (z, y) = m′ (y)
z∈E z∈E

car m′ est une mesure invariante. On voit de la même façon que (µP )(y) ≤ π(y). On a donc
(µP )(y) ≤ min(m′ (y), π(y)) = µ(y).
Mais on a aussi
X XX X X X
µP (y) = µ(z)P (z, y) = µ(z) P (z, y) = µ(z)
y∈E y∈E z∈E z∈E y∈E z∈E
P P
et ces sommes sont finies car y µ(y) ≤ y π(y) = 1, ce qui permet de calculer leur différence, et
X
(µ(y) − µP (y)) = 0.
y∈E

Les termes de la somme étant positifs ou nuls, ils sont donc tous nuls : µP (y) = µ(y) pour tout y ∈ E.
Ainsi, µ est invariante. Comme π et m′ aussi sont invariantes, m1 = π − µ(≥ 0) et m2 = m′ − µ(≥ 0)
sont également des mesures invariantes. Or m′ (x) = π(x) = µ(x) (grâce au choix de λ), d’où m1 (x) =
m2 (x) = 0, si bien que le lemme précédent implique que m1 = m2 ≡ 0, d’où π = µ = m′ . 2
34 CHAPITRE 1. CHAÎNES DE MARKOV

L’unicité de la probabilité invariante est donc assurée, sous réserve d’irréductibilité. L’important
résultat suivant relie l’existence d’une probabilité invariante à l’intégrabilité des temps de retour.

Théorème 1.55. Considérons une chaı̂ne de Markov (Xn ) irréductible. Les conditions suivantes sont
équivalentes :
(i) il existe un état x ∈ E tel que Ex (τx ) < +∞ ;
(ii) pour tout état x ∈ E, Ex (τx ) < +∞ ;
(iii) la chaı̂ne de Markov possède une probabilité invariante π.
Sous ces conditions la chaı̂ne est récurrente, et dite récurrente positive. π est alors la seule proba-
bilité invariante. De plus, pour tout y ∈ E,
1
π(y) =
Ey (τy )

et, pour tous x, y ∈ E,

x −1
τX
1
π(y) = Ex 1y (Xn ) .
Ex (τx )
n=0

Preuve : Montrons d’abord que (i) implique (iii). Supposons donc (i). En particulier τx < ∞, Px -
p.s., donc x est récurrent. On note m la mesure invariante associée à l’état récurrent x définie au
Théorème 1.48. Se rappelant que m(E) = Ex (τx ), on définit alors une probabilité invariante par
m
π= , (1.4)
Ex (τx )

ce qui prouve (iii).

Montrons que (iii) entraı̂ne (ii). Supposons qu’il existe une probabilité invariante π. Il résulte du
principe du maximum (cf. la dernière formule avant la Section 1.6) que, pour tout état x,
X X
Eπ [Nx ] = π(y)Ey [Nx ] ≤ π(y)Ex [Nx ] = Ex [Nx ].
y∈E y∈E

Or, comme π est invariante, π(x) > 0 par le lemme 1.53, et, pour tout n, la loi de Xn sous Pπ est π
donc
∞
X X∞
Eπ [Nx ] = Pπ (Xn = x) = π(x) = +∞.
n=0 n=0

On en déduit que Ex [Nx ] = ∞, et donc que x est récurrent. Puisque la mesure m associée à x est une
mesure invariante, il résulte de la proposition 1.54 que m et π sont proportionnelles, donc que m(E)
est fini. Or m(E) = Ex (τx ), donc Ex (τx ) est fini, ce qui montre (ii). Puisque (ii) entraı̂ne (i) de façon
évidente, ceci prouve les équivalences du théorème.
L’unicité de π résulte de la proposition 1.54. La deuxième formule donnant π est la formule (1.4).
Cette formule appliquée à x donne
P x −1
Ex ( τn=0 1x (Xn )) 1
π(x) = = .
Ex (τx ) Ex (τx )

(Par l’unicité, π ne dépend pas du choix de x dans (1.4)) 2

Dans le cas non irréductible, on peut appliquer le théorème précèdent à toute classe récurrente.
Les conditions du théorème peuvent alors être satisfaites ou non selon la classe, d’où les définitions
suivantes.

Définition 1.56. Un état récurrent x est récurrent positif si Ex (τx ) < ∞, et récurrent nul sinon.
On étend ces définitions à toute une classe de communication.

Corollaire 1.57. Lorsque E est fini, toute chaı̂ne irréductible est récurrente positive.
1.11. PÉRIODICITÉ ET EXISTENCE DE LA LOI LIMITE AU SENS FORT 35

Preuve : L’existence d’un état récurrent résulte du Corollaire 1.28. On sait qu’à cet état récurrent,
on peut associer une mesure invariante. Elle est de masse finie car l’espace est fini. 2
Pour les chaı̂nes récurrentes positives, le théorème ergodique prend la forme d’une loi des grands
nombres :

Théorème 1.58 (Théorème ergodique des chaı̂nes de Markov récurrentes positives). Si (Xn ) est
une chaı̂ne de Markov irréductible récurrente positive de probabilité invariante π, alors pour toute loi
initiale ν, pour tout état y ∈ E, Pν -presque sûrement,
n−1
1X
lim 1y (Xk ) = π(y),
n→+∞ n
k=0

et plus généralement pour toute fonction f : E → R+ , Pν -presque sûrement,

n−1 Z
1X
lim f (Xk ) = f dπ. (∗)
n→∞ n
k=0

et pour tous x, y ∈ E,
n−1
1X k
lim P (x, y) = π(y).
n→∞ n
k=0

Preuve : Pour tout état x, il résulte du Théorème 1.49, appliqué à g = 1, que (∗) est vraie Px -presque
sûrement (se souvenir que π ne dépend pas de x). C’est encore vrai Pν -p.s. car
X
Pν (·) = ν(x)Px (·).
x∈E

En prenant f = 1y , on obtient la première limite, et en prenant de plus ν = δx le théorème de

convergence dominée (domination par 1) donne la dernière limite. 2

Ce théorème donne deux moyens pratiques d’approcher π si, comme c’est souvent le cas, on ne sait
pas la calculer explicitement. La première façon est la méthode de Monte Carlo, qui consiste à simuler
sur ordinateur une longue trajectoire Xn (ω) de la chaı̂ne,
R puis à faire la moyenne de f le long de cette
trajectoire. D’après (∗) on obtient ainsi à peu près f dπ. L’autre façon est de calculer itérativement
P n , par exemple dans le cas où E est fini. Puis de faire la moyenne des P n (x, y) pour approcher π(y)
(on peut montrer que la vitesse de convergence est exponentielle). C’est très souvent beaucoup plus
rapide que la recherche d’un vecteur propre de la transposée de P .

1.11 Périodicité et existence de la loi limite au sens fort

Nous avons vu que pour une matrice de transition irréductible et récurrente positive, la limite
n
1X k
lim P (x, y) = π(y)
n→∞ n
k=1

existe et définit une loi invariante (et l’unique loi invariante). Parfois, le résultat plus fort suivant est
valable :
lim P n (x, y) = π(y),
n→∞

cependant ce n’est pas toujours le cas. Cela dépend de la notion de périodicité :

Définition 1.59. Si x est un état tel que x → x, la période de x est

d(x) = pgcd({n ∈ N∗ | P n (x, x) > 0}).

36 CHAPITRE 1. CHAÎNES DE MARKOV

Lemme 1.60. Pour tous x, y ∈ E, si x ↔ y alors d(x) = d(y). Autrement dit, la période est un
nombre qui ne dépend que de la classe à laquelle appartient l’état considéré.

Preuve : Soit x, y ∈ E tels que x ↔ y. Il existe m, l > 0 tels que P m (x, y) > 0 et P l (y, x) > 0. On a
alors
P m+l (x, x) ≥ P m (x, y)P l (y, x) > 0
donc d(x) divise m + l. Pour tout n tel que P n (y, y) > 0, on a

P m+n+l (x, x) ≥ P m (x, y)P n (y, y)P l (y, x) > 0

donc d(x) divise m + n + l, ce qui implique, avec ce qui précède, que d(x) divise n. Par définition de
d(y), on a donc d(x) ≤ d(y). Par symétrie on a aussi d(y) ≤ d(x), donc d(x) = d(y). 2

Définition 1.61. Une chaı̂ne de Markov irréductible (resp. une classe) est apériodique si la période
commune à tous les états de E (resp. à toute la classe) est 1, périodique sinon.

Proposition 1.62. Soit C une classe récurrente. On note d sa période. Pour tout x ∈ C, il existe n0
tel que, pour tout n ≥ n0 , P dn (x, x) > 0.

Preuve : Soit (nl )l≥1 la famille des entiers positifs tels que P nl (x, x) > 0. Pour tout s ≥ 1, posons
ds := pgcd(n1 , . . . , ns ). La suite d’entiers positifs (ds )s≥1 est décroissante donc stationne en une valeur
dt : ds = dt pour tout s ≥ t. Or dt divise tous les nl donc divise aussi leur pgcd d : on a dt |d. D’autre
part, d|nl pour l = 1, . . . , t donc d|dt . Ainsi, d = dt = pgcd(n1 , . . . , nt ).
Par le lemme qui suit, il existe donc un entier N tel que, pour tout n ≥ N , on a nd = α1 n1 +· · ·+αt nt
pour certains entiers naturels α1 , . . . , αt et donc
t
Y
P nd
(x, x) ≥ (P nl (x, x))αl > 0.
l=1

Lemme 1.63. Soient n1 , . . . , nt ∈ N. On pose d = pgcd(n1 , . . . , nt ). Alors il existe un entier N tel

que pour tout n ≥ N , on a
nd = α1 n1 + · · · + αt nt
pour certains entiers α1 , . . . , αt ∈ N.

Preuve : En divisant tous les nl par d, on réduit le problème au cas d = 1. D’après le lemme de
Bézout, il existe une combinaison linéaire β1 n1 + · · · + βt nt = 1, avec des coefficients βl ∈ Z.
En rassemblant séparément les termes positifs et négatifs, on obtient alors p − q = 1 où p et q sont
des sommes de termes positifs. Posons N = q 2 − 1. Alors si n ≥ N , la division de n par q donne

n = αq + β,

où 0 ≤ β < q, d’où α ≥ q − 1 ≥ β, et l’écriture suivante prouve le lemme :

n = αq + β(p − q) = (α − β)q + βp.

Théorème 1.64 (Convergence en loi des chaı̂nes de Markov). Considérons une chaı̂ne de Markov X
de matrice de transition P irréductible, récurrente positive et apériodique. On note π la loi invariante.
Pour toute loi initiale ν,
lim Pν (Xn = j) = πj , ∀j ∈ E.
n→∞
En particulier, on a
lim P n (i, j) = πj , ∀i, j.
n→∞
1.11. PÉRIODICITÉ ET EXISTENCE DE LA LOI LIMITE AU SENS FORT 37

Preuve : On utilise un argument de couplage : Soit Y une autre chaı̂ne de Markov de noyau de
transition P , de loi initiale π, indépendante de X. Une telle chaı̂ne Y existe : pour construire le couple
(X, Y ), il suffit de se placer sur l’espace produit E N × E N muni de la probabilité produit Pν × ππ . Soit
Wn = (Xn , Yn ) la chaı̂ne couplée. W est une chaı̂ne de Markov de loi initiale ν × π et de matrice de
transition Pe((i, k), (j, l)) = P (i, j)P (k, l). La chaı̂ne W est irréductible et apériodique, car pour tout
n, Pen ((i, k), (j, l)) = P n (i, j)P n (k, l) qui est strictement positif pour tout n assez grand (c’est ici on
a utilisé l’apériodicité du P , sinon on ne peut pas garantir que P n (i, j)P n (k, l) > 0 pour tout couple
(i, k) et (j, l), donc W ne serait même pas irréductible).
Il est immédiat de vérifier que la loi π e(i, l) := πi πl définie sur E × E est une loi invariante pour Pe.
Alors W est une chaı̂ne récurrente positive irréductible et apériodique. Le temps d’atteinte T de
la diagonale de E × E par W :
T := inf{n ≥ 1 : Xn = Yn },
est Peν×π -p.s. fini car T est plus petit que le premier temps d’atteinte de n’importe quel (i, i) par W ,
qui est presque sûrement fini. On définit maintenant une nouvelle chaı̂ne (Zn ) par

Xn (ω), sur {T (ω) > n} ;
Zn (ω) :=
Yn (ω), sur {T (ω) ≤ n}.
On remarque que ZT = XT = YT et que Z0 = X0 a pour loi initiale ν. On vérifie maintenant que sous
eν×π , Z est une chaı̂ne de Markov de noyau de transition P ; En fait,
P

eν×π (Zn+1 = j|Zn = in , . . . , Z0 = i0 ) = Pν×π (Zn+1 = j, Zn = in , . . . , Z0 = i0 ) .

e
P
eν×π (Zn = in , . . . , Z0 = i0 )
P
Pour simplifier les notations, soit Ak := {Z0 = i0 , . . . , Zk = ik } pour tout 1 ≤ k ≤ n. Alors
eν×π (Zn+1 = j, An ) = P
P eν×π (Zn+1 = j, T > n, An ) + P
eν×π (Zn+1 = j, T = n, An )
n−1
X
+ eν×π (Zn+1 = j, T = k, An ).
P (1.5)
k=0

On discute ces trois cas séparément. Sur {T > n}, Zn+1 = Xn+1 et An = {X0 = i0 , . . . , Xn = in }.
D’après la propriété de Markov de X en n (X et Y sont indépendants),
eν×π (Zn+1 = j, T > n, An ) = P (i, j)P
P eν×π (T > n, Xn = in , . . . , X0 = i0 ) = P (i, j)P
eν×π (T > n, An ).

Sur {T = n}, Zn+1 = Yn+1 , Zn = Yn et An = {Yn = in , Xn−1 = in−1 , . . . , X0 = i0 }. Donc la propriété

de Markov de Y en n entraı̂ne que
eν×π (Zn+1 = j, T = n, An ) = P (i, j)P
P eν×π (T = n, Yn = in , Xn−1 = in−1 , . . . , X0 = i0 )
= P (i, j)P
eν×π (T = n, An ).

Finalement sur {T = k} avec k ≤ n − 1, {Zn+1 = j, T = k, An } = {Yn+1 = j, Yn = in , . . . , Yk = ik , T =

k, Xk−1 = ik−1 , . . . , X0 = i0 }. On applique la propriété de Markov en n et obtient
eν×π (Zn+1 = j, T = k, An ) = P (i, j)P
P eν×π (Yn = in , . . . , Yk = ik , T = k, Xk−1 = ik−1 , . . . , X0 = i0 )
= P (i, j)P
eν×π (T = k, An ),

donc P
eν×π (Zn+1 = j|Zn = in , . . . , Z0 = i0 ) = P (i, j) en sommant ces trois cas dans (1.5).
On voit que X et Z ont la même loi initiale et même noyau de transition donc ont la même loi.
Donc
Pν (Xn = j) − πj = P
eν×π (Xn = j) − P eν×π (Zn = j) − P
eν×π (Yn = j) = P eν×π (Yn = j).

Remarquer que sur {T ≤ n}, Zn = Yn . Donc P

eν×π (Zn = j) − P
eν×π (Yn = j) = P
eν×π (Zn = j, n <
T) − P
eν×π (Yn = j, n < T ) et

Pν (Xn = j) − πj ≤ P
eν×π (Zn = j, n < T ) − P
eν×π (Yn = j, n < T ) ≤ P
eν×π (n < T ) → 0,

car T est presque sûrement fini. 2

38 CHAPITRE 1. CHAÎNES DE MARKOV

1.11.1 (∗) Classes cycliques

Proposition 1.65. Soit C une classe récurrente. On note d la période de cette classe. Fixons x ∈ C.
Pour tout y ∈ C, il existe un entier νy ∈ {0, . . . , d − 1} tel que
a) P n (x, y) > 0 =⇒ n ≡ νy mod d.
b) il existe ny tel que si n ≥ ny alors P nd+νy (x, y) > 0.
Preuve : a) Soit y ∈ C. Choisissons r et m tels que P r (y, x) > 0 et P m (x, y) > 0. Si P n (x, y) > 0
alors on a
P m+r (x, x) > 0 et P n+r (x, x) > 0,
d’où, par la définition de période, d|m + r et d|n + r, et donc d|m − n et n ≡ m mod d. L’entier νy
est le reste de la division euclidienne de m par d.
b) Par la Proposition 1.62, il existe N tel que, pour tout n ≥ N , P nd (x, x) > 0. Soit y ∈ C. D’après
a) et le fait que x → y, il existe m ≥ 0 tel que P md+νy (x, y) > 0. Posons ny = N + m. Pour tout
n ≥ ny , on a n = n′ + m avec n′ ≥ N , et donc nd + νy = n′ d + md + νy , par conséquent
′
P nd+νy (x, y) ≥ P n d (x, x)P md+νy (x, y) > 0,

d’où b). 2

Supposons x ∈ C fixé. Pour ν ∈ {0, . . . , d − 1}, on définit

n o
C (ν) ≡ C (ν) (x) := j ∈ C νj de la proposition 1.65 a) vaut ν .

C (0) , . . . , C (d−1) sont appelées les sous-classes cycliques de C. Nous étendons la définition de C (ν)
à tout entier ν ≥ 0 en posant C (s) := C (ν) si s ≡ ν mod d.
Proposition 1.66. Soit C une classe récurrente de période d.
a) C (0) , . . . , C (d−1) sont deux à deux disjointes et leur réunion donne C.
(n)
b) si j ∈ C (ν) et Pjk > 0 (n > 0), alors k ∈ C (ν+n) . Donc
X
P n (j, k) = 1.
k∈C (ν+n)

Preuve : a) est une conséquence de la proposition 1.65. Quant à b), considérons un m > 0 tel que
P m (i, j) > 0, on a
P m+n (i, k) ≥ P m (i, j)P n (j, k) > 0.
Ceci en vue de la proposition précédente (b) implique que

m + n ≡ νk mod d,

donc k ∈ C (m+n) = C (ν+n) puisque m = ν mod d. 2

Cette proposition justifie l’attribut “cyclique”, car elle met en évidence l’évolution cyclique de la
chaı̂ne partant d’un état de C : si la chaı̂ne part d’un état j d’une sous-classe, elle atteint à nouveau
les états de cette sous-classe aux temps d, 2d, 3d, . . .
D’un état j on passe en un pas à un état de la sous-classe suivante.
Il est intéressant d’observer que si la chaı̂ne part de i ∈ C (0) , alors (Xnd )n≥0 est une chaı̂ne de
Markov ayant C (0) pour ensemble d’états et (P d (i, j))ij∈C (0) comme matrice de transition. (exercice).
Remarquons que C (0) est une classe fermée pour P d et elle est irréductible et de période 1. En effet,
P nd (i, i) > 0 pour tout n ≥ N .
Nous allons montrer que les sous-classes C (0) (i), . . . , C (d−1) (i) ne vont pas beaucoup dépendre
de i. Pour cela, soit j ∈ C (ν) (i), on considère les sous-classes associées C (0) (j), . . . , C (d−1) (j). Soit
k ∈ C (s) (j). Soient m et n tels que

P m (i, j) > 0, P n (j, k) > 0.

1.11. PÉRIODICITÉ ET EXISTENCE DE LA LOI LIMITE AU SENS FORT 39

On a
m = ν mod d, n = s mod d.

D’autre part,
P m+n (i, k) ≥ P m (i, j)P n (j, k) > 0,

donc k ∈ C (m+n) (i) = C (ν+s) (i), car m + n = ν + s mod d.

Il s’ensuit que C (s) (j) ⊂ C (ν+s) (i). Mais les sous-classes forment une partition de C, donc

C (s) (j) = C (ν+s) (i), ∀ s = 0, . . . , d − 1.

Ainsi les sous-classes sont les mêmes à un décalage d’indices près.

Exemple : Considérons, sur E = {0, 1, 2, 3, 4}, une chaı̂ne de matrice de transition

 
0 0 1/2 1/2 0

 1/2 0 0 0 1/2 

P =
 0 1 0 0 0 
 0 1 0 0 0 
0 0 1/2 1/2 0

Supposons que la chaı̂ne part de 0 ∈ C (0) . En un seul pas, elle peut aller à 2 ou 3 qui vont
appartenir forcément à C (1) . Ensuite on va à 1 donc 1 ∈ C (2) , puis de 1 on va à 0 ∈ C (3) ou 4 ∈ C (3) ,
ceci implique C (3) = C (0) . La période vaut donc 3 et C (0) = {0, 4}, C (1) = {2, 3} et C (2) = {1}.

Théorème 1.67. Considérons une chaı̂ne de Markov X de matrice de transition P irréductible,

récurrente positive, de période d ≥ 2. On note π la loi invariante. Pour tout couple i, j, il existe un
entier a ∈ {0, . . . , d − 1} tel que P m (i, j) = 0 si m ̸≡ a mod d, et

πj
lim P nd+a (i, j) = = dπj ,
n→∞ π(C (a) )

où π(C (a) ) = πj = d1 .

P
j∈C (a)

1
Preuve : On P
P vérifie d’abord que π(C (a) ) = d. Comme π = πP et que pour j ∈ C (0) , πj =
i∈E πi Pi,j = i∈C (d−1) πi Pi,j , donc

X X X X X
π(C (0) ) = πi Pi,j = πi Pi,j = πi
j∈C (0) i∈C (d−1) i∈C (d−1) j∈C (0) i∈C (d−1)

car j∈C (0) Pi,j = 1 pour tout i ∈ C (d−1) ; donc π(C (0) ) = π(C (d−1) ). En considérant π = πP 2 =
P

· · · = πP d−1 , on obtient que π(C (0) ) = π(C (1) ) = · · · = π(C (d−1) ) = d1 puisque les sommes de
π(C (1) ), . . . , π(C (d) ) vaut 1.
On traite par exemple le cas a = 0. La matrice P d apériodique et pour tout i ∈ C (0) , Pi,j d = 0 si
π
j ̸∈ C (0) . Alors la mesure π bj := π(Cj(0) ) , j ∈ C (0) est une loi sur C (0) , de plus, elle est invariante pour
P d . Alors appliquer (1) on obtient la limite annoncée. 2
40 CHAPITRE 1. CHAÎNES DE MARKOV

1.12 (∗) Complément sur le processus canonique

Soit P une matrice stochastique, sur un espace d’états E, et µ une loi sur E. On a jusque-là admis
(cf. Proposition 1.6) l’existence d’une chaı̂ne de Markov de matrice P et de loi initiale µ. Justifions-la
ici.

1.12.1 Première construction

Quitte à numéroter les états, E étant dénombrable on peut supposer E ⊂ N, et même E = N

quitte à ajouter des états où la mesure µ est nulle. Remarquons que, si U est une variable aléatoire
de loi uniforme sur [0, 1], alors la variable aléatoire X = fµ (U ) suit la loi µ, en définissant la fonction

fµ : u 7→ min{n ∈ N | µ(0) + µ(1) + · · · + µ(n) ≥ U }.

En effet, pour tout n ∈ N, fµ (U ) = n si, et seulement si U ∈]µ(0) + · · · + µ(n − 1), µ(0) + · · · + µ(n)],
et cet intervalle a pour largeur µ(n).
Supposons donnée une suite (Un )n≥0 de variables aléatoires indépendantes et de loi uniforme sur
[0, 1]. On discutera de l’existence (non évidente) d’une telle suite plus bas.
Alors on peut définir par récurrence la suite (Xn )n≥0 de variables aléatoires par : X0 = fµ (U0 ) et,
pour tout n ≥ 0,
Xn+1 = fP (Xn ,·) (Un+1 ),

où P (Xn , ·) est la mesure de probabilité donnée par la ligne Xn de la matrice P . Par cette construction,
X0 suit la loi µ et, pour tout n, la loi de Xn+1 sachant {X0 = x0 , . . . , Xn = xn } est la loi de
fP (xn ,·) (Un+1 ) (car Un+1 est indépendante de X0 , . . . , Xn ), c’est-à-dire P (xn , ·). Le processus (Xn )n≥0
est donc une chaı̂ne de Markov de loi initiale µ et de matrice de transition P . Notons Pµ sa loi :
c’est une mesure de probabilité sur l’espace E N des suites à valeurs dans E, muni de sa tribu produit
(voir rappels). L’existence de Pµ étant maintenant acquise, on va remplacer X par une version plus
“standard”.
Considérons l’espace canonique Ω = E N des suites à valeurs dans E, muni de sa tribu produit
F. Le processus canonique sur E est défini par X = IdΩ : c’est la fonction identité X = (Xn )n≥0 :
Ω → E N . Pour toute probabilité µ sur E, sous Pµ , ce processus X est une chaı̂ne de Markov de loi
initiale µ et de matrice P .
Avec l’espace canonique Ω = E N , on travaille donc toujours avec le même processus X : E N → E N
(l’identité), mais sous différentes lois Pµ . De plus, on peut définir l’opérateur de décalage (ou shift)
θ : Ω → Ω par
θ((xn )n≥0 ) = (xn+1 )n≥0 , pour tout (xn )n≥0 ∈ Ω,

qui vérifie Xn ◦ θ = Xn+1 .

Justifions enfin l’existence de suites (Un )n≥0 de variables aléatoires indépendantes et de loi uniforme
sur [0, 1]. Prenons Ω = [0, 1], muni de la loi uniforme, et U : [0, 1] → [0, 1] définie par U (ω) = ω, de telle
sorte que U suit la loi uniforme sur [0, 1]. On rappelle que, si U = 0, X0 X1 · · · est le développement de
U en base 2 (avec X0 , X1 , . . . ∈ {0, 1}), alors les variables (Xn )n≥0 sont indépendantes et de même loi
B(1/2) (et vice-versa, si (Xn )n est ainsi, U suit la loi uniforme sur [0, 1]). Considérons une bijection
φ : N2 → N (on pourrait définir φ explicitement). Alors, en définissant, pour tout n ≥ 0, la variable
aléatoire Un par
∞
X Xφ(n,k)
Un = 0, Xφ(n,0) Xφ(n,1) · · · = ,
2k+1
k=0

les variables (Un )n≥0 sont indépendantes, du fait de la propriété d’indépendance par paquets, et suivent
toutes la loi uniforme sur [0, 1], comme rappelé plus haut.
1.12. (∗) COMPLÉMENT SUR LE PROCESSUS CANONIQUE 41

1.12.2 Autre approche : extension de lois fini-dimensionnelles compatibles

On décrit ici, sans démonstration, comment cette existence s’inscrit dans un cadre plus général
d’existence de processus.
Soit X un processus à valeurs dans un espace (E, E) (sans hypothèse de dénombrabilité). On note
µn la loi de (X0 , X1 , . . . , Xn ). C’est une probabilité sur (E n+1 , E ⊗(n+1) ). Si on note πn+1,n la projection
canonique de E n+1 sur E n i.e. l’application (x0 , . . . , xn−1 , xn ) 7→ (x0 , . . . , xn−1 ), on a

πn+1,n (µn ) = µn−1 .

Ceci est équivalent à, pour tout Ak ∈ E,

µn−1 (A0 × A1 × . . . × An−1 ) = µn (A0 × A1 × . . . × An−1 × E). (1.6)

Les probabilités (µn )n≥0 s’appellent les répartitions finies du processus X.

Réciproquement, si on se donne des probabilités µn sur (E n+1 , E ⊗(n+1) ) vérifiant la consistance
(1.6), se pose la question de savoir s’il existe un processus ayant pour répartitions finies les µn . On
introduit l’espace canonique Ω = E N pour ω = (ωn )n≥0 , Xn (ω) = ωn , Fn = σ(Xk , k ≤ n), F =
σ(Xk , k ≥ 0).
Soit A ∈ Fn , A est de la forme A = B × E × · · · × E × · · · avec B ∈ E ⊗(n+1) . On définit
S alors une
probabilité Pn sur (Ω, Fn ) en posant Pn (A) = µn (B) puis une fonction d’ensembles sur n Fn par

P(A) = Pn (A), A ∈ Fn . (1.7)

Il s’agit de prolonger P en une probabilité sur σ(∪n Fn ). Remarquons que ∪n Fn étant stable par
intersection finie, ce prolongement sera unique. L’existence de ce prolongement a été montrée par
Kolmogorov et on a :

Théorème 1.68. Soit (µn )n≥0 une famille de probabilités sur (E n+1 , E ⊗(n+1) ) vérifiant (1.6). Il existe
une unique probabilité P sur l’espace canonique (Ω, F) défini par (1.7) telle que (Ω, F, (Xn )n≥0 , P) soit
un processus de répartitions finies (µn )n≥0 .

Exemple 1. Soient ν0 , . . . , νn . . . une suite de probabilités sur (E, E). On veut construire un modèle
pour une suite de v.a. indépendantes de lois ν0 , . . . , νn , . . .. On définit µn sur (E n+1 , E ⊗(n+1) ) par
µn = ν0 ⊗ . . . ⊗ νn et on applique le Théorème 1.68. On obtient une probabilité P sur (Ω, F) telle que
(Xn )n soit une suite de v.a. indépendantes de loi ν0 , . . . , νn , . . ..
Exemple 2. Cet exemple fournit la construction des chaı̂nes de Markov. On considère un ensemble
E dénombrable muni d’une probabilité µ et d’une matrice de transition Q(x, y), x, y ∈ E, c’est à dire
une matrice à termesXpositifs telle que pour tous x, y ∈ E,
Q(x, y) ≥ 0, Q(x, y) = 1.
y∈E
On définit µn sur E n+1 par µn (x0 , x1 , . . . , xn ) = µ(x0 )Q(x0 , x1 ) . . . Q(xn−1 , xn ) et on applique le
Théorème 1.68. On obtient une probabilité Pµ sur (Ω, F) telle que les vecteurs (X0 , X1 , . . . , Xn ) aient
pour loi µn .
42 CHAPITRE 1. CHAÎNES DE MARKOV
Chapitre 2

Espérance conditionnelle

Nous allons introduire un des outils fondamentaux des probabilités qui sera en particulier nécessaire
au chapitre prochain pour l’étude des martingales.

Introduction
Cette introduction intuitive peut être omise si on souhaite aborder directement la construction
mathématique de l’espérance conditionnelle.
La notion de conditionnement apparaı̂t en probabilité chaque fois que l’on dispose d’informations
partielles supplémentaires telles que la réalisation de certains événements.
On a jusque-là défini l’espérance conditionnelle d’une variable aléatoire X (positive ou intégrable)
sachant un événement A tel que P(A) > 0 :

E(X1A )
E(X | A) = .
P(A)

C’est la moyenne des valeurs de X parmi les résultats de l’expérience aléatoire pour lesquels A est
réalisé. Cela peut aussi se comprendre comme la moyenne des valeurs de X pour l’expérience modifiée
par la donnée de l’information que A est réalisé.
On souhaite étendre cette notion d’espérance conditionnelle dans le cas où l’on dispose d’une
information plus riche que la réalisation d’un événement, à savoir la réalisation de toute une famille
d’événements. Cependant, au lieu de définir l’espérance de X sachant que ces événements sont réalisés,
il sera plus pertinent de définir l’espérance de X sachant si ces événements sont réalisés, autrement
dit ce sera une fonction qui dépend de la réalisation ou non de ces événements ; ceci étant aléatoire,
ce sera donc une variable aléatoire. On aura ainsi typiquement
(
E(X | A) si A est réalisé
“L’espérance de X sachant si A est réalisé” =
E(X | Ac ) sinon.
Disposer d’une information sur l’expérience, cela revient à savoir si les événements d’un ensemble
G ⊂ F sont réalisés ou non. Remarquons que, si on sait si A est réalisé, on sait aussi siSAc est réalisé (à
savoir, si A ne l’est pas), et si on sait si An est réalisé pour tout n ≥ 0, on sait aussi si n An est réalisé
(en vérifiant un à un si l’un des An est réalisé). On constate donc que l’ensemble des événements dont
on peut connaı̂tre la réalisation est stable par complémentaire et par union dénombrable. De plus,
on sait toujours si ∅ et Ω sont réalisés (jamais et toujours, respectivement). On constate donc que G
forme une tribu.
Pour toute tribu G ⊂ F, l’espérance conditionnelle E(X | G) sera ainsi une variable aléatoire qui
dépendra seulement du fait que les événements de G sont réalisés ou non, ce qui formellement signifie
que ce sera une variable aléatoire G-mesurable. L’exemple précédent correspond ainsi à E(X | σ(A))
où σ(A) = {∅, A, Ac , Ω} est la plus petite tribu contenant A.
Un cas important sera celui de l’espérance de X sachant une autre variable aléatoire Y . Cela
revient à connaı̂tre la réalisation de tous les événements de la forme {Y ∈ B} (avec B mesurable),

43
44 CHAPITRE 2. ESPÉRANCE CONDITIONNELLE

autrement dit à connaı̂tre la tribu σ(Y ) engendrée par Y . Alors E(X | Y ) sera σ(Y )-mesurable, c’est-
à-dire (par le Lemme 0.9) une fonction mesurable de Y . Notons que l’exemple précédent correspond
aussi à E(X | 1A ) car σ(1A ) = {∅, A, Ac , Ω} = σ(A).

2.1 Définition
Soit un espace de probabilité (Ω, F, P). Rappelons d’abord une propriété simple de l’espérance :
Proposition 2.1. Soit X une variable aléatoire réelle, de carré intégrable. L’espérance E(X) de X
2

est le réel qui minimise la fonction a 7→ E (X − a) :
2
min E (X − a)2 ) = E (X − E(X)) = Var X.
a∈R

Preuve : Il suffit de développer E((X − a)2 ) = E(X 2 ) − 2aE(X) + a2 = (a − E(X))2 + Var X ≥ Var X,
et de noter qu’il y a égalité si, et seulement si a = E(X). 2

Autrement dit E(X) est la constante qui approche le mieux X, au sens de la norme L2 . C’est donc
la projection orthogonale de X sur le sous-espace R1 des variables aléatoires constantes. C’est de cette
façon de définir l’espérance que l’on part pour introduire l’espérance conditionnelle.
On donne la définition en deux étapes. D’abord lorsque X ∈ L2 (Ω, F, P) (rappelons que c’est un
espace de Hilbert) :

2.1.1 Cas des variables aléatoires dans L2

Définition 2.2. Soit G ⊂ F une tribu. Pour toute variable aléatoire réelle X de carré intégrable,
c’est-à-dire dans L2 (Ω, F, P), l’espérance conditionnelle de X sachant G, notée E(X | G), est la
projection orthogonale de X sur le sous-espace fermé L2 (Ω, G, P) des variables aléatoires G-mesurables
et de carré intégrable. C’est donc l’unique variable aléatoire de carré intégrable telle que :
(i) E(X | G) est G-mesurable
(ii) pour toute variable aléatoire Z ∈ L2 qui est G-mesurable, X − E(X | G) ⊥ Z, c’est-à-dire

E(ZX) = E(ZE(X | G)).

Comme la projection est linéaire, E(· | G) est linéaire sur L2 (Ω, F, P). En tant que projection
orthogonale, elle est contractante :

pour toute X ∈ L2 , ∥E(X | G)∥2 ≤ ∥X∥2 .

Remarquons que, comme l’espérance usuelle, elle est aussi croissante et vérifie l’inégalité triangu-
laire :
Lemme 2.3. Soit X, Y ∈ L2 (Ω, F, P).
a) Si X ≥ 0 p.s., alors E(X | G) ≥ 0 p.s..
b) Si X ≤ Y p.s., alors E(X | G) ≤ E(Y | G) p.s..
c) |E(X | G)| ≤ E(|X| | G) p.s..
Preuve : a) Posons Y = E(X | G). On a {Y < 0} ∈ G donc 1{Y <0} est G-mesurable, et bornée donc
dans L2 , d’où par (ii)
0 ≤ E(X1{Y <0} ) = E(Y 1{Y <0} ) ≤ 0,
ce qui implique E(Y 1{Y <0} ) = 0, or la v.a. Y 1{Y <0} est négative, et strictement négative sur {Y < 0},
donc nécessairement P(Y < 0) = 0, comme annoncé.
b) se déduit de a) par linéarité en l’appliquant à Y − X.
c) se déduit de b) : comme X ≤ |X|, E(X | G) ≤ E(|X| | G), de même −X ≤ |X| donne −E(X | G) ≤
E(|X| | G), d’où c). 2
2.1. DÉFINITION 45

Donnons quelques propriétés spécifiques à l’espérance conditionnelle.

Lemme 2.4. Soit X, Y ∈ L2 (Ω, F, P).
a) Si X est G-mesurable, alors E(X | G) = X p.s..
b) Pour tout réel c, E(c | G) = c p.s..
c) Si X est indépendante de G, alors E(X | G) = E(X) p.s..
d) E(E(X | G)) = E(X).
e) E(|E(X | G)|) ≤ E(|X|), c’est-à-dire ∥E(X | G)∥1 ≤ ∥X∥1 .
Preuve : a) est immédiat car la projection sur L2 (Ω, G, P) est l’identité sur L2 (Ω, G, P).
b) est un cas particulier de a) (une v.a. constante est mesurable pour toute tribu).
c) Si X est indépendante de G, alors X − E(X) est orthogonale à L2 (Ω, G, P) : pour toute Z ∈ L2
qui est G-mesurable, X est indépendante de Z donc E(XZ) = E(X)E(Z) et donc E((X −E(X))Z) = 0.
Par suite, E(X − E(X) | G) = 0, donc E(X | G) = E(E(X) | G) = E(X) (E(X) est une constante).
d) est (ii) pour Z = 1.
e) s’obtient en prenant l’espérance de la propriété c) du précédent lemme et en appliquant d). 2

La dernière propriété ci-dessus montre que E(· | G) est contractante sur L2 ⊂ L1 , pour la norme L1 .
Or L2 est dense dans L1 (par exemple, le théorème de convergence dominée montre que, pour toute
variable aléatoire X ∈ L1 , E(|X − X1{|X|≤n} |) → 0, en dominant par |X|, or X1{|X|≤n} est bornée
donc dans L2 ). Il en résulte que E(· | G) s’étend par continuité de façon unique à L1 . On va en fait
utiliser (i) et (ii) pour introduire une définition un peu plus générale car elle inclut toutes les variables
positives (c’est-à-dire à valeurs dans [0, ∞] p.s.).

2.1.2 Cas général : variables aléatoires positives ou dans L1

Théorème 2.5. (Théorème et définition) : Pour toute variable aléatoire réelle X positive (resp.
intégrable), et pour toute sous-tribu G de F, il existe une variable aléatoire E(X | G), unique à égalité
presque sûre près, positive (resp. intégrable), telle que :
(i) E(X | G) est G-mesurable ;

(ii) pour tout A ∈ G, E(1A X) = E 1A E(X | G) .
La v.a. E(X | G) s’appelle l’espérance conditionnelle de X sachant G. Elle est définie à égalité
presque sûre près ; on considérera le plus souvent la classe de v.a. correspondante (c’est-à-dire que l’on
identifie entre elles les variables égales presque sûrement).
Notons que la condition (ii) est équivalente à : pour toute v.a. Z qui est G-mesurable et positive
(resp. bornée, ou telle que ZX est intégrable),

(ii′ ) E(ZX) = E Z E(X | G) .

En effet, (ii) en est le cas particulier Z = 1A , et (ii) implique (ii’) par linéarité (si Z est étagée) et par
approximation croissante (si Z est positive, Z = limn Zn avec 0 ≤ Z1 ≤ Z2 ≤ · · · étagées positives, et
on utilise le théorème de convergence monotone ; et dans le cas où ZX est intégrable, on applique le
théorème à Z+ et Z− qui sont positives, puis Z = Z+ − Z− ).
Le cas particulier suivant est essentiel :
Définition 2.6. Pour toute variable aléatoire X positive (resp. intégrable), et pour toute variable
aléatoire Y à valeurs dans un espace mesurable (E, E), on note

E(X | Y ) = E(X | σ(Y )).

C’est donc (via le Lemme 0.9) l’unique variable aléatoire de la forme E(X | Y ) = h(Y ) (avec h : E → R
mesurable) telle que, pour toute fonction mesurable g : E → R positive (resp. bornée),

E g(Y )X = E g(Y )E(X | Y ) .
46 CHAPITRE 2. ESPÉRANCE CONDITIONNELLE

On pourra bien sûr considérer en particulier E(X | X1 , . . . , Xn ) = E(X | σ(X1 , . . . , Xn )), qui est
une fonction mesurable de X1 , . . . , Xn .

Preuve du Théorème 2.5. Unicité. Démontrons d’abord l’unicité dans le cas X ∈ L1 . Soit Y et
Ye deux variables aléatoires intégrables vérifiant (i) et (ii) : Y et Ye sont G-mesurables et, pour tout
A ∈ G, E(Y 1A ) = E(X1A ) = E(Ye 1A ). Prenant A = {Y < Ye }, on a A ∈ G et donc E(Y 1A ) = E(Ye 1A ),
d’où E((Ye − Y )1A ) = 0, or (Ye − Y )1A est nulle hors de A et > 0 sur A, donc on doit avoir P(A) = 0,
c’est-à-dire Y ≥ Ye p.s.. Par symétrie, Y = Ye p.s..
Considérons maintenant l’unicité dans le cas X ≥ 0. Pour tout n ∈ N, on note An = {Y < Ye ≤ n}.
On a An ∈ G par (i) et donc
0 ≤ E(Y 1An ) = E(Ye 1An ) ≤ n < ∞,
d’où Y 1An , Ye 1An ∈ L1 et E((Ye − Y )1An ) = 0, or (Ye − Y )1An > 0 sur An et = 0 ailleurs, donc
P(An ) = 0. La suite (An )n est croissante, d’où
[
0 = lim P(An ) = P An = P(Y < Ye < ∞).
n
n

Par symétrie, P(Ye < Y < ∞) = 0, donc p.s., si Y, Ye < ∞, alors Y = Ye . Il reste à voir que, p.s.,
Y = ∞ si et seulement si Ye = ∞. Or, avec Bn = {Y < n, Ye = ∞} ∈ G, on a
∞ · P(Bn ) = E(Ye 1Bn ) = E(Y 1Bn ) ≤ n,
ce qui impose P(Bn ) = 0. La suite (Bn )n est croissante, d’où
[
0=P Bn = P(Y < ∞, Ye = ∞).
n

Par symétrie, on a aussi P(Ye < ∞, Y = ∞) = 0. Finalement, Y = Ye p.s..

Existence. On a déjà vu l’existence dans le cas où X ∈ L2 . On va en déduire le cas général par
approximation en tronquant X. Définissons, pour tout n ∈ N, Xn = X1{|X|≤n} ∈ L2 et Yn = E(Xn | G).
Dans le cas X ≥ 0, on constate que (Xn )n est une suite croissante de variables aléatoires positives
p.s. et donc (par un lemme précédent), qu’il en va de même de la suite (Yn )n . On peut donc définir
Y = limn Yn (limite croissante, dans R) . La propriété (i) est vérifiée par Y (une limite de fonctions
G-mesurables est G-mesurable), et la propriété (ii) pour Y s’obtient par convergence monotone :
E(Y 1A ) = E(lim Yn 1A ) = lim E(Yn 1A ) = lim E(Xn 1A ) = E(lim Xn 1A ) = E(X1A ).
n n n n

Dans le cas X ∈ L1 , (Xn )n tend vers X dans L1 , et comme on a vu que E(· | G) est contractante
sur L2 pour la norme ∥·∥1 , il en résulte que (Yn )n est de Cauchy dans L1 donc converge dans L1 vers
une variable aléatoire Y . Comme la convergence L1 implique la convergence p.s. d’une sous-suite, Y
est G-mesurable. Et la propriété (ii) pour Y s’obtient par la convergence L1 : pour tout A ∈ G, pour
tout n, E(Xn 1A ) = E(Yn 1A ), et |E(Xn 1A ) − E(X1A )| ≤ E(|X − Xn |1A ) ≤ E(|X − Xn |) → 0, et de
même pour (Yn )n et Y , d’où à la limite E(X1A ) = E(Y 1A ). 2

Exemple 2.7. Soit A un événement de F de probabilité non nulle et X une variable aléatoire positive.
Calculons W = E(X | σ(A)).
On note que σ(A) = {A, Ac , ∅, Ω} = σ(1A ), de sorte que W , qui est une fonction σ(A)-mesurable
est une fonction de 1A , et est donc de la forme
W = α1A + β1Ac .
Et en écrivant (ii) pour A et Ac , on obtient
E(X1A ) E(X1Ac )
α= = E(X | A), et β= = E(X | Ac ),
P(A) P(Ac )
donc
E(X | σ(A)) = E(X | A)1A + E(X | Ac )1Ac .
2.2. PROPRIÉTÉS ÉLÉMENTAIRES 47

Exemple 2.8. Soit Y une variable aléatoire discrète, à valeurs dans E dénombrable, et X une variable
aléatoire positive. Calculons W = E(X | Y ). P
Comme E(X | Y ) est σ(Y )-mesurable, il existe f : E → R+ telle que E(X | Y ) = f (Y ) = y∈E f (y)1{Y =y} .
Pour tout y ∈ E, on a alors, en écrivant (ii) pour A = {Y = y}, par TCM,

E(X1{Y =y} ) = E(E(X | Y )1{Y =y} ) = f (y)P(Y = y),

d’où f (y) = E(X | Y = y) et donc :

X
E(X | Y ) = E(X | Y = y)1{Y =y} .
y∈E

On voit ainsi que, si Y est discrète à valeurs dans E, E(X | Y ) = f (Y ) où, pour toute valeur y ∈ E,
f (y) = E(X | Y = y) est l’espérance conditionnelle classique.

Notation abusive (mais pratique). Par extension, on utilisera quelquefois, pour n’importe quelle
variable Y (même non discrète), la notation abrégée suivante : si E(X | Y ) = f (Y ), alors

E(X | Y = y) = f (y).

Cette écriture, qui mathématiquement n’a pas de sens classique si P(Y = y) = 0, facilite le formalisme
R certains calculs. Par exemple, la propriété E(E(X | Y )) = E(X) (qui est (ii’) avec Z = 1) s’écrit
de
E(X | Y )dP = E(X) d’où, avec le théorème de transfert et la notation précédente,
Z
E(X | Y = y)dPY (y) = E(X).

2.2 Propriétés élémentaires

On regroupe ci-dessous quelques propriétés générales de l’espérance conditionnelle.
Proposition 2.9. Soit G ⊂ F une tribu, X une variable aléatoires positive, ou intégrable. On a les
propriétés suivantes :

a) E(X) = E E(X G) .

b) Pour toute constante c, E c G = c.

c) Si X est G-mesurable, E X G = X.

d) Si X est G-mesurable, et Y est telle que XY est intégrable ou positive, E XY G = X E Y G .

e) Si X est indépendante de G, on a E X G = E(X).
f ) Sur les v.a. positives, l’espérance conditionnelle est semi-linéaire (stable par addition et par multi-
plication par un scalaire positif ).
g) Sur L1 (Ω, F, P), l’application X 7→ E X G est linéaire, positive, et donc

croissante : Si X1 , X2
sont intégrables et telles que X1 ≤ X2 p.s., alors E X1 G ≤ E X2 G p.s. En particulier,

E X G ≤ E |X| G .

et donc ∥E(X | G)∥1 ≤ ∥X∥1 , ce qui signifie que E(· | G) est contractante donc continue.
h) Sur L2 (Ω, F, P), l’application X 7→ E X G est la projection orthogonale sur L2 (Ω, G, P), en par-

2

ticulier elle est contractante : pour X ∈ L , ∥E(X G ∥2 ≤ ∥X∥2 .
Toutes ces propriétés sont des conséquences simples de la définition, ou ont été vues dans la
partie précédente dans L2 et peuvent s’étendre par approximation (à titre d’exercice, démontrer
notamment la propriété d) en vérifiant directement (i) et (ii)). Attention, bien qu’on ne le précise
pas systématiquement, les (in)égalités des propriétés ci-dessus sont valables presque sûrement, car
l’espérance conditionnelle sachant G est une variable aléatoire, qui de plus n’est définie qu’à égalité
presque partout près.
48 CHAPITRE 2. ESPÉRANCE CONDITIONNELLE

Ces propriétés peuvent se retenir en remarquant qu’elles satisfont à l’intuition suivante : E(· | G)
se calcule comme une espérance dans laquelle on “considère comme constantes” les variables G-
mesurables. Notons que considérer ces variables aléatoires comme constantes altère en général la
loi des autres variables aléatoires... à moins qu’elles ne soient indépendantes de G :
Proposition 2.10. Soient X et Y deux v.a. et G une sous-tribu de F. Soit ϕ une fonction borélienne,
positive ou telle que ϕ(X, Y ) soit intégrable.
a) On suppose que X est G-mesurable et Y est indépendante de la tribu G. Alors

E(ϕ(X, Y )|G) = ψ(X), p.s.,

où ψ(x) := E(ϕ(x, Y )).

b) On suppose que X et Y sont indépendantes. Alors

E(ϕ(X, Y )|X) = ψ(X), p.s.,

où ψ(x) := E(ϕ(x, Y )).

Preuve : Notons que le point b) est un cas particulier du a), avec G = σ(X), donc il suffit de prouver
a). On remarque que ψ(X) est bien G-mesurable. Pour toute v.a. Z ≥ 0, G-mesurable bornée, on
constate que Y est indépendante de (X, Z), donc on a
Z Z Z
E Z ϕ(X, Y ) = zϕ(x, y)dP(X,Y,Z) (x, y, z) = zϕ(x, y)dP(X,Z) (x, z)dPY (y)
Z Z Z
= z ϕ(x, y)dPY (y) dP(X,Z) (x, z) = zψ(x)dP(X,Z) (x, z) = E Zψ(X) ,

ce qui achève de prouver a). 2

Conditionner deux fois revient à conditionner par la tribu la plus petite :

Proposition 2.11 (Double conditionnement). Si G1 ⊂ G2 ⊂ F, pour toute v.a. X intégrable ou
positive, on a
E E(X | G1 ) G2 = E(X | G1 ) = E E(X | G2 ) G1 p.s.

Preuve : Comme G1 ⊂ G2 , E(X | G1 ) étant G1 -mesurable est aussi G2 -mesurable et donc

E E(X | G1 ) G2 = E X G1 .

Pour l’autre égalité, on note que E(X | G1 ) est G1 -mesurable et, pour tout A ∈ G1 , en écrivant le point
(ii) de la définition de E(X | G1 ) puis de la définition de E(X | G2 ) (car A ∈ G2 aussi), on a :

E(E(X | G1 )1A ) = E(X1A ) = E(E(X | G2 )1A ).

Ceci prouve que E E(X | G2 ) G1 = E(X | G1 ) p.s. 2

Notons que, sans l’inclusion, il n’y a pas de formule générale (les projections orthogonales ne
commutent pas, en général).
Comme on l’a déjà vu, l’espérance conditionnelle se comporte, par bien des propriétés, comme une
espérance. On en donne deux exemples de plus ci-dessous.
Proposition 2.12 (TCM pour l’espérance conditionnelle). Pour toute suite croissante (Xn , n ≥ 0)
de v.a. positives, on a :
lim ↑ E(Xn |G) = E lim ↑ Xn G , p.s.
n→∞ n→∞

Preuve : La mesurabilité étant préservée par limite de suite, le résultat s’obtient par passage à la
limite (croissante) dans la relation (ii). 2
2.3. ESPÉRANCE SACHANT UNE V.A. DISCRÈTE. LOI CONDITIONNELLE 49

Proposition 2.13 (Inégalité de Jensen). Soit X une v.a. réelle intégrable. Si φ : R → R est une
fonction convexe positive ou telle que φ(X) est intégrable, on a

φ E(X | G) ≤ E(φ(X) | G), p.s.

Preuve : La fonction φ étant convexe, son graphe est l’intersection des demi-espaces qui le contiennent :

pour tout x ∈ R, φ(x) = max{ax + b | (a, b) ∈ Eφ }

où
Eφ = {(a, b) ∈ R2 | ∀x ∈ R, φ(x) ≥ ax + b}.
On peut vérifier qu’on a aussi

pour tout x ∈ R, φ(x) = sup{ax + b | (a, b) ∈ Eφ ∩ Q2 }.

Or, pour tous (a, b) ∈ Eφ ∩ Q2 , φ(X) ≥ aX + b donc

E(φ(X) | G) ≥ aE(X | G) + b p.s.

Comme Eφ ∩ Q2 est dénombrable, on a aussi : p.s.,

pour tous (a, b) ∈ Eφ ∩ Q2 , E(φ(X) | G) ≥ aE(X | G) + b,

donc
E(φ(X) | G) ≥ sup (aE(X | G) + b) = φ(E(X | G)).
(a,b)∈Eφ ∩Q2

2.3 Espérance sachant une v.a. discrète. Loi conditionnelle

On a vu (exemple 2.8) que, si Y est une variable aléatoire discrète, c’est-à-dire à valeurs dans un
espace dénombrable E (et P(Y = y) > 0 pour tout y ∈ E, quitte à réduire E), alors pour toute v.a.
X, pour toute fonction mesurable φ positive ou telle que φ(X) est intégrable,
X
E(φ(X) | Y ) = E(φ(X) | Y = y)1{Y =y} ,
y∈E

E(φ(X)1
{Y =y} )
où E(φ(X) | Y = y) = P(Y =y) est l’espérance conditionnelle classique. Le calcul de l’espérance
conditionnelle est donc explicite dans ce cas.
Rappelons que, pour tout y ∈ E, par le théorème de transfert,
Z Z
E(φ(X) | Y = y) = φ(X)dP(· | Y = y) = φ(x)dPX | Y =y (x),
Ω R

où PX | Y =y est la loi de X sous P(· | Y = y), appelée loi conditionnelle de X sachant Y = y.
On constate alors que l’espérance de φ(X) sachant Y s’écrit comme une espérance
Z
E(φ(X) | Y ) = φ(x)dPX | Y (x),
R

par rapport à la loi aléatoire X

PX | Y (·) = 1{Y =y} PX | Y =y (·),
y∈E

qui dépend de Y et est appelée loi conditionnelle de X sachant Y .

50 CHAPITRE 2. ESPÉRANCE CONDITIONNELLE

On vérifie alors facilement que, pour toute fonction g positive ou telle que g(X, Y ) est intégrable,
Z
E(g(X, Y ) | Y ) = g(x, Y )dPX | Y (x)
R
d’où, en prenant l’espérance, la formule de désintégration
Z Z
E(g(X, Y )) = E(E(g(X, Y ) | Y )) = g(x, y)dPX | Y =y (x) dPY (y).

Signalons enfin que le cas particulier où Y et X sont toutes deux discrètes est particulièrement
simple. La loi de X sachant Y = y est alors donnée par les valeurs
P((X, Y ) = (x, y))
P(X = x | Y = y) = ,
P(Y = y)
et on a, pour toute fonction g positive, ou telle que g(X, Y ) est intégrable,
X P((X, Y ) = (x, y))
E(g(X, Y ) | Y = y) = g(x, y) . (2.1)
x
P(Y = y)

Exemple 2.14. Tirages sans remise. Soit un entier N ≥ 2. On considère une v.a. W = (X, Y ) de
loi uniforme dans l’ensemble des couples d’entiers distincts entre 1 et N :
AN 2
2 = {(k, l) ∈ {1, . . . , N } | k ̸= l}.

Pour tout (k, l) ∈ AN

2 , on a
1 1
P(X = k, Y = l) = P(W = (k, l)) = N
=
Card A2 N (N − 1)
donc, pour 1 ≤ k ≤ N ,
N
X X 1 1
P(X = k) = P(X = k, Y = l) = =
N (N − 1) N
l=1 l̸=k

et, pour tout l ̸= k dans {1, . . . , N },

P(X = k, Y = l) 1
P(Y = l | X = k) = = .
P(X = k) N −1
Autrement dit, la loi de X est uniforme dans {1, . . . , N } et pour k = 1, . . . , N , la loi de Y sachant
{X = k} est uniforme dans {1, . . . , N }\{k} : la loi de Y sachant X est uniforme dans {1, . . . , N }\{X}.

2.4 Cas des lois à densité. Loi conditionnelle sachant Y

Un second cas important où une formule explicite peut être donnée pour E(g(X, Y ) | Y ) est le cas
où le couple (X, Y ), à valeurs dans R2 , admet une densité.
Rappelons que, si (X, Y ) a pour densité f(X,Y ) sur R2 , alors X et Y ont des densités fX et fY
données par Z Z
fX (x) = f(X,Y ) (x, y)dy et fY (y) = f(X,Y ) (x, y)dx.

Proposition 2.15. Soient X et Y deux v.a. réelles telles que le couple (X, Y ) ait une densité f(X,Y )
sur R2 : dP(X,Y ) (x, y) = f(X,Y ) (x, y)dxdy. Alors, pour toute fonction g positive ou telle que g(X, Y )
est intégrable,
Z
E(g(X, Y ) | Y ) = ψ(Y ) p.s., où ψ(y) = g(x, y)fX | Y =y (x)dx,
R
avec
f(X,Y ) (x, y)
fX | Y =y (x) = .
fY (y)
La fonction fX | Y =y est appelée la densité conditionnelle de X sachant Y = y.
2.5. PROPRIÉTÉ DE MARKOV FORTE ET SES APPLICATIONS 51

Signalons que, p.s., fY (Y ) > 0, car la probabilité P(fY (Y ) = 0) est l’intégrale de f sur l’ensemble
{y ∈ R | fY (y) = 0}, donc est nulle. Cela justifie qu’il n’est pas nécessaire de définir ϕ(y), et donc
fX | Y =y , lorsque fY (y) = 0.
Ce résultat se généralise immédiatement au cas où X et Y sont à valeurs dans Rm et Rn .

Preuve : Vérifions la relation (ii’). Pour toute fonction mesurable h : R → R+ ,

f(X,Y ) (x, y)
Z Z Z
E[g(X, Y )h(Y )] = g(x, y)h(y)f(X,Y ) (x, y)dx dy = h(y)fY (y) g(x, y) dx dy
R2 fY (y)
ZR R

= ψ(y)h(y)fY (y)dy = E[ψ(Y )h(Y )],

(par la remarque précédente, la première intégrale peut se ramener, sans changer sa valeur, au domaine
R × {fY (·) > 0}, ce qui rend possible la division par fY (y)). C’est la relation attendue. 2

Notons que la formule peut se réécrire, avec l’écriture abusive déjà introduite, sous la forme pratique
suivante, à rapprocher de (2.1) :
Z
E(g(X, Y ) | Y = y) = g(x, y)fX | Y =y (x)dx.

Pour y ∈ R, la loi µy de densité fX | Y =y est appelée loi conditionnelle de X sachant Y = y. On a

en effet en particulier, pour toute fonction mesurable φ positive ou telle que φ(X) est intégrable,
Z
E(φ(X) | Y = y) = φ(x)fX | Y =y (x)dx.

La loi (aléatoire) µY est appelée loi conditionnelle de X sachant Y .

En intégrant la formule de la proposition, on obtient la formule de désintégration :
Z Z
E(g(X, Y )) = E(E(g(X, Y )|Y )) = g(x, y)fX | Y =y (x)dx fY (y)dy.

2.5 Propriété de Markov forte et ses applications

Signalons d’abord que l’espérance conditionnelle permet de donner une nouvelle expression pour
la propriété de Markov. Nous reprenons pour cela les notations du chapitre 1.
Soit (Xn , n ∈ N) une chaı̂ne de Markov sur E. On note Fn = σ(X0 , X1 , . . . , Xn ) la tribu engendrée
par (X0 , X1 , . . . , Xn ). Le théorème suivant est une réexpression de la propriété de Markov simple (sous
la forme de la Proposition 1.20) en terme d’espérance conditionnelle :
Théorème 2.16 (Propriété de Markov simple). Pour toute fonction mesurable bornée ou positive
f : E N → R, et pour toute loi initiale µ, on a, pour tout n ≥ 0,

Eµ f (Xn , Xn+1 , . . .) Fn = EXn f (X0 , X1 , . . .) .

Notons que, pour lever toute ambiguı̈té, le terme de droite devrait, comme dans le Chapitre 1,
s’écrire F (Xn ) avec, pour tout x ∈ E, F (x) = Ex (f (X0 , X1 , . . .)).

2.5.1 Temps d’arrêt et propriété de Markov forte

Définition 2.17. Une filtration (à temps discret) est une suite croissante (Fn )n∈N , de sous-tribus
de F.
Un temps d’arrêt de cette filtration est une variable aléatoire τ : Ω → N ∪ {+∞} telle que

pour tout n ∈ N, {τ ≤ n} ∈ Fn .

La tribu Fτ du passé avant τ est

Fτ = A ∈ F pour tout n ∈ N, A ∩ {τ ≤ n} ∈ Fn .
52 CHAPITRE 2. ESPÉRANCE CONDITIONNELLE

Lemme 2.18. Une variable aléatoire τ à valeurs dans N ∪ {∞} est un temps d’arrêt pour (Fn )n≥0
si, et seulement si, pour tout n ∈ N, {τ = n} ∈ Fn .

Preuve : En effet, si τ est un temps d’arrêt, {τ = n} = {τ ≤ n}\{τ ≤ n−1} ∈ Fn (car {τ ≤ n} ∈ Fn ,

{τ ≤ n − 1} ∈ Fn−1 ⊂ Fn etSFn est une tribu). Et si la propriété du lemme est vérifiée, alors pour
tout n ∈ N on a {τ ≤ n} = k≤n {τ = k} ∈ Fn car {τ = k} ∈ Fk ⊂ Fn pour k ≤ n, donc τ est un
temps d’arrêt. 2

On vérifiera à titre d’exercice les propriétés suivantes (où on note a ∨ b = max(a, b) et a ∧ b =

min(a, b)) :

Proposition 2.19. a) Si τ et σ sont deux temps d’arrêts, σ ∧ τ , σ ∨ τ , σ + τ le sont aussi.

b) Soit (Xn ) un processus tel que, pour tout n, Xn est Fn mesurable (on dira que le processus X est
adapté à la filtration (F n )), alors τ et Xτ 1(τ <∞) sont Fτ -mesurables.

Le résultat suivant étend la propriété de Markov simple aux temps d’arrêt :

Théorème 2.20 (Propriété de Markov forte). Pour tout temps d’arrêt T , pour toute fonction mesu-
rable f : E N → R, bornée ou positive, pour toute loi initiale µ,

sur l’événement {T < +∞}, Eµ f (XT , XT +1 , . . .) FT = EXT f (X0 , X1 , . . .) .

Preuve : Soit H ∈ FT . On note, pour x ∈ E, F (x) = Ex f (X0 , X1 , . . .) . Comme F (XT ) est FT -
mesurable, il suffit de vérifier que

Eµ f (XT , XT +1 , . . .)1H 1(T <∞) = Eµ F (XT )1H 1(T <∞) .

On décompose le membre de gauche selon la valeur de T :

∞
X
Eµ f (XT , XT +1 , . . .)1H 1(T <∞) = Eµ f (XT , XT +1 , . . .)1H 1(T =n)
n=0
X∞

= Eµ f (Xn , Xn+1 , . . .)1H 1(T =n)
n=0
X∞

= Eµ F (Xn )1H 1(T =n) (propriété de Markov simple au temps n)
n=0
X∞

= Eµ F (XT )1H 1(T =n)
n=0

= Eµ F (XT )1H 1(T <∞) ,

d’où le théorème. 2
On signale un cas particulier très courant :

Corollaire 2.21 (Propriété de Markov forte (version simplifiée)). On note µ la loi initiale de (Xn )n≥0 .
Soit T un temps d’arrêt de la chaı̂ne de Markov (Xn )n∈N sur E tel que :
• p.s., T < ∞ ;
• il existe x ∈ E tel que, p.s., XT = x.
Alors sous Pµ , le processus (XT , XT +1 , . . .) est indépendant de la tribu FT et a la même loi que la
chaı̂ne (X0 , X1 , . . .) sous Px . En d’autre termes, pour toute fonction mesurable f : E N → R, par
exemple bornée ou positive, et pour tout événement H ∈ FT , on a

Eµ f (XT , XT +1 , . . .)1H = Pµ (H) Ex f (X0 , X1 , . . .) .
2.5. PROPRIÉTÉ DE MARKOV FORTE ET SES APPLICATIONS 53

Rappelons l’opérateur de décalage, ou shift, θ : Ω → Ω mesurable tel que, pour tout n ∈ N,

Xn ◦ θ = Xn+1 .

On pose θ0 = identité, θ1 = θ, θ2 = θ ◦ θ,. . ., θn+1 = θn ◦ θ. Avec ces notations, la propriété de Markov

forte s’écrit comme suit :

Proposition 2.22 (Autre forme de la propriété de Markov forte). Pour toute v.a. Z : Ω → R,
σ(Xk , k ∈ N)-mesurable, positive ou bornée, on a, sur {T < +∞},

Eν Z ◦ θT FT = EXT Z .

2.5.2 Application au théorème ergodique

Rappelons la notation pour le temps de (premier) retour en x ∈ E :

τx = inf{k > 0 | Xk = x}.

(r) (0)
On définit alors par récurrence (τx )r∈N par τx = 0 et pour tout entier r ≥ 0,

τx(r+1) = inf{k > τx(r) | Xk = x}

(r)
On voit que τ (1) = τx est le temps de retour en l’état x, puis τx est l’instant de r-ième retour en x
(r)
(avec τx = ∞ s’il y a moins de r retours en x). Ce sont des temps d’arrêt. Par ailleurs, on a

pour tout r ≥ 0, τx(r+1) = τx ◦ θτ (r) + τx(r) .

(r)
Si x est récurrent alors, sous Px , τx < ∞ pour tout r ≥ 0, et la propriété de Markov forte nous donne
le résultat admis lors de la preuve du théorème ergodique au chapitre précédent :

Théorème 2.23. Supposons que x est un état récurrent de la chaı̂ne de Markov (Xn )n . Alors, sous
la probabilité Px , pour toute f : E → R+ , les variables aléatoires
(r+1)
τx X−1
Zr = f (Xk ), r ∈ N,
(r)
k=τx

sont indépendantes et de même loi.

Preuve : Soit r ∈ N. Remarquons que Zr = Z0 ◦ θτ (r) . Soit W une v.a. Fτ (r) -mesurable bornée, et
x x
ψ : R → R une fonction borélienne. On a, par la définition de l’espérance conditionnelle,

Ex (W ψ(Zr )) = Ex (W Ex (ψ(Zr )|Fτ (r) )) = Ex (W Ex (ψ(Z0 ◦ θτ (r) )|Fτ (r) )).

x x x

(r)
Comme τx est un temps d’arrêt fini p.s. (du fait de la récurrence) et que Zτ (r) = x p.s., il résulte de
x
(r)
la propriété de Markov forte (version simplifiée) au temps τx que

Ex (ψ(Z0 ◦ θτ (r) )|Fτ (r) ) = Ex (ψ(Z0 )),

x x

donc finalement
Ex (W ψ(Zr )) = Ex (W )Ex (ψ(Z0 )).
Ceci montre que Zr est indépendante de la tribu Fτ (r) et de même loi que Z0 . Puisque les variables
x
aléatoires Z0 , Z1 , . . . , Zr−1 sont Fτ (r) -mesurables (à vérifier), on en déduit par récurrence sur r que les
x
v.a. Zr , r ≥ 0, sont indépendantes. 2
54 CHAPITRE 2. ESPÉRANCE CONDITIONNELLE
Chapitre 3

Martingales en temps discret

3.1 Introduction
La notion de martingale peut être approchée à partir de l’exemple suivant : considérons un jeu où
à chaque coup on gagne ou on perd 1 euro avec la probabilité 1/2. La suite des “gains algébriques”
(c’est-à-dire positifs ou négatifs) est donnée par la suite de v.a. i.i.d. (Xn , n ≥ 1) telle que, pour tout
n ≥ 1,
1
P(Xn = 1) = P(Xn = −1) = .
2
Soit a0 > 0 la fortune initiale du joueur. Sa fortune au bout de n coups (on dira aussi, “au temps n”)
sera la v.a.
Sn = a0 + X1 + . . . + Xn , avec en particulier S0 = a0 .
Ce que l’on peut espérer comme fortune au (n + 1)-ième coup compte tenu de ce que l’on a gagné les
n premiers coups est donné par

E Sn+1 X1 , . . . , Xn = a0 + X1 + . . . + Xn + E(Xn+1 )

car, Xn+1 étant indépendante de la tribu σ(X1 , . . . , Xn ), on a E(Xn+1 | X1 , . . . , Xn ) = E(Xn+1 ). Ainsi,

pour tout n,
E(Sn+1 | X1 , . . . , Xn ) = Sn .
Cette relation conditionnelle est une propriété de martingale ; elle exprime l’équité du jeu à
tout instant, quel qu’ait été son déroulement jusqu’alors.
Pour généraliser cette propriété, on étend le conditionnement ci-dessus à “toute l’information
disponible au temps n”, ce qui doit inclure les valeurs S0 , S1 , . . . , Sn , mais peut a priori être plus
vaste (dans certains cas, Sn+1 pourra dépendre d’une quantité disponible au temps n, qui n’est pas
S1 , . . . , Sn , par exemple si le joueur décide de changer de jeu et qu’il connaı̂t les valeurs passées de
l’autre jeu, qui renseignent sur le futur). On suppose ainsi donnée une suite de tribus F0 , F1 , . . .
où, pour tout n, Fn représente l’ensemble des événements connus au temps n. C’est la tribu du
passé avant le temps n (inclus). Vu cette intuition, cette suite est croissante (on l’appellera une
filtration) :
F0 ⊂ F1 ⊂ · · · ,
et, pour tout n, Sn est Fn -mesurable. Dans l’exemple précédent, le modèle ne comporte que le jeu
répété, donc au temps n, Fn = σ(X1 , . . . , Xn ). Ainsi, la propriété de martingale prend aussi la forme
suivante, qui sera prise comme définition :

E(Sn+1 | Fn ) = Sn , ∀ n ≥ 0.

Imaginons maintenant que le joueur décide de faire varier sa mise. Lors du n-ième jeu, il joue une
somme ϕn (positive) : ou bien il gagne +ϕn (si Xn = 1), ou bien il gagne −ϕn (si Xn = −1), autrement
dit son gain est Xn · ϕn . Sa fortune au temps n sera donc

Mn = a0 + X1 · ϕ1 + X2 · ϕ2 + · · · + Xn · ϕn .

55
56 CHAPITRE 3. MARTINGALES EN TEMPS DISCRET

Vu que Xn = Sn − Sn−1 , on peut aussi voir M comme une transformation sur S :

n
X
Mn = S 0 + (Sk − Sk−1 ) · ϕk ,
k=1

autrement dit on a multiplié les incréments de S par ϕ : pour tout n,

Mn+1 − Mn = (Sn+1 − Sn ) · ϕn+1 .

Notons que la mise ϕn+1 est décidée juste avant de jouer au temps n + 1, donc peut dépendre de tout
le passé avant le temps n : ici, ϕn+1 est une fonction de S0 , . . . , Sn , elle est Fn -mesurable. Ce processus
sera dit prévisible. On constate que, dans cet exemple, comme Mn+1 = Mn + ϕn+1 · Xn+1 et ϕn+1
est Fn -mesurable tandis que Xn+1 est indépendante de Fn et d’espérance nulle,

E(Mn+1 | Fn ) = Mn + ϕn+1 E(Xn+1 ) = Mn .

Ainsi, quelle que soit la stratégie de mise employée, la fortune satisfait encore la propriété de martin-
gale : le jeu reste équitable. En écrivant ci-dessus Xn+1 = Sn+1 − Sn , on aurait obtenu cette propriété
dans le cas général où S est une martingale.
Si on avait initialement considéré un jeu favorable, c’est-à-dire que E(Xn ) ≥ 0 pour tout n, alors
la suite (Sn )n aurait satisfait E(Sn+1 | Fn ) ≥ Sn . On parlera de sous-martingale. Dans ce cas, on
vérifie que M est aussi une sous-martingale.
Inversement, un jeu défavorable (E(Xn ) ≤ 0) mène à la notion de sur-martingale.
Donnons maintenant des définitions et propriétés générales.

3.2 Définitions et exemples

Définition 3.1. Soit (Ω, F, P) un espace de probabilité, et (Sn )n∈N une processus à valeurs dans un
espace (E, E).
• On appelle filtration (à temps discret) une suite croissante (Fn )n∈N , de sous-tribus de F.
• On dit que (Sn )n est un processus adapté à la filtration (Fn )n (ou (Fn )n -adapté) si pour
tout n ≥ 0, Sn est Fn -mesurable.
• La filtration naturelle du processus (Sn )n≥0 est la filtration (Fn )n∈N définie par : pour tout
n ≥ 0, Fn = σ(S0 , . . . , Sn ).

Ainsi, (Sn )n est adapté si à chaque instant l’information fournie par les valeurs passées du processus
est contenue dans l’information donnée par la filtration (Fn )n . Et la filtration naturelle du processus
est la plus petite filtration à laquelle il soit adapté.
On suppose dorénavant donnée une filtration (Fn )n∈N sur (Ω, F).

Définition 3.2. Un processus (Mn )n∈N à valeurs réelles est une (Fn )n∈N -martingale si
(i) (Mn )n∈N est adapté à la filtration (Fn )n∈N ;
(ii) pour tout n ∈ N, Mn est intégrable ;
(iii) pour tout n ∈ N, E(Mn+1 |Fn ) = Mn , p.s.

Il peut être utile d’introduire une variante de la définition, pour des variables positives, d’espérance
finie ou infinie :

Définition 3.3. Un processus (Mn )n∈N à valeurs dans [0, ∞] est une (Fn )n∈N -martingale positive
si
(i) (Mn )n∈N est adapté à la filtration (Fn )n∈N ;
(iii) pour tout n ∈ N, E(Mn+1 |Fn ) = Mn , p.s.

Remplaçant “=” par “≤” ou “≥” dans la propriété de martingale, ou obtient les notions suivantes :
3.2. DÉFINITIONS ET EXEMPLES 57

Définition 3.4. Un processus (Mn )n∈N est une (Fn )n∈N -surmartingale (resp. sous-martingale)
si
(i) (Mn )n∈N est (Fn )n∈N adapté ;
(ii) pour tout n ∈ N, Mn est intégrable ;
(iii) pour tout n ∈ N, E(Mn+1 |Fn ) ≤ Mn , (resp. ≥ Mn ) p.s.
On peut aussi définir sous-martingales et surmartingales positives, de la même façon que pour les
martingales.
On notera qu’une martingale est à la fois une surmartingale et une sous-martingale, et que si (Mn )n
est une surmartingale, alors (−Mn )n est une sous-martingale. On mémorisera qu’une sous-martingale
a une tendance à croı̂tre, tandis qu’une surmartingale à une tendance à décroı̂tre, contrairement à ce
que l’appellation pourrait suggérer.
On peut également définir des (sur-,sous-)martingales à valeurs dans Rd en demandant que chaque
composante soit une (sur-,sous-)martingale.
Il est important de bien noter que toutes ces définitions sont liées à la filtration. Lorsque la filtration
n’est pas précisée, il s’agit implicitement de la filtration naturelle du processus.
Exemple 3.5. Somme de v.a. i.i.d.. Soit (Xn )n∈N une suite de v.a. réelles i.i.d. intégrables. Pour
tout n, posons
Sn = X0 + · · · + Xn .
Pour tout n, la v.a. Sn est Fn -mesurable, pour Fn = σ(X0 , . . . , Xn ), et intégrable, de plus

E Sn+1 σ(X0 , . . . , Xn ) = X0 + · · · + Xn + m = Sn + m,

parce que Xn+1 est indépendante de σ(X0 , . . . , Xn ) et m = E(Xi ) est l’espérance commune des va-
riables Xi (elles ont la même loi). On en déduit :
• Si m = 0, (Sn )n∈N est une (Fn )n∈N -martingale ;
• Si m > 0, (Sn )n∈N est une (Fn )n∈N -sous-martingale ;
• Si m < 0, (Sn )n∈N est une (Fn )n∈N -surmartingale.
Exemple 3.6. Produit de v.a. i.i.d.. Soit (Xn )n∈N une suite de v.a. réelles i.i.d. positives. Pour
tout n, posons
Un = X0 · · · Xn .
Pour tout n, la v.a. Un est Fn -mesurable, pour Fn = σ(X0 , . . . , Xn ), et positive, de plus

E Un+1 σ(X0 , . . . , Xn ) = X0 · · · Xn m = Un m,

parce que Xn+1 est indépendante de σ(X0 , . . . , Xn ) et m = E(Xi ) est l’espérance commune des va-
riables Xi (elles ont la même loi). On en déduit (avec la positivité de X1 , . . . , Xn ) :
• Si m = 1, (Un )n∈N est une (Fn )n∈N -martingale ;
• Si m > 1, (Un )n∈N est une (Fn )n∈N -sous-martingale ;
• Si m < 1, (Un )n∈N est une (Fn )n∈N -surmartingale.
Notons que la positivité ne joue pas de rôle pour le cas martingale, et peut alors être remplacée par
une hypothèse d’intégrabilité.
Exemple 3.7. Martingale de Doob (ou de Lévy). Soit X ∈ L1 (Ω, F, P) et (Fn )n≥0 une filtration.
La suite des espérances conditionnelles

Xn = E(X | Fn ), n ∈ N,

est une martingale adaptée à (Fn , n ∈ N). Cela vient de la propriété de double conditionnement.
Exemple 3.8. Origine du nom sur/sous-martingale. Soit (Xn )n≥0 une chaı̂ne de Markov sur
un espace d’états E, de matrice de transition P , et f : E → R+ une fonction positive. On dit que
f est harmonique (resp. sous-harmonique, resp. sur-harmonique), si f = P f (resp. f ≤ P f ,
resp. f ≥ P f ) ; voir page 16 pour la définition de P f . On note (Fn )n la filtration naturelle de (Xn )n .
On vérifie simplement que
58 CHAPITRE 3. MARTINGALES EN TEMPS DISCRET

• Si f est harmonique, alors (f (Xn ))n≥0 est une (Fn )n -martingale ;

• Si f est sous-harmonique, alors (f (Xn ))n≥0 est une (Fn )n -sous-martingale ;
• Si f est sur-harmonique, alors (f (Xn ))n≥0 est une (Fn )n -sur-martingale.

3.3 Premières propriétés

Dans la suite, on se donne une filtration (Fn )n≥0 , et les martingales seront adaptées à cette filtra-
tion, même si cela n’est pas précisé.

Proposition 3.9. Soit (Mn , n ∈ N) une (Fn )-martingale (resp. surmartingale, resp. sous-martingale).
Pour tout couple (n, p) d’entiers ≥ 0 on a :

E(Mn+p | Fn ) = Mn , (resp. ≤, resp. ≥),

et
E(Mn+p ) = E(Mn ), (resp. ≤, resp. ≥).

Preuve : Il suffit en effet d’appliquer comme dans l’exemple ci-dessus le double conditionnement. 2
En particulier, on voit qu’une martingale est un processus à espérance constante.
On vérifie en outre facilement les résultats suivants, en se rappelant la notation pratique a ∨ b =
max(a, b) et a ∧ b = min(a, b), pour a, b ∈ R :

Proposition 3.10. a) Soient (Xn )n et (Yn )n deux martingales. Pour tous réels a et b, (aXn + bYn )n
est une martingale. De plus, (Xn ∨ Yn )n est une sous-martingale et (Xn ∧ Yn )n est une sur-
martingale.
b) Soient (Xn )n et (Yn )n deux sur- (resp. sous-) martingales. Pour tous réels a, b ≥ 0, (aXn + bYn )n
est encore une sur- (resp. sous-) martingale.

Proposition 3.11. Soit (Mn , n ∈ N) une (Fn )-martingale (resp. surmartingale ou sous-martingale).
On suppose que (Mn ) est aussi adaptée à une autre filtration (Gn ) avec Gn ⊂ Fn pour chaque n ≥ 0.
Alors (Mn , n ∈ N) est aussi une (Gn )-martingale (resp. surmartingale ou sous-martingale).

Preuve : On applique le double conditionnement (voir Proposition 2.11) :

E(Mn+1 | Gn ) = E E Mn+1 Fn Gn = E(Mn | Fn ) = Mn .

Proposition 3.12. Soit (Mn ) une martingale (resp. une sous-martingale) et ϕ une fonction convexe
(resp. une fonction convexe croissante) telle que, pour tout n, ϕ(Mn ) soit intégrable ou positive. Alors
(ϕ(Mn )) est une sous-martingale.

Preuve : Appliquer l’inégalité de Jensen. 2

Par cette proposition, pour toute martingale (Mn )n , (|Mn |)n et (Mn2 )n sont des sous-martingales ;
et pour toute sous-martingale (Mn )n , (eMn )n est une sous-martingale, et il en va de même de (Mn2 )n
à condition que Mn ≥ 0 pour tout n.

3.4 Stratégies : temps d’arrêt et transformée de martingale

Un exemple simple de stratégie pour un joueur consiste à cesser de jouer dès qu’une certaine
condition sera satisfaite. Pour être applicable, la vérification de cette condition au temps n ne doit
nécessairement dépendre que du passé avant le temps n. Ceci mène à la définition suivante, qui étend
celle vue pour les chaı̂nes de Markov :
3.4. STRATÉGIES : TEMPS D’ARRÊT ET TRANSFORMÉE DE MARTINGALE 59

Définition 3.13. Un temps d’arrêt de la filtration (Fn ) est une variable aléatoire τ : Ω → N∪{+∞}
telle que
pour tout n ∈ N, {τ ≤ n} ∈ Fn .
La tribu Fτ du passé avant τ est définie comme l’ensemble des A ∈ F tels que, pour tout n ∈ N,
A ∩ {τ ≤ n} ∈ Fn .

De même que pour les chaı̂nes de Markov (Lemme 2.18), il suffit de vérifier que, pour tout n ∈ N,
{τ = n} ∈ Fn , pour montrer que τ est un temps d’arrêt. Et on a encore :

Proposition 3.14. a) Si τ et σ deux temps d’arrêts, alors σ ∧ τ , σ ∨ τ , σ + τ le sont aussi.

b) Si τ est un temps d’arrêt et (Xn ) est un processus adapté à la filtration (F n ), alors τ et Xτ sont
Fτ -mesurables.

Soit τ un temps d’arrêt associé à la filtration (Fn ), et (Mn ) un processus adapté à la même
filtration. On définit le processus M arrêté au temps τ comme le processus M τ donné par :

Mnτ := Mn∧τ , n ≥ 0.

Autrement dit, pour tout ω ∈ Ω,

Mn (ω), si n ≤ τ (ω) ;
Mnτ (ω) =
Mτ (ω) (ω), sinon.

Ce processus correspond à la fortune du joueur qui opte pour la stratégie de s’arrêter de jouer au
temps τ .
En suivant l’introduction, on peut définir une notion plus générale de stratégie.

Définition 3.15. Un processus (ϕn )n≥0 est dit prévisible pour une filtration (Fn )n≥0 (ou (Fn )n -
prévisible) si pour tout n ≥ 1, ϕn est Fn−1 -mesurable, et si ϕ0 est F0 -mesurable.

Pour tout processus (Xn )n≥0 on introduit une notation pour les accroissements :

pour tout n ≥ 1, ∆Xn = Xn − Xn−1 .

On note par exemple que la propriété de martingale de (Mn )n est équivalente à E(∆Mn | Fn−1 ) = 0.

Définition 3.16. Soit M = (Mn )n≥0 une martingale (resp. sur- ou sous-martingale) associée à une
filtration (Fn )n≥0 et ϕ = (ϕn )n≥0 un processus à valeurs réelles, prévisible pour la filtration (Fn ).
On appelle transformée de la martingale (resp. sur- ou sous-martingale) M par le pro-
cessus prévisible ϕ, le processus noté ⟨ϕ, M ⟩ = (⟨ϕ, M ⟩n )n≥0 défini par ⟨ϕ, M ⟩0 = ϕ0 M0 et

∆⟨ϕ, M ⟩n = ϕn ∆Mn , n ≥ 1.

Autrement dit,
n
X
⟨ϕ, M ⟩n = ϕ0 M0 + ϕi ∆Mi .
i=1

Exemple 3.17.
• Si ϕ ≡ 1, alors ⟨ϕ, M ⟩n = Mn pour tout n.
• Dans l’introduction, Sn est, après n parties, la fortune d’un joueur qui mise une somme 1 à
chaque partie ; s’il choisit de miser plutôt ϕn lors du n-ième coup (avec ϕ0 = 1), alors sa fortune
au temps n est Mn = ⟨ϕ, S⟩n (le gain ∆Sn est multiplié par ϕn en cas de mise).
• Soit τ un temps d’arrêt associé à la filtration (Fn ). Posons

ϕn = 1(τ ≥n) , n ≥ 0.
60 CHAPITRE 3. MARTINGALES EN TEMPS DISCRET

On définit ainsi un processus prévisible ϕ = (ϕn )n≥0 puisque {τ ≥ n}c = {τ ≤ n − 1} ∈ Fn−1 .

Il vient donc pour tout n,
n
X
⟨ϕ, M ⟩n = M0 + 1(τ ≥i) ∆Mi = Mn∧τ = Mnτ , n ≥ 0.
i=1

c’est à dire que ⟨ϕ, M ⟩ = M τ . Le processus arrêté d’une martingale (resp. sur- ou sous-
martingale) est donc la transformée de la martingale (resp. sur- ou sous-) initiale par le pro-
cessus prévisible ϕ = (ϕn ) = (1(τ ≥n) )n≥0 . En particulier,
n
X
Mnτ = M0 + 1(τ ≥i) ∆Mi . (3.1)
i=1

Théorème 3.18.
• Si M est une martingale et si le processus prévisible ϕ est borné, alors le processus ⟨ϕ, M ⟩ est
aussi une martingale.
• Si M est une sur- (resp. une sous-)martingale et si le processus prévisible ϕ est borné et positif,
alors le processus ⟨ϕ, M ⟩ est aussi une sur- (resp. une sous-)martingale.
Remarque : L’hypothèse ϕ borné (i.e. il existe une constante C > 0 telle que supn |ϕn | ≤ C p.s.) n’est
faite que pour assurer l’intégrabilité de ⟨ϕ, M ⟩n pour tout n, cette hypothèse peut donc être affaiblie
dans beaucoup de cas, par exemple, dans le cas d’une sur- ou sous-martingale positive, il suffit de
supposer que ϕ est un processus positif.

Preuve : Soit M une martingale. Pour tout n dans N, ⟨ϕ, M ⟩n est Fn -mesurable et intégrable puisque
ϕn est bornée. Comme
∆⟨ϕ, M ⟩n = ϕn ∆Mn ,
et ϕn est Fn−1 -mesurable, on a
E(∆⟨ϕ, M ⟩n | Fn−1 ) = ϕn E(∆Mn | Fn−1 ) = 0,
car M est une martingale. D’où le résultat dans le cas martingale. La démonstration s’adapte sans
difficulté au cas des sur- et sous-martingales. 2

La conséquence directe suivante (qui vient de l’exemple précédent) est fondamentale :

Corollaire 3.19. Toute martingale (resp. sur- ou sous-martingale) arrêtée par un temps d’arrêt est
encore une martingale (resp. une sur- ou sous-martingale).
Ce corollaire nous montre en particulier que pour toute martingale M (resp. sur-, resp. sous-
martingale) et pour tout temps d’arrêt τ et tous n et k tels que 0 ≤ k ≤ n, on a

E Mτ ∧n Fk = Mτ ∧k , (resp. ≤ resp. ≥). (3.2)

Généralisation au cas de martingales à valeurs dans Rd . Soit Mn = (Mn1 , . . . , Mnd ) une (Fn )-
martingale à valeurs dans Rd , et ϕn = (ϕ1n , . . . , ϕdn ) un processus (Fn )-prévisible à valeurs dans Rd .
Considérons pour tout n ≥ 1 le vecteur aléatoire de Rd
∆Mn = (∆Mn1 , . . . , ∆Mnd )
ainsi que le produit scalaire
d
X
ϕn · ∆Mn = ϕin ∆Mni ,
i=1
et définissons comme précédemment le processus ⟨ϕ, M ⟩ à valeurs réelles par ⟨ϕ, M ⟩0 = ϕ0 · M0 et,
pour tout n ≥ 1, ∆⟨ϕ, M ⟩n = ϕn · ∆Mn , c’est-à-dire
n
X
⟨ϕ, M ⟩n = ϕ0 · M0 + ϕk · ∆Mk .
k=1
3.5. THÉORÈME D’ARRÊT 61

Théorème 3.20. Avec les notations précédentes ⟨ϕ, M ⟩ est une martingale à valeurs réelles.

Preuve : On a
d
X
E(∆⟨ϕ, M ⟩n |Fn−1 ) = ϕin E(∆Mni |Fn−1 ) = 0,
i=1

en se rappelant que chaque composante M i est une martingale. 2

3.5 Théorème d’arrêt

La formule (3.2) précédente va nous permettre de démontrer que la propriété de martingale (resp.
de sur- ou sous-martingale) se généralise à certains temps d’arrêt, ce qui s’appelle un “théorème
d’arrêt”.

Théorème 3.21 (Théorème d’arrêt, cas borné). Soient S et T deux temps d’arrêt et M une martingale
(resp. surmartingale, resp. sous-martingale), relativement à la même filtration (Fn ). On suppose qu’il
existe un entier N tel que
S ≤ T ≤ N, p.s.

Alors
E MT F S = MS , (resp. ≤, resp. ≥)

En particulier, E(MT ) = E(MS ), (resp. ≤, resp. ≥).

Preuve : Montrons le cas surmartingale. Comme MT = N

P PN
k=0 Mk 1(T =k) et MS = k=0 Mk 1(S=k) ,
les v.a. MT et MS sont intégrables (on a |MT | ≤ |M0 | + · · · + |MN | et de même pour MS ). Pour tout
A ∈ FS , on a

N
X
E M T 1A = E MT ∧N 1A∩(S=k)
k=0
XN
≤ E MT ∧k 1A∩(S=k) ,
k=0

d’après (3.2) et le fait que A ∩ {S = k} ∈ Fk . Mais sur l’événement {S = k} on a T ≥ k et donc

MT ∧k = Mk = MS , sur l’évènement {S = k}.

Il vient, en regroupant les sommes,

E MT 1 A ≤ E MS 1 A ,

ou de façon équivalente pour tout A ∈ FS ,

E E MT FS 1A ≤ E MS 1A ,

2

ce qui montre que E MT FS ≤ MS p.s., puisque MS est FS -mesurable.

Remarque 3.22. En particulier, avec S ≡ 0 et T un temps d’arrêt borné, on obtient E(MT ) = E(M0 )
(resp. ≤ ou ≥).
62 CHAPITRE 3. MARTINGALES EN TEMPS DISCRET

3.6 Inégalités maximales

Théorème 3.23. Pour toute sous-martingale positive X = (Xn )n∈N on a l’inégalité : pour tout λ > 0,
pour tout n ≥ 0,
λP sup Xk ≥ λ ≤ E Xn 1{sup0≤k≤n Xk ≥λ} ≤ E(Xn ).
0≤k≤n
En particulier, pour toute martingale de carré intégrable (Mn )n∈N , pour tout λ > 0, pour tout n ≥ 0,
E(M 2 )
n
P sup |Mk | ≥ λ ≤ , λ > 0.
0≤k≤n λ2
Remarque : Le fait que Xn ≥ 0 n’est utilisé que dans la majoration E(Xn 1(sup0≤k≤n Xk ≥λ) ) ≤ E(Xn ).

L’inégalité λP sup0≤k≤n Xk ≥ λ ≤ E Xn 1(sup0≤k≤n Xk ≥λ) reste vraie sans l’hypothèse de positivité
de X.
Preuve : Posons T = inf{k ≥ 0 | Xk ≥ λ} avec par convention inf ∅ = ∞. T est un temps d’arrêt
pour la filtration (Fn ). Soit n ∈ N. Remarquons que
{ sup Xk ≥ λ} = {T ≤ n}.
0≤k≤n

On peut appliquer à ce stade le Théorème 3.21 à T ∧ n ≤ n et utiliser le fait que {T ≤ n} ∈ FT ∧n

pour obtenir :
E(Xn 1{T ≤n} ) ≥ E(XT ∧n 1{T ≤n} ) = E(XT 1{T ≤n} ) ≥ λP(T ≤ n),
ce qui est exactement la première inégalité du théorème. Alternativement, on peut directement procéder
comme suit :
X n X n
E Xn 1(T ≤n) = E Xn 1(T =k) = E E(Xn Fk )1(T =k)
k=0 k=0
n
X n
X
≥ E Xk 1(T =k) ≥ λ E 1(T =k) = λP(T ≤ n).
k=0 k=0

Le cas particulier s’obtient en remarquant que (Mn2 )

est une sous-martingale positive d’après l’inégalité
de Jensen (Proposition 3.12) et que P(supk |Mk | ≥ λ) = P(supk Mk2 ≥ λ2 ). 2

Proposition 3.24 (Inégalité de Doob dans L2 ). Pour toute sous-martingale positive X on a :

pour tout n ≥ 0, E sup Xk2 ≤ 4E(Xn2 ).
0≤k≤n

En terme de norme L2 , on a

pour tout n ≥ 0, ∥Xn ∥L2 ≤ sup Xk ≤ 2∥Xn ∥L2 .

0≤k≤n L2
RZ R∞
Preuve : En remarquant que, pour toute v.a. Z positive, Z 2 = 0 2λdλ = 2 0 λ1{Z≥λ} dλ et donc
que, par le théorème de Fubini-Tonelli,
Z ∞
2
E(Z ) = 2 λP(Z ≥ λ)dλ,
0
il vient en utilisant les résultats de la démonstration précédente et en posant Zn = sup0≤k≤n Xk ,
Z ∞ Z ∞ p
E(Zn2 ) = 2 λP(Zn ≥ λ)dλ ≤ 2 E Xn 1(Zn ≥λ) dλ = 2E Xn Zn ≤ 2 E(Xn2 )E(Zn2 ),
0 0
d’après le théorème de Fubini-Tonelli puis l’inégalité de Cauchy-Schwarz. Enfin, la première égalité
entre normes L2 vient simplement du fait que
2
Xn2 ≤ sup Xn .
0≤k≤n
2
3.7. THÉORÈMES DE CONVERGENCE 63

Avec la même démonstration, on peut généraliser l’inégalité à Lp (avec ∥X∥p = (E(|X|p )1/p ) :

Proposition 3.25 (Inégalité de Doob dans Lp ). Soit p > 1. Pour toute sous-martingale positive X
on a :
p
∥Xn ∥p ≤ sup Xk ≤ ∥Xn ∥p .
0≤k≤n p p−1

3.7 Théorèmes de convergence

De même que les suites réelles monotones bornées convergent, on va voir que les surmartingales et
sous-martingales (et donc les martingales) s’avèrent converger sous diverses hypothèses de majoration
ou minoration, et en divers sens, ce qui en fait un outil théorique presque aussi utile en probabilités
que les suites réelles monotones en analyse réelle.

3.7.1 Convergence dans L2

Théorème 3.26. Soit M = (Mn )n≥0 une martingale. M converge dans L2 vers une v.a. M∞ ∈ L2
(i.e. ∥Mn − M∞ ∥2 → 0) si, et seulement si, la suite (Mn )n est bornée dans L2 , c’est-à-dire que

sup E(Mn2 ) < ∞. (3.3)

n∈N

De plus on a dans ce cas, pour tout n,

E(M∞ | Fn ) = Mn . (3.4)

Preuve : Partie “Seulement si” : (3.3) vient du fait qu’une suite convergente (dans L2 , ici) est bornée.
Partie “Si” : Puisque M est de carré intégrable, (Mn2 ) est une sous-martingale. La suite des
espérances (E(Mn2 ))n est donc croissante ; la condition (3.3) du théorème montre que cette suite
d’espérance est convergente, donc de Cauchy dans R. D’un autre côté en développant le carré on
obtient, par la propriété de martingale, pour tous n, p ≥ 0,

E (Mn+p − Mn )2 Fn = E(Mn+p 2
| Fn ) − 2Mn E(Mn+p | Fn ) + Mn2 = E(Mn+p
2
|Fn ) − Mn2 (3.5)

d’où, en prenant l’espérance,

∥Mn+p − Mn ∥22 = E(Mn+p

2
) − E(Mn2 ).

La suite de v.a. (Mn )n est donc de Cauchy dans L2 (Ω, F, P) et converge donc vers une v.a. M∞ ∈
L2 (Ω, F, P) (par complétude de L2 ).
Enfin, L’égalité (3.4) vient de la continuité de l’application de L2 dans L2 de projection X 7→
E(X | Fn ) (cette application est contractante), qui justifie de passer à la limite dans Mn = E(Ml | Fn )
lorsque l → ∞. 2

3.7.2 Convergence presque sûre

Théorème 3.27. Si la martingale M converge dans L2 vers une v.a. M∞ (∈ L2 ), alors elle converge
presque sûrement vers M∞ .

La démonstration de ce théorème est plus délicate que la précédente ; elle utilise en particulier les
inégalités maximales pour contrôler les fluctuations.

Preuve : Pour n ≥ 0, on pose Vn := supi,j≥n |Mi − Mj |. Presque sûrement, (Vn )n est une suite
décroissante positive, donc admet une limite V = limn Vn . Soit n ≥ 0. D’après l’inégalité de Doob
(appliquée à la martingale (Mn+j − Mn )j≥0 ) on a, pour tout k,

E sup |Mj+n − Mn |2 ≤ 4E (Mk+n − Mn )2 .

0≤j≤k
64 CHAPITRE 3. MARTINGALES EN TEMPS DISCRET

Pour k → ∞, on a E supj≥0 |Mj+n − Mn |2 ≤ 4E (M∞ − Mn )2 . Donc

E(Vn2 ) ≤ 2E sup |Mj+n − Mn |2 ≤ 8E (M∞ − Mn )2 = 8∥Mn − M∞ ∥22 .

j≥0

Alors E(Vn2 ) → 0 et donc E(V 2 ) = 0 par convergence dominée, d’où V = 0 p.s.. Autrement dit, p.s.,
(Mn )n est une suite de Cauchy et nécessairement M∞ est sa limite puisque (Mn )n converge dans L2
vers M∞ (donc p.s. une sous-suite de (Mn )n converge vers M∞ ). 2

Ce théorème se déduit aussi du résultat essentiel suivant, qui est beaucoup plus général. Rappelons
d’abord que, pour tout réel x on note x+ = sup(x, 0) et x− = sup(−x, 0).

Théorème 3.28 (Doob). Toute sous-martingale (Xn )n∈N telle que supn≥1 E(Xn+ ) < ∞ converge p.s.
vers une v.a. X∞ intégrable.
De même, toute surmartingale (Xn )n∈N telle que supn≥1 E(Xn− ) < ∞ converge p.s. vers une v.a. X∞
intégrable.

Immédiatement on obtient le corollaire suivant, qui est le cas d’application le plus fréquent :

Corollaire 3.29. Toute surmartingale positive converge presque sûrement.

Un peu plus généralement, toute surmartingale minorée par une v.a. intégrable (par exemple une
constante), et toute sous-martingale majorée par une v.a. intégrable, convergent presque sûrement (si
Xn ≤ Z alors Xn+ ≤ Z + ≤ |Z| donc supn E(Xn+ ) ≤ E(|Z|)). Et donc toute martingale majorée ou
minorée par une v.a. intégrable converge presque sûrement. Rappelons tout de même que la condition
du théorème est plus générale.
Vu que Xn+ ≤ |Xn |, on obtient aussi que toute sur- ou sous-martingale bornée dans L1 converge
presque sûrement. À la différence du cas L2 vu précédemment, il se peut en revanche qu’elle ne converge
pas dans L1 ; on reviendra sur ce point après la preuve du théorème 3.28.

3.7.3 Preuve du Théorème 3.28 :

Soient a < b. On définit une suite de temps d’arrêts τ0 ≤ σ1 ≤ τ1 ≤ σ2 ≤ τ2 ≤ · · · par récurrence
par : τ0 = 0 puis, pour tout k ≥ 1,

σk = inf{j > τk−1 | Xj ≤ a}, τk = inf{j > σk | Xj ≥ b}.

(n)
avec par convention inf ∅ = ∞. On pose alors νa,b = max{k ≥ 0 | τk ≤ n}, appelé le nombre de
franchissements croissants de [a, b] par (X1 , . . . , Xn ).

Lemme 3.30. Soit (Xn ) une sous-martingale. On a pour tous a < b, pour tout n ∈ N,

(n)
E((Xn − a)+ ) E(Xn+ ) + |a|
E νa,b ≤ 1 + ≤1+ .
b−a b−a
Preuve : Soit n ∈ N. On a, pour tout k ≥ 1, τk−1 ≤ σk , d’où n ∧ τk−1 ≤ n ∧ σk ≤ n, donc le
théorème d’arrêt appliqué à la sous-martingale X et aux temps d’arrêt bornés n ∧ τk−1 et n ∧ σk donne
E(Xn∧τk−1 ) ≤ E(Xn∧σk ), c’est-à-dire

E(Xn∧σk − Xn∧τk−1 ) ≥ 0.

Or, pour tout k ≥ 2, par la définition de σk et τk−1 ,


Xσk − Xτk−1 ≤ −(b − a)
 si σk ≤ n,
Xn∧σk − Xn∧τk−1 = Xn − Xτk−1 ≤ Xn − b ≤ Xn − a = (Xn − a)+ si τk−1 < n < σk ,

Xn − Xn = 0 si n ≤ τk−1 ,

3.7. THÉORÈMES DE CONVERGENCE 65

ce qui donne en intégrant, avec l’inégalité précédente,

0 ≤ E(Xn∧σk − Xn∧τk−1 ) ≤ −(b − a)P(σk ≤ n) + E((Xn − a)+ 1(τk−1 <n<σk ) ).

(n)
En remarquant que {νa,b ≥ k} = {τk ≤ n} ⊂ {σk ≤ n}, on en déduit, pour tout k ≥ 2,

(n) E((Xn − a)+ 1(τk−1 <n<σk ) )

P(νa,b ≥ k) ≤ P(σk ≤ n) ≤ .
b−a

Par ailleurs, les événements {τk−1 < n < σk }, pour k ≥ 2, sont disjoints, donc en sommant sur k ≥ 2
on obtient
X (n) E((Xn − a)+ 1F )
P(νa,b ≥ k) ≤ ,
b−a
k≥2

S (n)
où F = k≥2 {τk−1 < n < σk }. Comme νa,b est à valeurs dans N, on a alors

(n)
X (n) X (n) E((Xn − a)+ 1F ) E((Xn − a)+ )
E νa,b = P νa,b ≥ k ≤ 1 + P νa,b ≥ k ≤ 1 + ≤1+ .
b−a b−a
k≥1 k≥2

C’est la première inégalité annoncée. La seconde vient du fait que (Xn − a)+ ≤ Xn+ + |a|. 2

Preuve du Théorème 3.28 : Soit X une sous-martingale telle que supn E(Xn+ ) < ∞. Montrer que
(Xn ) converge presque sûrement dans R est équivalent à montrer que

P lim sup Xn > lim inf Xn = 0.
n→∞ n→∞

Remarquons que
[
{lim sup Xn > lim inf Xn } ⊂ {lim sup Xn > b > a > lim inf Xn },
n→∞ n→∞ n→∞ n→∞
a<b,
a, b rationnels

(n)
et {lim sup Xn > b > a > lim inf Xn } ⊂ { lim νa,b = ∞}. Mais d’après le lemme précédent, et par
n→∞ n→∞ n→∞
convergence monotone, vu l’hypothèse du théorème,

(n) (n) E(Xn+ ) + |a|

E( lim νa,b ) = lim E(νa,b ) ≤ 1 + sup < ∞,
n→∞ n→∞ n b−a

(n)
donc P( lim νa,b = ∞) = 0 et P lim sup Xn > lim inf Xn = 0. Ainsi, il existe une v.a. X∞ à valeurs
n→∞ n→∞ n→∞
dans R telle que (Xn )n converge vers X∞ p.s..
On a, pour tout n, |Xn | = Xn+ + Xn− = Xn+ + (−Xn + Xn+ ) = 2Xn+ − Xn , et E(Xn ) ≥ E(X0 ) car
(Xn )n est une sous-martingale, donc

E(|Xn |) = 2E(Xn+ ) − E(Xn ) ≤ 2E(Xn+ ) − E(X0 ).

On déduit alors du lemme de Fatou que

E(|X∞ |) = E lim |Xn | ≤ lim inf E(|Xn |) ≤ 2 sup E(Xn+ ) − E(X0 ) < ∞

n→∞ n→∞ n

d’après l’hypothèse, donc X∞ est intégrable. Notamment, X∞ est donc presque sûrement finie. 2
66 CHAPITRE 3. MARTINGALES EN TEMPS DISCRET

(∗) Uniforme intégrabilité et convergence dans L1 .

On a vu qu’une martingale (Mn )n bornée dans L2 converge dans L2 et presque sûrement vers une
v.a. M∞ ∈ L2 et qu’en particulier (du fait de la convergence L2 , qui implique la convergence L1 ) la
propriété de martingale passe à la limite sous la forme
pour tout n, E(M∞ | Fn ) = Mn .
En revanche, une martingale bornée dans L1 converge p.s. vers une v.a. M∞ ∈ L1 mais il se peut que
la convergence n’ait pas lieu dans L1 . Cela sera précisé dans le théorème 3.33, qui utilise la notion
suivante, et la Proposition 3.32 qui en donne des propriétés.
Définition 3.31. Soit I un ensemble d’indices quelconque (dénombrable ou non). Une famille de v.a.
réelles (Xi )i∈I est dite uniformément intégrable si

sup E |Xi |1{|Xi |≥λ} −→ 0.
i∈I λ→∞

Proposition 3.32.
a) Si (Xi )i∈I est uniformément intégrable, alors elle est bornée dans L1 : sup ∥Xi ∥L1 < ∞.
i∈I
b) Soit p > 1. Si (Xi )i∈I est bornée dans Lp ,
alors (Xi )i∈I est uniformément intégrable.
1

c) Pour toute v.a. Y ∈ L , et toute filtration (Fn )n , la suite (Xn )n donnée par Xn = E Y Fn est
uniformément intégrable.
d) Si Xn → X∞ p.s. et que (Xn )n≥1 est uniformément intégrable, alors Xn converge vers X∞ dans
L1 (et donc en particulier E(Xn ) → E(X∞ )).

Preuve : a) En choisissant
λ suffisamment
grand pour que sup i∈I E |Xi |1 {|Xi |≥λ} ≤ 1, on a pour
tout i ∈ I, E |Xi | ≤ λ + E |Xi |1{|Xi |≥λ} ≤ λ + 1, d’où la conclusion.
b) Par l’inégalité de Hölder,
1/q 1/q
E |Xi |1{|Xi |≥λ} ≤ ∥Xi ∥Lp P(|Xi | ≥ λ) ≤ C P(|Xi | ≥ λ) ,

où C := supi∈I ∥Xi ∥Lp < ∞, et d’après l’inégalité de Markov, P(|Xi | ≥ λ) ≤ λ1p E(|Xi |p ) ≤ C p λ−p → 0
quand λ → ∞, uniformément par rapport à i ∈ I, ce qui montre l’uniforme intégrabilité.
c) On a, pour tout M > 0, pour tout n ∈ N, par l’inégalité triangulaire (ou de Jensen) puis par la
définition de l’espérance conditionnelle, la croissance de l’espérance et enfin l’inégalité de Markov,

E |Xn |1{|Xn |≥λ} ≤ E E(|Y | | Fn )1{|Xn |≥λ} = E |Y |1{|Xn |≥λ}

= E |Y |1{|Y |≤M } 1{|Xn |≥λ} + E |Y |1{|Y |>M } 1{|Xn |≥λ}
≤ M P(|Xn | ≥ λ) + E(|Y |1{|Y |>M } )
M
≤ E(|Y |) + E(|Y |1{|Y |>M } ),
λ
en utilisant aussi le fait que E(|Xn |) ≤ E(|Y |). Ainsi, pour tout M > 0,

lim sup sup E |Xn |1{|Xn |≥λ} ≤ E(|Y |1{|Y |>M } ).
λ→∞ n

Or, par théorème de convergence dominée, E(|Y |1{|Y |>M } ) → 0 quand M → ∞, donc la limsup
précédente est majorée par 0, ce qui donne l’uniforme intégrabilité de (Xn )n .
d) Le lemme de Fatou montre que E(|X∞ |) ≤ lim inf n→∞ E(|Xn |) ≤ supn≥1 ∥Xn ∥L1 < ∞, donc
X∞ ∈ L1 et on déduit facilement l’uniforme intégrabilité
de (Xn −X∞ )n≥1 de celle de (Xn )n≥1 . D’autre
part, E(|Xn − X∞ |) = E |Xn − X∞ |1{|Xn −X∞ |≤λ} + E |Xn − X∞ |1{|Xn −X∞ |>λ} . Par convergence
dominée, on a pour tout λ > 0,

lim sup E(|Xn − X∞ |) ≤ lim sup E |Xn − X∞ |1{|Xn −X∞ |>λ} ,
n→∞ n→∞

qui tend vers 0 quand λ → ∞ grâce à l’uniforme l’intégrabilité de (Xn − X∞ )n≥1 . 2

3.7. THÉORÈMES DE CONVERGENCE 67

Théorème 3.33 (Doob). Soit (Mn )n une martingale. Les propriétés suivantes sont équivalentes :
(1) il existe une v.a. Y ∈ L1 telle que, pour tout n, Mn s’écrit Mn = E(Y |Fn ) (on dira que (Mn ) est
une martingale régulière) ;
(2) (Mn )n est uniformément intégrable ;
(3) (Mn )n converge vers M∞ dans L1 .
Et dans ce cas on a, pour tout n, Mn = E(M∞ |Fn ).
Preuve : (3) =⇒ (1) : si Mk → M∞ dans L1 , alors par continuité de E(· | Fn ) sur L1 ,

E(Mk | Fn ) −→ E(M∞ | Fn ) dans L1 ,

k→∞

or la suite ci-dessus est constante égale à Mn , d’où Mn = E(M∞ | Fn ) par unicité de la limite.
(1) =⇒ (2) est le point b) de la proposition 3.32.
(2) =⇒ (3) : On rappelle que, par le point “a)” de la Proposition 3.32, toute famille uniformément
intégrable est bornée dans L1 . D’après le théorème de convergence p.s. de martingale (Théorème 3.28),
Mn converge donc p.s. vers une certaine limite notée M∞ . Comme (Mn ) est uniformément intégrable,
la convergence p.s. entraı̂ne la convergence dans L1 par le point d) de la Proposition 3.32, donc Mn
converge dans L1 vers M∞ . 2

On peut alors étendre le théorème d’arrêt à des temps non bornés :

Théorème 3.34 (Théorème d’arrêt, cas uniformément intégrable). Soient S et T deux temps d’arrêt
finis et X une sous-martingale (resp. surmartingale, resp. martingale), relativement à la même filtra-
tion (Fn )n . On suppose que
(i) S ≤ T p.s.,
(ii) la famille (Xn∧T )n≥0 est uniformément intégrable.
Alors XT et XS sont intégrables et

E XT FS ≥ XS (resp. ≤, resp. =).

En particulier, la conclusion reste vraie en remplaçant l’hypothèse (ii) par

(ii’) la famille (Xn )n≥0 est uniformément intégrable.
Preuve : Justifions d’abord qu’il suffit de montrer le cas martingale. Supposons que X est une sous-
martingale. D’après la décomposition de Doob, on a Xn = Mn + An , avec M une (Fn )-martingale et
A· un processus prévisible et croissant et nul en 0. En appliquant le Théorème 3.21 à la martingale
M et au temps d’arrêt borné n ∧ T , on a

E(An∧T ) = E(Xn∧T ) ≤ C,

où la borne C est donnée par l’uniforme intégrabilité (ii). Donc E AT ≤ C par convergence monotone,
ce qui, au vu de l’inégalité |Mn∧T | ≤ |Xn∧T |+AT , implique que la famille (Mn∧T )n≥0 est uniformément
intégrable. Si on avait montré le théorème pour le cas martingale, alors on saurait que MT et MS sont
intégrables et que E(MT |FS ) = MS p.s., d’où XT et XS intégrables (puisque AS ≤ AT ∈ L1 ) et
E(XT |FS ) ≥ E(MT |FS ) + AS = XS p.s., ce qui conclut la preuve dans le cas sous-martingale. Le cas
surmartingale s’en déduit car −X est une sous-martingale.
Montrons donc le théorème dans le cas où X est une martingale. Comme XT = limn→∞ Xn∧T p.s.
et que (Xn∧T ) est uniformément intégrable, Xn∧T converge dans L1 vers XT et a fortiori, XT ∈ L1 .
Pour tous k ≤ n, S ∧ k ≤ T ∧ n ≤ n p.s. En appliquant le Théorème 3.21, on a

E XT ∧n | FS∧k = XS∧k .

Comme Xn∧T converge dans L1 vers XT , on a pour tout k,

E XT | FS∧k = XS∧k .
68 CHAPITRE 3. MARTINGALES EN TEMPS DISCRET

En particulier, (XS∧k )k≥0 est uniformément intégrable et a fortiori, XS ∈ L1 . Maintenant, pour

tout A ∈ FS ,

E XS 1A = lim E XS 1A∩{S≤k} = lim E XT 1A∩{S≤k} = E XT 1A ,
k→∞ k→∞

où dans la 2e égalité, on utilisé le fait que A ∩ {S ≤ k} ∈ FS∧k (vérification : pour tout j ≤ k − 1,
A ∩ {S ≤ k} ∩ {S ∧ k = j} = A ∩ {S = j} ∈ Fj et A ∩ {S ≤ k} ∩ {S ∧ k = k} = A ∩ {S = k} ∈ Fk ).
Montrons enfin que (ii’) implique (ii). Justifions que XT est intégrable. On se place (quitte à
considérer −X) dans le cas d’une sous-martingale. Notons Yn = Xn∧T . On a, pour tout n, |Yn | =
Yn+ + Yn− = Yn+ + (−Yn + Yn+ ) = 2Yn+ − Yn , et E(Yn ) ≥ E(Y0 ) car (Yn )n est une sous-martingale, donc

E(|Yn |) = 2E(Yn+ ) − E(Yn ) ≤ 2E(Yn+ ) − E(Y0 ).

Comme Yn = Xn∧T → XT p.s., on déduit alors du lemme de Fatou que

E(|XT |) = E lim |Yn | ≤ lim inf E(|Yn |) ≤ 2 sup E(Yn+ ) − E(Y0 ) < ∞

n→∞ n→∞ n

d’après l’hypothèse, donc XT est intégrable. Montrons alors (ii). Pour tout λ > 0,

E(|Xn∧T |1{|Xn∧T |>λ} ) = E(|Xn |1{|Xn |>λ} 1{n<T } ) + E(|XT |1{|XT |>λ} 1{n≥T } )
≤ E(|Xn |1{|Xn |>λ} ) + E(|XT |1{|XT |>λ} )

d’où
sup E(|Xn∧T |1{|Xn∧T |>λ} ) ≤ sup E(|Xn |1{|Xn |>λ} ) + E(|XT |1{|XT |>λ} )
n≥0 n≥0

et le membre de droite tend vers 0 quand λ → ∞, par (ii’) et par le fait que XT est intégrable
(convergence dominée). Donc le membre de gauche aussi : c’est ce qu’il nous fallait démontrer.
2
Chapitre 4

Vecteurs gaussiens

4.1 Rappels sur la loi normale unidimensionnelle

Loi normale standard
x2
La loi normale standard, notée N (0, 1), est la loi de densité x 7→ √12π e− 2 sur R. On rappelle un
Z
2 √
calcul pour vérifier que cela définit bien une densité (c.-à-d. que e−x /2 dx = 2π) :
R
Z ∞ 2 Z ∞ Z∞ 2
Z
x2 2 x2 +y 2
− y2 − x2
e− 2 dx = e dy e dx = e− 2 dx dy
−∞ 2
Z−∞ −∞
Z ∞ R 2
r2 r2 ∞
r
h i
= e− 2 r dr dθ = 2π re− 2 dr = 2π −e− 2 = 2π
R×]0,2π[ 0 r=0

à l’aide du théorème de Fubini-Tonelli (2è égalité) et d’un changement de variable en coordonnées

polaires (3è égalité).
2
Notons que tous les polynômes sont intégrables sous cette loi : R |x|n e−x /2 dx < ∞ pour tout n.
R

De plus cette loi a pour espérance 0 (par parité de sa densité) et variance 1 (faire une intégration
2
par parties en intégrant xe−x /2 et en dérivant x).

Loi normale
Considérons l’image de la loi N (0, 1) par une application affine.
Si Z ∼ N (0, 1), et m ∈ R, σ ∈ R∗ , la variable aléatoire X = m + σZ suit la loi de densité
(x−m)2
x 7→ √ 1 2 e− 2σ2 (preuve par changement de variable) et a pour espérance m et variance σ 2 . Cette
2πσ
loi ne dépend que de m et σ 2 , on la note N (m, σ 2 ), appelée loi normale de moyenne m et de
variance σ 2 (ou d’écart-type σ, avec σ > 0). On dit qu’une variable aléatoire X suit une “loi normale”
ou que X est “gaussienne” si elle suit l’une de ces lois. Il est naturel de donner un sens au cas particulier
σ = 0 : alors X = m est constante. Ainsi, on définira N (m, 0) = δm .
Proposition 4.1. Quelques propriétés des gaussiennes réelles :
a) (Stabilité par application affine) L’image d’une variable gaussienne par une application affine est
gaussienne : si X ∼ N (m, σ 2 ) alors aX + b ∼ N (am + b, a2 σ 2 ) pour tous a, b ∈ R.
1 2 2
b) Si X ∼ N (m, σ 2 ), sa fonction caractéristique est ΦX : t 7→ E[eitX ] = eitm− 2 t σ
.
c) (Stabilité par convolution, ou par somme indépendante) La somme de variables gaussiennes indépendantes
est gaussienne : si X ∼ N (mX , σX 2 ) et Y ∼ N (m , σ 2 ) sont indépendantes, alors X + Y ∼
Y Y
2
N (mX + mY , σX + σY ). 2

Preuve : a) c’est évident par la définition de N (m, σ 2 ), car la composée de deux fonctions affines est
affine.
b) On raisonne pour Z ∼ N (0, 1), le cas X ∼ N (m, σ 2 ) s’en déduit par ΦX (t) = E[eit(m+σZ) ] =
eitm ΦX (σt). On a Φ′Z (t) = E[iZeitZ ] par dérivation sous l’espérance (justifiée par E[|Z|] < ∞), puis

69
70 CHAPITRE 4. VECTEURS GAUSSIENS

2
Φ′Z (t) = −tΦZ (t) par intégration par parties, d’où ΦZ (t) = Ce−t /2 pour un certain C par résolution
d’équation différentielle, et C = 1 par ΦZ (0) = 1.
c) Cela se déduit de la fonction caractéristique : ΦX+Y (t) = E[eit(X+Y ) ] = E[eitX eitY ] = ΦX (t)ΦY (t) =
1 2 2 2
eit(mX +mY )− 2 t (σX +σY ) = ΦW (t) où W ∼ N (mX + mY , σX 2 + σ 2 ).
Y 2

Comme conséquence du calcul de la fonction caractéristique de Z ∼ N (0, 1) on a aussi le calcul

des moments de cette loi : on a
∞
t2 X (−1)n 2n
ΦZ (t) = e− 2 = t
2n n!
n=0

et aussi, par échange entre série et intégrale (à justifier par Fubini-Lebesgue par exemple)
∞ ∞ ∞
hX (iZ)k k i X ik E[Z k ] k X (−1)n E[Z 2n ] 2n
ΦZ (t) = E[eitZ ] = E t = t = t
k! k! (2n)!
k=0 k=0 n=0

(vu que E[Z 2k+1 ] = 0 par symétrie) d’où, d’ailleurs, par unicité du développement en série entière de
rayon de convergence > 0 (ici, de rayon infini),

(2n)! (2n)(2n − 1) · · · 2 · 1
E[Z 2n ] = n
= = (2n − 1)(2n − 3) · · · 3 · 1.
2 n! (2n)(2(n − 1)) · · · (2 · 2)(2 · 1)

4.2 Extension de la définition à Rd

Loi normale standard multidimensionnelle
Soit d ≥ 1. La loi normale standard sur Rd , notée N (0, Id ) (où d
 0 ∈ R et Id ∈ Md (R) est la matrice
Z1
 .. 
identité de taille d × d) est la loi du vecteur aléatoire Z =  .  où Z1 , . . . , Zd sont indépendantes et
Zd
∥z∥2
de loi N (0, 1). Elle a donc pour densité z 7→ 1
e −(z12 +···+zd2 )/2 = 1
e− 2 .
(2π)d/2 (2π)d/2
On remarque que cette densité est radiale, donc la loi N (0, Id ) est invariante par les rotations
vectorielles, et plus généralement par les applications orthogonales : si A ∈ On (R), alors AZ ∼ N (0, Id ).

Proposition 4.2 (Cas de R2 ). Si X, Y sont indépendantes et de loi N (0, 1), notons R > 0 et Θ ∈
[0, 2π[ les coordonnées polaires de (X, Y ). Alors
• R et Θ sont indépendantes,
• Θ suit la loi uniforme sur [0, 2π], et
r2
• R a pour fonction de répartition FR (t) = P(R ≤ t) = 1 − e− 2 pour t ≥ 0.
En particulier, on en déduit la méthode√ loi N (0, 1) : si U, V sont indépendantes
polaire de simulation de la √
et de loi uniforme sur [0, 1], alors X = −2 ln U cos(2πV ) et Y = −2 ln U sin(2πV ) sont indépendantes,
de loi N (0, 1).

On calcule immédiatement la fonction caractéristique :

∥t∥2
pour t = (t1 , . . . , td ) ∈ Rd , ΦZ (t) = E[ei⟨t, Z⟩ ] = ΦZ1 (t1 ) · · · ΦZd (td ) = e− 2 .

Loi normale multidimensionnelle

Considérons l’image de la loi N (0, Id ) par une application affine de Rd dans Rd . Si Z ∼ N (0, Id ),
et m ∈ Rd , A ∈ Md (R), la variable aléatoire X = m + AZ a pour fonction caractéristique
T t, Z⟩ 1 T t∥ 1 T 1 T
AAT t
ΦX (t) = eitm E[ei⟨t, AZ⟩ ] = eitm E[ei⟨A ] = eitm− 2 ∥A = eitm− 2 t = eitm− 2 t Γt
4.2. EXTENSION DE LA DÉFINITION À Rd 71

où Γ = AAT . Cette loi ne dépend que de m et de Γ, notons-là N (m, Γ). On note que m est la moyenne
de X : E[X] = m + E[AZ] = m + AE[Z] = m, et que Γ est sa matrice de covariance :

ΓX = (Cov(Xi , Xj ))1≤i,j≤d = E[(X−m)(X−m)T ] = E[AZZ T AT ] = AE[ZZ T ]AT = AId AT = AAT = Γ.

Une matrice de covariance est toujours symétrique (ΓT = Γ) et positive (pour tout t ∈ Rd , tT Γt ≥ 0).
Inversement, si Γ est une matrice symétrique positive, il existe A ∈ Md (R) (non unique) tel que
AAT = Γ : algorithmiquement, on peut calculer A (triangulaire) par la méthode de Cholesky ; d’un
T
pointde vue théorique,
2
  Γ = P DP  en base orthonormée, avec P ∈ On (R),
on peut diagonaliser
σ1 σ1
D=
 . .. , puis considérer A = P 
  ..  T
P .
.
σd2 σd
On a donc défini la loi N (m, Γ) pour tout m ∈ Rd et Γ symétrique positive. C’est la loi normale
de moyenne m et de matrice de covariance Γ. Un vecteur aléatoire X est dit “gaussien” s’il suit l’une
de ces lois.
Pour simuler la loi N (m, Γ), on calcule donc A tel que Γ = AAT , on simule Z ∼ N (0, Id ) (les
composantes de Z sont indépendantes, de loi N (0, 1)), et on pose X = m + AZ.
Proposition 4.3. Quelques propriétés des vecteurs gaussiens :
a) (Stabilité par application affine) Soit d, d′ ≥ 1 L’image d’un vecteur gaussien par une application
′ ′
affine Rd → Rd est un vecteur gaussien : si X ∼ N (m, Γ) dans Rd , et A ∈ Md′ ,d (R), b ∈ Rd ,
alors AX + b ∼ N (Am + b, AΓAT ).
b) (Stabilité par convolution, ou par somme indépendante) La somme de vecteurs gaussiens de Rd
indépendants est gaussienne : si X ∼ N (mX , ΓX ) et Y ∼ N (mY , ΓY ) sont indépendantes, alors
X + Y ∼ N (mX + mY , ΓX + ΓY ).
c) (Support) Si X ∼ N (0, Γ), alors p.s. X ∈ im Γ. Plus précisément, im Γ est le support de X.
d) (Densité) Si Γ est inversible, X a une densité donnée par
1 1 T Γ−1 (x−m)
x 7→ p e− 2 (x−m)
(2π)d/2 |det Γ|

Preuve : a) C’est clair par définition si A est carrée (d′ = d). Mais le calcul de ΦX précédent
′
fonctionne aussi si A est rectangulaire et montre que l’on obtient un vecteur gaussien de Rd dans ce
cas. Comme la composée de deux applications affines est affine, on en déduit a). Vérifions la covariance :
de façon générale, la matrice de covariance de AX est

ΓAX = E[(AX − E[AX])(AX − E[AX])T ] = E[A(X − E[X])(X − E[X])T AT ] = AΓX AT .

b) Cela s’obtient par les fonctions caractéristiques, comme en dimension 1.

c) Comme X = AZ, et Z a pour support Rd , le support de X est l’image de A. Il reste à voir que
im A = im Γ. D’une part, Γ = AAT donc im Γ ⊂ im A. D’autre part, si x ∈ ker Γ alors AAT x = 0, d’où
0 = xT AAT x = ∥AT x∥2 et donc AT x = 0, c’est-à-dire x ∈ ker AT , ce qui montre que ker Γ ⊂ ker AT
d’où par la formule du rang dim im Γ = d − dim ker Γ ≥ d − dim ker AT = dim im AT = dim im A. Par
inclusion et égalité des dimensions on a donc im Γ = im A. R
d) s’obtient par changement de variable x = Az dans le calcul de E[f (X)] = E[f (m + AZ)] = · · ·
pour toute fonction f mesurable positive. 2

Proposition 4.4. Un vecteur aléatoire X est gaussien si, et seulement si toutes les combinaisons
linéaires de ses composantes sont gaussiennes.
Preuve : Une combinaison linéaire des composantes est une application linéaire Rd → R, donc si X
est gaussien alors les combinaisons linéaires de ses composantes sont gaussiennes.
Inversement, si la propriété est vraie pour X, alors pour tout t ∈ Rd la variable ⟨t, X⟩ = t1 X1 +
· · · + td Xd est gaussienne, de moyenne ⟨t, m⟩ (où m = E[X]) et de variance

E[⟨t, X − m⟩2 ] = E[tT (X − m)(X − m)T t] = tT ΓX t

72 CHAPITRE 4. VECTEURS GAUSSIENS

(où ΓX est la matrice de covariance de X) donc la fonction caractéristique de X en t vaut E[ei⟨t, X⟩ ] =

1 T
Φ⟨t, X⟩ (1) = ei⟨t, m⟩− 2 t ΓX t d’après le cas unidimensionnel, ce qui est la fonction caractéristique de
N (mX , ΓX ) ; ceci est donc la loi de X. 2

On dira plus généralement qu’une famille infinie (Xi )i∈I de variables aléatoires réelles est un
processus gaussien si toute sous-famille finie (Xi )i∈J (J ⊂ I) est un vecteur gaussien. Par la
proposition précédente, on conclut que (Xi )i∈I un processus gaussien si, et seulement si toutes les
combinaisons linéaires de ses composantes sont gaussiennes.

4.3 Indépendance et conditionnement

   
X1 Y1
 ..   .. 
Proposition 4.5. Soit X =  .  et Y =  .  deux vecteurs gaussiens (dans Rk et Rl ).
Xk Yl

X
a) On suppose X et Y indépendants. Alors W = est un vecteur gaussien de Rk+l , de matrice
Y

ΓX 0
de covariance donnée, par blocs, par ΓW = .
0 ΓY

X
b) Inversement, on suppose que Cov(Xi , Yj ) = 0 pour 1 ≤ i ≤ k, 1 ≤ j ≤ l, et que est un
Y
vecteur gaussien de Rk+l . Alors X et Y sont indépendants.

X 0
Preuve : a) On note que W = + est la somme de deux vecteurs gaussiens indépendants
0 Y
(images de X et Y par des applications linéaires), donc est gaussien. La matrice de covariance vient
uniquement du fait que, comme Xi et Yj sont indépendantes,
Cov(Xi , Yj ) = 0, pour tous i, j.
X
b) Cela vient directement de a), car la loi de est donnée par sa matrice de covariance et sa
Y

X
moyenne, et l’hypothèse garantit que a même moyenne et matrice de covariance que dans le cas
Y
a), donc même loi que sous l’hypothèse a), en particulier X et Y sont indépendantes. 2

On en déduit un calcul des espérances et loi conditionelles au sein de vecteurs gaussiens.

X
Proposition 4.6. Soit un vecteur gaussien centré (c’est-à-dire d’espérance nulle), avec X ∈ R
Y
et Y ∈ Rl . Alors E[X | Y ] est la projection orthogonale dans L2 (Ω, F, P) de X sur Vect(Y1 , . . . , Yl ).
Si le vecteur n’est pas centré, alors E[X | Y ] est la projection orthogonale de X sur Vect(1, Y1 , . . . , Yl ).
Dans les deux cas, X − E[X | Y ] est indépendant de Y1 , . . . , Yl .
; On rappelle qu’en général, E[X | Y ] est la fonction mesurable de Y la plus proche de X au sens
de la norme L2 . Ce résultat énonce qu’il suffit de considérer les combinaisons affines de Y1 , . . . , Yl .
Le cas où X, Y ne sont pas centrés vient du cas centré : on l’applique à X − E[X] et Y − E[Y ] (on
note que σ(Y ) = σ(Y − E[Y ])) : il existe α1 , . . . , αl ∈ R tels que
h i
E[X | Y ] = E[X] + E X − E[X] Y − E[Y ] = E[X] + α1 (Y1 − E[Y1 ]) + · · · + αl (Yl − E[Yl ])
= a + α1 Y1 + · · · + αl Yl

où a se détermine grâce à l’espérance (elle vaut E[X]), et on peut déterminer α1 , . . . , αl grâce aux
covariances : pour tout i,

0 = Cov(E[X | Y ] − X, Yi ) = Cov(α1 Y1 + · · · + αl Yl − X, Yi ) = · · ·
4.4. LOIS NORMALES ET LIMITES 73

Preuve : On considère le cas centré. Notons X la projection orthogonale de X sur Vect(Y1 , . .

e . , Y
l)

e Le vecteur X − X est un vecteur gaussien (c’est l’image de X

e
et vérifions que E[X | Y ] = X.
Y Y
par une application linéaire) et, pour i = 1, . . . , n,

Cov(X − X,
e Yi ) = E[(X − X)Y
e i ] = ⟨X − X,
e Yi ⟩L2 = 0

par définition de la projection orthogonale. Par la propriété précédente (point b)), on en déduit que
X −X e et Y sont indépendants. En particulier, on calcule alors

E[X | Y ] = E[X
e + (X − X)
e |Y ] = X
e + E[X − X]
e = X,
e

e est une fonction (linéaire) de Y1 , . . . , Yl et que X − X

en utilisant le fait que X e est indépendant de Y .
2

Plus précisément, on a :

X
Proposition 4.7. Soit un vecteur gaussien, avec X ∈ R et Y ∈ Rl . Alors la loi conditionnelle
Y

de X sachant Y est la loi N E[X | Y ], Var(X − E[X | Y ]) .

On remarquera que la variance est déterministe. En pratique, on calcule E[X | Y ] = a + α1 Y1 +

· · · + αl Yl par la proposition précédente, puis on calcule la variance de X − α1 Y1 − · · · − αl Yl .

Preuve : Quitte à remplacer X par X − E[X], on peut supposer X centré. En poursuivant la preuve
précédente, on constate que
X = E[X | Y ] + (X − E[X | Y ]),
avec E[X | Y ] qui est σ(Y )-mesurable, et X −E[X | Y ] qui est indépendante de Y , et de loi N (0, Var(X −
E[X | Y ])) (car c’est une variable gaussienne). La proposition en résulte directement : formellement, si
on pose X e = E[X | Y ] = h(Y ) et Xb = X − X,e alors X b est indépendante de Y et de loi N (0, Var(X −
E[X | Y ])) donc pour toute fonction mesurable f : R → R+ , par la proposition 2.10,

E[f (X) | Y ] = E[f (h(Y ) + X)

b | Y ] = g(Y ), où g(y) = E[f (h(y) + X))]b = E[f (Xy )],

avec Xy une variable aléatoire de loi N h(y), Var(X −E[X | Y ]) . C’est précisément le sens de l’énoncé.
2
   
" X1 # E[X1 | Y ]
NB. Ces propriétés s’étendent au cas où X est dans Rk : E  ...  Y =  ..
 donc
   
.
Xk E[Xk | Y ]
chaque composante se calcule par projection sur Vect(Y1 , . . . , Yl ), puis X − E[X | Y ] est indépendant
de Y à nouveau, de loi N (0, ΓX−E[X | Y ] ), donc la loi de X sachant Y est la loi N (E[X | Y ], ΓX−E[X | Y ] ).

4.4 Lois normales et limites

Proposition 4.8. Soit (Xn )n≥0 une suite de vecteurs gaussiens de Rd , qui converge en loi. Alors la
limite est un vecteur gaussien.

Preuve : Dans le cas d = 1 : notons, pour tout n, mn = E[Xn ] et σn2 = Var(Xn ). Notons aussi
1 2 2
X une limite. Alors pour tout t ∈ R, ΦXn (t) = eitmn − 2 t σn → ΦX (t). En prenant le module, on a
1 2 2
e− 2 t σn → |ΦX (t)|, et comme ΦX (0) = 1 on peut choisir t tel que ΦX (t) ̸= 0, d’où la convergence de
σn2 vers une limite positive ou nulle σ 2 en prenant le logarithme. Pour les espérances, on constate que
si une sous-suite mφ(n) converge vers une limite µ ∈ R, alors par passage à la limite on a, pour tout
1 2 2
t ∈ R, ΦX (t) = eitµ− 2 t σ
donc X est gaussienne. Il suffit par conséquent de montrer que l’on n’a pas
74 CHAPITRE 4. VECTEURS GAUSSIENS

|mn | → +∞. Supposons par exemple que, quitte à extraire une sous-suite, mn → +∞. Alors, pour
tout réel x, pour tout n assez grand, mn > x, et donc
1
FXn (x) = P(Xn ≤ x) ≤ P(Xn ≤ mn ) =
2
par symétrie de la gaussienne, si bien que la limite de la suite des fonctions de répartition de Xn (en les
points de continuité de FX ) ne peut pas être une fonction de répartition (elle doit avoir pour limite 1
en +∞), en contradiction avec la convergence en loi.
Dans le cas d ≥ 2 : si Xn → X en loi, alors pour tout t ∈ Rd , ⟨t, Xn ⟩ → ⟨t, X⟩ en loi (par
continuité), et ces variables sont gaussiennes, donc le cas d = 1 montre que ⟨t, X⟩ est gaussienne :
toute combinaison linéaire des composantes de X est gaussienne, donc X est une vecteur gaussien. 2

Théorème 4.9 (Théorème Central Limite multidimensionnel). Soit X1 , X2 , . . . une suite de vec-
teurs aléatoires indépendants et de même loi, à valeurs dans Rd , de carré intégrable. On note m leur
espérance et Γ leur matrice de covariance communes. Alors
√ X1 + · · · + Xn (loi)
n − m −→ N (0, Γ).
n n→∞

Preuve : En notant (Wn )n la suite ci-dessus, il faut montrer que, pour tout t ∈ Rd ,
1 T
ΦWn (t) = E[ei⟨t, Wn ⟩ ] → e− 2 t Γt
,

mais
√ ⟨t, X1 ⟩ + · · · + ⟨t, Xn ⟩
⟨t, Wn ⟩ = n − ⟨t, m⟩ ,
n
et les variables ⟨t, Xi ⟩ sont indépendantes, de même loi d’espérance ⟨t, m⟩ et de variance tT Γt donc
la convergence ci-dessus vient du TCL unidimensionnel. 2
Chapitre 5

Introduction au mouvement brownien

L’objectif de ce chapitre est d’introduire un processus en temps continu (Bt )t∈[0,∞[ , appelé mou-
vement brownien.
Ce processus fut initialement introduit (en 1827 par Brown, puis plus formellement en 1901 par
Bachelier puis 1905 par Einstein) pour décrire le mouvement d’une particule de pollen soumise à des
chocs par de petites particules environnantes, puis utilisé dans des modèles financiers. Il s’interprète
en effet comme une limite de marches aléatoires dont les intervalles de temps entre les sauts sont de
plus en plus courts, en normalisant l’amplitude des sauts de façon appropriée.
Mathématiquement, le mouvement brownien est un objet central en probabilités, dont le rôle parmi
les processus aléatoires peut se rapprocher de celui de la gaussienne parmi les distribution de proba-
bilités. C’est notamment l’unique processus continu, à accroissements indépendants et stationnaires :
• presque sûrement, la trajectoire (aléatoire) t 7→ Bt est continue ;
• pour tout h > 0, pour tous s, t > 0, les accroissements Bt+h − Bt et Bs+h − Bs sont de même
loi, et indépendants si s + h < t.
Ce chapitre s’appuie sur tous les précédents : nous allons voir que le mouvement brownien est un
processus de Markov, d’une martingale et d’un processus gaussien, et étudier quelques-unes
de ses propriétés.

5.1 Définition
5.1.1 Motivation : limite d’échelle de marches aléatoires
Soit X1 , X2 , . . . une suite de variables aléatoires, indépendantes et de même loi de carré intégrable,
centrée (E(Xi ) = 0) et réduite (Var(Xi ) = 1). Par exemple, Xi = ±1, de façon symétrique, ou
Xi ∼ N (0, 1).
Le processus (Sn )n≥0 défini par
pour tout n ≥ 0, Sn = X1 + · · · + Xn
(avec S0 = 0) est appelé une marche aléatoire (c’est une chaı̂ne de Markov au sens du chapitre 1
quand les Xi sont discrètes).
On peut voir ce processus comme indexé par les temps réels en le choisissant constant par morceaux
entre deux sauts : ce processus peut se noter (S⌊t⌋ )t∈[0,∞[ , où ⌊t⌋ est la partie entière de t. On pourrait
aussi le prolonger continûment et linéairement entre les valeurs entières.
4

-2

-4
0 5 10 15 20 25 30

75
76 CHAPITRE 5. INTRODUCTION AU MOUVEMENT BROWNIEN

On s’intéresse maintenant à une “limite d’échelle” de ce processus lorsqu’on accélère le temps :

l’intervalle de temps entre deux sauts est 1/N , et on souhaite faire tendre N vers l’infini. Autrement
dit, on s’intéresse au processus S (N ) = (S⌊N t⌋ )t≥0 . Ce processus prend typiquement, à un temps donné,
(N )
des valeurs de plus en grandes lorsque N augmente : ainsi, S1 = SN = X1 + · · · + XN . L’accélération
du temps nécessite donc une normalisation des valeurs prises par le processus, pour espérer obtenir
une convergence et non une explosion.

-10

-20

-30
0 50 100 150 200 250 300

SN
Par le théorème central limite, √ N
converge en loi vers la loi normale N (0, 1). Ceci suggère que la
√ (N )
bonne normalisation est 1/ N : on va étudier la suite de processus B (N ) = (Xt )t≥0 où

(N ) 1
Bt = √ S⌊N t⌋ , t ≥ 0.
N

On a alors
(N ) SN (loi)
B1 =√ −→ N (0, 1)
N N →∞
et, plus généralement, pour tout t ≥ 0,
p
(N ) S⌊N t⌋ S⌊N t⌋ ⌊N t⌋ (loi)
Bt = √ =p √ −→ N (0, t),
N ⌊N t⌋ N N →∞
√
car si Z ∼ N (0, 1) alors Z t ∼ N (0, t). On a donc une convergence ponctuelle en loi. Pour décrire
la loi de l’éventuel processus limite, il faut également décrire les lois jointes en différents temps. On
observe tout d’abord que, si 0 < s < t, alors on peut décomposer

(N ) X1 + · · · + X⌊N s⌋ X⌊N s⌋+1 + · · · + X⌊N t⌋ (N )

Bt = √ + √ = Bs(N ) + Bs,t
N N
(N ) (N ) (N )
où Bs,t = Bt − Bs , et vu l’écriture précédente on observe que

(N ) (loi) (N ) (loi)
Bs(N ) et Bs,t sont indépendants pour tout N , Bs(N ) −→ N (0, s), et Bs,t −→ N (0, t − s),
N →∞ N →∞

si bien que
(loi)
s 0

(N )
(Bs(N ) , Bs,t ) −→ N 0,
N →∞ 0 t−s
De même, pour tous 0 < t1 < · · · < tk , les accroissements entre ces temps sont indépendants et ont
une limite gaussienne :
 
t1 0 ··· 0
(N ) (N ) (N ) (loi)
 0 t2 − t1 0 
(Bt1 , Bt1 ,t2 , . . . , Btk −tk−1 ) −→ N 0,   .
 
N →∞ 0 . ..
0 0 
0 0 0 tk − tk−1
5.1. DÉFINITION 77

Le mouvement brownien (Bt )t≥0 va être défini comme un processus “limite” de B (N ) : tel que,
pour tous 0 < t1 < · · · < tk ,
 
t1 0 ··· 0
 0 t2 − t1 0 
(Bt1 , Bt2 − Bt1 , . . . , Btk − Btk−1 ) ∼ N 0,   .
 
..
0 0 . 0 
0 0 0 tk − tk−1

Il s’avère que préciser ces lois (autrement dit les lois de (Bt1 , . . . , Btk )) pour tous k ∈ N∗ et
0 < t1 < · · · < tk ne donne pas toute l’information que l’on souhaite connaı̂tre sur un processus
indexé par [0, ∞[, en raison du caractère indénombrable de cet ensemble : par exemple, l’existence
d’une limite limt→0+ Bt dépend d’une infinité non dénombrable de composantes donc ne se réduit pas
aux lois précédentes. Sans définir de notion de loi de processus (on en dira juste un mot plus loin), on
notera simplement qu’il suffira, pour étudier toutes les propriétés qui suivront, d’ajouter une condition
de continuité (point (iv) ci-dessous).

5.1.2 Définition
Définition 5.1. Un processus (Bt )t∈[0,∞[ est un mouvement brownien réel (standard) si
(i) B0 = 0 p.s. ;
(ii) pour tout k ∈ N∗ et 0 < t1 < · · · < tk , les accroissement Bt1 , Bt2 − Bt1 ,. . .,Btk − Btk−1 sont
indépendants ;
(iii) pour tous 0 < s < t, Bt − Bs suit la loi N (0, t − s) ;
(iv) p.s., la trajectoire t 7→ Bt est continue sur [0, ∞[.

Plus généralement, pour x ∈ R et σ > 0, un mouvement brownien issu de x et de diffusivité

(ou volatilité) σ 2 est un processus vérifiant (ii),(iv) et

(i’) B0 = x p.s.,
(iii’) pour tous 0 < s < t, Bt − Bs suit la loi N 0, σ 2 (t − s) .

On observe immédiatement que, si B est un mouvement brownien standard, alors (x + σBt )t≥0 est
un mouvement brownien issu de x et de diffusivité σ 2 .

Définition 5.2. Un processus B(t) t∈[0,∞[ = B1 (t), . . . , Bd (t) t∈[0,∞[ à valeurs dans Rd est un

mouvement brownien d-dimensionnel (standard) si B1 , . . . , Bd sont des mouvements browniens

réels standards indépendants.

On pourrait plus généralement définir un mouvement brownien d-dimensionnel de diffusivité D

(matrice symétrique positive) par les conditions (i),(ii),(iv) et

(iii”) pour tous 0 < s < t, Bt − Bs suit la loi N 0, (t − s)D .

Le cas standard est donc le cas D = Id .

Revenons au cas réel (on ne parlera plus du cas d-dimensionnel dans la suite). Les conditions (ii)
et (iii) montrent que (Bt1 , . . . , Btk ) est un vecteur gaussien (c’est une fonction linéaire de (Bt1 , Bt2 −
Bt1 , . . . , Btk − Btk−1 )) et qu’on a, pour tous s < t,

Cov(Bs , Bt ) = Cov(Bs , Bs + (Bt − Bs )) = Var(Bs ) + Cov(Bs , Bt − Bs ) = Var(Bs ) = s

donc, pour tous s, t > 0, Cov(Bs , Bt ) = s ∧ t. Comme la matrice de covariance caractérise la loi d’un
vecteur gaussien centré, les points (ii) et (iii) sont équivalents à

(ii+iii) (Bt )t≥0 est un processus gaussien de covariance Γ : (s, t) 7→ s ∧ t.

78 CHAPITRE 5. INTRODUCTION AU MOUVEMENT BROWNIEN

5.1.3 Construction
Nous avons motivé la définition de B comme “limite” de marches aléatoires, mais nous n’avons
pas prouvé la convergence de B (N ) comme variables aléatoires et en particulier nous n’avons pas
construit de limite. Nous avons prouvé la convergence les lois fini-dimensionnelles, c’est-à-dire des
(N ) (N )
lois de tous les vecteurs (Bt1 , . . . , Btk ), mais il faudrait une convergence en un sens plus fort pour
assurer l’existence d’un processus limite qui vérifie (i),(ii),(iii), et de toute façon on a déjà remarqué
que le travail sur ces lois fini-dimensionnelles ne peut suffire à obtenir (iv). Il reste donc à justifier
l’existence d’un mouvement brownien. On en propose une construction qui sera instructive.
On se contentera de construire (Bt )t∈[0,1] . Il resterait ensuite à en concaténer des copies indépendantes
pour obtenir le processus sur [0, ∞[.
On va définir (Bt )t∈[0,1] comme limite uniforme d’une suite de fonctions aléatoires X (0) , X (1) , . . .
continues, affines par morceaux, et telles que
(1) pour tout n, X (n) est continue, affine sur chacun des intervalles de la subdivision définie par les
points dyadiques
nk o
n
Dn = 0 ≤ k ≤ 2 ;
2n
(n)
(2) pour tout n, le vecteur (Xt )t∈Dn a la loi attendue, ce qui équivaut à :
(n) (n) (n)
X0 = 0, et X k+1 − X k k=0,...,N −1
sont indépendants et de loi N (0, 2−n );
2n 2n

(3) pour tout n, X (n+1) coı̈ncide avec X (n) sur Dn : pour k = 0, . . . , 2n , X (n+1) ( 2kn ) = X (n) ( 2kn ).
Pour cela on peut construire X (0) , X (1) , . . . par récurrence : il suffit, pour tout n, de se donner des
valeurs de X (n+1) sur Dn+1 \ Dn qui assurent le point (2), les valeurs de X (n+1) sur Dn étant celles
de X (n) vu (3), et les valeurs intermédiaires se déduisant par interpolation linéaire vu (1).
(0)
On commence par définir X (0) par Xt = tZ où Z ∼ N (0, 1). En effet D0 = {0, 1}.
Puis, pour n ∈ N donné, supposons X (n) construit, vérifiant (1) et (2). On définit donc X (n+1) sur
(n+1)
Dn par les valeurs de X (n) (cf. (3)), et il reste à le définir sur Dn+1 \Dn . Pour que X|Dn+1 ait la loi vou-
(n+1)
lue, il suffit que X|Dn ait la loi voulue (c’est le cas par (2) vu la récurrence) et que la loi conditionnelle
(n+1) (n+1)
de X|Dn+1 \Dn sachant X|Dn soit celle voulue. Déterminons donc cette loi conditionnelle.
Pour simplifier les notations, on écrit ici (Bt )t∈Dn+1 pour désigner un vecteur ayant la loi voulue
(autrement dit un vecteur gaussien de covariance Cov(Bs , Bt ) = s ∧ t pour s, t ∈ Dn+1 , ou de façon
équivalente B0 = 0 et les accroissement B(k+1)/2n+1 −Bk/2n+1 sont indépendants et de loi N (0, 2−(n+1) ).
Comme c’est un vecteur gaussien, on sait (chapitre précédent) que la loi de (Bt )t∈Dn+1 \Dn sachant
(Bt )t∈Dn est la loi

N E(X | Y ), Var(X − E(X | Y )) , où X = (Bt )t∈Dn+1 \Dn et Y = (Bt )t∈Dn ,

où ici “Var” désigne la matrice de covariance. On calcule l’espérance conditionnelle par composante :
pour 0 ≤ k < 2N , on a

B 2k+1 = B 2k + B 2k+1 − B 2k = B kn + B 2k+1 − B 2k
2n+1 2n+1 2n+1 2n+1 2 2n+1 2n+1

donc
E B 2k+1 B|Dn = B k + E B 2k+1 − B k B k+1 −B k .
2n+1 2n 2n+1 2n 2n 2n

En effet, 2kn ∈ Dn donc le premier terme est σ(B|Dn )-mesurable. Et, pour le second terme, conditionner
par B|Dn revient à conditionner par les accroissements de B entre les points de Dn , qui sont tous
indépendants de l’accroissement dont on prend l’espérance, sauf celui de l’intervalle [ 2kn , k+1
2n ]. On
utilise ici implicitement le lemme suivant :

Lemme 5.3. Si X est F-mesurable et intégrable, et G, H sont des tribus telles que σ(F ∪ G) et H
sont indépendantes, alors E(X | G, H) = E(X | G).
5.1. DÉFINITION 79

NB. On note E(X | G, H) = E(X | σ(G ∪ H)).

Preuve : En effet, pour toute variable aléatoire bornée Z de la forme Z = GH, où G et H sont des
variables aléatoires bornées respectivement G- et H-mesurables, on a, d’après les hypothèses,

E(XZ) = E(XGH) = E(XG)E(H) = E(E(X | G)G)E(H) = E(E(X | G)GH) = E(E(X | G)Z).

On admettra que ce cas particulier suffit à conclure. Cela vient du fait que les événements A ∩ B, où
A ∈ G et B ∈ H, engendrent σ(G ∪ H). 2

Si on note Z1 et Z2 les accroissements de B sur les intervalles [ 2kn , 2k+1

2n+1
] et [ 2k+1 , k+1 ], alors
2n+1 2n
l’espérance conditionnelle qui reste à calculer s’écrit

E(Z1 | Z1 + Z2 ).

Or Z1 et Z2 sont indépendantes et de même loi. Il en résulte (vu en TD) que

Z1 + Z2 1
E(Z1 | Z1 + Z2 ) = = (B k+1 − B kn ),
2 2 2n 2

donc finalement
1 B kn + B k+1
2 2n
E(B 2k+1 | B|Dn ) = B + (B k+1
k − B k ) = .
2n+1 2n 2 2n 2n 2
L’espérance conditionnelle en un point de Dn+1 \ Dn sachant les valeurs sur Dn est donc simplement
la moyenne des valeurs aux deux points de Dn qui l’encadrent.
Calculons la matrice Σ de covariance de la loi condionnelle, c’est-à-dire la matrice du covariance
du vecteur formé par les différences entre les Bt , t = 2k+1
2n+1
et les moyennes des deux points de Dn qui
k k+1
l’encadrent (c’est-à-dire 2n et 2n ).
Remarquons que, quels que soient 0 ≤ s < t,

Bs + Bt B s+t − Bs Bt − B s+t
2 2
B s+t − = + ,
2 2 2 2
donc cette variable ne dépend que des accroissements sur [s, s+t s+t
2 ] et [ 2 , t], qui sont dans [s, t]. Par
suite, vu l’indépendance des incréments sur des intervalles disjoints, la matrice de covariance Σ est
diagonale, et les coefficients diagonaux se déduisent de

Bs + Bt B s+t − Bs Bt − B s+t 1 s+t 1 s+t t−s

Var(B s+t − ) = Var( 2 + 2
)= ( − s) + (t − )= ,
2 2 2 2 4 2 4 2 4
2−n
c’est-à-dire qu’ils sont donc tous égaux à 4 .
(n+1)
En résumé, on veut que la loi du vecteur (X 2k+1 )0≤k<2n sachant X (n) soit celle du vecteur
2n+1

X (n) (n) √
k + X k+1
2−n

2n 2n
+ Zn,k ,
2 2 0≤k≤2n −1

où les variables aléatoires (Zn,k )k,n sont indépendantes et de loi N (0, 1). Vu que X (n) est définie par
interpolation affine, on note que le vecteur précédent est aussi exactement
√
2−n

(n)
X 2k+1 + Zn,k .
2n+1 2 0≤k≤2n −1

Vu ce calcul, on obtient donc les propriétés (1),(2),(3) en appliquant la formule précédente : on se

donne une famille (Zn,k )n,k de variables indépendantes et de loi N (0, 1) et, pour tout n, on construit
X (n+1) par
• X (n+1) = X (n) sur Dn ;
80 CHAPITRE 5. INTRODUCTION AU MOUVEMENT BROWNIEN
√
(n+1) (n) 2−n
• pour k = 0, . . . , 2n − 1, X 2k+1 = X 2k+1 + 2 Zn,k
2n+1 2n+1
• X (n+1) est prolongé continûment et de façon affine entre les valeurs précédentes.
On prouve maintenant que, presque sûrement, la suite (X (n) )n converge uniformément sur [0, 1]. Pour
tout n, on constate par construction que c’est aux points de Dn+1 \Dn que la différence |X (n+1) −X (n) |
est maximale, et donc √
(n+1) (n) 2−n
∥X − X ∥∞ = max n |Zn,k |.
0≤k<2 2
On utilise le lemme suivant pour majorer l’espérance de ce terme :

Lemme 5.4. Il existe K > 0 tel que, pour tout n, si Z1 , . . . , Zn sont des variables aléatoires indépendantes
et de loi N (0, 1), alors p
E max(|Z1 |, . . . , |Zn |) ≤ K log n.
x2
Preuve : En notant ϕ : x 7→ e 4 , la fonction ϕ est convexe, croissante sur R+ , donc par l’inégalité de
Jensen on a (avec l’inégalité évidente max(a, b) ≤ a + b si a, b ≥ 0) :

ϕ E(max|Zi |) ≤ E ϕ(max|Zi |) ≤ E ϕ(|Z1 | + · · · + |Zn |) ≤ E(ϕ(|Z1 |) + · · · + ϕ(|Zn |)) = nE ϕ(|Z1 |)
i i

donc, en notant C = E(ϕ(|Z1 |)) (qui est fini, vu la densité gaussienne), on en déduit, pour tout n ≥ 2,
q p p
E(max|Zi |) = 4 log ϕ(E(max|Zi |)) ≤ 4 log(nC) ≤ K log n,
i i

pour une certaine constante K. 2

Ainsi, √ p
n n
E[ ∥X (n+1) − X (n) ∥∞ ≤ 2− 2 −1 K log(2n ) = 2− 2 −1 K n log 2.
p

En particulier, on en déduit que (avec le théorème de convergence monotone pour la première étape)
∞
X ∞
X
(n+1) (n)
E ∥X (n+1) − X (n) ∥∞ < ∞.

E ∥X − X ∥∞ =
n=0 n=0

Par suite,
∞
X
presque sûrement, ∥X (n+1) − X (n) ∥∞ < ∞.
n=0

Cette condition implique que la suite (X (n) )n converge uniformément (si une série converge absolument
dans l’espace complet C([0, 1]) alors elle converge dans cet espace, ce qui revient ici à la convergence
uniforme de (X (n) )n ) d’où la conclusion : presque sûrement, X (n) converge uniformément, quand
n → ∞, vers une fonction B qui est donc continue.
Par construction, pour tout n, pour tous 0 ≤ t1 < · · · < tk dans Dn , Bt1 , Bt2 − Bt1 , . . . , Btk − Btk−1
(n) (n) (n) (n) (n)
sont égaux à Xt1 , Xt2 − Xt1 , . . . , Xtk − Xtk−1 et donc indépendants et de lois N (0, t1 ), N (0, t2 −
t1 ), . . . , N (0, tk − tk−1 ). S
Cette propriété s’étend à tous 0 ≤ t1 < · · · < tk ≤ 1 par densité de n Dn dans [0, 1]. En effet,
cela peut se voir via la fonction caractéristique : la fonction caractéristique de (Bt1 , Bt2 − Bt1 , . . .)
est la limite de celles prises en des points dyadiques qui approchent t1 , t2 , . . . par continuité de B (et
théorème de convergence dominée), or ces fonctions caractéristiques sont explicites vu le cas dyadique,
et convergent vers celle de la loi attendue.
Cela achève de prouver que B est un mouvement brownien (sur l’intervalle de temps [0, 1]).

Remarque 5.5. On a montré ici que (X (n) )n converge presque sûrement vers un mouvement brow-
nien, dans l’espace vectoriel normé (C([0, 1]), ∥·∥∞ ). En particulier, on pourrait dire que (X (n) )n
converge en loi vers le mouvement brownien, en tant que variable aléatoire à valeurs dans cet es-
pace, muni de sa tribu des boréliens.
5.2. PROPRIÉTÉS 81

Mais a-t-on montré que la marche aléatoire B (N ) de l’introduction “converge en loi” vers le mou-
vement brownien ? Pour cela, il faudrait voir B (N ) comme une variable aléatoire à valeurs dans un
espace mesuré. On ne peut pas utiliser C([0, 1]) car B (N ) n’est pas continue. On pourrait a priori vou-
loir considérer tout l’espace R[0,1] avec sa tribu produit B(R)⊗[0,1] , et dans ce cas on aurait bien montré
la convergence en loi en montrant la convergence des lois jointes d’un nombre fini de marginales ; ce-
pendant les parties mesurables ne dépendent que d’une infinité dénombrable de composantes, ce qui
empêche de parler de limites ou de continuité et rend cet espace peu approprié. Une bonne solution est
de considérer un espace normé de fonctions ayant des discontinuités (fonctions “càd-làg” : continues
à droites, avec limites à gauche). Cela dit, notre argument ne suffit alors pas à assurer la convergence
en loi, qui requiert de s’assurer que certaines quantités mesurant la continuité de B (N ) n’explosent pas
quand N est grand.
La convergence en loi de B (N ) vers un mouvement brownien peut néanmoins être démontrée (dans
l’espace des fonctions càd-làg avec une bonne norme), et connue comme le théorème de Donsker,
ou théorème central limite fonctionnel.

5.2 Propriétés
Soit B = (Bt )t≥0 un mouvement brownien réel.

5.2.1 Régularité
On commence par des résultats qui illustrent plutôt l’irrégularité de B.
Proposition 5.6. Presque sûrement, B n’est monotone sur aucun intervalle non trivial.
Preuve : Soit un intervalle I = [a, b] avec a < b réels. Soit n ∈ N∗ . On note an,k = a + nk (b − a) pour
k = 0, . . . , n. Si B est monotone sur I, alors en particulier les n accroissements Bak+1 − Bak (où 0 ≤
k < n) sont de même signe. Or ces variables sont indépendantes (par indépendance des accroissements
sur des intervalles disjoints) et ont des signes uniformes dans {−1, +1}, donc cet événement a pour
probabilité 2−(n−1) (probabilité que n pièces tombent du même côté). Par suite,
P(B est monotone sur I) ≤ 2−(n−1) .
Ceci vaut quel que soit n, donc la probabilité est nulle. On a obtenu : pour tout intervalle I non trivial,
p.s. B n’est pas monotone sur I. Il reste à justifier que p.s., pour tout intervalle I non trivial, B n’est
pas monotone sur I. Si B était monotone sur un intervalle non trivial, alors B serait en particulier
monotone sur n’importe quel intervalle à extrêmités rationnelles inclus dans celui-ci. Ainsi,
P(B est monotone sur un intervalle non trivial)
≤ P( ∃a, b ∈ Q, 0 < a < b, tels que B est monotone sur [a, b])
X
≤ P(B est monotone sur [a, b]) = 0,
a,b∈Q, 0<a<b

en utilisant la dénombrabilité de Q et la sous-additivité de la mesure P. 2

Le résultat suivant est plus fort :

Proposition 5.7. Presque sûrement, B n’est nulle part dérivable.
Remarque 5.8. Remarquons que la fonction x 7→ x2 sin( x1 ) est continue, dérivable en 0, mais n’est
monotone sur aucun voisinage de 0. Il existe plus généralement des fonctions monotones sur aucun
intervalle qui sont dérivables en tout point (mais ce n’est pas facile à construire).
La non-dérivabilité de B en un temps t est simple à obtenir. La dérivabilité en t équivaut à l’exis-
B −B B −B
tence d’une limite de t+hh t quand h → 0+ . Or t+hh t a pour loi N (0, h1 ), qui est la loi de √1h Z où
√
Z ∼ N (0, 1), donc la probabilité que cette variable soit dans un intervalle [−A, A] est P(|Z| < A h)
et tend donc vers 0 quand h → 0+ . On en déduit qu’il n’y a presque sûrement pas convergence en t.
Par intersection dénombrables d’événements presque sûrs, B n’est presque sûrement pas dérivable en
tout point rationnel, par exemple.
82 CHAPITRE 5. INTRODUCTION AU MOUVEMENT BROWNIEN

Preuve : Si B est dérivable en un point de [0, 1], alors il existe C ∈ N et n ∈ N∗ tel que B est
C-lipschitzienne sur un ensemble [x − n3 , x + n3 ] où x ∈ [0, 1]. Il suffit donc de montrer que, pour tout
C > 0 et n ∈ N, ceci ne se produit presque sûrement pas. On note An cet événement.
Sur cet événement, il existe un entier k tel que k−1 k+2 3
n , . . . , n sont tous dans [0, 1] et à distance ≤ n
k k−1 5
du point x de la notation précédente, et on a alors | n −s|+| n −s| ≤ n (penser au cas où s est proche
de 0 pour comprendre le 5) d’où |B k − B k−1 | ≤ 5C n par inégalité triangulaire avec Bs et propriété
n n
lipschitzienne au voisinage de x ; de même pour les accroissements |B k+1 − B k | et |B k+2 − B k+1 |.
n n n n
Ainsi, An ⊂ Bn , où
5C
Bn = {∃1 ≤ k ≤ n − 2 tel que max(|B k − B k−1 |, |B k+1 − B k |, |B k+2 − B k+1 |) ≤ }.
n n n n n n n
Or
n−2
X 5C
P(Bn ) ≤ P max(|B k − B k−1 |, |B k+1 − B k |, |B k+2 − B k+1 |) ≤
n n n n n n n
k=1
3
5C
≤ nP |B1/n − B0 | ≤
n
3 3
5C 10C K
= nP |B1 | ≤ √ ≤n √ √ = √ −→ 0,
n 2π n n n→∞
en utilisant le fait que B1/n ∼ N (0, 1/n) a même loi que √1n B1 , et l’inégalité
Z a −x2 /2 Z a
e 1 2a
P(|B1 | ≤ a) = √ dx ≤ √ dx = √ .
−a 2π −a 2π 2π
Ainsi, P(An ) → 0, or on constate que la suite An est croissante, donc ceci montre que P(An ) = 0 pour
tout n. C’est ce qu’il nous fallait démontrer. 2
1
On peut en revanche prouver que B est localement Hölderien d’indice α, pour tout α < 2 : presque
sûrement, il existe C > 0 tel que, pour tous 0 < s < t < 1,
|Bt − Bs | ≤ C|t − s|α .
Cela pourrait se montrer à partir de notre construction précédente.

5.2.2 Invariances
Proposition 5.9. Soit B un mouvement brownien. Soit σ > 0, s > 0. La loi de B satisfait les
invariances suivantes :
a) (symétrie axiale) −B est un mouvement brownien.

b) (changement d’échelle) √1σ Bσt est un mouvement brownien.
t≥0
c) (propriété de Markov au temps s) (Bs+t − Bs )t≥0 est un mouvement brownien, indépendant de
Fs = σ((Bu )u≤s ).

d) (inversion du temps) tB1/t , prolongé par la valeur 0 en 0, est un mouvement brownien.
t>0
e) (retournement du temps) (Bs−t − Bs )t∈[0,s] est un mouvement brownien (sur [0, s]).
Preuve : Il faut vérifier les points (i) à (iv) dans chaque cas. Le point (i) est toujours évident.
Vérifier (ii) et (iii) revient à vérifier que le processus défini B
e est gaussien et a pour covariance
Cov(Bs , Bt ) = s ∧ t. Ce calcul est laissé en exercice. Le point (iv) est évident sauf pour d) en t = 0 ;
e e
on peut remarquer que l’existence d’une limite nulle en 0 s’exprime à l’aide des valeurs en t > 0 (et
même t ∈ Q+ par continuité sur ]0, ∞[), et utiliser l’identité en loi vérifiée sur ces valeurs avec le fait
qu’il existe un mouvement brownien (donc continu en 0). 2

Vu la continuité en 0 de B, le point d) donne alors tB1/t → 0 quand t → 0+ donc, pour u = 1/t :

Bu
Corollaire 5.10 (Loi des grands nombres pour B). Presque sûrement, −→ 0.
u u→∞
5.3. PROPRIÉTÉS DE MARKOV ET DE MARTINGALE, ET CONSÉQUENCES 83

5.3 Propriétés de Markov et de martingale, et conséquences

5.3.1 Propriété de Markov
Pour tout x ∈ R, notons Px la loi du mouvement brownien issu de x, c’est-à-dire simplement du
processus (x + Bt )t≥0 .
On a déjà énoncé : pour tout s > 0, (Bs+t − Bs )t≥0 est un mouvement brownien, indépendant de
Fs = σ((Bu )u≤s ). Ainsi, pour toute fonction f : R → R bornée (ou positive),

E0 (f (Bs+t ) | Fs ) = E0 (f (Bs + (Bs+t − Bs )) | Fs ) = g(Bs ),

en utilisant la proposition 2.10, où g(x) = E0 (f (x + Bt )) = Ex (f (Bt )). Autrement écrit,

E0 (f (Bs+t ) | Fs ) = E0 (f (Bs + (Bs+t − Bs )) | Fs ) = EBs (f (Bt )) = Pt f (Bs ),

où Z
Pt f (x) = pt (x, y)f (y)dy,

avec
1 − (y−x)2
pt (x, y) = √ e 2t (densité de N (x, t) en y).
2πt
Cette écriture est à rapprocher des formules suivantes que l’on connaı̂t pour les chaı̂nes de Markov :
X
E(f (Xk+n ) | Fk ) = EXk (f (Xn )) = P n f (Xk ) avec P n f (x) = P n (x, y)f (y).
y

L’analogue de la famille (P n )n≥0 de puissances (ou d’itérés) d’une matrice (infinie) est une famille
(Pt )t≥0 d’opérateurs s’appliquant aux fonctions mesurables bornées, qui vérifie aussi une relation de
semi-groupe :
Pt Ps f (x) = Ps+t f (x).
Cela vient de la propriété de Markov : en intégrant la relation plus haut,

Ps+t f (0) = E0 (f (Bs+t )) = E(Pt f (Bs )) = Ps (Pt f )(0),

et cela vaut pour tout x en translatant.

On peut en fait montrer (sous certaines conditions) que (Ps )s≥0 peut se voir comme la famille
des “puissances” d’un opérateur : formellement, Pt = etD pour un opérateur D, appelé générateur
infinitésimal. L’opérateur D peut s’obtenir en dérivant en 0 :

Pt f (x) − f (x) 1
Df (x) = lim = lim Ex [f (Xt )] − f (x) ,
t→0+ x t→0+ t

c’est-à-dire que
Ex [f (Xt )] = f (x) + tDf (x) + ot→0+ (t).
Pour le mouvement brownien, avec la définition de Pt ci-dessus, on obtient que D = 21 ∆, où ∆
d2
est l’opérateur laplacien (= dx 2 en dimension 1). On voit notamment que cette relation n’aura de
sens qu’appliquée à des fonctions f assez régulières : l’opérateur D n’est pas défini sur autant de
fonctions que Pt . Cette apparition du laplacien peut être mise en parallèle avec la marche aléatoire
simple symétrique sur Z : dans ce cas,

1 1 f (x + 1) + f (x − 1) − 2f (x)
Ex [f (X1 )] = f (x − 1) + f (x + 1) = f (x) + ,
2 2 2
ce qui fait apparaı̂tre une dérivée seconde discrète.
Plus généralement, on peut définir des processus de Markov, donnés par un semi-groupe (Pt )t≥0
ou par un générateur D opérant sur un sous-domaine D des fonctions mesurables bornées.
84 CHAPITRE 5. INTRODUCTION AU MOUVEMENT BROWNIEN

5.4 Propriété de martingale

Pour tout t ≥ 0, on définit Ft = σ((Bu )u∈[0,t] . Alors la famille croissante (Ft )t≥0 est appelée une
filtration.
On dira qu’un processus (Xt )t≥0 est une martingale par rapport à (Ft )t≥0 si :
(i) pour tout t ≥ 0, Xt est Ft -mesurable (X est adapté) ;
(ii) pour tout t ≥ 0, Xt est intégrable ;
(iii) pour tous 0 ≤ s ≤ t, E(Xt | Fs ) = Xs p.s..
On a les exemples suivants :

Proposition 5.11. Pour la filtration (Ft )t≥0 définie par Ft = σ((Bu )0≤u≤t ) pour tout t,
a) (Bt )t≥0 est une martingale ;
b) (Bt2 − t)t≥0 est une martingale ;
σ2

c) pour tout réel σ, exp(σBt − 2 t) t≥0 est une martingale.

Preuve : Les preuves sont similaires au cas discret. On traite a) par exemple : (i) est vérifié par
définition de la filtration, (ii) est vérifié par intégrabilité des lois gaussiennes, et (iii) vient de la
propriété de Markov pour B : pour tous 0 ≤ s < t,

E(Bt | Fs ) = E(Bs + (Bt − Bs ) | Fs ) = E(Bs | Fs ) + E(Bt − Bs | Fs )

= Bs + E(Bt − Bs ) = Bs ,

ce qui conclut la preuve que B est une martingale. 2

De nombreuses propriétés des martingales s’étendent au cas continu. Par exemple :

Proposition 5.12 (Théorème de Doob). Soit (Xt )t≥0 une martingale telle que supt≥0 E[(Xt )+ ] < ∞.
Alors presque sûrement Xt −→ X∞ où X∞ ∈ L1 .
t→+∞

Preuve : On peut définir, pour tous a < b, le nombre de franchissements croissants de [a, b] par
(Xt )t≥0 , et observer que c’est la limite croissante du nombre de franchissements par (Xt )t∈Dn (où
Dn = 2−n N), qui se majore par le lemme 3.30 vu dans le cas discret. Comme la majoration est
uniforme, on peut conclure comme dans le cas discret. 2

Notons de plus que le même résultat vaut pour des limites t → (t0 )− , ou t → (t0 )+ en tout
point : ceci montre que l’hypothèse de martingale (et l’hypothèse de Doob, au voisinage de t0 ) assure
l’existence de limites à gauche et à droite.
On a aussi :

Proposition 5.13 (Inégalité de Doob dans L2 ). Si X est une martingale continue, alors pour tout
t > 0,
E[(sup Xs )2 ] ≤ 4E[Xt2 ].
s≤t

Preuve : Soit t > 0. Notons, pour tout n, Dn = 2tn N. On constate que, pour tout n, la suite (Xs )s∈Dn
est une martingale discrète (elle est extraite de la martingale continue X). En particulier, en vertu de
l’inégalité de Doob dans L2 , h i
E max Xs2 ≤ 4E[Xt2 ].
0≤s≤t,
s∈Dn

La proposition s’en déduit par théorème de convergence monotone quand n → ∞ (la continuité de X
assure la convergence du maximum). 2

Proposition 5.14. Si (Xt )t≥0 est une martingale continue de carré intégrable, et T est un temps
d’arrêt, alors X T = (Xt∧T )t≥0 est une martingale.
5.5. APPLICATIONS DE LA PROPRIÉTÉ DE MARTINGALE 85

Ici, un temps d’arrêt est une v.a. T à valeurs dans R+ ∪ +∞ telle que, pour tout t ≥ 0,
{T ≤ t} ∈ Ft .

Preuve : Notons, pour tout n, Dn = 21n N.

En notant, pour tout n, Tn = min{t ∈ Dn | t > Tn }, la suite (Tn )n≥0 décroı̂t vers T .
Tout d’abord, Xt∧T est Ft -mesurable et intégrable. Pour la mesurabilité, on peut noter que
Xt∧T = limn Xt∧Tn , et Xt∧Tn = Xt 1{t<Tn } + XTn 1{Tn ≤t} , et tous les termes sont Ft -mesurables (pour
XTn 1{Tn ≤t} , en le décomposant comme une somme finie sur les valeurs possibles de Tn ≤ t) Pour
l’intégrabilité, on peut noter que |Xt∧T | ≤ sups≤t |Xs | et utiliser la proposition précédente.
Soit 0 ≤ s < t. On définit de même des suites (sn )n et (tn )n telles que, pour tout n, 0 ≤ s ≤ sn ≤
t ≤ tn , sn , tn ∈ Dn , et qui convergent vers s et t en décroissant. Pour tout n, par la propriété analogue
pour la martingale discrète (Xt )t≥0, t∈Dn arrêtée au temps Tn , on a

E(Xtn ∧Tn | Fsn ) = Xsn ∧Tn .

Alors, pour tout A ∈ Fs on a, pour tout n, A ∈ Fsn et donc

E(Xtn ∧Tn 1A ) = E(E(Xtn ∧Tn | Fsn )1A ) = E(Xsn ∧Tn 1A )

d’où à la limite (par théorème de convergence dominée, en dominant par supu≤t |Xu | (intégrable d’après
la proposition précédente)),
E(Xt∧T 1A ) = E(Xs∧T 1A ),
ce qui prouve la propriété de martingale : E(Xt∧T | Fs ) = Xs∧T . 2

5.5 Applications de la propriété de martingale

Soit a, b > 0. On définit le temps d’arrêt

T = inf{t ≥ 0 | Bt ∈
/ [−a, b]}.

Le temps T est fini p.s. En effet, la martingale arrêtée B T converge p.s. par le théorème de Doob,
ce qui n’est possible que si T < ∞ (en effet, les accroissements avant T sont gaussiens et donc p.s.
non nuls). En particulier on observe que B est non borné : p.s., supt>0 |Bt | = ∞.
Comme (Bt∧T )t≥0 est une martingale, on a pour tout t ≥ 0,

E(Bt∧T ) = E(B0∧T ) = 0.

De plus Bt∧T −→ BT , et |Bt∧T | ≤ max(a, b), donc on peut appliquer le théorème de convergence
t→∞
dominée pour obtenir :
E(BT ) = 0.
Or BT ne prend que −a et b pour valeurs, donc

E(BT ) = −aP(BT = −a) + bP(BT = b).

En comparant, vu que P(BT = b) = 1 − P(BT = −a), il vient

b
P(BT = −a) = .
a+b
2
Comme (Bt∧T − t ∧ T )t≥0 est une martingale, on a pour tout t ≥ 0
2
E(Bt∧T − t ∧ T ) = 0,

d’où
2
E(Bt∧T ) = E(t ∧ T ).
86 CHAPITRE 5. INTRODUCTION AU MOUVEMENT BROWNIEN

Or le terme de gauche converge vers E(BT2 ) par convergence dominée (on a |Bt∧T | ≤ max(a, b)) et le
terme de droite converge vers E(T ) par convergence monotone. Il en résulte

E(BT2 ) = E(T ).

Or le terme de gauche se calcule grâce au résultat précédent :

E(BT2 ) = a2 P(BT = a) + b2 (1 − P(BT = a))

d’où
a2 b ab2
E(T ) = + = ab.
a+b a+b
Soit a > 0. Considérons le temps d’arrêt

Ta = inf{t ≥ 0 | Bt = a}.

On a montré que p.s. Ta < ∞ ou T−a < ∞, mais on n’a pas prouvé que p.s. Ta < ∞.
σ2
Soit σ > 0. Comme Xt = eσBt − 2 t définit une martingale, (Xt∧Ta )t≥0 est aussi une martingale. En
particulier on en déduit pour tout t,
σ2
(t∧Ta )2
E(eσBt∧Ta − 2 ) = E(X0 ) = 1.
σ2
σ2 σ2
Si Ta = ∞, alors σBt − 2 t ≤ a− 2 t → −∞ quand t → +∞ ; et si Ta < ∞ alors XTa = eσa− T
2 a ,
donc dans tous les cas :
σ2
Xt∧Ta −→ eσa− T
2 a 1{Ta <∞}
t→∞

Pour tout t, Bt∧Ta ≤ a, donc vu que σ > 0 on a

|Xt∧Ta | ≤ eσa ,

ce qui permet d’appliquer le théorème de convergence dominée à Xt∧Ta :

σ2
1 = E(Xt∧Ta ) −→ E(eσa− T
2 a 1{Ta <∞} ),
t→∞

ce qui donne
σ2
E(e− T
2 a 1{Ta <∞} ) = e−σa .
Pour σ → 0, on en déduit en particulier par convergence monotone

P(Ta < ∞) = 1.

Ceci montre que le mouvement brownien est récurrent : p.s., il visite tous les réels :

lim inf Bt = −∞, lim sup Bt = +∞.

t→∞ t→∞

De plus on obtient la transformée de Laplace de Ta , qui caractérise sa loi :

σ2
E(e− T
2 a ) = e−σa .
Bibliographie

[1] P. Baldi, L. Mazliak et P. Priouret. Martingales et chaines de markov, éditions Hermann.

[2] Ph. Barbe, M. Ledoux. Probabilités, éditions EDP Sciences

Vous aimerez peut-être aussi

Martingales Et Calcul Stochastique
Pas encore d'évaluation
Martingales Et Calcul Stochastique
129 pages
Calcul Stochastique Cours - DeSS IM EVRY-Option Finance-Monique Jeanblanc-Sep 2002
Pas encore d'évaluation
Calcul Stochastique Cours - DeSS IM EVRY-Option Finance-Monique Jeanblanc-Sep 2002
131 pages
Calcul Stochastique, Bougerol
Pas encore d'évaluation
Calcul Stochastique, Bougerol
104 pages
M2 Cours
Pas encore d'évaluation
M2 Cours
84 pages
CalcSto15 16
Pas encore d'évaluation
CalcSto15 16
105 pages
STT 4700 2021
Pas encore d'évaluation
STT 4700 2021
210 pages
Martingale Prolongée en Calcul Stochastique
Pas encore d'évaluation
Martingale Prolongée en Calcul Stochastique
96 pages
Math Fi Bon
Pas encore d'évaluation
Math Fi Bon
88 pages
Calcul Stochastique
100% (1)
Calcul Stochastique
88 pages
Martingales et chaînes de Markov
Pas encore d'évaluation
Martingales et chaînes de Markov
198 pages
MAP432 Poly
100% (1)
MAP432 Poly
194 pages
Processus Stochastiques
Pas encore d'évaluation
Processus Stochastiques
62 pages
Cours et Exercices sur Processus Stochastiques
Pas encore d'évaluation
Cours et Exercices sur Processus Stochastiques
46 pages
Exercices de Calcul Stochastique Dess Im
Pas encore d'évaluation
Exercices de Calcul Stochastique Dess Im
181 pages
M2 Exo
Pas encore d'évaluation
M2 Exo
181 pages
Calcul Stochastique en Finance
Pas encore d'évaluation
Calcul Stochastique en Finance
181 pages
Processus Discrets
Pas encore d'évaluation
Processus Discrets
177 pages
Exo Calcul Stochastique Corrigés
Pas encore d'évaluation
Exo Calcul Stochastique Corrigés
152 pages
Processus Stochastiques Continus M2 Rennes
Pas encore d'évaluation
Processus Stochastiques Continus M2 Rennes
162 pages
Introduction aux processus stochastiques
Pas encore d'évaluation
Introduction aux processus stochastiques
162 pages
Processus M2
Pas encore d'évaluation
Processus M2
165 pages
LF
Pas encore d'évaluation
LF
116 pages
Calcul Stochastique Avancé
Pas encore d'évaluation
Calcul Stochastique Avancé
93 pages
Statistiques des processus stochastiques
Pas encore d'évaluation
Statistiques des processus stochastiques
80 pages
Introduction aux Processus Stochastiques
Pas encore d'évaluation
Introduction aux Processus Stochastiques
56 pages
Cours Simulation
Pas encore d'évaluation
Cours Simulation
126 pages
Processus Stochastiques Continus M2 Rennes 2
Pas encore d'évaluation
Processus Stochastiques Continus M2 Rennes 2
138 pages
Chaînes de Markov : Concepts et Applications
Pas encore d'évaluation
Chaînes de Markov : Concepts et Applications
186 pages
Probastat 82
Pas encore d'évaluation
Probastat 82
156 pages
CoursPS PDF
Pas encore d'évaluation
CoursPS PDF
61 pages
MAP432
Pas encore d'évaluation
MAP432
245 pages
CMMA
Pas encore d'évaluation
CMMA
105 pages
Intégration, Probabilités Et Processus Aléatoires
100% (1)
Intégration, Probabilités Et Processus Aléatoires
248 pages
Chaînes de Markov et Martingales
Pas encore d'évaluation
Chaînes de Markov et Martingales
216 pages
Introduction aux processus stochastiques
Pas encore d'évaluation
Introduction aux processus stochastiques
118 pages
Processus M2 PDF
Pas encore d'évaluation
Processus M2 PDF
118 pages
Processus M2
100% (1)
Processus M2
184 pages
MAT2720 Papier
Pas encore d'évaluation
MAT2720 Papier
196 pages
Processus Stochastiques Avancés
Pas encore d'évaluation
Processus Stochastiques Avancés
186 pages
Exmaster2011 Monique Jeanblanc
Pas encore d'évaluation
Exmaster2011 Monique Jeanblanc
173 pages
Classes d'équivalence de Markov
Pas encore d'évaluation
Classes d'équivalence de Markov
64 pages
Processus de Markov
Pas encore d'évaluation
Processus de Markov
67 pages
Table Des Mati' Eres
Pas encore d'évaluation
Table Des Mati' Eres
142 pages
These PG Mtps
Pas encore d'évaluation
These PG Mtps
139 pages
4M011 Poly Duquesne
Pas encore d'évaluation
4M011 Poly Duquesne
173 pages
Cours de Probabilités et Modèles Markoviens
Pas encore d'évaluation
Cours de Probabilités et Modèles Markoviens
8 pages
011 Cours
Pas encore d'évaluation
011 Cours
119 pages
Garet - Probabilités Et Modélisation Stochastique (M1 Nancy)
Pas encore d'évaluation
Garet - Probabilités Et Modélisation Stochastique (M1 Nancy)
119 pages
Gauss M2
Pas encore d'évaluation
Gauss M2
73 pages
Gauss M2
Pas encore d'évaluation
Gauss M2
73 pages
Poly M1S6 Probas PDF
Pas encore d'évaluation
Poly M1S6 Probas PDF
100 pages
Cours M2: Processus Stochastiques
Pas encore d'évaluation
Cours M2: Processus Stochastiques
79 pages
E. Pardoux 493
Pas encore d'évaluation
E. Pardoux 493
334 pages
Cours Processus Et Calcul Stochastique
Pas encore d'évaluation
Cours Processus Et Calcul Stochastique
79 pages
Procal 1
Pas encore d'évaluation
Procal 1
120 pages
Calcul Sto
Pas encore d'évaluation
Calcul Sto
105 pages
Histoire et architecture de l'Alhambra
Pas encore d'évaluation
Histoire et architecture de l'Alhambra
16 pages
Parrainage de Ruches
Pas encore d'évaluation
Parrainage de Ruches
10 pages
Bac S - Sujet de SVT - Session 2019 - Métropole: 1ère PARTIE: (8 Points)
Pas encore d'évaluation
Bac S - Sujet de SVT - Session 2019 - Métropole: 1ère PARTIE: (8 Points)
9 pages
Fiche Phonetique Francaise Complète Detaillee
Pas encore d'évaluation
Fiche Phonetique Francaise Complète Detaillee
2 pages
French Tenses
Pas encore d'évaluation
French Tenses
2 pages
Mondes Urbains
Pas encore d'évaluation
Mondes Urbains
23 pages
ABCD Est Un Carré de Côté 6cm, O Est Le Milieu de
Pas encore d'évaluation
ABCD Est Un Carré de Côté 6cm, O Est Le Milieu de
4 pages
Le Systeme Politique Desi
Pas encore d'évaluation
Le Systeme Politique Desi
15 pages
Rapport Sur Les Procedures Du Controle Fiscal
Pas encore d'évaluation
Rapport Sur Les Procedures Du Controle Fiscal
4 pages
Trombone 2
Pas encore d'évaluation
Trombone 2
2 pages
Gestion des Conflits en Entreprise
Pas encore d'évaluation
Gestion des Conflits en Entreprise
17 pages
9782402264938
Pas encore d'évaluation
9782402264938
25 pages
Schéma Colonisation
Pas encore d'évaluation
Schéma Colonisation
1 page
6 Éme
Pas encore d'évaluation
6 Éme
5 pages
Genèse du Graphisme Enfantin
Pas encore d'évaluation
Genèse du Graphisme Enfantin
5 pages
2 - Aristote
Pas encore d'évaluation
2 - Aristote
2 pages
Les Marques Du Jugement
Pas encore d'évaluation
Les Marques Du Jugement
2 pages
Bertrand Lavier, Depuis 1969
Pas encore d'évaluation
Bertrand Lavier, Depuis 1969
14 pages
Initiation A La Recherche Scientifique
Pas encore d'évaluation
Initiation A La Recherche Scientifique
16 pages
Bonnery Amidou Geo - 2
Pas encore d'évaluation
Bonnery Amidou Geo - 2
3 pages
Alexandrie, Les Fatimides Et La Mer (969-1171)
Pas encore d'évaluation
Alexandrie, Les Fatimides Et La Mer (969-1171)
44 pages
336-Article Text-1130-2-10-20220529
Pas encore d'évaluation
336-Article Text-1130-2-10-20220529
18 pages
Maladie Micrométastatique Et Maladie Résiduelle Axillaire. Exemple Du Cancer Du Sein
Pas encore d'évaluation
Maladie Micrométastatique Et Maladie Résiduelle Axillaire. Exemple Du Cancer Du Sein
5 pages
Psychologue ABA en Grand Est
Pas encore d'évaluation
Psychologue ABA en Grand Est
658 pages
Methode de Recherche Grille DAnalyse Dun Travail Scientifique
Pas encore d'évaluation
Methode de Recherche Grille DAnalyse Dun Travail Scientifique
12 pages
Zététique et autodéfense intellectuelle
Pas encore d'évaluation
Zététique et autodéfense intellectuelle
1 page
Parcours des arbres binaires de recherche
Pas encore d'évaluation
Parcours des arbres binaires de recherche
4 pages
Shéhérazade de Jean-Bernard Marlin - FE LAAC
Pas encore d'évaluation
Shéhérazade de Jean-Bernard Marlin - FE LAAC
4 pages
Le Futur Simple EXERCICES P5
Pas encore d'évaluation
Le Futur Simple EXERCICES P5
2 pages