0% ont trouvé ce document utile (0 vote)

68 vues177 pages

Processus Discrets

Transféré par

valentinclari2002

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

68 vues177 pages

Processus Discrets

Transféré par

valentinclari2002

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Processus aléatoires discrets

Conditionnement
Martingales
Chaı̂nes de Markov

M1 Mathématiques fondamentales

Jean-Christophe Breton
Université de Rennes
Septembre–Décembre 2022

version du 28 novembre 2023

Table des matières

Rappels iv
0.1 Rappels de théorie de la mesure . . . . . . . . . . . . . . . . . . . . . . . iv
0.2 Rappels probabilistes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi

I Conditionnement 1
1 Conditionnement discret 2
1.1 Probabilité conditionnelle discrète . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Espérance conditionnelle discrète . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Lois conditionnelles discrètes . . . . . . . . . . . . . . . . . . . . . . . . . 9

2 Espérance conditionnelle 12
2.1 Introduction et définition . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Exemples d’espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . 14
2.3 Propriétés de l’espérance conditionnelle . . . . . . . . . . . . . . . . . . . 17
2.4 Espérance conditionnelle dans le cas L2 . . . . . . . . . . . . . . . . . . . 25
2.5 Conditionnement gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.6 Lois conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

II Martingales 37
3 Martingales et filtrations 38
3.1 Filtration et mesurabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2 Temps d’arrêt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3 Martingales, sous-martingales et sur-martingales . . . . . . . . . . . . . . 44
3.4 Propriétés des martingales . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.5 Martingale arrêtée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.6 Décomposition de Doob . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4 Convergences de martingales 57
4.1 Inégalités de martingales . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.1.1 Inégalité maximale de Doob . . . . . . . . . . . . . . . . . . . . . 57
4.1.2 Inégalité de moments de Doob . . . . . . . . . . . . . . . . . . . . 59

i
Table des matières ii

4.1.3 Nombre de montées . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.2 Convergence presque sûre de martingales . . . . . . . . . . . . . . . . . . 65
4.3 Uniforme intégrabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.4 Convergence L1 et martingales fermées . . . . . . . . . . . . . . . . . . . 70
4.5 Convergence Lp de martingales pour p > 1 . . . . . . . . . . . . . . . . . 74
4.6 Martingales carré-intégrables . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.7 Théorème d’arrêt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

III Chaı̂nes de Markov 83

5 Dynamique markovienne 84
5.1 Probabilités de transition . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.2 Exemples de chaı̂ne de Markov . . . . . . . . . . . . . . . . . . . . . . . 89
5.3 Probabilités trajectorielles . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.4 Chaı̂ne de Markov canonique . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.5 Propriétés de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

6 Récurrence et transience 112

6.1 États récurrents et transitoires . . . . . . . . . . . . . . . . . . . . . . . . 114
6.2 Ensembles clos et irréductibilité . . . . . . . . . . . . . . . . . . . . . . . 126
6.3 Classes de récurrence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
6.4 Absorption dans les classes de récurrence . . . . . . . . . . . . . . . . . . 135

7 Invariance et équilibre 138

7.1 Mesures invariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
7.2 Invariance et récurrence . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
7.3 Périodicité et forte irréductibilité . . . . . . . . . . . . . . . . . . . . . . 153
7.4 Équilibre d’une chaı̂ne de Markov . . . . . . . . . . . . . . . . . . . . . . 155
7.5 Théorème ergodique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
Introduction

Les suites de variables aléatoires indépendantes sont étudiées dans les cours de pro-
babilités de niveau L3, comme par exemple [Bre-proba], avec comme résultats phares la
loi des grands nombres (LGN) et le théorème central limite (TCL). Dans ces notes, on
étudie des suites de variables qui ont une forme de dépendance : les martingales et les
chaı̂nes de Markov.
Pour cela, la notion de conditionnement est d’abord étudiée dans la partie I avec une
approche élémentaire (Chapitre 1) et une approche plus générale fondée sur la notion
d’espérance conditionnelle (Chapitre 2).
Dans la partie II, on introduit les martingales dans le Chapitre 3 et on en étudie le
comportement asymptotique dans le Chapitre 4.
Les chaı̂nes de Markov sont l’objet de la partie III. Dans le chapitre 5, on définit
les chaı̂nes de Markov, et on présente la propriété de Markov. La classification des états
d’une chaı̂ne de Markov est détaillée en Chapitre 6 et le régime invariant est étudié en
Chapitre 7.
Ces notes ont de nombreuses sources d’inspiration, parmi lesquelles des notes de
cours de Jürgen Angst et d’autres de Mihai Gradinaru. Des références à la fois pour
les martingales et les chaı̂nes de Markov sont : [BL, Bei, BEL, BC, FF, Kal, Ouv].
Des références pour les martingales sont : [JP, Wil]. Des références pour les chaı̂nes de
Markov sont : [Gra, HPS, Nor, Pri].

iii
Rappels

Dans ce chapitre, on rappelle quelques résultats de théorie de la mesure (Section 0.1)

et de probabilités (Section 0.2).
Les résultats sont cités ici sans preuve. On renvoie à tout cours de niveau Licence
de Mathématiques pour une présentation plus détaillée, par exemple [BP] ou [Bre-Leb]
pour la théorie de la mesure et [Ouv] ou [Bre-proba] pour les probabilités.
Dans toute la suite, (X, A, µ) désigne un espace mesuré et (Ω, F, P) un espace de
probabilité.

0.1 Rappels de théorie de la mesure

Classe monotone
Dans cette section, on rappelle l’argument standard de classe monotone.

Définition 0.1 (Classe monotone ou λ-système) Une famille M de parties de X est ap-
pelée classe monotone si
i) X ∈ M ;
ii) M est stable par différence propre : lorsque A, B ∈ M et B ⊂ A, alors A \ B ∈ M ;
iii) M
S est stable par réunion dénombrable croissante (Aj ∈ M, j ≥ 1, Aj ⊂ Aj+1 ⇒
j≥1 Aj ∈ M).
La classe monotone engendrée par une partie E est la plus petite classe monotone M(E)
contenant E.

Théorème 0.2 (des classes monotones) Soit E une famille de parties de X stable par
intersection finie (ie. E est un π-système). Alors M(E) = σ(E).

En pratique, on utilise le résultat sous la forme suivante :

Corollaire 0.3 (Classes monotones) Soit M une classe monotone contenant la famille
de parties E, stable par intersection finie (ie. E est un π-système). Alors σ(E) ⊂ M.

Démonstration : Par le Th. 0.2, on a σ(E) = M(E). Mais comme M est une classe
monotone contenant E on a aussi M(E) ⊂ M par définition de M(E). Finalement,

iv
©JCB – M1math – Université de Rennes 1 v

σ(E) ⊂ M. □

Une application fréquente du théorème des classes monotones est pour constuire des
mesures par extension comme suit :
Théorème 0.4 (Dynkin) Soit deux mesures finies µ1 et µ2 sur (X, A) de même poids
(µ1 (X) = µ2 (X) < +∞), qui coı̈ncident sur C ⊂ A, sous-famille stable par intersections
finies (π-système) et qui engendre A. Alors µ1 et µ2 sont égales sur A.
Une version analogue du Théorème 0.4 existe pour les mesures σ-finies. Cette version
assure par exemple l’unicité de la mesure de Lebesgue en utilisant le π-système C donné
par l’ensemble des intervalles de R et en observant que σ(C) = B(R).

Théorèmes de Fubini
On considère deux espaces mesurables (X, A) et (Y, B) et des mesures σ-finies µ sur
(X, A) et ν sur (Y, B). On rappelle que µ ⊗ ν (mesure produit) désigne l’unique mesure
sur X × Y (espace produit) muni de A ⊗ B = σ(A × B : A ∈ A, B ∈ B) (tribu produit)
qui étend la définition suivante :
(µ ⊗ ν)(A × B) = µ(A)ν(B), A ∈ A, B ∈ B.
Comme M = {A × B : A ∈ A, B ∈ B} est stable par intersection finie (π-système), le
théorème de Dynkin (Th. 0.4), version σ-finie, assure l’unicité de la mesure µ ⊗ ν sur la
tribu produit A ⊗ B (pour l’existence, il y a plus de travail).
Théorème 0.5 (Fubini-Tonelli et Fubini) Si f est (A⊗B)-mesurable et positive (Fubini-
Tonelli) ou (µ ⊗ ν)-intégrable (Fubini) alors
Z Z Z Z Z
f (x, y) (µ⊗ν)(dx, dy) = f (x, y) ν(dy) µ(dx) = f (x, y) µ(dx) ν(dy).
X×Y X Y Y X
(F)

Théorème de Radon-Nikodym
On considère maintenant deux mesures µ, ν sur le même espace mesurable (X, A).
On rappelle que ν est absolument continue par rapport µ (ν ≪ µ) lorsque µ(A) = 0
entraı̂ne ν(A) = 0.
Théorème 0.6 (Radon-Nikodym) Si ν ≪ µ alors il existe une fonction mesurable f =
dν
dµ
appelée dérivée de Radon-Nikodym telle que
Z
ν(A) = f dµ, A ∈ A. (RN1)
A

De plus, si g est une fonction mesurable positive ou dans L1 (X, A, ν)

Z Z
g dν = gf dµ. (RN2)
©JCB – M1math – Université de Rennes 1 vi

0.2 Rappels probabilistes

: (Ω, F) → (R, B(R)), la tribu engen-
On rappelle que pour une variable aléatoire X
drée par X est σ(X) = σ X −1 (B) : B ∈ B(R) . On rappelle aussi le résultat suivant
fort utile :
Théorème 0.7 (Doob-Dynkin) Une variable aléatoire Y est σ(X)-mesurable si et seule-
ment s’il existe h : (R, B(R)) → (R, B(R)) mesurable telle que Y = h(X).

Démonstration : ⇐ Le sens indirect est immédiat par composition d’applications me-

surables : si Y = h(X) alors
Y −1 (B) = X −1 (h−1 (B)) ∈ σ(X)
puisque h−1 (B) ∈ B(R) par mesurabilité de h.
⇒ Pour le sens direct, si Y = 1A est σ(X)-mesurable alors A ∈ σ(X) est de la forme
A = X −1 (B) avec B ∈ B(R)P et Y = 1X −1 (B) = 1B (X) est de la forme requise avec
h = 1B est mesurable. Si Y = ni=1 αi 1Ai est simplePn positive alors Ai ∈ σ(X) et d’après
−1
le cas
Pprécédent Ai = X (Bi ) et on a Y = i=1 αi 1Bi (X) de la forme requise avec
n
h = i=1 αi 1Bi . Si Y est σ(X)-mesurable positive alors Y = supn≥1 Yn avec (Yn )n≥1 suite
croissante de variables aléatoires simples positives. D’après le cas précédent, Yn = hn (X)
avec hn mesurable et alors Y = h(X) avec h = supn≥1 hn mesurable, en tant que sup des
fonctions hn mesurables. Enfin, si Y est σ(X)-mesurable de signe quelconque alors on
applique le cas précédent à Y + = max(Y, 0) et à Y − = max(−Y, 0) variables aléatoires
qui s’écrivent alors Y + = h1 (X) et Y − = h2 (X). On pose alors h(x) = h1 (x) − h2 (x) si
x ∈ S(X) (support de X) et h(x) = 0 sinon. La fonction h est mesurable car h1 , h2 le
sont et S(X) ∈ B(R). Noter que comme on n’a pas simultanément Y + > 0 et Y − > 0
alors on a h1 (x) = h2 (x) = +∞ pour aucun x ∈ S(X) et h(x) est bien définie pour tout
x ∈ R. On a alors
Y = Y + − Y − = h1 (X) − h2 (X) = h(X),
avec h fonction mesurable. □

Indépendances
Définition 0.8 (Indépendances)
— Deux évènements A et B sont indépendants si P(A ∩ B) = P(A)P(B). On note
A⊥ ⊥ B.
— Deux tribus A et B sont indépendantes si pour tout A ∈ A et B ∈ B on a
P(A ∩ B) = P(A)P(B). On note alors A ⊥ ⊥ B.
— Deux variables aléatoires X, Y sont indépendantes si les tribus qu’elles engendrent
le sont : σ(X) ⊥
⊥ σ(Y ).
— On dit que des variables aléatoires Xi , i ∈ I, sont mutuellement indépendantes si
pour tout k ≥ 1 et i1 , . . . , ik distincts dans I, Bi1 , . . . , Bik ∈ B(R) :

P Xi1 ∈ Bi1 , . . . , Xik ∈ Bik = P(Xi1 ∈ Bi1 ) . . . P(Xik ∈ Bik ).
©JCB – M1math – Université de Rennes 1 vii

— On dit que des variables aléatoires Xi , i ∈ I, sont deux à deux indépendantes

lorsque pour tout couple d’indice i, j distincts dans I, on a Xi ⊥
⊥ Xj .

L’indépendance mutuelle implique l’indépendance deux à deux mais la réciproque est

fausse comme le montre l’exemple suivant : on considère une urne avec 4 boules, une
bleue, une blanche, une rouge et une tricolore et on fait des tirages successifs avec remise.
On note alors
— A : on tire une boule avec du bleue ;
— B : on tire une boule avec du blanche ;
— C : on tire une boule avec du rouge.
On observe aisément que P(A) = P(B) = P(C) = 1/2, P(A ∩ B) = P(A ∩ C) =
P(B ∩ C) = 1/4 et P(A ∩ B ∩ C) = 1/4 si bien que les évènements A, B, C sont deux
à deux indépendants mais pas mutuellement indépendants. De même pour les variables
aléatoires 1A , 1B , 1C .

Variables et vecteurs gaussiens

Définition 0.9 (Variable aléatoire gaussienne (normale)) Une variable aléatoire réelle
X suit la loi normale standard N (0, 1) si elle admet pour densité
1
x 7→ √ exp(−x2 /2).
2π

De façon générale, si m ∈ R et σ 2 > 0, une variable aléatoire réelle X suit la loi normale
N (m, σ 2 ) si elle admet pour densité

(x − m)2

1
x 7→ √ exp − .
2πσ 2 2σ 2

Si σ 2 = 0, la loi est dégénérée et la variable aléatoire X est constante égale à m. Sa loi

est un Dirac en m : PX = δm .
R +∞ 2 √
On rappelle que −∞ e−x /2 dx = 2π justifie la normalisation de la loi N (0, 1). Par
ailleurs, rappelons qu’une variable aléatoire X ∼ N (m, σ 2 ) peut se voir comme la trans-
latée et dilatée d’une variable aléatoire X0 de loi normale standard N (0, 1) par

X = m + σX0 .

Autrement dit si X ∼ N (m, σ 2 ), σ 2 > 0, on définit la variable centrée réduite X

e =
(X − m)/σ, de loi N (0, 1). Rappelons également qu’une variable aléatoire X de loi
N (m, σ 2 ) a pour
— espérance : E[X] = m ;
— variance : Var(X) = σ 2 ;
— fonction caractéristique : φX (t) = E[eitX ] = exp imt − σ 2 t2 /2 .
©JCB – M1math – Université de Rennes 1 viii

Proposition 0.10 Soit X1 ∼ N (m1 , σ12 ) et X2 ∼ N (m2 , σ22 ) indépendantes. Alors X1 +

X2 ∼ N (m1 + m2 , σ12 + σ22 ).

Dans la suite, pour simplifier la présentation, on note sous la forme de transposée de

vecteurs lignes les vecteurs colonnes : X = (X1 , . . . , Xd )t . On considère le produitPd scalaire
t t d t
euclidien : pour x = (x1 , . . . , xd ) , y = (y1 , . . . , yd ) ∈ R , on a ⟨x, y⟩ = x y = i=1 xi yi .
On décrit maintenant la version multidimensionnelle des variables normales.

Définition 0.11 (Vecteur gaussien) Un vecteur aléatoire X = (X1 , . . . , Xd )t est gaussien

si et seulement si toutes les combinaisons linéaires de ses coordonnées ⟨a, X⟩ = a1 X1 +
· · · + ad Xd suit une loi gaussienne dans R (pour tout a = (a1 , . . . , ad )t ∈ Rd ).

Pour un vecteur gaussien X = (X1 , . . . , Xd )t , tous les moments sont définis et on appelle
t
— espérance de X le vecteur E[X] = E[X1 ], . . . , E[Xd ] ;
— matrice de covariance de X la matrice carrée symétrique, positive

K = Cov(Xi , Xj ) 1≤i,j≤d .

On observe facilement que la loi de X est caractérisée par m et K et on note X ∼

N (m, K) sa loi. Si E[X] = 0, le vecteur X est dit centré.

Proposition 0.12 Soit X ∼ Nd (m, K) un vecteur gaussien de dimension d et A ∈

Mp,d (R) alors AX ∼ Np (Am, AKAt ).

Proposition 0.13 (Vecteurs gaussiens et indépendance)

(1) Soit (X, Y ) un couple gaussien. Alors X et Y sont indépendantes si et seulement si
Cov(X, Y ) = 0.
(2) Soit (X1 , . . . , Xd1 , Y1 , . . . , Yd2 )t un vecteur gaussien de dimension d1 + d2 . Les deux
vecteurs aléatoires gaussiens X = (X1 , . . . , Xd1 )t et Y = (Y1 , . . . , Yd2 )t sont indépen-
dants si et seulement si les covariances Cov(Xi , Yj ), 1 ≤ i ≤ d1 , 1 ≤ j ≤ d2 , sont
toutes nulles.
Première partie

Conditionnement

1
Chapitre 1

Conditionnement discret

La notion de conditionnement est essentielle dans la suite du cours pour définir les
martingales (Chapitre 3) et les chaı̂nes de Markov (Chapitre 5). On introduit cette notion
dans ce chapitre dans un cadre élémentaire discret. L’approche plus générale sera l’objet
du Chapitre 2. On considère un espace de probabilité (Ω, F, P).

1.1 Probabilité conditionnelle discrète

Probabilité sachant un évènement
On commence par le cas très simple du conditionnement par un évènement 1 non
négligeable :
Définition 1.1 (Probabilité conditionnelle) Soit B un évènement de probabilité non nulle
P(B) ̸= 0. Pour tout évènement A, on définit la probabilité conditionnelle de A sachant
B par
P(A ∩ B)
P(A|B) = . (1.1)
P(B)
L’intérêt de cette notion vient du fait que souvent, compte tenu des informations dis-
ponibles dans un modéle probabiliste, il peut être plus facile d’attribuer une valeur à
la probabilité conditionnelle P(A|B) que de calculer P(A ∩ B) ou P(A). Si A ⊥ ⊥ B,
évidemment, on a P(A|B) = P(A), ie. le conditionnement par B est sans effet.
En fait, la probabilité conditionnelle est une probabilité :
Proposition 1.2 Soit B ∈ F avec P(B) > 0. La fonction d’ensemble P(∗|B) : A ∈ F 7→
P(A|B) est une nouvelle probabilité sur (Ω, F).
Démonstration : Il est clair que P(A|B) ≥ 0, P(∅|B) = 0. La σ-additivité découle de
celle de P : soit (Ai )i≥1 une suite d’évènements deux à deux disjoints, on a
S S
+∞ +∞
i=1 Ai ∩ B i=1 (Ai ∩ B)
[+∞ P P
P Ai B = =
i=1
P(B) P(B)

1. sic

2
Chapitre 1. ©JCB – M1math – Université de Rennes 3

+∞ +∞
X P Ai ∩ B X
= = P(Ai |B).
i=1
P(B) i=1

Il en résulte que P(∗|B) est bien une mesure. Il s’agit d’une probabilité puisque P(Ω|B) =
P(Ω ∩ B)/P(B) = P(B)/P(B) = 1. □

Propriétés des probabilités sachant des évènements

La Prop.1.2 assure que l’on dispose pour les probabilités conditionnelles de toutes
les propriétés habituelles d’une probabilité. En plus, on a les propriétés spécifiques sui-
vantes :

Proposition 1.3 (Règle des conditionnements successifs) Soit n évènements A1 , . . . , An

tels que P(A1 ∩ A2 ∩ · · · ∩ An−1 ) ̸= 0. Alors

P(A1 ∩ A2 ∩ · · · ∩ An )
= P(A1 ) P(A2 |A1 ) P(A3 |A1 ∩ A2 ) × · · · × P(An |A1 ∩ A2 ∩ · · · ∩ An−1 ). (1.2)

Démonstration : Il suffit d’utiliser la définition (1.1) pour chaque probabilité condition-

nelle et de simplifier. □

Enchaı̂ner des conditionnements est équivalent à conditionner par l’intersection :

Proposition 1.4 (Conditionnement en cascade) Étant donné des évènements A, B, C avec

P(B ∩ C) > 0, en notant PC = P(·|C), on a PC (A|B) = P(A|B ∩ C).

Démonstration :
PC (A ∩ B) P(A ∩ B|C) P(A ∩ B ∩ C) P(C)
PC (A|B) = = =
PC (B) P(B|C) P(C) P(B ∩ C)
P(A ∩ (B ∩ C))
= = P(A|B ∩ C).
P(B ∩ C)
□

Dans la suite, on utilise I ⊂ N pour désigner un ensemble dénombrable. Celui-ci peut

être fini I = {1, . . . , n} ou infini I = N.

Définition 1.5 (Système complet) On appelle système complet d’évènements toute suite
dénombrable (Bi )i∈I d’évènements deux à deux disjoints et dont la somme des probabilités
vaut 1 : X
P(Bi ) = 1.
i∈I

Le système est dit fini si I est fini, infini si I est infini.

Chapitre 1. ©JCB – M1math – Université de Rennes 4

Proposition 1.6 (Formule des probabilités totales) Étant donné (Bi )i∈I un système com-
plet dénombrable de Ω avec P(Bi ) > 0 pour tout i ∈ I, pour tout A ∈ F on a
X
P(A) = P(A|Bi ) P(Bi ). (1.3)
i∈I
F
P Ω0 = i∈I Bi . Comme les Bi , i ∈ I, forment un système
Démonstration : Notons
complet, on a P(Ω0 ) = i∈I P(Bi ) = 1. Dès lors comme les (A ∩ Bi ), i ∈ I, sont disjoints
[ X X
P(A) = P(A ∩ Ω0 ) = P (A ∩ Bi ) = P(A ∩ Bi ) = P(A|Bi ) P(Bi ).
i∈I i∈I i∈I

Lorsque l’on sait calculer les probabilités conditionnelles P(A|Bi ) pour tout un système
de partition (Bi )i∈I , on peut chercher les probabilités conditionnelles avec les condition-
nements inverses P(Bi |A). Elles sont données par :

Proposition 1.7 (Formule de Bayes 2 ) Étant donné (Bi )i∈I un système complet de Ω
avec P(Bi ) > 0 pour tout i ∈ I, pour tout évènement A de probabilité non nulle, on a :
P(A|Bj ) P(Bj )
∀j ∈ I, P(Bj |A) = P . (1.4)
i∈I P(A|Bi ) P(Bi )

Démonstration : Pour tout j ∈ I, on a :

P(Bj ∩ A) P(A|Bj ) P(Bj )
P(Bj |A) = =P
P(A) i∈I P(A|Bi ) P(Bi )

en utilisant la formule des probabilités totales (1.3) au dénominateur. □

Cette formule toute simple est à l’origine de tout un pan des statistiques qui consiste à
inverser des conditionnements en manipulant des probabilités dites a priori ou a poste-
riori, il s’agit des statistiques bayésiennes.

Probabilité sachant une variable aléatoire discrète

En prenant B = {Y = y} où Y est une variable aléatoire discrète et y un de ses
atomes, (1.1) donne un sens à
P(A, Y = y)
P(A|Y = y) =
P(Y = y)
(souvent A prend même la forme A = {X = x} lorsque X est une variable aléatoire
discrète). On peut aussi définir la probabilité conditionnelle « sachant Y » plutôt que
« sachant Y = y » on ne conditionne alors plus par un évènement du type {Y = y} mais
par une variable aléatoire, ainsi P(A|Y ) définit une nouvelle variable aléatoire !
Chapitre 1. ©JCB – M1math – Université de Rennes 5

Définition 1.8 (Probabilité conditionnelle discrète) Étant donné une variable aléatoire
discrète Y de support S(Y ) = {yj : j ∈ J}, on appelle probabilité conditionnelle sachant
Y la fonction d’ensemble
Ω

F → [0, P 1]
P(∗|Y ) :
A 7→ j∈J P(A|Y = yj )1{Y =yj } .

Ainsi P(A|Y ) = P(A|Y = y) sur l’évènement {Y = y}.

Dans le cas général, par exemple lorsque Y est une variable aléatoire à densité, la défini-
tion de P(∗|Y ) est plus compliquée car les conditionnements par {Y = y} sont singuliers
(évènements négligeables) et la définition (1.1) ne s’applique pas.

1.2 Espérance conditionnelle discrète

Étant donné un évènement B non négligeable, on définit l’espérance conditionnelle
sachant B comme l’espérance par rapport à la probabilité P(∗|B) :

Définition 1.9 (Espérance conditionnelle élémentaire) L’espérance conditionnelle sachant

B d’une variable aléatoire X positive ou X ∈ L1 est définie par
Z
E[X|B] = X(ω) P(dω|B).
Ω

On a

Proposition 1.10 Soit X une variable aléatoire intégrable et B ∈ F non-négligeable.

Alors on a
E[X1B ]
E[X|B] = . (1.5)
P(B)
Démonstration : Pour X = 1A , il P s’agit de la définition de P(A|B) en (1.1). Le résultat
s’étend alors par linéarité à X = ni=1 αi 1Ai étagée positive (αi ≥ 0) puis par conver-
gence monotone à X ≥ 0. On traite le cas de X variable aléatoire de signe quelconque
(intégrable) en écrivant X = X + −X − et en appliquant le cas positif précédent à X + et à
X − , en notant X + = max(X, 0) et X − = max(−X, 0). La différence E[X + 1B ]−E[X − 1B ]
a bien un sens car X est intégrable. □

est une variable aléatoire réelle discrète de support S(X) = {xi : i ∈ I}, alors
Si X P
X = i∈I xi 1{X=xi } et avec (1.5) on a
X
E[X|B] = xi P(X = xi |B).
i∈I
Chapitre 1. ©JCB – M1math – Université de Rennes 6

Dans le cas où Y est une autre variable aléatoire discrète de support S(Y ) = {yj : j ∈ J}
(avec donc J ⊂ N), on définit de cette façon
X
E[X|Y = yj ] = xi P(X = xi |Y = yj ), (1.6)
i∈I

et comme on l’a fait en Déf. 1.8 pour une probabilité conditionnelle, on peut généraliser
l’espérance conditionnelle « sachant Y = yj » à « sachant Y » par :

Définition 1.11 (Espérance conditionnelle discrète) Soit X une variable aléatoire inté-
grable et Y une variable aléatoire discrète. L’espérance conditionnelle de X sachant Y
est définie par X
E[X|Y ] = E[X|Y = yj ] 1{Y =yj } , (1.7)
j∈J

ie. E[X|Y ] = E[X|Y = yj ] sur l’évènement {Y = yj }.

Il faut bien comprendre que l’espérance conditionnelle E[X|Y = yj ] en (1.6) est un réel
alors que l’espérance conditionnelle E[X|Y ] en (1.7) est une variable aléatoire.
En combinant (1.6) et (1.7), on a aussi
X
E[X|Y ] = xi P(X = xi |Y = yj )1{Y =yj } . (1.8)
(i,j)∈I×J

Due à la Définition 1.9 qui assure E[1A |B] = P(A|B) pour un évènement B non-
négligeable, il est facile de vérifier, lorsque Y est discrète, que l’espérance conditionnelle
E[∗|Y ] en Définition 1.11 et la probabilité conditionnelle P(∗|Y ) en Définition 1.8 sont
naturellement liées par
E[1A |Y ] = P(A|Y ).

Exemple 1.12 — Lorsque Y est une variable constante (presque sûrement) alors
E[X|Y ] = E[X] ps. En effet en notant y l’unique atome de Y , comme {Y = y}
est un évènement presque sûr, P(X = xi |Y = y) = P(X = xi ) et 1{Y =y} = 1 ps si
bien que (1.8) se réduit à
X
E[X|Y ] = xi P(X = xi |Y = y)1{Y =y}
i∈I
X
= xi P(X = xi ) = E[X] ps.
i∈I

Le même résultat reste vrai lorsque X ⊥

⊥Y.
— Si X est σ(Y )-mesurable, alors E[X|Y ] = X. En effet, d’après le Théorème de
Doob-Dynkin (Th. 0.7), on a X = h(Y ) pour une fonction h mesurable et donc
Chapitre 1. ©JCB – M1math – Université de Rennes 7

X est discrète avec pour valeursFh(yj ), j ∈ J (mais possiblement avec des répé-
titions). On Fa la partition I = i∈I Ji où Ji = {j ∈ J : h(yj ) = xi }, i ∈ I, et
{X = xi } = j∈Ji {Y = yj }. Par (1.8), on a :
X
E[X|Y ] = xi P(X = xi |Y = yj )1{Y =yj }
(i,j)∈I×J
X [
= xi P {Y = yj ′ }|Y = yj 1{Y =yj }
(i,j)∈I×J j ′ ∈Ji
X X
= xi P(Y = yj ′ |Y = yj ) 1{Y =yj }
| {z }
(i,j)∈I×J j ′ ∈J i =δj,j ′
X X X
= xi 1{Y =yj } = xi 1{Y =yj }
(i,j)∈I×Ji i∈I j∈Ji
| {z }
=1{X=xi }
X
= X1{X=xi } = X.
i∈I

Avec les définitions données, on vérifie sans difficulté que E E[X|Y ] = E[X]. En effet,
par linéarité de l’espérance et par (1.5), on a
X X
E E[X|Y ] = E[X|Y = yj ]P(Y = yj ) = E[X1{Y =yj } ]) = E[X]
j∈J j∈J
P
puisque j∈J 1{Y =yj } = 1 ps, {yj : j ∈ J} étant le support de Y . Plus généralement, on
a la propriété de conditionnements en cascade :

Proposition 1.13 (Conditionnements en cascade) Soit X, Y, Z des variables aléatoires

discrètes. On a
E[X|Y ] = E E[X|Y, Z] |Y . (1.9)

Démonstration : On note S(X) = {xi : i ∈ I}, S(Y ) = {yj : j ∈ J}, S(Z) = {zk : k ∈
K} les supports discrets de X, Y, Z. Comme (Y, Z) est un vecteur discret, l’expression
(1.8) s’écrit
X
E[X|Y, Z] = xi P(X = xi |Y = yj , Z = zk )1{Y =yj ,Z=zk } .
(i,j,k)∈I×J×K

P
La variable aléatoire U = E[X|Y, Z] prend les valeurs uj,k = i∈I xi P(X = xi |Y =
yj , Z = zk ), (j, k) ∈ J × K. Comme il y a possiblement des répétitions, on réindexe en
notant U = {uℓ : ℓ ∈ L} = {uj,k : (j, k) ∈ J × K} avecF L ⊂ N. Pour ℓ ∈ L, on note′
Aℓ = {(j, k) ∈ J × K : uj,k = uℓ }. On a J × K = ℓ∈L Aℓ car uℓ ̸= uℓ′ pour ℓ ̸= ℓ
Chapitre 1. ©JCB – M1math – Université de Rennes 8

entraı̂ne Aℓ ∩ Aℓ′ = ∅ et comme on a uj,k ∈ U pour tout (j, k), l’union fait bien J × K.
L’expression (1.8) donne encore

E E[X|Y, Z] |Y = E[U |Y ]
X
= uℓ P(U = uℓ |Y = yj )1{Y =yj } . (1.10)
ℓ∈L,j∈J

Sachant Y = yj , nécessairement U ne peut prendre comme F valeurs que u ∈ Uj = {uj,k :

k ∈ K} et cela exige ℓ ∈ Lj = {ℓ ∈ L : uℓ ∈ Uj }. Comme j∈J Lj = L, (1.10) s’écrit.
Dans ce cas pour ℓ ∈ Lj , avoir U = uℓ sachant Y = yj est équivalent à avoir Z = zk
pour k ∈ K(ℓ, j) := {k ∈ K : uj,k = uℓ } :
G
{U = uℓ } ∩ {Y = yj } = {Z = zk } ∩ {Y = yj }.
k∈K(ℓ,j)

F
On note que K = ℓ∈L,j∈J K(ℓ, j). Il s’ensuit pour (1.10)
X G
E E[X|Y, Z] |Y = uℓ P {Z = zk }|Y = yj 1{Y =yj }
ℓ∈L,j∈J k∈K(ℓ,j)
X X X X
= xi P(X = xi |Y = yj , Z = zk ) P(Z = zk |Y = yj )1{Y =yj }
j∈J ℓ∈Lj i∈I
| {z } k∈K(ℓ,j)
=uj,k =uℓ lorsque k∈K(ℓ,j),ℓ∈Lj ,j∈J
XX X X
= xi P(X = xi |Y = yj , Z = zk ) P(Z = zk |Y = yj )1{Y =yj }
j∈J ℓ∈Lj k∈K(ℓ,j) i∈I
X X
= xi P(X = xi |Y = yj , Z = zk ) P(Z = zk |Y = yj )1{Y =yj }
(j,k)∈J×K i∈I
F
(car K = ℓ∈L,j∈J K(ℓ, j))
!
X X
= xi P(X = xi |Y = yj , Z = zk )P(Z = zk |Y = yj ) 1{Y =yj }
(i,j)∈I×J k∈K

(par la formule des probabilités totales (1.3) avec les conditionnements successifs, cf. Prop. 1.4)
X
= xi P(X = xi |Y = yj )1{Y =yj }
(i,j)∈I×J

= E[X|Y ] (avec (1.8) pour obtenir (1.9)).

Avec cette approche discrète des espérances conditionnelles, on observe les propriétés
qui serviront à définir l’espérance conditionnelle dans le cas général (Chap. 2).

Proposition 1.14 On a
Chapitre 1. ©JCB – M1math – Université de Rennes 9

(1) E[X|Y ] est σ(Y )-mesurable ;

(2) E[1A X] = E 1A E[X|Y ] ∀A ∈ σ(Y ).
(3) Lorsque les espérances sont bien définies, pour
toute variable aléatoire Z qui est
σ(Y )-mesurable, on a E[ZX] = E ZE[X|Y ] .
Démonstration : Le premier point 1) découle directement de l’expression (1.7) puisque
1{Y =yj } = 1{yj } (Y ) est σ(Y )-mesurable. Pour le deuxième point 2), comme A ∈ σ(Y )
s’écrit A = {Y ∈ B} pour B mesurable, et comme Y est discrète, il suffit de considérer
le cas A = {Y = y} pour un atome y de Y . Dans cas
X
1A E[X|Y ] = 1{Y =y} E[X|Y = yj ]1{Y =yj } = E[X|Y = y]1{Y =y}
j∈J

et

E 1A E[X|Y ] = E E[X|Y = y]1{Y =y} = E[X|Y = y]P(Y = y) = E[X1{Y =y} ] = E[1A X].
Le point 3) se prouve de la même façon : d’après le Théorème de Doob-Dynkin (Th. 0.7,
Z = h(Y ) où h est une fonction mesurable. On a alors
X
ZE[X|Y ] = h(Y )E[X|Y ] = h(yj )E[X|Y = yj ]1{Y =yj }
j∈J

et
X X
E ZE[X|Y ] = h(yj )E[X|Y = yj ]P(Y = yj ) = h(yj )E[X1{Y =yj } ]
j∈J j∈J
h X i
= E X h(yj )1{Y =yj } = E[XZ].
j∈J
| {z }
=h(Y )=Z

1.3 Lois conditionnelles discrètes

Soit (X, Y ) un couple de variables aléatoires discrètes sur (Ω, F, P). On note (E, E)
l’espace des valeurs de X.
Définition 1.15 (Loi conditionnelle) Pour y tel que P(Y = y) ̸= 0 (y atome de Y ), on
appelle loi conditionnelle de X sachant Y = y, l’application définie par
P(X ∈ A, Y = y) X P(X = x, Y = y)
P(X ∈ A|Y = y) = = , A ∈ E. (1.11)
P(Y = y) x∈A
P(Y = y)

Plus généralement, on appelle loi conditionnelle de X sachant Y l’application définie par

X
PX (A|Y ) = P(X ∈ A|Y ) = P(X ∈ A|Y = y)1{Y =y} , A ∈ E. (1.12)
y∈S(Y )
Chapitre 1. ©JCB – M1math – Université de Rennes 10

Si y ̸∈ S(Y ), P(X = x|Y = y) n’est pas définie en (1.11) ; on pourra éventuellement

décider de lui donner une valeur arbitraire (par exemple zéro).
D’après les définitions des espérances conditionnelles en (1.7) et des lois conditionnelles
en (1.12) sachant Y , l’espérance conditionnelle sachant Y coı̈ncide avec l’espérance par
rapport à la loi conditionnelle sachant Y :
Z
E[h(X)|Y ] = h(x) PX (dx|Y ). (1.13)

Proposition 1.16 Si X ⊥
⊥ Y alors la loi conditionnelle de X sachant Y est la même que
celle de X :

∀y ∈ S(Y ) : PX (∗|Y = y) = PX et PX (∗|Y ) = PX .

Autrement dit : le conditionnement par une variable aléatoire indépendante est sans effet
sur la loi d’une variable aléatoire.

Démonstration : C’est une conséquence directe de P(A|B) = P(A) lorsque A ⊥

⊥ B, en
effet pour tout A ∈ E, on a {X ∈ A} ⊥⊥ {Y = y} et donc

PX (A|Y = y) = P(X ∈ A|Y = y) = P(X ∈ A) = PX (A),

et il suit de (1.12) que PX (A|Y ) = PX (A). □

Lois conditionnelles à densité

Soit (X, Y ) un couple de densité f sur R2 . On rappelle que X et Y ont alors pour
densités respectives
Z Z
fX (x) = f (x, y) dy, et fY (y) = f (x, y) dx.
R R

Dans cette situation, on a un analogue de (1.11) pour les densités avec la notion de
densité conditionnelle :

Définition 1.17 (Densité conditionnelle) Soit (X, Y ) un couple de variables aléatoires

réelles de densité f : R2 → R et y ∈ S(Y ). On définit la densité conditionnelle de X
sachant Y = y par
f (x, y)
fX|Y =y (x) = . (1.14)
fY (y)
La densité conditionnelle fX|Y =y définit la loi conditionnelle L(X|Y = y) de X sachant
Y = y (on le verra en Prop. 2.35). Il s’agit d’une fonction de la seule variable x ; la
variable y y apparaı̂t seulement comme un paramètre. Comme pour la Prop. 1.16, on a :
Chapitre 1. ©JCB – M1math – Université de Rennes 11

Proposition 1.18 Si les variables aléatoires X et Y sont indépendantes de densité fX et

fY alors les densités conditionnelles sont les densités marginales :

fX|Y =y (x) = fX (x) ∀y ∈ S(Y ).

À nouveau, le conditionnement est sans effet car les variables aléatoires sont indépen-
dantes.

Démonstration : Lorsque X ⊥ ⊥ Y , f (x, y) = fX (x)fY (y) et l’affirmation suit immédia-

tement de la forme de la densité conditionnelle (1.14). □
Chapitre 2

Espérance conditionnelle

Dans ce chapitre, on définit la notion d’espérance conditionnelle sachant une sous-

tribu. Les conditionnements par une variable aléatoire ou par un évènement du Cha-
pitre 1 seront alors vus comme des cas particuliers du conditionnement par une sous-
tribu.
À la notion de conditionnement sont associées celles de probabilités conditionnelles, de
lois conditionnelles et d’espérances conditionnelles. On introduit dans ce chapitre ces
objets et on explique leurs liens.
Soit (Ω, F, P) un espace de probabilité.

2.1 Introduction et définition

Étant donné une sous-tribu G de F, on définit la notion d’espérance conditionnelle
sachant G d’une variable aléatoire X.

Définition 2.1 (Espérance conditionnelle) On appelle espérance conditionnelle de X sa-

chant G, notée E[X|G], la variable aléatoire Y presque sûrement unique vérifiant
(i) Y est G-mesurable,
(ii) pour tout A ∈ G,
E X1A = E Y 1A . (2.1)

Remarque 2.2 1. Attention, l’espérance conditionnelle E[X|G] est définie presque sû-
rement seulement.
2. L’espérance conditionnelle de X est définie dès que les espérances dans (2.1) sont
bien définies, typiquement pour X positive ou X intégrable.
3. Intuitivement, on interprète une tribu comme une quantité d’information. Ainsi
quand on dispose de l’information de G (ie. pour tout A ∈ G, on sait si A est réalisé
ou pas), l’espérance conditionnelle E[X|G] représente la « meilleure » estimation
de X compte tenu de l’information disponible sachant G.

12
Chapitre 2. ©JCB – M1math – Université de Rennes 13

Cette Définition 2.1 nécessite une justification :

Proposition 2.3 (Existence et unicité) Soit X une variable aléatoire positive ou inté-
grable.
1. Il existe une variable aléatoire Y vérifiant (i)-(ii) dans la Définition 2.1.
2. Si Y, Y ′ sont deux variables aléatoires vérifiant (i)-(ii) dans la Définition 2.1 alors
Y = Y ′ ps.

Démonstration : (1) L’existence de l’espérance conditionnelle est assurée par le théorème

de Radon-Nikodym (Th. 0.6).
On suppose d’abord X ≥ 0 et on définit une mesure sur G par Q(A) = E[X1A ], A ∈ G.
Il est immédiat que pour A ∈ G : P(A) = 0 ⇒ Q(A) = 0. On a donc Q ≪ PG (restriction
de P à G) et le théorème de Radon-Nikodym (Th. 0.6) sur (Ω, G, PG ) assure l’existence
d’une variable aléatoire G-mesurable (dérivée de Radon-Nikodym)

dQ
Y (ω) := (ω)
dPG
R
telle que Q(A) = A
Y dPG , c’est à dire (2.1).
Si X est intégrable, on écrit X = X + − X − et on applique le cas précédent aux variables
aléatoires X + et X − positives. On note alors Y1 = E[X + |G], Y2 = E[X − |G] et on pose
Y = Y1 − Y2 . La variable aléatoire Y est G-mesurable car différence de telles fonctions
et pour tout A ∈ G :

E[1A X] = E[X + 1A ] − E[X − 1A ] (2.2)

= E[Y1 1A ] − E[Y2 1A ]
= E[(Y1 − Y2 )1A ] = E[Y 1A ],

ce qui justifie que Y vérifie (i)–(ii) dans la Définition 2.1 et Y = E[X|G] ps. Noter que
l’intégrabilité de X assure celle de X + et de X − et donc la finitude de E[X + 1A ] et
E[X − 1A ] justifiant que la différence dans (2.2) a bien un sens.
(2) Soit Y, Y ′ deux variables aléatoires vérifiant la Définition 2.1. Pour tout A ∈ G, on a
E[Y 1A ] = E[Y ′ 1A ]. En particulier pour ε > 0, Aε = {Y − Y ′ ≥ ε} ∈ G et

0 = E[(Y − Y ′ )1Aε ] ≥ E[ε1Aε ] = εP(Aε ).

Cela exige P(Aε ) = 0 et

[ X
′ ′

P(Y > Y ) = P {(Y − Y ) ≥ ε} = P Aε = 0.
ε∈Q+ ε∈Q+

Ainsi Y ≤ Y ′ ps et en échangeant les rôles de Y, Y ′ , on a aussi Y = Y ′ ps. □

Chapitre 2. ©JCB – M1math – Université de Rennes 14

Proposition 2.4 La condition (2.1) ((ii) dans la Définition 2.1) est équivalente à avoir
pour toute variable aléatoire G-mesurable Z telle que les espérances aient un sens :

E[XZ] = E[Y Z]. (2.3)

Démonstration : On a immédiatement (2.3) implique (2.1) en prenant Z = 1A , A ∈ G.

Réciproquement, si (2.1) est vraie alors (2.3) l’est aussi successivement pour Z = 1A ,
A ∈ G, puis pour Z variable aléatoire simple et finalement pour Z positive par conver-
gence monotone si tout est positif ou par convergence dominée dans le cas intégrable. □

Notations
— Lorsque G = σ(Y ), on note E[X|Y ] = E[X|σ(Y )]. Lorsque Y est une variable
discrète, la Prop. 1.14 assure que la définition E[X|Y ] du Chapitre 1 coı̈ncide
avec ce qui est définie en Déf. 2.1.
— On note P(A|G) = E[1A |G].

2.2 Exemples d’espérance conditionnelle

Exemples simples mais fondamentaux
1. (G-mesurabilité) Si X est G-mesurable alors X vérifie directement (i)-(ii) dans la
Définition 2.1 ! On a alors E[X|G] = X ps.
Autrement dit si G est connue, on connaı̂t tous les X −1 (A), A ∈ G. Ainsi toutes les
occurrences de X sont connues, ce qui signifie que X est connue, et sa meilleure
approximation est elle même !
2. En particulier, si X = c (constante), E[X|G] = X.
3. (Indépendance) Si X ⊥
⊥ G alors E[X|G] = E[X] ps. En effet avec A ∈ F, on a

E[1A X] = E[1A ]E[X] = E 1A E[X] ,

comme en plus une constante est bien G-mesurable, on a bien E[X|G] = E[X] ps.
Dans le cas indépendant la connaissance de G ne donne aucune information sur X
et la meilleure estimation de X (sachant G) est alors sa moyenne E[X].
4. Dans le cas G = {∅, Ω} (tribu grossière), on vérifie facilement que E[X|G] = E[X]
puisque les variables aléatoires {∅, Ω}-mesurables sont des constantes et (2.1) n’est
à vérifier que pour A = ∅ et A = Ω pour lesquels c’est immédiat.

Conditionnement et système complet

Pun système complet dénombrable (Ωi )i∈I (Déf. 1.5 : avec Ωi ∩ Ωj = ∅

On considère
pour i F̸= j et i∈I P(Ωi ) = 1, I ⊂ N) avec P(Ωi ) > 0 pour chaque i ∈ I et on note
Ω0 = i∈I Ωi de sorte que Ω∗ = Ωc0 est négligeable. On considère alors la sous-tribu
G = σ(Ωi : i ∈ I).
Chapitre 2. ©JCB – M1math – Université de Rennes 15

Lemme 2.5 S La tribu G = σ(Ωi : i ∈ I) engendrée par un système complet dénombrable

(Ωi )i∈I est { j∈J Ωj : J ⊂ I ∪ {∗}}.
S
Démonstration : Comme il est clair que H := { j∈J Ωj : J ⊂ I ∪ {∗}} ⊂ G, il suffit de
montrer que H est une tribu, ce qui S est le cas puisque
— ∅ ∈ H car pour J = ∅ on a j∈J Ωj = ∅ ; S
— H est stable par complémentarité puisque pour j∈J Ωj ∈ H alors
[ c [ [ [
Ωj = Ωi \ Ωj = Ωk ∈ H;
j∈J i∈I∪{∗} j∈J k∈I∪{∗}\J
S
— H est stable par union dénombrable puisque si j∈Jk Ωj ∈ H pour des Jk ⊂ I ∪{∗}
alors
[ [ [ S
Ωj = Ωj avec J = k∈N Jk ⊂ I ∪ {∗}.
S
k∈N j∈Jk j∈ k∈N Jk

Un cas particulier de système complet est la partition Ω = B ⊔ B c avec B ∈ F tel que

P(B) ∈]0, 1[ ; dans ce cas σ(B) = {∅, B, B c , Ω}.

Proposition 2.6 Soit X une variable aléatoire positive ou intégrable. Pour la tribu G =
σ(Ωi : i ∈ I) associée à un système complet dénombrable (Ωi )i∈I avec P(Ωi ) > 0, i ∈ I,
on a
X E[X1Ω ]
i
E[X |G] = 1Ωi ps. (2.4)
i∈I
P(Ω i )
E[X1Ωi ]
c’est à dire E[X|G] = P(Ωi )
sur Ωi .

Démonstration : On montre (2.4) dans le cas d’une partition simple Ω = B ⊔ B c avec

P(B) ∈]0, 1[ pour laquelle (2.4) se réduit à deux termes :
E[X1B ] E[X1B c ]
E X |σ(B) = 1B + 1B c . (2.5)
P(B) P(B c )
B] Bc ]
Comme Z := E[X1
P(B)
1B + E[X1
P(B c )
1B c est G-mesurable, pour voir (2.5), il reste à montrer
que pour tout C ∈ G = σ(B) = {∅, B, B c , Ω} on a :

E[X1C ] = E[Z1C ]. (2.6)

E[X1B ]
— Pour C = B : Z1C = P(B)
1B et (2.6) s’écrit
h E[X1 ] i
B
E[X1B ] = E 1B ,
P(B)
ce qui est vraie.
Chapitre 2. ©JCB – M1math – Université de Rennes 16

E[X1B c ]
— Pour C = B c : Z1C = P(B c )
1B c et (2.6) s’écrit
h E[X1 c ] i
B
E[X1B c ] = E 1 B ,
c
P(B c )
ce qui est encore vraie.
— Pour C = ∅ : (2.6) se réduit à 0 = 0, vraie !
— Pour C = Ω : le membre de gauche de (2.6) s’écrit E[X1C ] = E[X] et celui de
droite

E[Z1C ] = E[Z]
h E[X1 ] E[X1B c ] i
B
= E 1B + 1B c
P(B) P(B c )
E[X1B ] E[X1B c ]
= P(B) + c
P(B c )
P(B) P(B )
= E[X1B ] + E[X1B ] = E[X],
c

ce qui prouve (2.5).

Pour un système complet général, Z prend la forme
X E[X1Ω ]
i
Z= 1Ωi
i∈I
P(Ωi )

qui est bien G-mesurable et il reste à S

vérifier (2.6) pour C ∈ G = σ(Ωi : i ∈ I) donc
d’après le Lemme 2.5 de la forme C = j∈J Ωj pour J ⊂ I ∪ {∗} (cf. notation ∗ dans le
Lemme 2.5). Pour cela :
h X E[X1 ] i X h X E[X1 ] i
Ωi Ωi
E[Z1C ] = E 1Ωi 1C = E 1Ωi 1Ωj
i∈I
P(Ωi ) j∈J i∈I
P(Ωi)

X X E[X1Ω ] X X E[X1Ω ]
i i
= E[1Ωj 1Ωi ] = P(Ωi )δi,j
j∈J i∈I
P(Ωi ) i∈I j∈J
P(Ωi )
X
= E[X1Ωj ] = E[X1C ].
j∈J

Cela assure que Z satisfait bien la Définition 2.1 de E[X|G] et prouve la Prop. 2.6. □

Remarque 2.7 On retrouve l’approche élémentaire du Chapitre 1.

— On fait le lien avec (1.1) en notant que P(A|B) est donnée par la valeur de
E[1A |σ(B)] sur B.
— Si Y est une variable aléatoire discrète de support S(Y ) = {yj : j ∈ J}, en prenant
le système complet des Ωj = {Y = yj }, j ∈ J, on retrouve la Définition 1.11 en
la combinant avec (1.5).
Chapitre 2. ©JCB – M1math – Université de Rennes 17

2.3 Propriétés de l’espérance conditionnelle

Proposition 2.8 (Linéarité) Pour X, Y ∈ L1 (F), et a, b ∈ R, on a

E[aX + bY |G] = aE[X |G] + bE[Y |G] ps.

L’égalité est valable dès que le terme aE[X |G] + bE[Y |G] a bien un sens.

Attention, le presque sûr ci-dessus dépend de a et b si bien qu’il est incorrect d’affirmer
que presque sûrement E[· |G] est linéaire.
Démonstration : Il est clair que aE[X |G] + bE[Y |G] est G-mesurable. Puis pour A ∈ G,
par linéarité de l’espérance, on a

E aE[X|G] + bE[Y |G] 1A = aE E[X|G]1A + bE E[Y |G]1A
= aE[X1A ] + bE[Y 1A ]
= E[(aX + bY )1A ]

d’où (ii) dans la Définition 2.1, ce qui assure E[aX + bY |G] = aE[X |G] + bE[Y |G] ps. □

Proposition 2.9 (Monotonie) Si X ≤ Y alors E[X|G] ≤ E[Y |G].

Démonstration : On commence par voir que si Y ≥ 0 alors E[Y |G] ≥ 0.

Pour cela, en prenant Aε = E[Y |G] ≤ −ε ∈ G pour ε > 0, dans la propriété (2.1) de
l’espérance conditionnelle, on a

0 ≤ E Y 1Aε = E E[Y |G]1Aε ≤ E[(−ε)1Aε ] = −εP(Aε ) ≤ 0.
S
On a donc P(Aε ) = 0 et P ε∈Q∗ Aε = 0. Mais comme
+

[
Aε = E[Y |G] < 0 ,
ε∈Q∗+

il vient E[Y |G] ≥ 0 ps.

De façon générale, on suppose que les espérances conditionnelles E[X|G] et E[Y |G]
existent (variables aléatoires X, Y positives ou intégrables). Si E[Y |G] = +∞ ou E[X|G] =
−∞, alors la conclusion est immédiate. Sinon, alors −∞ < E[X|G] et E[Y |G] < +∞,
et on déduit de Y = (Y − X) + X par linéarité (sans forme indéterminée dans le cas
considéré) que
E[Y |G] = E[Y − X|G] + E[X|G].
En appliquant la première partie à Y − X ≥ 0, il vient :

E[Y |G] − E[X|G] = E[Y − X|G] ≥ 0 ps.

□
Chapitre 2. ©JCB – M1math – Université de Rennes 18

Corollaire 2.10 On a |E[X|F]| ≤ E[|X| |F] ps.

Démonstration : Comme X ≤ |X|, on a E[X|F] ≤ E[|X| |F] ps. De même, comme

−X ≤ |X|, on a aussi −E[X|F] = E[−X|F] ≤ E[|X| |F] ps. Et finalement, |E[X|F]| ≤
E[|X| |F] ps. □

Proposition 2.11 (Espérance et espérance conditionnelle) (1) On a

E E[X|G] = E[X].

(2) Si X ∈ L1 (Ω, F) alors E[X|G] ∈ L1 (Ω, G) et l’espérance conditionnelle est une

contraction de L1 : E |E[X|G]| ≤ E[|X|].

Démonstration : 1) Par la Définition 2.1, on a E E[X|G]1A = E[X1A ] pour tout A ∈ G.
En particulier, en prenant A = Ω ∈ G, il vient E E[X|G] = E[X] !
2) On note Y = E[X|G] et A = {Y > 0} ∈ G. On a

E[1A Y ] = E[1A X] ≤ E[1A |X|]

et
E[1Ac (−Y )] = −E[1Ac X] = E[1Ac (−X)] ≤ E[1Ac |X|]
ce qui assure

E |Y | = E 1A Y + E 1Ac (−Y ) ≤ E 1A |X| + E 1Ac |X| ≤ E |X| .

Théorème 2.12 (Cascade) Soit G1 ⊂ G2 ⊂ F des sous-tribus ordonnées (par inclusion).

Alors, on a :

(1) E E[X |G1 ] |G2 = E[X |G1 ] ps ;

(2) E E[X |G2 ] |G1 = E[X |G1 ] ps.

Démonstration : Comme la variable aléatoire E[X|G1 ] est G1 -mesurable, elle est a fortiori
G2 -mesurable et (1) suit de l’exemple simple 1 en Section 2.2.
Pour (2), en prenant A ∈ G1 ⊂ G2 , on a

E 1A E[X |G1 ] = E 1A X = E 1A E[X|G2 ] ps

car A ∈ G1 (à gauche) et A ∈ G2 (à droite). D’où on déduit E E[X |G2 ] |G1 = E[X |G1 ]
ps. □
Chapitre 2. ©JCB – M1math – Université de Rennes 19

Remarque 2.13 Attention, en général on n’a pas

E E[X |G2 ] |G1 = E E[X |G1 ] |G2 ps. (2.7)

On considère l’espace de probabilité (Ω, F, P) = ([0, 1], B([0, 1]), λ) et on prend G1 =

σ([0, 1/2]) = {∅, [0, 1/2], ]1/2, 1], [0, 1]}, G2 = σ([0, 1/3]) = {∅, [0, 1/3], ]1/3, 1], [0, 1]}.
Pour X = 1[1/4,3/4] , on a presque sûrement :

E[X1[0,1/2] ] E[X1]1/2,1] ]
E[X|G1 ] = 1[0,1/2] + 1]1/2,1]
P([0, 1/2]) P(]1/2, 1])
λ([1/4, 1/2]) λ(]1/2, 3/4])
= 1[0,1/2] + 1]1/2,1]
λ([0, 1/2]) λ(]1/2, 1])
1 1 1
= 1[0,1/2] + 1]1/2,1] = ,
2 2 2
1
et on a donc E E[X|G1 ]|G2 = 2 ps. Puis presque sûrement :

E[X1[0,1/3] ] E[X1]1/3,1] ]
E[X|G2 ] = 1[0,1/3] + 1]1/3,1]
P([0, 1/3]) P(]1/3, 1])
λ([1/4, 1/3]) λ(]1/3, 3/4])
= 1[0,1/3] + 1]1/3,1]
λ([0, 1/3]) λ(]1/3, 1])
1 5
= 1[0,1/3] + 1]1/3,1] ,
4 8
et on a donc ps :
h1 5 i
E E[X|G2 ]|G1 = E 1[0,1/3] + 1]1/3,1] G1
h 4 8 i h i
1 5
E 4 1[0,1/3] + 8 1]1/3,1] 1[0,1/2] E 41 1[0,1/3] + 58 1]1/3,1] 1]1/2,1]
= 1[0,1/2] + 1]1/2,1]
P([0, 1/2]) P(]1/2, 1])
1 1 5 1 1 5 1
= 2 × + × 1[0,1/2] + 2 ×0+ × 1[1/2,1]
4 3 8 6 4 8 2
3 5
= 1[0,1/2] + 1[1/2,1] ,
8 8
ce qui fournit bien un contre-exemple à (2.7).

Versions conditionnelles de résultats classiques

Proposition 2.14 (Inégalité de Tchebychev) Pour ε > 0, on a

E X 2 |G
P |X| ≥ ε |G ≤ ps.
ε2
Démonstration : Il s’agit d’appliquer la Prop. 2.9 à l’inégalité ε2 1{|X|≥ε} ≤ X 2 . □
Chapitre 2. ©JCB – M1math – Université de Rennes 20

Proposition 2.15 (Convergence monotone conditionnelle) Soit (Xn )n≥1 une suite de va-
riables aléatoires positives telles que Xn−1 ≤ Xn ↗ X. Alors

E Xn |G ↗ E X|G , n → +∞ ps.

Démonstration : Comme 0 ≤ Xn ↗ X, par la monotonie (Prop. 2.9), la suite E[Xn |G] n≥1
est croissante et admet donc une limite Z positive, G-mesurable car limite de variables
aléatoires G-mesurables. De plus, pour A ∈ G, on a

E[Z1A ] = lim E E[Xn |G]1A (par convergence monotone classique)
n→+∞
= lim E[Xn 1A ] (par la Définition 2.1)
n→+∞
= E[X1A ] (par convergence monotone classique).

Finalement, on a Z = E[X |G] ps. □

On déduit alors successivement comme dans le cas non-conditionnel le lemme de Fatou

conditionnel puis le théorème de convergence dominée conditionnel (cf. [Bre-Leb]) :

Proposition 2.16 (Lemme de Fatou conditionnel) Si Xn , n ≥ 1, sont des variables aléa-

toires positives alors

E lim inf Xn |G ≤ lim inf E Xn |G ps. (2.8)
n→+∞ n→+∞

Démonstration : On applique la Prop. 2.15 (convergence monotone conditionnelle) à la

puisque inf k≥n Xk ≤ Xn . □

Proposition 2.17 (Convergence dominée conditionnelle) Soit Xn , n ≥ 1, des variables

aléatoires avec |Xn | ≤ Z ∈ L1 (F). On suppose que Xn → X ps. Alors

lim E[Xn |G] = E[X|G] ps et dans L1 . (2.9)

n→+∞

Démonstration : Même preuve que le théorème de convergence dominée standard en utili-

sant la convergence monotone conditionnelle (Prop. 2.15) et le lemme de Fatou condition-
nel (Prop. 2.16) : on pose Yn = 2Z −|Xn −X| ; on a limn→+∞ Yn = lim inf n→+∞ Yn = 2Z.
Le lemme de Fatou conditionnel (Prop. 2.16) appliqué aux variables aléatoires Yn (inté-
grables) assure
h i
2E[Z |G] = E lim inf Yn G ≤ lim inf E[Yn |G] = 2E[Z |G] − lim sup E |Xn − X| G .
n→+∞ n→+∞ n→+∞
Chapitre 2. ©JCB – M1math – Université de Rennes 21

En simplifiant par E[Z |G] < +∞ ps, on a

lim sup E |Xn − X| G ≤ 0.
n→+∞

Comme par ailleurs

0 ≤ lim inf E |Xn − X| G ≤ lim sup E |Xn − X| G ,
n→+∞ n→+∞

on a donc limn→+∞ E |Xn − X| G = 0 ps. et on conclut à (2.9) avec le Corollaire 2.10 :

E[Xn |G] − E[X|G] = E (Xn − X) G ≤ E |Xn − X| G .

L1
La convergence L1 est directe puisque par convergence dominée usuelle Xn −→ X et
donc

E E[Xn |G] − E[X |G] ≤ E E[|Xn − X| |G] = E[|Xn − X|] → 0, n → +∞.

Proposition 2.18 (Inégalité de Cauchy-Schwarz conditionnelle) On a

E[XY |G]2 ≤ E X 2 |G E Y 2 |G

ps.

Démonstration : La preuve est la même que celle de l’inégalité de Cauchy-Schwarz

usuelle. Comme (X + θY )2 ≥ 0, la linearité (Prop. 2.8) et la monotonie (Prop. 2.9)
assurent que

E Y 2 |G θ2 + 2E XY |G θ + E X 2 |G E Y 2 |G = E (X + θY )2 |G ≥ 0 ps.

Le polynôme en θ est positif pour tout θ ∈ Q, presque sûrement (attention à l’échange

entre le ps et le ∀θ ∈ Q est licite car on manipule une collection dénombrable de θ). Cela
exige que son discriminant soit négatif ps, ce qui prouve l’inégalité. □

Proposition 2.19 (Inégalité de Jensen conditionnelle) Soit X ∈ L1 (F) et φ : R → R

une fonction convexe telle que E[|φ(X)|] < +∞. Alors

φ E[X |G] ≤ E[φ(X) |G] ps. (2.10)

Démonstration : Si φ(x) = ax + b est linéaire, (2.10) est immédiate par la linéarité de

l’espérance conditionnelle (Prop. 2.8). De façon générale, la convexité de φ assure qu’en
tout point de son graphe la courbe de φ est au dessus de sa tangente, ie. pour tout y ∈ R
et tout dy ∈ [φ′g (y), φ′d (y)] on a :

∀x ∈ R, φ(x) ≥ φ(y) + dy (x − y). (2.11)

Chapitre 2. ©JCB – M1math – Université de Rennes 22

Ci-dessous, on prend par exemple dy = (φ′g (y) + φ′d (y))/2. En appliquant cette inégalité
(2.11) avec y = E[X|G] et x = X(ω) on a

φ(X) ≥ φ E[X|G] + dE[X|G] (X − E[X|G]),

puis en prenant l’espérance E[·|G], comme dE[X|G] est G-mesurable, on a

φ(X) ≥ φ E[X|G] + dE[X|G] E X − E[X|G] |G = φ E[X|G] .
| {z }
=0

Proposition 2.20 (Intégrabilité et contraction Lp ) Soit p ≥ 1.

(1) On a
p
≤ E |X|p |G

E X |G ps.
(2) L’espérance conditionnelle est une contraction sur Lp :
p
≤ E |X|p ps.

E E X |G

En particulier, E E X |G ≤ E |X| ps.

Démonstration : 1) C’est une conséquence de l’inégalité de Jensen (Prop. 2.19) avec la

fonction convexe φ(x) = |x|p pour p ≥ 1.
2) Avec la monotonie de l’espérance, 1) ci-dessus donne
p
≤ E E |X|p |G = E |X|p

E E X |G

où l’égalité vient de la Prop. 2.11. □

Propriétés supplémentaires de l’espérance conditionnelle

Théorème 2.21 Soit X, Y des variables aléatoires avec X G-mesurable. Lorsque les es-
pérances conditionnelles sont bien définies, c’est à dire
(1) X, Y ≥ 0,
(2) Y ∈ L1 (F) et XY ∈ L1 (F),
on a
E XY |G = XE Y |G ps. (2.12)

Démonstration : D’abord, XE Y |G est G-mesurable car produit de fonctions G-mesurab-
les. Ensuite, en supposant pour commencer X = 1B avec B ∈ G, on a pour A ∈ G

E XE[Y |G]1A = E E[Y |G]1A∩B = E[Y 1A∩B ] = E[(XY )1A ]
Chapitre 2. ©JCB – M1math – Université de Rennes 23

ce qui justifie (2.12) lorsque X = 1B , puis par linéarité pour X variable aléatoire simple.
Dans le cas 1), pour X variable aléatoire G-mesurable positive, il existe (Xn )n≥1 suite de
variables aléatoires G-mesurables positives telle que Xn ↗ X, n → +∞. Comme Y ≥ 0,
on a aussi Xn Y ↗ XY (Y ≥ 0), et le théorème de convergence mononotone conditionnel
(Prop. 2.15) assure alors

E[XY |G] = lim E[Xn Y |G] = lim Xn E[Y |G] = XE[Y |G].
n→+∞ n→+∞

Dans le cas 2), on peut de nouveau trouver des suites de variables aléatoires G-mesurables
simples positives croissantes (Xn′ )n≥1 et (Xn′′ )n≥1 qui convergent vers X + et X − et on
pose Xn = Xn′ − Xn′′ . Comme Xn est simple, le cas précédent assure

E[Xn Y |G] = Xn E[Y |G].

On conclut en passant à la limite dans cette égalité puisque limn→+∞ Xn = limn→+∞ Xn′ +
limn→+∞ Xn′′ = X ′ + X ′′ = X ps et comme |Xn | ≤ Xn′ + Xn′′ ≤ X + + X − = |X|, on a
|Xn Y | ≤ |XY | ∈ L1 et par convergence dominée conditionnelle (Prop. 2.17) :

lim E[Xn Y |G] = E[XY |G].

n→+∞

Théorème 2.22 (Conditionnement et indépendance)

⊥ G et X ∈ L1 (F) alors E[X |G] = E[X].
1. Si X ⊥
2. Soit X ⊥⊥ Y et f : R → R mesurable telles que E[|f (X, Y )|] < +∞. On pose
g(y) = E[f (X, y)]. Alors

E f (X, Y )|σ(Y ) = g(Y ).

3. Soit G, H des sous-tribus deF et X une variable aléatoire intégrable telles que
H⊥ ⊥ σ(X, G) := σ σ(X) ∪ G alors

E[X |σ(G, H)] = E[X |G]. (2.13)

Démonstration : 1) Soit A ∈ G. En utilisant la définition de l’espérance conditionnelle

puis l’indépendance A ⊥
⊥ X, on a

E E[X|G]1A = E[X1A ] = E[X]E[1A ] = E E[X]1A ] .

Comme E[X] est bien G-mesurable car constante, E[X] vérifie la Définition 2.1 de E[X|G].
2) D’abord, on note que g est bien une fonction mesurable par le théorème de Fubini
(Th. 0.5). Ainsi g(Y ) est σ(Y )-mesurable, d’où (i) dans la Définition 2.1. Ensuite pour
(ii) dans la Définition 2.1, on considère A ∈ σ(Y ). Cet ensemble s’écrit A = Y −1 (C)
pour un certain C ∈ B(R) et on a alors

E[f (X, Y )1A ] = E[f (X, Y )1C (Y )]

Chapitre 2. ©JCB – M1math – Université de Rennes 24
Z Z
= 1C (y)f (x, y) P(X,Y ) (dx, dy) (transfert)
Z Z
= 1C (y)f (x, y) PX (dx)PY (dy) (X ⊥ ⊥Y)
Z Z
= 1C (y) f (x, y) PX (dx) PY (dy) (Fubini)
Z
= 1C (y)g(y) PY (dy) (définition de g)
= E[g(Y )1C (Y )] (transfert)
= E[g(Y )1A ].

3) On utilise un argument de classe monotone (Th. 0.2). On note Y = E[X|G] et on pose

M = A ∈ F : E[Y 1A ] = E[X1A ] .

L’ensemble M est une classe monotone car

— Ω ∈ M puisque E[X] = E[Y ] ;
— Si A, B ∈ M avec B ⊂ A alors A \ B ∈ M car 1A\B = 1A − 1B et

E Y 1A\B = E Y (1A − 1B ) = E Y 1A − E Y 1B

= E X1A − E X1B = E X(1A − 1B )

= E X1A\B ;
S
— Si Aj ∈ M avec Aj ⊂ Aj+1 , j ≥ 1, alors j≥1 Aj ∈ M car

E Y 1Sj≥1 Aj = E Y lim 1An = lim E Y 1An (convergence dominée)
n→+∞ n→+∞

= lim E X1An = E X lim 1An (convergence dominée)
n→+∞ n→+∞
S
= E X1 j≥1 Aj .

Par Définition 2.1 de Y , on a G ⊂ M. On a aussi H ⊂ M car pour A ∈ H par

indépendance H ⊥ ⊥ G ∋ Y on a E[Y 1A ] = E[Y ]P(A) et par indépendance H ⊥ ⊥ σ(X) on
a aussi E[X1A ] = E[X]P(A), d’où l’égalité puisque E[Y ] = E[X] et A ∈ M.
On note maintenant que P = {B ∩ C : B ∈ G, C ∈ H} est un π-système (stable par
intersection finie) : si B1 ∩ C1 , B2 ∩ C2 ∈ P alors

(B1 ∩ C1 ) ∩ (B2 ∩ C2 ) = (B1 ∩ B2 ) ∩ (C1 ∩ C2 ) ∈ P

car B1 ∩ B2 ∈ G et C1 ∩ C2 ∈ H.
On a P ⊂ M, en effet pour A = B ∩ C ∈ P avec B ∈ G et C ∈ H par indépendance
H⊥⊥ σ(X, G), il vient :

E[Y 1A ] = E[Y 1B 1C ] = E[Y 1B ] E[1C ] (C ∈ H ⊥

⊥ G ∋ Y, B)
Chapitre 2. ©JCB – M1math – Université de Rennes 25

= E[X1B ] E[1C ] (définition de Y = E[X |G])

= E[X1B 1C ] (C ∈ H ⊥ ⊥ σ(X, G) ∋ X, B)
= E[X1A ].

Par le théorème de classe monotone (Th. 0.2), on a σ(P) ⊂ M.

On conclut en justifiant σ(P) = σ(G, H). En effet, on a P ⊂ σ(G, H) car P ∈ P s’écrit
P = B ∩ C ∈ σ(G, H) puisque B ∈ G ⊂ σ(G, H), C ∈ H ⊂ σ(G, H). On a donc
σ(P) ⊂ σ(G, H). Puis comme G ⊂ P et H ⊂ P, on a (G ∪ H) ⊂ P et

σ(G, H) = σ G ∪ H) ⊂ σ(P)

et finalement σ(P) = σ(G, H).

La conclusion σ(G, H) ⊂ M signifie alors que ∀A ∈ σ(G, H) on a E[Y 1A ] = E[X1A ] et
donc Y = E[X |σ(G, H)], ce qui est la conclusion (2.13) cherchée. □

Remarque 2.23 (Contre-exemple) Attention, dans le 3) du Th. 2.22 il est insuffisant de

supposer seulement H ⊥ ⊥ G et H ⊥
⊥ σ(X) : en effet, avec εi = ±1, i = 1, 2, indépendantes,
de loi P(εi = 1) = P(εi = −1) = 1/2, prendre X = ε1 ε2 et H = σ(ε1 ), G = σ(ε2 ) : on a
X de loi de Rademacher R(1/2), ie. P(X = 1) = P(X = −1) = 1/2 et
— H⊥ ⊥ G,
— H⊥ ⊥ σ(X) car par exemple
1
P(ε1 = 1, ε1 ε2 = 1) = P(ε1 = 1, ε2 = 1) = P(ε1 = 1)P(ε2 = 1) =
4
= P(ε1 = 1)P(ε1 ε2 = 1),

— mais on n’a pas H ⊥ ⊥ σ(X, G) puisque ε1 = X/ε2 est σ(X, G)-mesurable.

Dans ce cas, (2.13) ne tient effectivement pas puisque

E[X |G] = E[ε1 ε2 |ε2 ] = ε2 E[ε1 ] = 0

E[X |σ(G, H)] = E[ε1 ε2 |σ(ε1 , ε2 )] = ε1 ε2 .

2.4 Espérance conditionnelle dans le cas L2

Interprétation géométrique
Dans le cadre L2 , l’espérance conditionnelle s’interprète comme une projection L2
pour le produit scalaire ⟨X, Y ⟩ = E[XY ].

Théorème 2.24 (Espérance conditionnelle et projection L2 ) Soit X ∈ L2 (F) et G une

sous-tribu de F. L’espérance conditionnelle E[X|G] est la projection de X sur L2 (G) :

E[X|G] = PL2 (G) (X). (2.14)

Chapitre 2. ©JCB – M1math – Université de Rennes 26

Démonstration : Notons Y = E[X|G]. D’après la Prop. 2.20, comme X ∈ L2 (F), on a

aussi Y ∈ L2 (G). Pour Z ∈ L2 (G), il vient

E (X − Z)2 = E (X − Y + Y − Z)2

= E (X − Y )2 + 2E[(X − Y )(Y − Z)] + E (Y − Z)2

= E (X − Y )2 + E (Y − Z)2 ,

car Y − Z étant G-mesurable

=0
z }| {
E[(X − Y )(Y − Z)] = E E[(X − Y )(Y − Z) |G] = E E X − Y |G (Y − Z) = 0.

Ainsi 1/2
d X, L2 (G) = E (X − Z)2 = E (X − Y )2

inf2
Z∈L (G)

est atteint en Z = Y ∈ L2 (G). Cela justifie que Y est la projection PL2 (G) (X) de
X ∈ L2 (F) sur L2 (G). □

Variance conditionnelle
On définit de la même façon d’autres quantités conditionnelles telles que la variance
conditionnelle Var(X|G).
Définition 2.25 (Variance conditionnelle) La variance conditionnelle de X ∈ L2 (F) sa-
chant G est définie par

Var(X |G) = E (X − E[X |G])2 |G .

On verra qu’il s’agit de la variance par rapport à la loi conditionnelle P(·|G). Comme
dans le cas usuel, on a l’identité de König 1 :
Proposition 2.26 (König) Pour X variable aléatoire L2 et une sous-tribu G, on a :

Var(X |G) = E[X 2 |G] − E[X |G]2 .

Démonstration : En effet,

E X 2 − 2XE[X |G] + E[X |G]2 G

□
Par le théorème de Pythagore, on a la décomposition de la variance sous la forme :
1. Johann Samuel König (Allemand, 1712–1757)
Chapitre 2. ©JCB – M1math – Université de Rennes 27

Théorème 2.27 (Décomposition de la variance) Soit X ∈ L2 (F) et G une sous-tribu de

F. Alors, on a
Var(X) = E Var(X |G) + Var E[X |G] . (2.15)
Démonstration : En utilisant la Prop. 2.26, on a :

E Var(X |G) = E E[X 2 |G] − E[X|G]2 = E[X 2 ] − E E[X|G]2

2
Var E[X |G] = E E[X |G]2 − E E[X |G] = E E[X |G]2 − E[X]2

dont on déduit (2.15) par addition. □

2.5 Conditionnement gaussien

Dans le cas de conditionnement gaussien, on a mieux que (2.14) : il suffit de projeter
sur l’espace vectoriel engendré par les variables aléatoires (gaussiennes) qui conditionnent
:
Proposition 2.28 (Espérance conditionnelle gaussienne)
1. Soit (X, Y ) un couple gaussien centré. Alors
Cov(X, Y )
E[X |Y ] = Y ps.
Var(Y )

2. Dans le cas non centré, on a

Cov(X, Y ) Cov(X, Y )
E[X |Y ] = mX − mY + Y.
Var(Y ) Var(Y )

3. Soit (Z1 , . . . , Zd ) un vecteur gaussien centré de covariance Σ et (a1 , . . . , ad )t , (b1 , . . . , bd )t ∈

Rd . On considère X = a1 Z1 + · · · + ad Zd et Y = b1 X1 + · · · + bd Zd . Alors
at Σb
E[X |Y ] = Y.
bt Σb
4. Soit Y = (Y1 , . . . , Yd ) un vecteur gaussien centré de covariance Σ inversible et X
variable aléatoire réelle tels que (X, Y ) soit un vecteur gaussien centré. On note
t
d = Cov(X, Y1 ), . . . , Cov(X, Yd ) . Alors

E[X |Y ] = ⟨Σ−1 d, Y ⟩.

Démonstration : 1) Notons c = E[XY ]/E[Y 2 ]. Comme (X, Y ) est un vecteur gaussien

centré, (Y, X − cY ) l’est aussi et par définition de c :

Cov(X − cY, Y ) = Cov(X, Y ) − c Var(Y ) = 0,

Chapitre 2. ©JCB – M1math – Université de Rennes 28

on a donc Y ⊥ ⊥ (X − cY ). Soit Z ∈ L2 (σ(Y )), d’après le théorème de Doob-Dynkin

(Th. 0.4), Z = h(Y ) avec h(Y ) ∈ L2 (σ(Y )). On a

E (X − cY )Z = E E[(X − cY )h(Y ) |Y ]

= E h(Y )E[(X − cY ) |Y ]

= E h(Y ) E[X − cY ] = 0
| {z }
=0

d’après le Th. 2.22 puisque X −cY ⊥⊥ Y . On a donc X −cY ⊥ Z pour tout Z ∈ L2 (σ(Y )),
ie. X − cY ⊥ L2 (σ(Y )). Comme cY ∈ L2 (σ(Y )), on a PL2 (σ(Y )) (X) = cY et d’après
l’interprétation projection (2.14) de l’espérance conditionnelle dans le cadre L2 , on a
bien
E[X |Y ] = PL2 (σ(Y )) (X) = cY.
2) Le cas non centré se déduit de 1) appliqué à X − mX et Y − mY .
3) En notant ⟨a, b⟩ = di=1 ai bi le produit scalaire euclidien, on a X = ⟨a, Z⟩ et Y =
P
⟨b, Z⟩. Le vecteur (X, Y ) est gaussien car image linéaire de Z. En notant Σ la matrice
de covariance de Z, on a

Var(X) = at Σa, Var(Y ) = bt Σb,

d
X
Cov(X, Y ) = ai bj Cov(Zi , Zj ) = at Σb.
i,j=1

En appliquant le 1) au vecteur gaussien (X, Y ), on a

Cov(X, Y ) at Σb
E[X |Y ] = Y = t Y.
Var(Y ) b Σb

4) On note c = Σ−1 d. Le vecteur X − ct Y, Y est gaussien car toutes combinaisons de

ses marginales en est une de celles de (X, Y ) donc de loi normale. Pour chaque 1 ≤ i ≤ d,
on a
h d d
X i X
E (X − ct Y )Yi = E X −

cj Yj Yi = E[XYi ] − cj E[Yi Yj ]
j=1 j=1
= Cov(X, Yi ) − (Σc)i = (d − Σc)i = 0,

par choix de c = Σ−1 d. Il suit que X − ct Y ⊥

⊥ Y . En prenant Z = h(Y ) ∈ L2 (σ(Y )), on
a

E (X − ct Y )Z = E E[(X − ct Y )h(Y ) |Y ]

= E h(Y )E[(X − ct Y ) |Y ]

= E h(Y ) E[X − ct Y ] = 0

| {z }
=0
Chapitre 2. ©JCB – M1math – Université de Rennes 29

d’après le Th. 2.22 puisque X − ct Y ⊥ ⊥ Y . On a donc X − ct Y ⊥ Z pour tout Z ∈

L2 (σ(Y )), ie. X − ct Y ⊥ L2 (σ(Y )). Comme ct Y ∈ L2 (σ(Y )), on a PL2 (σ(Y )) (X) = ct Y et
d’après l’interprétation projection (2.14) de l’espérance conditionnelle dans le cadre L2 ,
on a bien
E[X |Y ] = PL2 (σ(Y )) (X) = ct Y.
□

2.6 Lois conditionnelles

Dans cette section, on définit les lois conditionnelles. On admet cependant le résultat
difficile d’existence de ces lois (dans un espace polonais) dû à Jiřina (Th. 2.34, cf. [Jir]).
Définition 2.29 (Noyau de probabilité) Soit (S, A) et (T, B) deux espaces mesurables.
On appelle noyau de probabilité (ou de transition) de T dans S toute application ν :
A × T → [0, 1] telle que
(i) pour tout y ∈ T , ν(∗, y) est une probabilité sur (S, A) ;
(ii) pour tout A ∈ A, y 7→ ν(A, y) est B-mesurable.

R mesure σ-finie sur (S, A) et h : S × T → R+ est une

Exemple 2.30 1) Si µ est une
fonction mesurable avec S h(x, y) µ(dx) = 1 pour tout y ∈ T alors
Z
ν(A, y) = h(x, y) µ(dx)
A

définit un noyau de probabilité. La σ-additivité dans (i) de la Définition 2.29 vient

du théorème de convergence monotone. Le point (ii) est assuré par le théorème de
Fubini-Tonelli (Th. 0.5).
2) (Couple à densité) Soit (X, Y ) un couple aléatoire sur R2 de densité f . On peut
appliquer le cas 1) précédent avec (S, A) = (T, B) = (R, B(R)), µ = λ (mesure de
Lebesgue) et
f (x, y)
h(x, y) =
fY (y)
lorsque fY (y) > 0. On définit alors un noyau de probabilité par
Z
f (x, y)
ν(A, y) = dx (2.16)
A fY (y)

lorsque y est dans le support de Y et ν(∗, y) = δs0 sinon pour s0 ∈ S quelconque.

3) (Couple discret) On considère (X, Y ) un couple aléatoire discret. On définit un noyau
de probabilité par
(
=y)
P(X ∈ A|Y = y) = P(X∈A,Y
P(Y =y)
si P(Y = y) > 0
ν(A, y) = (2.17)
δs0 (A) sinon,
où s0 ∈ S est quelconque.
Chapitre 2. ©JCB – M1math – Université de Rennes 30

Proposition 2.31 Soit ν un noyau de probabilité.

(1) Si h est mesurable positive (ou bornée) sur (S, A) alors
Z
φ(y) = h(x) ν(dx, y), y ∈ T, (2.18)

est mesurable sur (T, B).

(2) Si η est une mesure de probabilité sur (T, B) alors
Z
µ(A) = ν(A, y) η(dy), A ∈ A,

est une mesure de probabilité sur (S, A).

Démonstration : (1) Si h = 1A alors φ(y) = ν(A, y) et la mesurabilité découle de (ii)

dans la Définition 2.29. Par les arguments standards de théorie de la mesure, on étend le
résultat pour h simple puis pour h mesurable positive (par approximation et convergence
monotone).
(2) On a µ(A) ≥ 0 car ν(A, y) ≥ 0 et µ(S) = 1 car ν(S, y) = 1 et η est une probabi-
lité. Enfin, µ est σ-additive en utilisant celle de ν(∗, y) et le théorème de convergence
monotone : pour des Ai ∈ A, i ≥ 1, deux à deux disjoints, on a
+∞
[ Z +∞ [ Z X+∞
µ Ai = ν Ai , y η(dy) = ν(Ai , y) η(dy)
i=1 i=1 i=1
+∞ Z
X +∞
X
= ν(Ai , y)η(dy) = µ(Ai ).
i=1 i=1

Définition 2.32 (Loi conditionnelle) Soit X, Y des variables aléatoires à valeurs respec-
tivement dans (S, A) et (T, B). On appelle loi conditionnelle de X sachant Y tout noyau
de probabilité ν : A × T → [0, 1] telle que pour toute fonction h mesurable positive sur
(S, A) on a Z

E h(X) |Y = h(x) ν(dx, Y ). (2.19)

Remarque 2.33 En utilisant la fonction φ donnée en (2.18), mesurable d’après la Prop. 2.31,
on a E[h(X) |Y ] = φ(Y ). La fonction φ est donc la fonction mesurable du théorème
de Doob-Dynkin (Th. 0.7) appliqué à la variable aléatoire E[h(X) |Y ] qui est σ(Y )-
mesurable.

Par la Définition 2.32, si ν est la loi conditionnelle de X sachant Y alors en prenant

h = 1A dans (2.19), on a

P X ∈ A |Y = ν(A, Y ) ps. (2.20)
Par (i) dans la Définition 2.29, P(X ∈ ·|Y ) ainsi définie est bien une probabilité.
Chapitre 2. ©JCB – M1math – Université de Rennes 31

Existence et unicité de la loi conditionnelle

Existence. L’existence des lois conditionnelles est un résultat difficile. Elle est donnée par
le résultat suivant dû à Jiřina (et admis). Il s’applique en particulier pour des variables
aléatoires à valeurs dans R ou Rp .
Théorème 2.34 (Jiřina) Soit (S, A) et (T, B) deux espaces mesurables. On suppose que S
est un espace polonais (métrique, complet, séparable) avec A = B(S) (tribu borélienne).
Alors il existe une loi conditionnelle de X sachant Y comme dans la Définition 2.32.
Démonstration : Admis. □

Unicité. Si ν et ν ′ sont deux lois conditionnelles de X sachant Y telles que dans la

Définition 2.32 alors pour tout A ∈ A (cf. (2.20)) :

ν(A, Y ) = P Y ∈ A |Y = ν ′ (A, Y ) ps

c’est à dire ν(A, y) = ν ′ (A, y) pour PY -presque chaque y ∈ T (attention au presque

sûr qui dépend de A ∈ A). Dans le cas où les mesures de probabilités sur (S, A) sont
caractérisées par leurs valeurs sur une famille dénombrable d’évènements alors on a

ν(∗, y) = ν ′ (∗, y) pour PY -presque chaque y ∈ T .

C’est le cas pour (S, A) = (Rd , B(Rd )) ; plus généralement, c’est encore le cas lorsque S
un espace polonais (métrique, complet, séparable) avec A = B(S) (tribu borélienne). En
ce sens, il y a unicité de la loi conditionnelle de X sachant Y .

Cadres usuels
On prolonge l’Exemple 2.30 avec les cas usuels discret et à densité. D’après le Théo-
rème de Jiřina (Th. 2.34), dans ces cas il y a existence et unicité de la loi conditionnelle.
On montre qu’alors les noyaux de probabilité sont donnés par (2.16) et (2.17).

Proposition 2.35 (Loi conditionnelle à densité) Soit (X, Y ) un couple aléatoire de den-
sité f . Alors la loi conditionnelle de X sachant Y est donnée par le noyau de densité
(2.16).

Démonstration : On montre (2.19) avec ν(dx, y) = ffY(x,y)

(y)
dx lorsque y ∈ S(Y ) (probabilité
quelconque sinon) en établissant que pour A ∈ σ(Y ), on a
h Z i
E h(X)1A ] = E h(x) ν(dx, Y ) 1A .

Comme A ∈ σ(Y ) s’écrit A = Y −1 (B) et 1A = 1B (Y ), on a :

h Z i h Z i
E h(x) ν(dx, Y ) 1A = E h(x) ν(dx, Y ) 1B (Y )
Chapitre 2. ©JCB – M1math – Université de Rennes 32
Z Z
= h(x) ν(dx, y)dx 1B (y)fY (y)dy (formule de transfert)
Z Z f (x, y)
= h(x) dx 1B (y)fY (y)dy (définition de ν)
S(Y ) fY (y)
Z
= h(x)1B (y)f (x, y) dxdy (théorème de Fubini)

= E h(X)1B (Y )] = E h(X)1A ].
R
Cela justifie que φ(Y ) = h(x) ν(dx, Y ) vérifie le ii) de la Définition 2.1 de E[h(X)|Y ].
Comme φ(Y ) est σ(Y )-mesurable, le i) est immédiat et on a bien φ(Y ) = E[h(X)|Y ],
prouvant que ν(∗, Y ) est la loi conditionnelle de X sachant Y (Définition 2.32). □

Proposition 2.36 (Loi conditionnelle discrète) Soit (X, Y ) un couple aléatoire discret.
Alors la loi conditionnelle de X sachant Y est donnée par le noyau discret (2.17).
=y)
Démonstration : On montre (2.19) avec ν(x, y) = P(X=x,Y P(Y =y)
lorsque P(Y = y) > 0
(probabilité quelconque sinon) en établissant que pour A ∈ σ(Y )
h Z i
E h(X)1A ] = E h(x) ν(dx, Y ) 1A .

Comme A ∈ σ(Y ) s’écrit A = Y −1 (B) et 1A = 1B (Y ), on a :

h Z i h Z i
E h(x) ν(dx, Y ) 1A = E h(x) ν(dx, Y ) 1B (Y )
X Z
= h(x) ν(dx, y) 1B (y)P(Y = y)
y∈S(Y )
X X P(X = x, Y = y)
= h(x) 1B (y)P(Y = y)
P(Y = y)
y∈S(Y ) x∈S(X)
X
= h(x)1B (y)P(X = x, Y = y)
(x,y)∈S(X)×S(Y )

= E h(X)1B (Y )] = E h(X)1A ].

Commme précédemment, cela justifie successivement que φ(Y ) = E[h(X)|Y ], et que

ν(∗, Y ) est la loi conditionnelle de X sachant Y (Définition 2.32). □

Conditionnement par Y = y
On revient au conditionnement par un évènement comme dans le Chapitre 1 et on
donne un sens général à des probabilités conditionnelles du type P(X ∈ A|Y = y), même
lorsque P(Y = y) = 0.
Chapitre 2. ©JCB – M1math – Université de Rennes 33

Définition 2.37 (Probabilité conditionnelle sachant Y = y) Lorsque la loi conditionnelle

ν de X sachant Y existe, on pose pour PY -presque chaque y :

P(X ∈ A|Y = y) = ν(A, y). (2.21)

Lorsque Y est une variable aléatoire discrète, on a commencé par voir au Chapitre 1
avec la Définition 1.11 que
X
P(X ∈ A|Y ) = E[1A (X)|Y ] = E[1A (X)|Y = y]1{Y =y}
y∈Y (Ω)
X
= P(X ∈ A|Y = y)1{Y =y} ,
y∈Y (Ω)

si bien que P(X ∈ A|Y ) = P(X ∈ A|Y = y) sur {Y = y}, ce qui se retrouve avec le
cadre plus général donné par (2.20) et (2.21) :

P(X ∈ A|Y ) = ν(A, Y ), P(X ∈ A|Y = y) = ν(A, y).

Dans le cas où P(Y = y) > 0, la définition de P(∗|Y = y) coı̈ncide donc avec la définition
élémentaire du Chapitre 1, cf. (2.17).
Lorsque P(Y = y) = 0, le conditionnement par {Y = y} n’est pas bien défini dans le
Chapitre 1 (cf. par exemple P(X ∈ A |Y = y) en (1.11)) et on parle de conditionnement
singulier.
Avec la Définition 2.37, on définit aussi :

Définition 2.38 (Loi conditionnelle sachant Y = y) On définit la loi conditionnelle de

X sachant Y = y pour PY -presque chaque y par :

L X|Y = y = ν(∗, y).

On peut alors définir les espérances conditionnelles sachant Y = y comme l’espérance

par rapport à la loi conditionnelle sachant Y = y, ie.
Z

E h(X)|Y = y = h(x) PX (dx |Y = y).

De plus, compte tenu de (2.20) et (2.21), on observe que si

E h(X) |Y = y = φ(y)

alors
E h(X) |Y = φ(Y ).
Cette observation justifie que pour calculer E[h(X)|Y ], on peut faire le calcul comme si
Y était figé en y avec la loi conditionnelle de X sachant Y = y, une fois le résultat φ(y)
obtenu, on a le résultat final φ(Y ) en reprenant Y à la place de y.
Chapitre 2. ©JCB – M1math – Université de Rennes 34

Proposition 2.39 Soit X, Y deux variables aléatoires. On a X ⊥

⊥ Y si et seulement si la
loi conditionnelle L(X|Y = y) de X sachant Y = y existe pour PY -presque chaque y et
ne dépend pas de y.

Démonstration : On suppose d’abord X ⊥

⊥ Y . On a
Z

E h(X) |Y = E[h(X)] = h(x) PX (dx)

ce qui justifie L X|Y = ν(·, Y ) = PX et, pour tout y, L X|Y = y = ν(·, y) = PX , ce
qui prouve le sens direct.
On suppose ensuite que la loi L(X|Y = y) de X sachant Y = y existe pour PY -presque
chaque y et ne dépend pas de y, ie. L(X|Y = y) = ν(∗, y) = ν(∗), on a alors pour tout
A, B ∈ B(R) :

P(X ∈ A, Y ∈ B) = E[1A (X)1B (Y )] = E E[1A (X)1B (Y ) |Y ] = E E[1A (X) |Y ]1B (Y )
Z Z
= ν(A, y)1B (y) PY (dy) = ν(A)1B (y) PY (dy)
Z
= ν(A) 1B (y) PY (dy) = ν(A) P(Y ∈ B),

ce qui justifie X ⊥
⊥Y. □

Désintégration et Fubini conditionnel

Proposition 2.40 (Désintégration d’une loi) Soit X, Y des variables aléatoires à valeurs
respectivement dans (S, A) et (T, B) telle que la loi conditionnelle P(X ∈ ∗|Y = ·) est
bien définie comme en Définition 2.32 avec un noyau de transition ν(∗, ·) comme en
Définition 2.29. Alors, pour tout A ∈ A et B ∈ B on a
Z Z
P(X ∈ A, Y ∈ B) = ν(A, y) PY (dy) = P(X ∈ A|Y = y) PY (dy). (2.22)
B B

Démonstration : Pour A ∈ A et B ∈ B, on a

P(X ∈ A, Y ∈ B) = E[1A (X)1B (Y )] = E E[1A (X)1B (Y ) |Y ]
Z
= E[ν(A, Y )1B (Y )] = ν(A, y) PY (dy)
Z B

= P(X ∈ A|Y = y) PY (dy)

en utilisant la notation (2.21) pour P(X ∈ A|Y = y). □

Plus généralement, avec les arguments standards de théorie de la mesure, on montre :

Chapitre 2. ©JCB – M1math – Université de Rennes 35

Théorème 2.41 (Fubini conditionnel) Soit (X, Y ) un couple aléatoire à valeurs dans
(S × T, A ⊗ B) telle que la loi conditionnelle P(X ∈ ∗|Y = ·) est bien définie comme en
Définition 2.32. Alors
R
(1) Pour f : (S × T, A ⊗ B) → R+ mesurable (positive), y 7→ S f (x, y) PX (dx |Y = y)
est mesurable et
Z Z Z
f (x, y) P(X,Y ) (dx, dy) = f (x, y) PX (dx |Y = y) PY (dy). (2.23)
S×T T S

(2) Pour f : (S × T, A ⊗ B) → R mesurable de signe quelconque, P(X,Y ) -intégrable, alors

pour PY -presque chaque
R y ∈ T , l’application f (·, y) est PX (∗ |Y = y)-intégrable et
l’application y 7→ S f (x, y) PX (dx |Y = y) est PY -intégrable avec l’égalité (2.23)
encore vraie.

En notant Z
φf (y) = f (x, y) PX (dx |Y = y),
S
−1
(2.23) assure que pour tout B = Y (C) ∈ σ(Y )
Z
E[1B f (X, Y )] = E[1C (Y )f (X, Y )] = 1C (y)φf (y) PY (dy)
T
= E[1C (Y )φf (Y )] = E[1B φf (Y )].
Comme φf (Y ) est σ(Y )-mesurable, on a
Z Z
E[f (X, Y ) |Y ] = φf (Y ) = f (x, y) PX (dx |Y = y) = f (x, Y ) ν(dx, Y ).
S y=Y

Par conséquent lorsque h(f (X, Y )) ∈ L1 , on a par la formule de transfert

Z
E[h(f (X, Y )) |Y ] = h(f (x, Y )) ν(dx, Y )
Z
h(u) ν(∗, Y ) ◦ f (∗, Y )−1 (dx)

=

donc, d’après la Définition 2.32, la loi conditionnelle de f (X, Y ) sachant Y est

L f (X, Y ) |Y = ν(∗, Y ) ◦ f (∗, Y )−1 .

(2.24)
De la même façon, par la formule de transfert
Z
E[h(f (X, y)) |Y ] = h(f (x, y)) ν(dx, Y )
Z
h(u) ν(∗, Y ) ◦ f (∗, y)−1 (dx)

=

et, d’après la Définition 2.32, la loi conditionnelle de f (X, y) sachant Y est

L f (X, y) |Y = ν(∗, Y ) ◦ f (∗, y)−1 .

(2.25)
En comparant (2.24) et (2.25), compte tenu de la notation (2.21), on a prouvé :
Chapitre 2. ©JCB – M1math – Université de Rennes 36

Proposition 2.42 (Transfert conditionnel) Sous les mêmes conditions que dans le Th. 2.41,
on a :
P f (X, Y ) ∈ ∗ |Y = y = P f (X, y) ∈ ∗ |Y = y)
ou
L f (X, Y ) |Y = y = L f (X, y) |Y = y .
Deuxième partie

Martingales

37
Chapitre 3

Martingales et filtrations

Dans ce chapitre, on introduit la notion de martingale. On commence par les notions

de filtration en Section 3.1 et de temps d’arrêt en Section 3.2 avant de définir les martin-
gales en Section 3.3 et d’en donner les premières propriétés en Section 3.4. On termine
ce chapitre avec la notion de martingale arrêtée en Section 3.5.
Dans la suite, on considère un espace de probabilité (Ω, F, P).

3.1 Filtration et mesurabilité

Filtration
Définition 3.1 (Filtration) Soit (Fn )n≥0 une suite de sous-tribus de F. On dit que (Fn )n≥0
est une filtration lorsque pour tout n ≥ 0, on a Fn ⊂ Fn+1 .
Un espace de probabilité muni d’une filtration Ω, F, (Fn )n≥0 , P s’appelle un espace de
probabilité filtré.

Définition 3.2 (Adapté) On dit qu’une suite (Xn )n≥0 est adaptée par rapport à une fil-
tration (Fn )n≥0 si pour tout n ≥ 0, Xn est Fn -mesurable.

Exemple 3.3 (Filtration canonique) Si (Xn )n≥1 est une suite de variables aléatoires, on
appelle filtration canonique ou naturelle la filtration (Fn )n≥1 des tribus engendrées par
ces variables aléatoires :
n
!
[
Fn = σ(X1 , . . . , Xn ) := σ σ(Xi ) , n ≥ 1.
i=1

Il s’agit de la plus petite tribu rendant chaque Xi mesurable pour 1 ≤ i ≤ n. Si besoin,

on complète la filtration par F0 = {∅, Ω} (en général associé à un choix de X0 constante).
On parle aussi de la filtration engendrée par la suite (Xn )n≥1 . Par construction, la suite
(Xn )n≥1 est adaptée par rapport à sa filtration naturelle.

38
Chapitre 3. ©JCB – M1math – Université de Rennes 39

Exemple 3.4 (Filtration dyadique) Soit (Ω, F, P) = ]0, 1[, B(]0, 1[), λ où λ est la me-
sure de Lebesgue sur ]0, 1[ (probabilité uniforme). On pose
h i − 1 i h
n
Fn = σ , : i = 1, . . . , 2 , n ≥ 0,
2n 2n
et (Fn )n≥0 s’appelle alors la filtration dyadique de [0, 1]. On a bien une filtration car
comme pour tout n ≥ 1 et 1 ≤ i ≤ 2n :
h i − 1 i h h 2i − 2 2i − 1 h h 2i − 1 2i h
, = , ∪ , ,
2n 2n 2n+1 2n+1 2n+1 2n+1
on a nh i − 1 i h o
n
Dn := , : i = 1, . . . , 2 ⊂ σ(Dn+1 ),
2n 2n
et donc Fn = σ(Dn ) ⊂ Fn+1 = σ(Dn+1 ).

Prévisibilité
Définition 3.5 (Prévisibilité) Une suite de variables aléatoires (Hn )n≥1 est dite prévi-
sible pour une filtration (Fn )n≥0 si, pour tout n ≥ 1, Hn est Fn−1 -mesurable.

Remarque 3.6 (Interprétation sous forme d’information) En interprétant une sous-tribu

G ⊂ F comme une quantité d’information, il faut comprendre la G-mesurabilité d’une
variable aléatoire X comme la connaissance de cette variable aléatoire : X G-mesurable
est connue dès lors que la sous-tribu G l’est.
Ainsi on peut interpréter une filtration comme une quantité d’information qui évolue au
cours du temps : N est le temps et Fn est l’information disponible à la date n.
Une suite (Xn )n≥1 est alors adaptée si Xn est connue à la date n. Une suite (Hn )n≥1 est
prévisible si Hn peut être prédite avec l’information Fn−1 disponible à la date n − 1.

Des exemples typiques de suites prévisibles sont donnés avec la notion de temps d’arrêt
qui suit, cf. (3.1).

3.2 Temps d’arrêt

La notion de temps d’arrêt est associée à une filtration (Fn )n≥0 qu’on commence par se
fixer.

Définition 3.7 (Temps d’arrêt) Une variable aléatoire T à valeurs dans N ∪ {+∞} est
un (Fn )-temps d’arrêt si pour tout n ≥ 0 on a {T ≤ n} ∈ Fn .

Remarque 3.8 À chaque date n ≥ 0, on sait si la date aléatoire T est échue ou pas.

Exemple 3.9 (Temps d’arrêt)

Chapitre 3. ©JCB – M1math – Université de Rennes 40

1. Si T est constant égale à n0 alors T est un temps d’arrêt.

2. Soit (Xn )n≥1 une suite de variables aléatoires et (Fn )n≥1 sa filtration naturelle.
— (Temps d’atteinte) T = min i ≥ 0 : Xi ∈ A est un (Fn )-temps d’arrêt pour
A ∈ B(R). En effet
[n

T ≤n = Xk ∈ A ∈ Fn
k=0

puisque {Xk ∈ A} ∈ Fk ⊂ Fn , 0 ≤ k ≤ n.
— Attention, T = max i ≥ 0 : Xi ∈ A n’est pas un temps d’arrêt par rapport à
la filtration naturelle. Par exemple,

T = n = Xn ∈ A, Xn+1 ̸∈ A, Xn+2 ̸∈ A, . . . ̸∈ σ X1 , . . . , Xn = Fn .

Remarque 3.10 1. {T = n} = {T ≤ n} \ {T ≤ n − 1} ∈ Fn ;
2. {T ≥ n} = {T ≤ n − 1}c ∈ Fn−1 ;
3. Étant donné un (Fn )-temps d’arrêt T , on définit une suite prévisible par

Hn = 1{T ≥n} , n ≥ 0. (3.1)

Proposition 3.11 (Propriétés des temps d’arrêt)

(1) T est un temps d’arrêt si et seulement si pour tout n ≥ 0 on a {T = n} ∈ Fn .
(2) Si T et S sont des (Fn )-temps d’arrêt. Alors T ∧ S, T ∨ S, T + S en sont aussi.
(3) Si T est un (Fn )-temps d’arrêt alors pour tout k ≥ 0, T ∧ k en est un aussi.
(4) Si (Tp )p≥1 est une suite monotone de (Fn )-temps d’arrêt alors T = limp→+∞ Tp est
aussi un temps d’arrêt.
(5) Soit (Tp )p≥1 est une suite de (Fn )-temps d’arrêt alors

inf Tp , sup Tp , lim inf Tp , lim sup Tp

p≥1 p≥1 p→+∞ p→+∞

sont des (Fn )-temps d’arrêt.

Démonstration : 1) Si T est un temps d’arrêt vérifiant la Définition 3.7 alors {T = n} =

{T ≤ n} \ {T ≤ n − 1} ∈ Fn puisque {T S ≤ n} ∈ Fn et {T ≤ n − 1} ∈ Fn−1 ⊂ Fn . La
réciproque vient de ce que {T ≤ n} = k≤n {T = k} ∈ Fn lorsque {T = k} ∈ Fk ⊂ Fn
pour 0 ≤ k ≤ n.
2) En effet pour n ∈ N, on écrit

T ∧ S ≤ n = T ≤ n ∪ S ≤ n ∈ Fn ;

T ∨ S ≤ n = T ≤ n ∩ S ≤ n ∈ Fn ;
[n

T +S =n = {T = k} ∩ {S = n − k} ∈ Fn
k=0
Chapitre 3. ©JCB – M1math – Université de Rennes 41

car {T ≤ n} ∈ Fn , {S ≤ n} ∈ Fn , {T = k} ∈ Fk ⊂ Fn et {S = n − k} ∈ Fn−k ⊂ Fn
pour 0 ≤ k ≤ n et on utilise la caractérisation 1).
2) Cela découle de 3) avec le temps d’arrêt S = k (Exemple 3.9). Ou alors pour n ≥ k,
on {T ∧ k ≤ n} = Ω ∈ Fn et pour n < k, on a

{T ∧ k ≤ n} = {T ∧ k ≤ n} ∩ {T ≤ k} ∪ {T ∧ k ≤ n} ∩ {T > k}

= {T ≤ n} ∩ {T ≤ k} ∪ {k ≤ n} ∩ {T > k}
= {T ≤ k ∧ n} ∪ {T ≤ k}c ∩ ∅ = {T ≤ k ∧ n} ∈ Fn∧k ⊂ Fn .

4) Pour tout n ∈ N, on a dans les cas croissant et décroissant respectivement

n o \
{T ≤ n} = lim Tp ≤ n = {Tp ≤ n} ∈ Fn
p→+∞ | {z }
p≥1
∈Fn
n o [
{T ≤ n} = lim Tp ≤ n = {T ≤ n} ∈ Fn
p→+∞ | p {z }
p≥1
∈Fn

puisque {Tp ≤ n} ∈ Fp (tribu) en utilisant dans la deuxième partie que les Tp sont à
valeurs entières.
5) découle des propriétés précédentes en écrivant

inf Tp = lim min Tp , lim inf Tp = sup inf Tk ,

p≥1 n→+∞ 1≤p≤n p≥1 n≥1 k≥n
sup Tp = lim max Tp , lim sup Tp = inf sup Tk ,
p≥1 n→+∞ 1≤p≤n p≥1 n≥1 k≥n

ou directement à partir de
n o [ n o \
inf Tp ≤ n = {Tp ≤ n}, sup Tp ≤ n = {Tp ≤ n},
p≥1 p≥1
p≥1 p≥1
n o +∞
[ \ n o +∞
\ [
lim inf Tp ≤ n = {Tp ≤ n}, lim sup Tp ≤ n = {Tp ≤ n}.
p→+∞ p→+∞
m=0 p≥m m=0 p≥m

Définition 3.12 (Tribu d’un temps d’arrêt) À un temps d’arrêt T , on associe la tribu

FT = A ∈ F : ∀n ∈ N, A ∩ {T ≤ n} ∈ Fn . (3.2)

D’abord, on s’assure que la Définition 3.12 a bien un sens :

Proposition 3.13 Lorsque T est un temps d’arrêt, FT en (3.2) est bien une tribu.
Chapitre 3. ©JCB – M1math – Université de Rennes 42

Démonstration : On a bien Ω ∈ FT puisque Ω ∩ {T ≤ n} = {T ≤ n} ∈ Fn pour tout

n ≥ 0. Puis si Ai , i ∈ I ⊂ N, sont dans FT alors
[ [
Ai ∩ {T ≤ n} = Ai ∩ {T ≤ n} ∈ Fn
i∈I i∈I
| {z }
∈Fn

puisque Ai ∩ {T ≤ n} ∈ Fn (car Ai ∈ FT ).
Enfin, si A ∈ FT alors pour tout n ≥ 0, on a

Ac ∩ {T ≤ n} = {T ≤ n} \ A ∩ {T ≤ n} ∈ Fn

puisque A ∩ {T ∩ n} ∈ Fn et {T ≤ n} ∈ Fn . Cela assure Ac ∈ FT . Finalement, FT est

bien une tribu. □

Remarque 3.14 — On a σ(T ) ⊂ FT (voir ci-dessous, Prop. 3.15) donc T est en

particulier FT -mesurable mais attention en général l’égalité est fausse.
— Il faut comprendre FT de la manière suivante : quand T a lieu avant n, on sait à
la date n si A est réalisé ou pas.
— Si (Fn )n≥0 est la filtration naturelle de (Xn )n≥0 et T est un (Fn )-temps d’arrêt
alors l’information contenue dans FT comprend, d’une part la valeur de T et
d’autre part aussi, les valeurs de X1 , . . . , XT .
— De façon générale, en suivant la Remarque 3.6, on peut interpréter la tribu FT
comme l’information disponible à la date aléatoire T .

Proposition 3.15 (Propriétés des tribus FT )

(1) Pour un temps d’arrêt constant T = n0 , alors on a bien FT = Fn0 .
(2) À l’instar de 1) dans la Prop. 3.11, A ∈ FT si et seulement si A ∩ {T = n} ∈ Fn .
(3) Si T ≤ S sont deux temps d’arrêt alors FT ⊂ FS .
(4) Un temps d’arrêt T est FT -mesurable.
(5) Pour T , S des temps d’arrêt, on a FT ∧S = FT ∩ FS . De plus {T ≤ S}, {S ≤
T }, {T = S} ∈ FT ∧S .
(6) Pour A ∈ F et T un temps d’arrêt, posons TA (ω) = T (ω) si ω ∈ A, TA (ω) = +∞
sinon. Alors A ∈ FT si et seulement si TA est un temps d’arrêt.

Démonstration : 1) On a A ∈ FT si et seulement si pour tout n ≥ 0, A ∩ {T ≤ n} ∈ Fn .

Lorsque T = n0 ,
— pour n < n0 , {T ≤ n} = ∅ et A ∩ {T ≤ n} = ∅ ∈ Fn (toujours vrai).
— pour n ≥ n0 , {T ≤ n} = Ω et A ∩ {T ≤ n} = A est dans Fn pour tout n ≥ n0 si
et seulement si A ∈ Fn0 .
Chapitre 3. ©JCB – M1math – Université de Rennes 43

Finalement A ∈ FT si et seulement si A ∈ Fn0 , soit FT = Fn0 .

2) découle des égalités :

A ∩ {T = n} = A ∩ A ∩ {T ≤ n} \ A ∩ {T ≤ n − 1}
n
[
A ∩ {T ≤ n} = A ∩ {T = k}.
k=0

3) Soit A ∈ FT et n ≥ 0. Comme T ≤ S, on a
∈Fn ∈Fn
z }| { z }| {
A ∩ {S ≤ n} = A ∩ {T ≤ n} ∩ {S ≤ n} ∈ Fn .

On a donc bien A ∈ FS .
4) Comme les ensembles [0, t] engendrent la tribu B(R+ ), on montre que T est FT -
mesurable en prouvant que {T ≤ p} ∈ FT pour tout p ≥ 0. Pour cela, soit n ≥ 0,
on a
{T ≤ p} ∩ {T ≤ n} = T ≤ n ∧ p ∈ Fn∧p ⊂ Fn ,
ce qui justifie que {T ≤ p} ∈ FT .
5) D’après le 3) avec T ∧ S ≤ T et T ∧ S ≤ S, on a FT ∧S ⊂ FT ∩ FS . Puis si A ∈ FT ∩ FS
alors pour tout n ≥ 0, on a A ∩ {T ≤ n} ∈ Fn et A ∩ {S ≤ n} ∈ Fn donc

A ∩ {T ∧ S ≤ n} = A ∩ {T ≤ n} ∪ A ∩ {S ≤ n} ∈ Fn

ce qui assure A ∈ FT ∧S .
Compte tenu de la première partie, pour montrer {T ≤ S} ∈ FT ∧S = FT ∩ FS , il suffit
de montrer que {T ≤ S} ∈ FT et {T ≤ S} ∈ FS .
On a
{T ≤ S} ∩ {T ≤ n} = {T ∧ n ≤ S ∧ n} ∩ {T ≤ n}
avec {T ∧ n ≤ S ∧ n} ∈ Fn car T ∧ n et S ∧ n sont Fn -mesurables et {T ≤ n} ∈ Fn . On
montre que {T ≤ S} ∩ {S ≤ n} ∈ SF n en montrant que {T ≤ S} ∩ {S = n} ∈ Fn pour
n
chaque n ≥ 0 (écrire {S ≤ n} = k=0 {S = k}) : comme {T ≤ n}, {S = n} ∈ Fn , on a
bien
{T ≤ S} ∩ {S = n} = {T ≤ n} ∩ {S = n} ∈ Fn .

On a donc {T ≤ S} ∈ FT ∩ FS = FT ∧S .
De la même façon, on a {S ≤ T } ∈ FT ∧S et donc il vient

T = S = {T ≤ S} ∩ {S ≤ T } ∈ FT ∧S .

6) On a A ∈ FT si et seulement si pour tout n ≥ 0 : A ∩ {T ≤ n} ∈ Fn . Mais

A ∩ {T ≤ n} = {TA ≤ n} ce qui permet de conclure. □
Chapitre 3. ©JCB – M1math – Université de Rennes 44

Proposition 3.16 Soit (Xn )n≥1 une suite (Fn )-adaptée et T un temps d’arrêt. Alors la
variable aléatoire
Xn si T = n
1{T <+∞} XT =
0 si T = +∞
est FT -mesurable. Lorsque T < +∞ ps, il n’y a pas d’ambiguı̈té de notation et on écrit
simplement XT .

Démonstration : Pour B ∈ B(R) et n ∈ N, on a

1{T <+∞} XT ∈ B ∩ {T = n} = {Xn ∈ B} ∩ {T = n} ∈ Fn ,

c’est à dire 1{T <+∞} XT ∈ B ∈ FT pour tout B ∈ B(R), ie. 1{T <+∞} XT est FT -
mesurable. □

3.3 Martingales, sous-martingales et sur-martingales

Définitions
Définition 3.17 (Martingale) Une suite de variables aléatoires (Xn )n≥0 est une martin-
gale par rapport à une filtration (Fn )n≥0 si

(i) E |Xn | < +∞ pour tout n ≥ 0 ;
(ii) la suite (Xn )n≥0 est (Fn )-adaptée ;
(iii) pour tout n ≥ 0 :
E Xn+1 |Fn = Xn . (3.3)

Définition 3.18 (Sur- et sous-martingales) On parle de sous-martingales ou de sur-martingales

quand (iii) dans la Définition 3.17 est remplacé respectivement par

sous-martingale : E Xn+1 |Fn ≥ Xn pour tout n ≥ 0 ;

sur-martingale : E Xn+1 |Fn ≤ Xn pour tout n ≥ 0.

Dans la suite, lorsque il n’y a pas d’ambiguı̈té, on pourra omettre d’indiquer la filtration
(Fn )n≥0 et on parlera simplement de martingales plutôt que de (Fn )-martingale. Idem
pour les sous ou sur-martingales.

Exemples de martingales, sous-martingales, sur-martingales

Exemple 3.19 (Martingale
fermée) Soit X ∈ L1 (F). On définit une martingale par
Xn = E X |Fn , n ≥ 0. La propriété de martingale suit facilement du Th. 2.12 (condi-
tionnement par cascade). Une telle martingale sera dite fermée, cf. Définition 4.24. On
parle aussi de martingale de Doob.
Chapitre 3. ©JCB – M1math – Université de Rennes 45

Exemple 3.20 (Marche aléatoire) Soit (Xn )n≥1 une suite de variables aléatoires inté-
grables indépendantes centrées alors

Sn = X1 + · · · + Xn , n ≥ 1, et S0 = 0,

est une (sur/sous)-martingale par rapport à la filtration naturelle Fn = σ(X1 , . . . , Xn ),

n ≥ 1 (avec F0 = {∅, Ω}), selon le signe ou la nullité de E[X1 ].
En effet, Sn est clairement Fn -mesurable et intégrable car les Xi , 1 ≤ i ≤ n, le sont.
Comme Xn+1 ⊥ ⊥ Fn = σ(X1 , . . . , Xn ), il vient par le Th. 2.22 :

E Sn+1 |Fn = E Sn + Xn+1 |Fn = Sn + E Xn+1 |Fn = Sn + E[Xn+1 ] = Sn ,

dans le cas centré (on adapte facilement aux cas E[X1 ] > 0 et E[X1 ] < 0).
Dans cet exemple, on a

Xn = Sn − Sn−1 = Sn − E Sn |Fn−1 .

Ainsi la suite (Xn )n≥1 n’est pas un‘e martingale mais une différence de martingale.
De façon générale, une suite de variables aléatoires indépendantes est une différence
de martingale. Le comportement asymptotique de martingales généralise ainsi celui de
sommes de variables aléatoires indépendantes, cf. Section 4.2.

Exemple 3.21 (Modèle auto-régressif ) Soit (εn )n≥1 une suite de variables aléatoires iid
intégrables centrées et a ∈ R∗ . On pose

Xn+1 = aXn + εn+1 , n ≥ 0, et X0 = x. (3.4)

Alors Yn = Xn /an , n ≥ 0, forme une martingale par rapport à la filtration naturelle

Fn = σ(ε1 , . . . , εn ) , n ≥ 1, F0 = {∅, Ω}.
En effet, par récurrence, les Yn sont intégrables et Fn -mesurables, n ≥ 1. Puis
1
E Yn+1 |Fn = n+1
E aX n + ε n+1 |Fn
a
1 1
= aXn + E[εn+1 ] = n Xn = Yn
an+1 a
car Xn est Fn -mesurable et εn+1 ⊥
⊥ Fn (Th. 2.22).

Exemple 3.22 (Galton-Watson) Soit (Xi,j )i,j≥1 une famille de variables aléatoires en-
tières iid de loi µ (sur N) admettant pour moyenne m. On pose Z0 = 1 et pour n ≥ 1
Zn
X
Zn+1 = Xn+1,j . (3.5)
j=1
Chapitre 3. ©JCB – M1math – Université de Rennes 46

Alors (Zn /mn )n≥0 est une martingale par rapport à la filtration donnée par Fn = σ(Xi,j :
i ≤ n, j ≥ 1) : d’abord, on observe par récurrence que Zn est Fn -mesurable. En effet, si
Zn l’est alors pour tout A ∈ N, on a
+∞ +∞
( p ) !
[ [ X
{Zn+1 ∈ A} = {Zn+1 ∈ A, Zn = p} = Xn+1,j ∈ A ∩ {Zn = p} ∈ Fn+1
p=0 p=0 j=1
Pp
puisque j=1 Xn+1,j est Fn+1 -mesurable et Zn aussi par hypothèse de récurrence. Puis
la propriété de martingale est bien satisfaite :
Zn
X XZn

E[Zn+1 |Fn ] = E Xn+1,j |Fn = E[Xn+1,j |Fn = Zn E Xn+1,j = Zn m
j=1 j=1

car Zn est Fn -mesurable et Xn+1,j ⊥

⊥ Fn (Th. 2.22). Il vient

Zn+1 Zn
E n+1 Fn = n .
m m

À noter que les espérances conditionnelles sont bien définies puisque les variables aléa-
toires sont positives. A posteriori, on observe par récurrence que Zn est bien intégrable
puisque
E[|Zn |] = E[Zn ] = E E[Zn+1 |Fn ] = m E[Zn ] < +∞.
Cette martingale modélise l’évolution d’une population avec loi de reproduction µ. Dans
cette interprétation, N représente les numéros des générations successives, Xn+1,j est le
nombre d’enfants de l’individu j de la génération n pour former la génération n + 1 et
Zn désigne la taille de la population à la génération n.

Exemple 3.23 (Wright-Fisher) Soit E = {0, 1 . . . , N } et X0 ∈ {1, 2 . . . , N − 1}. Par

récurrence, on définit les lois conditionnelles

L Xn+1 Fn = B N, Xn /N . (3.6)

Cela définit une martingale par rapport à la filtration naturelle puisque

X
n
E Xn+1 |Fn = N = Xn .
N
Exemple 3.24 (Cascade aléatoire) Soit (Xn )n≥1 une suite de variables aléatoires inté-
grables indépendantes telle que E[Xn ] = 1 pour tout n ≥ 1. On note (Fn )n≥1 la filtration
naturelle de (Xn )n≥1 et on pose Y0 = 1, et
n
Y
Yn = Xi .
i=1

Alors (Yn )n≥0 est une (Fn )-martingale.

Chapitre 3. ©JCB – M1math – Université de Rennes 47

En effet, il est clair que Yn est Fn -mesurable et intégrable puisque par indépendance des
Xi :
hYn i Y n

E |Yn | = E |Xi | = E |Xi | < +∞.
i=1 i=1

Puis comme Yn est Fn -mesurable et Xn+1 ⊥

⊥ Fn , avec le Th. 2.22 on a :

E Yn+1 |Fn = E Yn Xn+1 |Fn = Yn E Xn+1 |Fn = Yn E[Xn+1 ] = Yn .

Lorsque les variables aléatoires Xi sont toutes positives, on a des résultats analogues
pour des sous-martingales quand E[Xi ] ≥ 1 pour tout i ≥ 1 ou des sur-martingales
quand E[Xi ] ≤ 1 pour tout i ≥ 1.

3.4 Propriétés des martingales

De façon générale, les énoncés pour les martingales s’adaptent pour des sous-martingales
ou des sur-martingales.
Proposition 3.25 Si (Xn )n≥0 est une (Fn )-martingale alors (Xn )n≥0 est une (Gn )-martingale
pour Gn = σ(X1 , . . . , Xn ). Le même énoncé reste vrai pour des sous-martingales ou sur-
martingales.
Démonstration : Puisque (Xn )n≥0 est une (Fn )-martingale, chaque Xn est intégrable.
Puis par définition de (Gn )n≥0 , (Xn )n≥0 est (Gn )-adaptée. Comme X1 , . . . , Xn sont Fn -
mesurables, il est immédiat que Gn ⊂ Fn . Par le Th. 2.12 (conditionnement en cascade),
on a alors
=Xn
z }| {
E Xn+1 |Gn = E E[Xn+1 |Fn ] |Gn = E Xn |Gn = Xn
puisque (Xn )n≥0 est une (Fn )-martingale et Xn est Gn -mesurable. □

Proposition 3.26 Dans la définition d’une martingale

(Définition 3.17), (3.3) est équi-
valente à : pour tout n > m, on a E Xn |Fm = Xm . Résultats analogues pour des sous
ou sur-martingales.

Démonstration : Par définition (Définition 3.18), le résultat est vrai pour n = m + 1. Si

on suppose qu’il est vrai pour n = m+k−1, k ≥ 2, alors par le Th. 2.12 (conditionnement
en cascade) et la monotonie de l’espérance conditionnelle (Prop. 2.15), on a

E Xn+k |Fm = E E[Xn+k |Fm+k−1 ] |Fm = E Xn+k−1 |Fm

et le résultat découle maintenant de l’hypothèse de récurrence. □

Proposition 3.27 Soit (Xn )n≥0 une martingale (resp. sous-martingale, sur-martingale).
Alors E[Xn+1 ] = E[Xn ](= E[X0 ]) (resp. E[Xn+1 ] ≥ E[Xn ], E[Xn+1 ] ≤ E[Xn ]).
Chapitre 3. ©JCB – M1math – Université de Rennes 48

Remarque 3.28 En quelque sorte, il faut retenir que les sous-martingales sont des ana-
logues aléatoires des suites numériques croissantes (E[Xn ] ≤ E[Xn+1 ] pour tout n ≥ 0).

Démonstration : En prenant l’espérance dans la propriété de martingale (3.3), on a

E[Xn+1 ] = E E[Xn+1 |Fn ] = E[Xn ].

On adapte facilement l’argument pour les sous-martingales et pour les sur-martingales. □

Proposition 3.29 (Martingale et Jensen)

(1) Si (Xn )n≥0 est une (Fn )-martingale et φ : R → R est une fonction convexe telle que
E |φ(Xn )| < +∞ pour tout n ≥ 0 alors Yn = φ(Xn ), n ≥ 0, est une (Fn )-sous-
martingale.
(2) Si (Xn )n≥0 est une (Fn )-sous-martingale
et φ : R → R est une fonction convexe et
croissante telle que E |φ(Xn )| < +∞ pour tout n ≥ 1 alors Yn = φ(Xn ), n ≥ 0,
est une (Fn )-sous-martingale.

Démonstration : (1) D’abord Yn est clairement Fn -mesurable puisque Xn l’est et φ

convexe est mesurable. Puis, par l’inégalité de Jensen conditionnelle (Prop. 2.19), on a :

E Yn+1 |Fn = E φ(Xn+1 ) |Fn ≥ φ E Xn+1 |Fn = φ(Xn ) = Yn .

(2) La preuve du 1) s’adapte facilement en utilisant en plus la croissance de φ :

E Yn+1 |Fn = E φ(Xn+1 ) |Fn ≥ φ E[Xn+1 |Fn ] ≥ φ(Xn ) = Yn .

p

Corollaire 3.30
Soit (X n ) n≥0 une (F n )-martingale avec E |X n | < +∞ pour tout n ≥ 0.
Alors |Xn |p n≥1 est une (Fn )-sous-martingale.

Démonstration : Application directe de la Prop. 3.29 avec la fonction convexe φ(x) =

|x|p . □

Corollaire 3.31 Soit a ∈ R.

(1) Soit (Xn )n≥1 une (Fn )-sous-martingale. Alors (Xn − a)+ n≥0
est une (Fn )-sous-
martingale.

(2) Soit (Xn )n≥1 une (Fn )-sur-martingale. Alors min(Xn , a) n≥1 est une (Fn )-sur-
martingale.
Chapitre 3. ©JCB – M1math – Université de Rennes 49

Démonstration : 1) On applique la Prop. 3.29 avec la fonction convexe croissante φ(x) =

(x − a)+ .
2) On applique 1) à la sous-martingale (−Xn )n≥1 et la fonction convexe croissante
φ(x) = max(x, −a) pour avoir que φ(−Xn ) est une sous-martingale. Il s’ensuit que
−φ(−Xn ) = − max(−Xn , −a) = min(Xn , a), n ≥ 0, forme une martingale. □

On rappelle que la notion de prévisibilité est donnée en Définition 3.5.

Proposition 3.32 Soit (Xn )n≥0 une (Fn )-sous-martingale. Si (Hn )n≥1 est une suite pré-
visible positive avec chaque Hn bornée alors (H · X) définie par (H · X)0 = 0 et
n
X
(H · X)n = Hk (Xk − Xk−1 ), n ≥ 1,
k=1

forme une (Fn )-sous-martingale. La même affirmation est vraie pour une sur-martingale
ou pour une martingale sans la restriction de positivité Hn ≥ 0 dans le cas d’une mar-
tingale.

Démonstration : On observe sans difficulté que (H · X)n est Fn -mesurable pour tout
n ≥ 1 : comme
(H · X)n = (H · X)n−1 + Hn (Xn − Xn−1 ), (3.7)
un argument par récurrence ramène à voir que Hn (Xn −Xn−1 ) est Fn -mesurable ce qui est
bien le cas puisque Hn , Xn , Xn−1 le sont. Puis (H · X) ∈ L1 car chaque Hk (Xk − Xk−1 ) ∈
L1 puisque X ∈ L1 et H est bornée.
Ensuite, en utilisant (3.7) et la prévisibilité de Hn , on a :

E (H · X)n+1 |Fn = (H · X)n + E Hn+1 (Xn+1 − Xn ) |Fn

= (H · X)n + Hn+1 E Xn+1 − Xn |Fn .

On conclut en observant que E Xn+1 − Xn|Fn ≥ 0 si (Xn)n≥1 est une sous-martingale
avec Hn ≥ 0. On conclut
de même avec E Xn+1 − Xn |Fn ≤ 0 si (Xn )n≥1 est une sur-
martingale et avec E Xn+1 − Xn |Fn = 0 si c’est une martingale (sans condition sur le
signe de H). □

Remarque 3.33 (Interprétation en termes financiers) On considère un actif risqué pre-

nant la valeur Xn à la date n. Une suite prévisible (Hn )n≥1 s’interprète dans ce contexte
comme une stratégie d’investissement : il s’agit de la quantité Hn d’actif risqué acheté à
la date n. La valeur du portefeuille à la date n est alors
n
X
(H · X)n = Hi (Xi − Xi−1 ).
i=1
Chapitre 3. ©JCB – M1math – Université de Rennes 50

En effet (H · X)n est la valeur (H · X)n−1 à la date n − 1 plus la valeur du nouvel actif
Hn Xn moins le coût de l’achat Hn Xn−1 .
On interprète également (H ·X)n comme une intégrale stochastique (discrète) de (Hn )n≥1
contre la suite (Xn )n≥1 .
La prévisibilité de H s’interprète alors de la façon suivante : chaque jour, les ordres
d’achat sont passés le matin et les prix re-actualisés au cours de la journée. Ainsi, le jour
n, la quantité Hn d’actif risqué est achetée à la valeur Xn−1 du (n − 1)-ième jour. La
décision d’acheter est donc prise avec l’information dont on dispose à la date n − 1, ie.
les Xi , i ≤ n − 1 (il n’y a pas de délit d’initié). Cela justifie que la variable aléatoire Hn
doit être Fn−1 -mesurable.

3.5 Martingale arrêtée

Étant donné un (Fn )-temps d’arrêt T et une suite X = (Xn )n≥0 , la suite X T =
(XT ∧n )n≥0 s’appelle la suite arrêtée.

Proposition 3.34 Soit T un (Fn )-temps d’arrêt.

(1) Soit (Xn )n≥0 une suite (Fn )-adaptée. Alors X T = (XT ∧n )n≥0 est encore une suite
(Fn )-adaptée.
(2) Soit (Hn )n≥0 une suite (Fn )-prévisible. Alors H T = (HT ∧n )n≥0 est encore une suite
prévisible.

Démonstration : 1) Pour B ∈ B(R) on a

T
Xn ∈ B = XT ∧n ∈ B
n
!
[
= Xp ∈ B, T = p ∪ Xn ∈ B, T ≥ n + 1 ∈ Fn
p=0

puisque, pour 0 ≤ p ≤ n, {Xp ∈ B} ∈ Fp ⊂ Fn , {T = p ∈ Fp ⊂ Fn , {Xn ∈ B} ∈ Fn ,

{T ≥ n + 1} = {T ≤ n}c ∈ Fn .
2) Pour B ∈ B(R) on a
T
Hn+1 ∈ B = HT ∧(n+1) ∈ B
n
!
[
= Hp ∈ B, T = p ∪ Hn+1 ∈ B, T ≥ n + 1 ∈ Fn
p=0

puisque, pour 0 ≤ p ≤ n, {Hp ∈ B} ∈ Fp−1 ⊂ Fn , {T = p ∈ Fp ⊂ Fn , {Hn+1 ∈ B} ∈

Fn , {T ≥ n + 1} = {T ≤ n}c ∈ Fn . □
Chapitre 3. ©JCB – M1math – Université de Rennes 51

Définition 3.35 (Martingale arrêtée) Si (Xn )n≥0 est une (Fn )-martingale
et T est un
(Fn )-temps d’arrêt. On appelle martingale arrêtée la suite Xn n≥0 avec XnT = XT ∧n .
T

On introduit des notions analogues pour les sous-martingales ou sur-martingales.

En fait, on montre qu’une (sur/sous)-martingale arrêtée est une (sur/sous)-martingale.

Proposition 3.36 (Martingale arrêtée) Si T est un (Fn )-temps

d’arrêt et (Xn )n≥0 une
T
(Fn )-martingale, sur ou sous-martingale. Alors X = XT ∧n n≥0 est une (Fn )-martingale,
sur ou sous-martingale. La (sous/sur)-martingale arrêtée est donc une (sous/sur)-martingale !

Démonstration : On a vu en (3.1) que la suite (Hn )n≥0 donnée par Hn = 1{T ≥n} est
(Fn )-prévisible. Dès lors, d’après la Prop. 3.32, on a :
n
X n∧T
X
(H · X)n = 1{T ≥k} (Xk − Xk−1 ) = (Xk − Xk−1 ) = XT ∧n − X0 , n ≥ 0,
k=1 k=1

est une (Fn )-martingale, sur ou sous-martingale selon ce qu’est X, ce qui établit le ré-
sultat puisque la somme de martingale, sur ou sous-martingales est de même nature. □

Le théorème d’arrêt consiste à généraliser la propriété de martingale (ou de sur/sous

martingale) à des dates m ≤ n données par des temps d’arrêt S ≤ T , cf. Prop. 3.26.
On commence par une version faible de cette propriété sur la constance (ou crois-
sance/décroissance) des suites d’espérance, cf. Prop. 3.27. D’abord, on donne une pre-
mière forme du théorème d’arrêt pour des temps d’arrêt bornés :
Théorème 3.37 Soit (Xn )n≥0 une sous-martingale et T un temps d’arrêt tel que T ≤ k
ps pour un k ∈ N donné (ie. T est borné). Alors XT ∈ L1 et

E[X0 ] ≤ E[XT ] ≤ E[Xk ]. (3.8)

De plus,
— il y a égalité dans (3.8) si (Xn )n≥0 est une martingale ;
— Pour une sur-martingale, (3.8) est valable avec des bornes inversées.

Exemple
Pn3.38 (Contre-exemple au Th. 3.37) Soit (Sn )n≥0 la marche aléatoire simple :
1
Sn = i=1 Xi avec Xi iid de loi de Rademacher P(X1 = 1) = P(X1 = −1) = 2 et
S0 = 0. Il s’agit d’une martingale pour la filtration des Fn = σ(X1 , . . . , Xn ), n ≥ 1.

On note T = inf n ≥ 0 : Sn = −1 . Il s’agit d’un temps d’arrêt par 2) dans Exemple 3.9.
Alors E[S0 ] = 0 > −1 = E[ST ]. On note que T n’est pas borné puisque

{T ≥ n} ⊃ {X1 = 1, X2 = 1, . . . , Xn = 1}

et donc
1
P(T ≥ n) ≥ P(X1 = 1, X2 = 1, . . . , Xn = 1) = .
2n
Ainsi la première inégalité dans le Th. 3.37 n’est pas automatique si T n’est pas bornée.
Chapitre 3. ©JCB – M1math – Université de Rennes 52

Démonstration : On considère d’abord X = (Xn )n≥0 une sous-martingale. Comme 0 ≤

T ≤ k, on a XT = ki=0 Xi 1{T =i} et il vient d’abord XT ∈ L1 puisque |XT | ≤ ki=0 |Xi |.
P P

Par la Prop. 3.36, (XT ∧n )n≥0 est une sous-martingale. Ainsi comme 0 ≤ T ≤ k ps, en
utilisant la croissance des espérances pour la sous-martingale arrêtée X T (Prop. 3.27),
on a :
E[X0 ] = E XT ∧0 ≤ E XT ∧k = E[XT ]
ce qui prouve la première inégalité de (3.8). Pour prouver la deuxième inégalité de (3.8),
la propriété de sous-martingale donne pour tout 0 ≤ i ≤ k : Xi ≤ E[Xk |Fi ] ps et comme
{T = i} ∈ Fi :

E Xi 1{T =i} ≤ E E[Xk |Fi ]1{T =i} = E Xk 1{T =i} ,

et donc
k
hX i k
X k
X
E[XT ] = E XT 1{T =i} = E Xi 1{T =i} ≤ E Xk 1{T =i} = E[Xk ].
i=0 i=0 i=0

Si (Xn )n≥0 est une sur-martingale on applique le résultat (3.8) à la sous-martingale

(−Xn )n≥0 pour avoir E[X0 ] ≥ E[XT ] ≥ E[Xk ].
Si (Xn )n≥0 est une martingale, on a (3.8) pour (Xn )n≥0 et pour (−Xn )n≥0 , ce qui donne
l’égalité. □

Théorème 3.39 Soit (Xn )n≥0 une sous-martingale et T un temps d’arrêt. Sous chacune
des conditions suivantes, on a XT ∈ L1 et

E[X0 ] ≤ E[XT ]. (3.9)

(1) T est borné (ie. il existe C > 0 tel que T ≤ C ps) ;

(2) la suite X est bornée (il existe K > 0 tel que |Xn | ≤ K ∀n ps) et T est fini ps ;
(3) E[T ] < +∞ et il existe K > 0 tel que |Xn+1 − Xn | ≤ K ps pour tout n ≥ 0.
De plus, si (Xn )n≥0 une martingale, sous (1), (2) ou (3), on a l’égalité dans (3.9) :

E[XT ] = E[X0 ].

Enfin si (Xn )n≥0 est une sur-martingale, on a E[X0 ] ≥ E[XT ] sous (1), (2), (3) ou encore
sous
(4) Xn ≥ 0 et T est fini ps.

Démonstration : On suppose d’abord que (Xn )n≥0 est une sous-martingale.

1) découle du Th. 3.37 appliqué à la sous-martingale (Xn )n≥0 . On peut noter qu’on
n’utilise que la partie facile du Th. 3.37 qui se réduit à : la sous-martingale arrêtee est
une sous-martingale (Prop. 3.36) donc d’espérances croissantes.
Chapitre 3. ©JCB – M1math – Université de Rennes 53

2) Comme T ∧ n est un temps d’arrêt borné, la partie 1) s’applique avec T ∧ n et donne

E XT ∧n ≥ E[X0 ]. (3.10)
Quand n → +∞, on a XT ∧n → XT ps (car T < +∞ ps) et sous 2)
+∞
X +∞
X
Xn∧T = Xn∧T 1{T =i} = Xn∧i 1{T =i}
i=0 i=0
+∞
X +∞
X
et |Xn∧T | ≤ |Xn∧i |1{T =i} ≤ K1{T =i} ≤ K.
i=1 i=1
n→+∞
Comme XT ∧n −−−−→ XT , on a aussi |XT | ≤ K. On a donc XT ∈ L1 . Puis le théorème
de convergence dominée s’applique pour donner (3.9) à partir de (3.10) :

E[XT ] = lim E XT ∧n ≥ E[X0 ].
n→+∞

3) Par 1), on a toujours (3.10) pour T ∧ n avec limn→+∞ XT ∧n = XT ps (T < +∞ ps).

Sous 3), on peut écrire
T ∧n
X
X T = X0 + (Xk − Xk−1 )
k=1
T ∧n
X
et |XT | ≤ |X0 | + |Xk − Xk−1 | ≤ |X0 | + KT ∈ L1
k=1

car E[T ] < +∞. Le théorème de convergence dominée s’applique alors

E[XT ] = lim E XT ∧n ≥ E[X0 ],
n→+∞

ce qui assure (3.9). De plus, on a même

E |XT | = lim E |XT ∧n | ≤ E[|X0 |] + KE[T ] < +∞
n→+∞
1
soit XT ∈ L .
Enfin, si (Xn )n≥0 est une martingale alors par le Th. 3.37, il y a égalité dans (3.10) et
les passages à la limite précédents dans 2), 3) les préservent. Puis comme en particulier,
X est une sous-martingale, on a toujours XT ∈ L1 par le cas sous-martingale.
Puis, si (Xn )n≥0 est une sur-martingale, on peut appliquer 1), 2), 3) à la sous-martingale
(−Xn )n≥0 pour obtenir E[XT ] ≤ E[X0 ] (noter que les hypothèses de 1), 2), 3) sont insen-
sibles aux changements de signe). Enfin, sous 4), partant de E[XT ∧n ] ≤ E[X0 ] pour la sur-
martingale arrêtée (XnT )n≥0 (avec T ∧n dû à 1), comme on a encore limn→+∞ XT ∧n = XT
(T < +∞ ps), le lemme de Fatou donne
h i h i
E[XT ] = E lim XT ∧n = E lim inf XT ∧n
n→+∞ n→+∞

≤ lim inf E XT ∧n ≤ E[X0 ]
n→+∞

en particulier comme XT ≥ 0, on a aussi XT ∈ L1 puisque E[X0 ] < +∞. □

Chapitre 3. ©JCB – M1math – Université de Rennes 54

3.6 Décomposition de Doob

Théorème 3.40 (Décomposition de Doob) Toute (Fn )-sous-martingale (Xn )n≥0 se dé-
compose de façon (presque sûrement) unique sous la forme

Xn = Mn + An (3.11)

où (Mn )n≥0 est une (Fn )-martingale et (An )n≥0 est une suite croissante (Fn )-prévisible
avec A0 = 0 et donnée par
n
X
An = E Xk |Fk−1 − Xk−1 . (3.12)
k=1

Démonstration : Existence. Pour avoir la décomposition (3.11), on doit nécessairement

avoir

E Xn |Fn−1 = E Mn |Fn−1 + E An |Fn−1
= Mn−1 + An
= Xn−1 − An−1 + An ,

car (Mn )n≥1 est une martingale et An est Fn−1 -mesurable. On pose donc

An − An−1 := E Xn |Fn−1 − Xn−1 (3.13)
Mn := Xn − An ,

ce qui définit les deux suites (Mn )n≥0 et (An )n≥0 en prenant en plus A0 = 0 et M0 = X0 .
Il s’agit de vérifier que pour ce choix, (Mn )n≥0 est bien une martingale et (An )n≥0 est
croissante, prévisible, la décomposition (3.11) étant satisfaite par construction.
Comme (Xn )n≥1 est une sous-martingale, (3.13) assure

An − An−1 = E Xn |Fn−1 − Xn−1 ≥ 0, (3.14)

et An = (An − An−1 ) + An−1 est bien Fn−1 -mesurable pour tout n ≥ 0 par récurrence
puisque An − An−1 l’est par (3.14). On note que An ∈ L1 pour tout n ≥ 1 puisque

E |An − An−1 | = E E Xn |Fn−1 − Xn−1 ≤ E[|Xn |] + E[|Xn−1 |] < +∞.

Pour montrer que (Mn )n≥0 est une martingale, on observe d’abord que Mn = Xn − An
est Fn -mesurable puis Mn ∈ L1 car Xn ∈ L1 ((Xn )n≥0 sous-martingale) et An ∈ L1 .
Pour la propriété de martingale (3.3), on utilise (3.13) et la Fn−1 -mesurabilité de An :

E Mn |Fn−1 = E Xn − An |Fn−1

= E Xn |Fn−1 − E An |Fn−1

= An − An−1 + Xn−1 − An
= Xn−1 − An−1 = Mn−1 .
Chapitre 3. ©JCB – M1math – Université de Rennes 55

L’unicité est assurée par le raisonnement par condition nécessaire en début de démons-
tration. On peut aussi la vérifier directement en supposant qu’on a deux décompositions

Xn = Mn + An = Mn′ + A′n

avec (Mn )n≥0 , (An )n≥0 et (Mn′ )n≥0 , (A′n )n≥0 vérifiant les hypothèses du Th. 3.40. Alors
Un = An − A′n = Mn − Mn′ définit une suite constante puisque
′
= E Mn − Mn′ |Fn−1 ((Mn )n≥0 , (Mn′ )n≥0 martingales)

Un−1 = Mn−1 − Mn−1
= E An − A′n |Fn−1 = An − A′n = Un (An , A′n sont Fn−1 -mesurables).

Comme U0 = 0, on a Un = 0 pour tout n ≥ 0 et il vient An = A′n et Mn = Mn′ pour

tout n ≥ 0 presque sûrement. □

Remarque 3.41 La décomposition (3.11) est vraie pour toute suite (Xn )n≥1 adaptée et
L1 avec (Mn )n≥0 martingale et (An )n≥0 prévisible partant de A0 = 0. En fait (Xn )n≥0
est une sous-martingale si et seulement si (An )n≥0 est croissante, cf. (3.14).

Soit (Xn )n≥0 une martingale de carré intégrable et nulle en 0. Comme (Xn2 )n≥0 est une
sous-martingale (Prop. 3.29), le Th. 3.40 donne la décomposition de Doob (3.11) sui-
vante :
Xn2 = Mn + An , n ≥ 0, (3.15)
où M = (Mn )n≥0 est une martingale et A = (An )n≥0 est une suite prévisible croissante.

Définition 3.42 (Compensateur) On note ⟨X, X⟩ le processus A croissant prévisible dans

la décomposition de Doob (3.15) de X 2 et on l’appelle le compensateur de la martingale
X ∈ L2 .

Dans ce cas, l’expression (3.12) se réécrit :

n
X
E Xk2 |Fk−1 − Xk−1
2

⟨X, X⟩n =
k=1
n
X
E (Xk − Xk−1 )2 |Fk−1 ,

= (3.16)
k=1

où la formulation (3.16) vient du lemme suivant :

Lemme 3.43 (Formule de la variance conditionnelle) Soit (Xn )n≥1 une martingale telle
que E[Xn2 ] < +∞ pour tout n ≥ 1. Alors pour n ≥ k, on a

E (Xn − Xk )2 |Fk = E[Xn2 |Fk ] − Xk2 .

Chapitre 3. ©JCB – M1math – Université de Rennes 56

Démonstration : Pour n ≥ k, on a :
E (Xn − Xk )2 |Fk = E Xn2 − 2Xn Xk + Xk2 |Fk

= E Xn2 |Fk − 2Xk E Xn |Fk + Xk2

= E Xn2 |Fk − Xk2 .

Dans l’expression (3.16), ⟨X, X⟩n apparaı̂t comme la variance jusqu’à la date n et
⟨X, X⟩∞ (qui par croissance existe toujours quitte à avoir +∞) est la variance totale de
toute la suite (Xn )n≥0 .
Le comportement L2 d’une martingale (Xn )n≥0 de carré intégrable peut se lire sur son
compensateur :
Proposition 3.44 (Martingale bornée dans L2 et compensateur) Soit (Xn )n≥0 une mar-
tingale carré intégrable. Alors elle est bornée dans L2 si et seulement si son compensateur
vérifie E[⟨X, X⟩∞ ] < +∞.

Démonstration : Comme Xn2 − ⟨X, X⟩n ) n≥0 est une martingale, la propriété de mar-

tingale donne E Xn2 − ⟨X, X⟩n ] = E[X02 − ⟨X, X⟩] = E[X02 , c’est à dire
E ⟨X, X⟩n = E[Xn2 ] − E[X02 ],

pour tout n ≥ 0. Comme ⟨X, X⟩ est une suite croissante, le théorème de convergence
monotone donne alors

E ⟨X, X⟩∞ = lim E ⟨X, X⟩n = sup E ⟨X, X⟩n = sup E[Xn2 ] − E[X02 ],

n→+∞ n≥0 n≥0

prouvant l’équivalence. □

Proposition 3.45 Soit (Xn )n≥0 une martingale de carré intégrable, nulle en 0 et T un
temps d’arrêt. Alors
⟨X T , X T ⟩ = ⟨X, X⟩T ps,
ie. le crochet de la martingale arrêtée est le crochet arrêté de la martingale.
Démonstration : Par la Prop. 3.36, (X T )2 = M T + ⟨X, X⟩T est une sous-martingale,
M T est une martingale, et, par la Prop. 3.34, ⟨X, X⟩T est une suite croissante et
prévisible. L’unicité (presque sûre) de la décomposition de Doob (3.15) de X T exige
⟨X T , X T ⟩ = ⟨X, X⟩T ps. □

Exemple 3.46 (Somme de variables aléatoires iid) Soit (Xn )n≥1 une suite de P variables
aléatoires iid centrées, de carrés intégrables avec Var(X1 ) = σ 2 . Alors Sn = nk=1 Xk ,
n ≥ 1, (avec S0 = 0) est une martingale L2 de compensateur ⟨S, S⟩n = nσ 2 :
En effet, d’après (3.16), en utilisant Xk ⊥
⊥ Fk−1 = σ(X1 , X2 , . . . , Xk−1 ), on a
Xn n n
2
X 2 X
E[Xk2 ] = nσ 2 .

⟨S, S⟩n = E (Sk − Sk−1 ) |Fk−1 = E Xk |Fk−1 =
k=1 k=1 k=1
Chapitre 4

Convergences de martingales

Dans ce chapitre, on étudie les limites de martingales. On commence par les outils
clef que sont les inégalités pour martingales en Section 4.1. On donne ensuite des ré-
sultats de convergence presque sûre en Section 4.2 puis en norme L1 en Section 4.4 et
en norme Lp en Section 4.5. On donne ensuite en Section 4.7 un résultat fondamental
(théorème d’arrêt) qui généralise la propriété de martingale aux dates données par des
temps d’arrêt.
Dans la suite, on considère un espace de probabilité filtré (Ω, F, (Fn )n≥0 , P). Par
défaut, les (sur/sous)-martingales et temps d’arrêt sont par rapport à cette filtration
(Fn )n≥0 .

4.1 Inégalités de martingales

Les inégalités de martingales sont dues à Doob 1 . Essentiellement, elles donnent une
bornes pour le sup d’une martingale sur [0, n] par sa valeur en n, cf. (4.1)–(4.5), (4.11),
(4.15). Étant donné une suite (Xn )n≥0 , on note X n = max0≤k≤n Xk .

4.1.1 Inégalité maximale de Doob

Théorème 4.1 (Inégalité maximale de Doob)
(1) Soit (Xn )n≥0 une sous-martingale et x > 0. Alors

E Xn 1{X n ≥x} E[Xn+ ] E[|Xn |]
P Xn ≥ x ≤ ≤ ≤ . (4.1)
x x x

(2) Soit (Xn )n≥0 une sur-martingale, et x > 0. Alors

E[|X0 |] + E[|Xn |]
P Xn ≥ x ≤ . (4.2)
x
1. Joseph Leo Doob (1910–2004) probabiliste américain.

57
Chapitre 4. ©JCB – M1math – Université de Rennes 58

(3) Soit (Xn )n≥0 une sur-martingale positive, et x > 0. Alors

E[X0 ]
P Xn ≥ x ≤ . (4.3)
x
(4) Soit (Xn )n≥0 une martingale, sous-martingale ou sur-martingale, et x > 0, on a
E[|X0 |] + 2E[|Xn |]
P max |Xk | ≥ x ≤ . (4.4)
0≤k≤n x

(5) Pour une martingale (Xn )n≥0 , on peut améliorer (4.4) en :

E|X |
n
P max |Xk | ≥ x ≤ , x > 0. (4.5)
0≤k≤n x

Démonstration : 1) Les deux

inégalités de droite dans (4.1) sont immédiates.
Pour celle
de gauche, on note A = X n ≥ x et on pose S = inf k ≥ 0 : Xk ≥ x et T = S ∧ n.
Comme T ≤ n, le Th. 3.37 assure E[XT ] ≤ E[Xn ], ou encore

E[XT 1A ] + E[XT 1Ac ] = E[XT ] ≤ E[Xn ] = E[Xn 1A ] + E[Xn 1Ac ]. (4.6)

Sur l’évènement Ac = X n < x , on a S > n et donc T = n et XT = Xn . Il vient
E[Xn 1Ac ] = E[XT 1Ac ] et (4.6) se réécrit E[XT 1A ] ≤ E[Xn 1A ]. De plus, sur l’évènement
A, on a S ≤ n donc T = S et par définition de S : XT = XS ≥ x. Finalement, il vient

xP(A) = E[x1A ] ≤ E[XT 1A ] ≤ E[Xn 1A ],

ce qui prouve (4.1) puisque x > 0.

2) et 3) On adapte la preuve de 1) ci-dessus au cas d’une sur-martingale X. Pour T ≤ n,
le Th. 3.37 assure E[XT ] ≤ E[X0 ], soit

E[XT 1A ] + E[XT 1Ac ] = E[XT ] ≤ E[X0 ]. (4.7)

Comme précédemment, on a E[XT 1Ac ] = E[Xn 1Ac ] et E[XT 1A ] ≥ xP(A) et (4.7) donne

E[|X0 |] + E[|Xn |] en général, d’où (4.2),
xP(A) ≤ E[X0 ] − E[Xn 1Ac ] ≤
E[X0 ] si Xn ≥ 0, d’où (4.3).

4) Comme {maxk≤n |Xk | ≥ x} ⊂ {maxk≤n Xk ≥ x} ∪ {maxk≤n (−Xk ) ≥ x}, on a

P max |Xk | ≥ x ≤ P max Xk ≥ x + P max (−Xk ) ≥ x (4.8)
0≤k≤n 0≤k≤n 0≤k≤n

et (Xn )n≥0 , (−Xn )n≥0 sont des sous-martingales et sur-martingales (ou l’inverse) et on
majore chaque terme de (4.8) par (4.1) et (4.2) pour avoir la conclusion (4.4).
5) Lorsque (Xn )n≥0 est une martingale, on peut appliquer (4.1) à la sous-martingale
positive (|Xn |)n≥0 et avoir (4.5). □
Chapitre 4. ©JCB – M1math – Université de Rennes 59

Corollaire 4.2 (Inégalité maximale de Kolmogorov) Soit (Xn )n≥1 des variables aléatoi-
res indépendantes centrées et de variances finies. On pose Sn = X1 + · · · + Xn . Alors
pour x > 0, on a :
Var(S )
n
P max |Sk | ≥ x ≤ . (4.9)
1≤k≤n x2

Démonstration : Dans l’Exemple 3.20, on a vu que que (Sn )n≥1 est une martingale pour
la filtration canonique engendrée par la suite (Xn )n≥1 . Par le Corollaire 3.30, Yn = Sn2 ,
n ≥ 1, définit une sous-martingale à laquelle on applique l’inégalité maximale de Doob
(4.1) avec u = x2 (Th. 4.1). On obtient alors l’inégalité maximale de Kolmogorov (4.9)
puisque E[Sn2 ] = Var(Sn ). □

Remarque 4.3 (Comparaison avec Tchebychev) Dans le contexte du Corollaire 4.2, l’in-
égalité de Tchebychev donne pour tout 1 ≤ k ≤ n :

Var(Sk ) Var(Sn )
P(|Sk | ≥ x) ≤ 2
≤
x x2
Pk Pn
car Var(Sk ) = i=1 E[Xi2 ] ≤ i=1 E[Xi2 ] = Var(Sn ). On a donc

Var(Sn )
max P(|Sk | ≥ x) ≤ . (4.10)
1≤k≤n x2
Comme n
[
max P(|Sk | ≥ x) ≤ P {|Sk | ≥ x} = P max |Sk | ≥ x ,
1≤k≤n 1≤k≤n
k=1

l’inégalité (4.9) est meilleure que (4.10).

4.1.2 Inégalité de moments de Doob

Théorème 4.4 (Inégalité de moments pour sous-martingale) Soit (Xn )n≥0 une sous-martingale
avec X0 ≥ 0. Alors pour p > 1, on a
p p p + p
E Xn ≤ E (Xn ) . (4.11)
p−1
p
Démonstration : Comme X0 ≥ 0, on note que X n ≥ 0 pour chaque n ≥ 0. Si E X n = 0,
p
alors (4.11) est immédiate, on suppose donc E X n > 0 et par convergence monotone,

pour M assez grand, on a E (X n ∧ M )p > 0. On a donc 0 < E (X n ∧ M )p ≤ M .
On utilise l’inégalité maximale de Doob (4.1) (Th. 4.1) avec des variables aléatoires
tronquées au niveau M > 0 :
"Z #
X n ∧M Z M
p p−1 p−1

E (X n ∧ M ) = E px dx = E 1{x≤X n } px dx
0 0
Chapitre 4. ©JCB – M1math – Université de Rennes 60

Z M
pxp−1 P X n ≥ x dx (Fubini-Tonelli)

=
0
Z M
pxp−1 x−1 E Xn+ 1{X n ≥x} dx (Th. 4.1-1)

≤
0
" #
Z X n ∧M
= pE Xn+ xp−2 dx (Fubini-Tonelli)
0
p p−1
E Xn+ X n ∧ M

=
p−1
p p (p−1)/p + p 1/p
≤ E Xn ∧ M E (Xn ) (Hölder).
p−1
En simplifiant la borne précédente, il vient
p
p p + p
E (X n ∧ M ) ≤ E (Xn ) .
p−1

Noter que pour simplifier la borne comme ci-dessus, il est nécessaire que E (X n ∧ M )p
soit fini et non nul, d’où l’importance de tronquer par M , assez grand. Finalement, on
obtient (4.11) en faisant M → +∞ avec le théorème de convergence monotone. □

Remarque 4.5 Attention, l’inégalité maximale Lp (Th. 4.4) est fausse pour p = 1 même
avec une autre constante.
Pour des martingales, on spécialise le Th. 4.4 comme suit :
Corollaire 4.6 (Inégalité de moments pour martingale)
(1) Pour une martingale (Xn )n≥0 , on a :
h p i p p
E |Xn |p .

E max |Xk | ≤ (4.12)
1≤k≤n p−1
(2) Pour une martingale (Xn )n≥0 nulle en 0 (donc centrée) de carré intégrable, on a :
h 2 i
≤ 4E ⟨X, X⟩2n

E max |Xk | (4.13)
1≤k≤n
h 2 i
E sup |Xn | ≤ 4E ⟨X, X⟩∞ . (4.14)
n≥1

Démonstration : On considère une martingale (Xn )n≥0 .

1) s’obtient directement en appliquant le Th. 4.4 à la sous-martingale Yn = |Xn |, n ≥ 0.
2
2) est une spécialisation de 1) lorsque 2 que X − ⟨X, X⟩ est
p2 = 2. Dans ce cas, on utilise
une martingale centrée pour avoir E Xn − ⟨X, X⟩n ] = 0, soit E Xn ] = E[⟨X, X⟩n ], ce qui
assure (4.13) en l’injectant dans (4.12). Pour (4.14), on utilise la convergence monotone
h 2 i h 2 i
≤ lim 4E ⟨X, X⟩2n = 4E ⟨X, X⟩∞ .

E sup |Xn | = lim E max |Xk |
n≥1 n→+∞ 1≤k≤n n→+∞

□
Chapitre 4. ©JCB – M1math – Université de Rennes 61

4.1.3 Nombre de montées

Une sous-martingale (Xn )n≥1 a une tendance à croı̂tre comme l’indique la croissance
de l’espérance E[Xn ] ≤ E[Xn+1 ], n ≥ 0. Cette croissance peut être contrôlée par l’inéga-
lité sur le nombre de montées à travers un intervalle [a, b] où a < b, cf. Th. 4.8.
Pour présenter cette inégalité, on pose N0 = 0 et on définit les variables aléatoires
Nk , k ≥ 1, à valeurs dans N ∪ {+∞} :

N1 = min n ≥ 1 : Xn ≤ a , N2 = min n ≥ N1 : Xn ≥ b ,
et par récurrence pour k ≥ 2 :

N2k−1 = min n ≥ N2k−2 : Xn ≤ a , N2k = min n ≥ N2k−1 : Xn ≥ b ,
avec la convention inf ∅ = +∞. On a
N1 < N2 < · · · < N2k−2 < N2k−1 < N2k < · · ·
et Nk ≥ k ps.
Lemme 4.7 Les variables aléatoires Nk , k ≥ 1, sont des temps d’arrêt.
Démonstration : D’abord
n
[
{N1 ≤ n} = {Xk ≤ a} ∈ Fn
k=1

puisque {Xk ≤ a} ∈ Fk ⊂ Fn pour 0 ≤ k ≤ n. Puis

n−1
[
{N2 = n} = {N1 = j} ∩ {N2 = n}
j=1
n−1 n−1
!
[ \
= {N1 = j} ∩ {Xk < b} ∩ {Xn ≥ b} ∈ Fn
j=1 k=j+1

puisque {N1 = j} ∈ Fj ⊂ Fn pour 1 ≤ j ≤ n − 1 et {Xk < b} ∈ Fk ⊂ Fn pour

j + 1 ≤ k ≤ n − 1 et {Xn ≥ b} ∈ Fn . Ensuite par récurrence sur k :
n−1
[

N2k−1 = n = {N2k−2 = j} ∩ {N2k−1 = n}
j=1
n−1 n−1
!
[ \
= {N2k−2 = j} ∩ {Xk > a} ∩ {Xn ≤ a} ∈ Fn
j=1 k=j+1

puisque {N2k−2 = j} ∈ Fj ⊂ Fn pour 1 ≤ j ≤ n − 1 (hypothèse de récurrence) et

{Xk > a} ∈ Fk ⊂ Fn pour j + 1 ≤ k ≤ n − 1 et {Xn ≤ a} ∈ Fn . Et enfin, de même :
n−1
[

N2k = n = {N2k−1 = j} ∩ {N2k = n}
j=1
Chapitre 4. ©JCB – M1math – Université de Rennes 62

n−1 n−1
!
[ \
= {N2k−1 = j} ∩ {Xk < b} ∩ {Xn ≥ b} ∈ Fn
j=1 k=j+1

puisque {N2k−1 = j} ∈ Fj ⊂ Fn pour 1 ≤ j ≤ n − 1 (hypothèse de récurrence) et

{Xk < b} ∈ Fk ⊂ Fn pour j + 1 ≤ k ≤ n − 1 et {Xn ≥ b} ∈ Fn . □

Comme
XN2k−1 ≤ a et XN2k ≥ b,
entre les dates N2k−1 et N2k , (Xn )n≥1 monte d’au dessous de a à au dessus de b (exacte-
ment une fois). Notons Un ([a, b]) le nombre de telles montées le long de l’intervalle [a, b]
de la suite (Xn )n≥1 jusqu’à la date n, c’est à dire

Un ([a, b]) = sup k ∈ N : N2k ≤ n .

Comme Un ([a, b]) est le nombre de montées de X1 , . . . , Xn le long de [a, b], on a immé-
diatement Un ([a, b]) ≤ [n/2]. En observant que N2k ≤ n < N2k+2 signifie qu’il y a eu
exactement k montées réalisées jusqu’à la date n, on peut écrire
[n/2]
X
Un ([a, b]) = k 1{N2k ≤n<N2k+2 } .
k=1

Ainsi chaque Un ([a, b]) est positive, bornée par [n/2] et donc intégrable. La suite (Un ([a, b]))n≥1
est croissante. Le nombre de montées d’une sous-martingale est contrôlé (en moyenne)
par l’inégalité suivante due à Doob :
Théorème 4.8 (Nombre de montées) Soit (Xn )n≥0 une sous-martingale. Alors pour tout
a < b, on a :
E[(Xn − a)+ ]
E Un ([a, b]) ≤ . (4.15)
b−a
Remarque : Le Th. 4.8 s’applique pour une suite finie (Xk )k=0,...,n qui forme une mar-
tingale : E[Xk+1 |Fk ] = Xk pour tout 0 ≤ k < n.
Comme les Nk , k ≥ 1, sont des temps d’arrêt, on a
c
N2k+1 < j ≤ N2k+2 = N2k+1 ≤ j − 1 ∩ N2k+2 ≤ j − 1 ∈ Fj−1 ,

de sorte que

1 si pour un k ∈ N, on a N2k < j ≤ N2k+1
Yj =
0 sinon, ie. pour un k, on a N2k+1 < j ≤ N2k+2 ,

j ≥ 1, définit une suite prévisible.

— On a Y1 = 1 car 0 = N0 < 1 ≤ N1 correspond à k = 0 ;
— On a Y2 = 1{N1 ≥2} = 1{X1 >a} car N2 ≥ 2 exige d’avoir encore k = 0 dans la
définition de Y2 ;
Chapitre 4. ©JCB – M1math – Université de Rennes 63

— Pour j ≥ 2, on a Yj = 1 si et seulement si Xj est dans une descente (de b vers

a) de la suite (Xn )n≥0 . Il y a 2 possibilités pour que Xj soit dans une phase de
descente :
— soit Xj−1 est dans une descente qui n’est pas finie (Yj−1 = 1, Xj−1 > a) ;
— soit Xj−1 est dans une montée qui termine (Yj−1 = 0, Xj−1 ≥ b).
On a donc aussi
Yj = 1{Yj−1 =0,Xj−1 ≥b}∪{Yj−1 =1,Xj−1 >a}
et on retrouve (par récurrence) que Yj est σ(X1 , . . . , Xj−1 )-mesurable, et donc la
suite (Yj )j≥1 est prévisible.
On a alors :
Lemme 4.9 Pour toute suite finie X1 , X2 , . . . , Xn , on a
n
X
Yk (Xk − Xk−1 ) ≤ (a − b)Un ([a, b]) + (Xn − a)+ . (4.16)
k=2

Démonstration :[Lemme 4.9]

Cas 1 : Un ([a, b]) = 0, ie. il n’y a aucune montée jusqu’à la date n, donc N2 > n.
(a) Si N1 = 1 alors pour k = 2, . . . , n : N1 = 1 < k ≤ n < N2 et Yk = 0 et (4.16) est
immédiate car son membre de gauche se réduit à 0.
(b) Si 1 < N1 ≤ n alors pour 2 ≤ k ≤ N1 : N0 = 0 < 1 ≤ k ≤ N1 et Yk = 1, et pour
N1 < k ≤ n : N1 < k ≤ n < N2 et Yk = 0. On a donc :
n
X
Yk (Xk − Xk−1 ) = XN1 − X1 ≤ XN1 − a ≤ 0 ≤ (Xn − a)+
k=2

puisque XN1 ≤ a < X1 (N1 > 1) et (4.16) est vraie.

(c) Si N1 > n alors pour 2 ≤ k ≤ n : N0 = 0 < 2 ≤ k ≤ n < N1 et Yk = 1. On a donc :
n
X
Yk (Xk − Xk−1 ) = Xn − X1 ≤ Xn − a ≤ (Xn − a)+ .
k=2

Cas 2 : Un ([a, b]) > 0, ie. il y a au moins 1 montée avant la date n donc en particulier
N1 < N2 ≤ n.
Pour N0 = 0 < 1 ≤ k ≤ N1 , on a Yk = 1, et pour N1 < k ≤ N2 , on a Yk = 0. Ainsi
≤0
n
X z }| { n
X
Yk (Xk − Xk−1 ) = (XN1 − X1 ) + Yk (Xk − Xk−1 )
k=2 k=N2 +1
n
X
≤ Yk (Xk − Xk−1 ), (4.17)
k=N2 +1

car soit N1 = 1 et XN1 − X1 = 0, soit N1 > 1 et XN1 ≤ a < X1 .

Il y a maintenant deux sous-cas complémentaires à considérer dans (4.17) selon que
Chapitre 4. ©JCB – M1math – Université de Rennes 64

(a) soit la date n correspond à une phase de montée : pour un ℓ ∈ N, on a N2ℓ+1 < n ≤
N2ℓ+2 et Un ([a, b]) = ℓ ;
(b) soit la date n correspond à une phase de descente : pour un ℓ′ ∈ N, on a N2ℓ′ < n ≤
N2ℓ′ +1 et Un ([a, b]) = ℓ′ .
Dans le sous-cas (a) (phase de montée), on a

n Yk =0 pour les termes résiduels k∈]N2ℓ+1 ,n]

X z}|{
Yk (Xk − Xk−1 ) = (XN3 − XN2 ) + · · · + (XN2ℓ+1 − XN2ℓ ) + 0
k=N2 +1
≤ (a − b)ℓ = (a − b)Un ([a, b])

car XN2s+1 − XN2s ≤ a − b pour chaque s = 1, . . . , ℓ et (4.16) suit dans ce sous-cas.

Dans le sous-cas (b) (phase de descente), on a
n
X
Yk (Xk − Xk−1 )
k=N2 +1
Yk =1 pour les termes résiduels k∈]N2ℓ′ ,n]
z }| {
= (XN3 − XN2 ) + · · · + (XN2ℓ′ −1 − XN2ℓ′ −2 ) + (Xn − XN2ℓ′ )
= (XN3 − XN2 ) + · · · + (XN2ℓ′ −1 − XN2ℓ′ −2 ) + (a − XN2ℓ′ ) +(Xn − a)
| {z } | {z }
≤(ℓ′ −1)(a−b) ≤a−b
′
≤ (a − b)ℓ + (Xn − a)
≤ (a − b)Un ([a, b]) + (Xn − a)+

car de nouveau XN2s+1 − XN2s ≤ a − b pour chaque s = 1, . . . , ℓ′ − 1, Un (a, b) = ℓ′ et

a < b. La conclusion (4.16) suit encore dans ce sous-cas, ce qui prouve le Lemme 4.9. □

Démonstration :[Th. 4.8] Comme (Xn )n≥1 est une sous-martingale et comme on a vu
que Yk est Fk−1 -mesurable positive, on a

E Yk (Xk − Xk−1 ) = E E[Yk (Xk − Xk−1 ) |Fk−1 ]

= E Yk E[Xk − Xk−1 |Fk−1 ] ≥ 0,
| {z }
≥0

par la propriété de sous-martingale et parce que Yk ≥ 0. Avec le Lemme 4.9, on a donc

" n #
X
Yk (Xk − Xk−1 ) ≤ (a − b)E Un ([a, b]) + E (Xn − a)+ ,

0≤E
k=2

d’où il suit (b − a)E Un ([a, b]) ≤ E (Xn − a)+ et donc (4.15) puisque a < b. □
Chapitre 4. ©JCB – M1math – Université de Rennes 65

4.2 Convergence presque sûre de martingales

Théorème 4.10 (Convergence ps de sous-martingale) Soit (Xn )n≥0 une sous-martingale
telle que supn≥0 E[Xn+ ] < +∞. Alors quand n → +∞, (Xn )n≥0 converge ps vers une li-
mite X ∈ L1 .
Remarque 4.11 Comme on l’a vu en Remarque 3.28, les sous-martingales sont des ana-
logues aléatoires de suites croissantes et le résultat précédent généralise à ces objets le
résultat bien connu pour les suites majorées qui convergent !
Lemme 4.12 Une suite (xn )n≥1 converge dans R si et seulement si pour tout rationnels
a < b, le nombre de montées de (xn )n≥1 le long de [a, b] vérifie U∞ ([a, b], x) < +∞.
Démonstration : On a (xn )n≥1 diverge si et seulement si lim inf n→+∞ xn < lim supn→+∞ xn
c’est à dire s’il existe a < b rationnels tels que
lim inf xn < a < b < lim sup xn .
n→+∞ n→+∞

Cela a lieu si et seulement si U∞ ([a, b], x) = +∞. □

Démonstration : Soit (Xn )n≥0 une suite de variables aléatoires. D’après le Lemme 4.12,
(Xn )n≥0 converge vers une limite (finie ou pas) si et seulement si U∞ ([a, b]) < +∞. Pour
voir cela, on utilise le Th. 4.8 sur le nombre de montées.
Soit a < b. Comme le nombre de montées Un ([a, b]) le long de [a, b] est une suite crois-
sante, on note U∞ ([a, b]) := limn→+∞ Un ([a, b]) pour le nombre total de montées le long
de [a, b]. Avec le théorème de convergence monotone, l’inégalité sur le nombre de montées
(Th. 4.8) donne

E U∞ ([a, b]) = lim E Un ([a, b]) = sup E Un ([a, b])
n→+∞ n≥0
|a| + supn≥0 E[Xn+ ]
≤ < +∞
(b − a)
en utilisant (Xn −a)+ ≤ Xn+ +|a| et l’hypothèse d’intégrabilité. On a donc E[U∞ ([a, b])] <
+∞ et U∞ ([a, b]) < +∞ ps. Comme pour tout a < b on a
n o
lim inf Xn < a < b < lim sup Xn ⊂ {U∞ ([a, b]) = +∞},
n→+∞ n→+∞

il suit que l’évènement

[
lim inf Xn < a < b < lim sup Xn
n→+∞ n→+∞
a,b∈Q

est de probabilité nulle et donc X := limn→+∞ Xn existe presque sûrement par le

Lemme 4.12. Ensuite, par le lemme de Fatou
h i h i
+ + +
E[X ] = E lim Xn = E lim inf Xn
n→+∞ n→+∞
Chapitre 4. ©JCB – M1math – Université de Rennes 66

≤ lim inf E[Xn+ ] ≤ sup E[Xn+ ] < +∞,

n→+∞ n≥0

ce qui assure X < +∞ ps. Pour s’assurer aussi de X > −∞ ps, on utilise Xn = Xn+ −Xn−
et la propriété de sous-martingale pour (Xn )n≥0 :

E[Xn− ] = E[Xn+ ] − E[Xn ] ≤ E[Xn+ ] − E[X0 ].

Il suit alors encore par le lemme de Fatou

h i h i
E[X − ] = E lim Xn− = E lim inf Xn−
n→+∞ n→+∞
≤ lim inf E[Xn− ] < sup E[Xn+ ] − E[X0 ] < +∞.
n→+∞ n≥0

On en déduit X − < +∞ et finalement |X| = X + + X − < +∞ ps et E[|X|] =

E[X + ] + E[X − ] < +∞. □

Remarque 4.13 Dans la preuve, on a établi que si le nombre de montées de (Xn )n≥1 sur
]a, b[ est fini pour tout a, b ∈ Q alors la limite de Xn existe ps.

Corollaire 4.14 (Convergence ps de martingale bornée dans L1 ) Soit (Xn )n≥0 une mar-
tingale ou sous/sur-martingale bornée dans L1 (supn≥0 E[|Xn |] < +∞). Alors (Xn )n≥0
converge presque sûrement.

Démonstration : Il suffit de considérer le cas de (Xn )n≥0 sous-martingale, les autres s’en
déduisent facilement. Comme E[Xn+ ] ≤ E[|Xn |], on a supn≥0 E[Xn+ ] ≤ supn≥0 E[|Xn |] et
la condition du Th. 4.10 est satisfaite lorsque la sous-martingale est bornée dans L1 ,
justifiant la convergence presque sûre. □

Le corollaire suivant généralise « une suite positive décroissante converge ! »

Corollaire 4.15 (Convergence ps de sur-martingale positive)
Soit (Xn )n≥1 une sur-martingale positive (Xn ≥ 0 pour tout n ≥ 0). Alors, quand
ps
n → +∞, Xn −→ X avec E[X] ≤ E[X0 ].
Démonstration : On définit une sous-martingale négative en prenant Yn = −Xn , n ≥ 0.
On a supn≥1 E[Yn+ ] = 0 < +∞ et (Yn )≥0 converge ps par le Th. 4.10. Comme par la
propriété de sur-martingale (E[Xn ])n≥0 décroı̂t on a E[Xn ] ≤ E[X0 ]. Le lemme de Fatou
donne alors

E[X] = E lim Xn = E lim inf Xn ≤ lim inf E[Xn ] ≤ E[X0 ].
n→+∞ n→+∞ n→+∞

La convergence presque sûre du Corollaire 4.15 peut ne pas être L1 comme le montre
l’exemple qui suit :
Chapitre 4. ©JCB – M1math – Université de Rennes 67

Exemple 4.16 (Martingale qui converge ps mais pas L1 )

On reprend l’Exemple 3.20 de la marche aléatoire symétrique avec une suite de variables
1
aléatoires (Xi )i≥1 iid de loi donnée par P(X1 = 1) = P(X1 = −1) = 2 . On considère
Sn = Sn−1 + Xn avec S0 = 1. On pose T = inf n ≥ 0 : Sn = 0 le temps d’atteinte
de 0 de la marche et on considère Yn = ST ∧n . Comme on observe que T est un temps
d’arrêt, il vient que Y = (Yn )n≥0 est une martingale (Prop. 3.36) positive (par définition
de l’arrêt en T , temps d’atteinte de 0).
ps
Par le Corollaire 4.15, on a Yn −→ Y∞ .
On doit avoir Y∞ = 0 : en effet, Yn ∈ N et la convergence vers k ∈ N est impossible
puisque si Yn = k > 0 alors Yn+1 = k±1. (Une suite entière convergeant ne peut converger
vers un entier qu’en devenant stationnaire, ce qui n’est possible que si la marche a atteint
0 où elle est arrêtée !). Comme sur {T = +∞}, on a |ST ∧(n+1) − ST ∧n | = |Sn+1 − Sn | = 1,
cela oblige d’avoir P(T = +∞) = 0 et donc T < +∞ ps.
Comme par la propriété de martingale, E[Yn ] = E[Y0 ] = 1, on ne peut pas avoir la
convergence L1 de Yn vers Y∞ = 0.

4.3 Uniforme intégrabilité

La notion d’uniforme intégrabilité qu’on introduit dans cette section sera utile pour
étudier la convergence dans L1 de martingales en Section 4.4. On pourra aussi consulter
[Bre-proba].

Définition 4.17 (Uniforme intégrabilité) Une suite de variables aléatoires intégrables

(Xn )n≥0 est dite uniformément intégrable (UI) si

lim sup E |Xn |1{|Xn |>c} = 0.
c→+∞ n≥0

Remarque 4.18 — La même définition s’applique à une famille non-dénombrable de

variables aléatoires.
— Une famille de variables aléatoires avec un seul élément (intégrable) est unifor-
mément intégrable (par convergence dominée !).
— Une suite de variables aléatoires dominées par une variable aléatoire Z intégrable
est uniformément intégrable. En effet par croissance de x ∈ R+ 7→ x1{x>c} ,
|Xn |1{|Xn |>c} ≤ Z1{Z>c} , d’où :

lim sup E |Xn |1{|Xn |>c} ≤ lim E[Z1{Z>c} ] = 0,
c→+∞ n≥0 c→+∞

où la dernière limite s’obtient par convergence dominée avec Z ∈ L1 .

— Une suite finie de variables aléatoires intégrables est
Pnuniformément intégrable. En
effet, une telle suite (Xk )k=1,...,n est dominée par k=1 |Xk | intégrable.
— Si (Xn )n≥0 et (Yn )n≥0 sont deux suites de variables aléatoires avec |Xn | ≤ |Yn |
pour tout n ≥ 0 et (Yn )n≥0 uniformément intégrable alors (Xn )n≥0 l’est aussi.
Chapitre 4. ©JCB – M1math – Université de Rennes 68

Proposition 4.19 Soit (Xn )n≥1 une suite de variables aléatoires dans L1 telle que pour
δ > 0 la suite est bornée dans L1+δ . Alors la suite (Xn )n≥0 est uniformément intégrable.

Démonstration : On a :

sup E |Xn |1{|Xn |>c} = sup E |Xn | × 1 × 1{|Xn |/c>1}
n≥1 n≥1
|Xn |δ
≤ sup E |Xn | × δ × 1{|Xn |/c>1}
n≥1 c
1
≤ δ sup E |Xn |1+δ = O c−δ → 0,

c → +∞.
c n≥1
□

Rappelons la propriété suivante d’une variable aléatoire intégrable :

Lemme 4.20 Soit X une variable aléatoire intégrable. Alors pour tout ε > 0, il existe
η > 0 tel que si A ∈ F avec P(A) < η alors E[|X|1A ] < ε.
Démonstration : Par le théorème de convergence dominée, pour c assez grand, on a
E[|X|1{|X|>c} ] ≤ ε/2 ; puis pour η < ε/(2c), on a
ε ε
E |X|1A = E |X|1A∩{|X|>c} + E |X|1A∩{|X|≤c} ≤ + c P(A) ≤ + c η < ε.
2 2
□

Pour des variables aléatoires uniformément intégrables, on a la généralisation suivante

de ce rappel :
Proposition 4.21 (Critère d’uniforme intégrabilité) Une suite de variables aléatoires réelles
(Xn )n≥0 est uniformément intégrable si et seulement si
(i) ∀ε > 0, ∃η > 0 tel que pour A ∈ F avec P(A) < η on a E[|Xn |1A ] < ε pour tout
n ∈ N.
(ii) supn≥0 E[|Xn |] < +∞ (ie. la famille est bornée dans L1 ).
Démonstration : On suppose d’abord que (Xn )n≥0 est uniformément intégrable : pour
tout ε > 0, ∃c > 0 tel que supn≥0 E |Xn |1{|Xn |>c} < ε/2. Alors pour A ∈ F et n ∈ N,
on a ε
E |Xn |1A = E |Xn |1A∩{|Xn |>c} + E |Xn |1A∩{|Xn |≤c} ≤ + cP(A).
2
On obtient alors (i) avec η = ε/(2c) et (ii) avec A = Ω.
Réciproquement, on fixe ε > 0 et on considère η > 0 donné par (i) et M = supn≥0 E[|Xn |] <
+∞ par (ii). D’après l’inégalité de Markov, pour tout c ≥ M/η, on a
E[|Xn |] M
P(|Xn | > c) ≤ ≤ ≤ η.
c c
Chapitre 4. ©JCB – M1math – Université de Rennes 69

En appliquant le (i) pour chaque n ≥ 0 avec A = {|Xn | > c}, on a E |Xn |1{|Xn |>c} ≤ ε.
□

Proposition 4.22 Soit X ∈ L1 (F). Alors la famille (a priori non dénombrable) de va-
riables aléatoires E[X|G] : G ⊂ F sous-tribu de F est uniformément intégrable.

Démonstration : Pour cela, notons ZG = E[|X| |G]. Comme {ZG > c} est G-mesurable,
par définition de l’espérance conditionnelle ZG = E[|X| |G], on a :

E[ZG 1{ZG >c} ] = E[|X|1{ZG >c} ]. (4.18)

Mais par l’inégalité de Markov

E[ZG ] E E[|X| |G] E[|X|]
P(ZG > c) ≤ = = .
c c c
Puis comme X est intégrable, pour tout ε > 0, le Lemme 4.20 donne l’existence de δ > 0
tel que si P(A) < δ alors E[|X|1A ] < ε. Avec c > E[|X|]/δ, on a P(ZG > c) ≤ δ et donc
E[|X|1{ZG >c} ] < ε. Finalement avec l’égalité (4.18), on a E[ZG 1{ZG >c} ] < ε, c’est à dire

lim sup E ZG 1{ZG >c} = 0,
c→+∞
G sous-tribu de F

ce qui prouve la Proposition 4.22. □

Théorème 4.23 (Vitali) Soit (Xn )n≥0 une suite de variables aléatoires intégrables. Il y
a équivalence entre
(1) (Xn )n≥0 converge dans L1 ;
(2) (Xn )n≥0 est uniformément intégrable et (Xn )n≥0 converge en probabilité.

Démonstration : (1)⇒(2). D’abord, la convergence L1 entraı̂ne la convergence en pro-

babilité (par l’inégalité de Markov). Elle entraı̂ne aussi que la suite (Xn )n≥0 est bornée
L1
dans L1 (point (ii) de Prop. 4.21). Ensuite pour tout ε > 0, comme Xn −→ X, il existe
n0 tel que pour n ≥ n0 , on a E[|Xn − X|] < ε/2 et donc

E[|Xn |1A ] ≤ E[|Xn − X|1A ] + E[|X|1A ] ≤ E[|Xn − X|] + E[|X|1A ]

≤ ε/2 + E[|X|1A ].

On a donc
sup E[|Xn |1A ] ≤ ε/2 + E[|X|1A ].
n≥n0

Avec A = Ω, on déduit supn≥n0 E[|Xn |] < +∞. Puis comme X est intégrable, par le
Lemme 4.20, il existe δ > 0 tel que P(A) < δ implique E[|X|1A ] ≤ ε/2. On a donc
Chapitre 4. ©JCB – M1math – Université de Rennes 70

supn≥n0 E[|Xn |1A ] ≤ ε pour un tel A. Comme la suite finie (Xn )n<n0 est uniformément
intégrable, il existe aussi δ ′ > 0 tel que P(A) < δ ′ implique E[|Xk |1A ] ≤ ε pour k < n0 .
Finalement lorsque P(A) ≤ min(δ, δ ′ ), on a supn≥0 E[|Xn |1A ] ≤ ε. La Prop. 4.21 assure
alors que (Xn )n≥0 est uniformément intégrable.

(2)⇒(1). Comme (Xn )n≥0 converge en probabilité vers X, presque sûrement, on peut
ps
extraire une sous-suite (nk )k≥1 telle que Xnk −→ X, k → +∞. Le lemme de Fatou, avec
l’uniforme intégrabilité, garantit X ∈ L1 :
h i
E[|X|] = E lim inf |Xnk | ≤ lim inf E |Xnk | ≤ sup E[|Xn |] < +∞
k→+∞ k→+∞ n≥0

d’après l’uniforme intégrabilité (critère de la Prop. 4.21). Puis pour tout ε > 0, on a

E[|Xn − X|] ≤ E |Xn − X|1{|Xn −X|≤ε/3} + E |Xn − X|1{|Xn −X|>ε/3}

≤ E |Xn − X|1{|Xn −X|≤ε/3} + E |Xn |1{|Xn −X|>ε/3}

+E |X|1{|Xn −X|>ε/3}

≤ ε/3 + E |Xn |1{|Xn −X|>ε/3} + E |X|1{|Xn −X|>ε/3} . (4.19)

Comme {X, X1 , . . . , Xn , . . . } est uniformément intégrable, par le critère de la Prop. 4.21

il existe η > 0 tel que pour P(A) ≤ η :

E[|Xn |1A ] < ε/3, E[|X|1A ] < ε/3.

P
Puis d’après la convergence en probabilité Xn −→ X pour n assez grand P(|Xn − X| >
ε/3) ≤ η si bien que

E |Xn |1{|Xn −X|>ε/3} < ε/3, E |X|1{|Xn −X|>ε/3} < ε/3.

Finalement pour n assez grand, (4.19) assure E[|Xn − X|] < ε, ce qui prouve le 1). □

4.4 Convergence L1 et martingales fermées

La convergence L1 de martingale est liée à la fermeture de martingale qu’on définit :
Définition 4.24 (Martingale fermée) Une (Fn )-martingale (Xn )n≥0 est dite fermée par
une variable aléatoire X ∈ L1 (F) si Xn = E[X |Fn ] pour tout n ≥ 0.

Théorème 4.25 (Sous-martingales UI) Soit (Xn )n≥0 une sous-martingale. Alors les as-
sertions suivantes sont équivalentes :
(1) (Xn )n≥0 est uniformément intégrable ;
(2) (Xn )n≥0 converge ps et dans L1 ;
L’énoncé s’applique aussi aux sur-martingales et aux martingales.
Chapitre 4. ©JCB – M1math – Université de Rennes 71

Démonstration : (1)⇒(2). L’uniforme intégrabilité implique supn≥0 E[|Xn |] < +∞. Le

théorème de convergence presque sûre des (sous-)martingales s’applique (Corollaire 4.14)
et donne la convergence presque sûre. Cette convergence implique la convergence en pro-
babilité. Dès lors avec le théorème de Vitali (Th. 4.23), l’uniforme intégrabilité implique
la convergence L1 .
(2)⇒(1). Par le théorème de Vitali (Th. 4.23), la convergence L1 implique l’uniforme
intégrabilité. □

Pour des martingales, on peut compléter le Th. 4.25 avec la représentation des martin-
gales avec le (3) ci-dessous :

Théorème 4.26 (Martingales UI et fermées) Pour une martingale (Xn )n≥0 , les asser-
tions suivantes sont équivalentes :
(1) (Xn )n≥0 est uniformément intégrable ;
(2) (Xn )n≥0 converge presque sûrement et dans L1 ;
(3) (Xn )n≥0 est une martingale fermée, ie. il existe une variable aléatoire X ∈ L1 (F)
telle que Xn = E[X|Fn ] ∀n ≥ 0.
Dans ce cas, on a E[Xn ] = E[X] pour tout n ≥ 0.

Démonstration : Il reste à montrer que (3) est équivalente aux deux premiers points.
L1
On a (3)⇒(1) par la Prop. 4.22. Puis en supposant (2), c’est à dire notamment Xn −→
X ∈ L1 , comme (Xn )n≥0 est une martingale, pour k ≥ n et A ∈ Fn on a :

E[Xk 1A ] = E[Xn 1A ].

Mais limk→+∞ E[Xk 1A ] = E[X1A ] car E[Xk 1A ] − E[X1A ] ≤ E[|Xk − X|] et donc pour
tout A ∈ Fn :
E[Xn 1A ] = E[X1A ]
c’est à dire Xn = E[X |Fn ] par définition de l’espérance conditionnelle, on a donc
(2)⇒(1).
Lorsque ces conditions sont remplies, il y a convergence L1 donc convergence des es-
pérances E[Xn ], n ≥ 0, vers E[X]. Comme pour une martingale les espérances sont
constantes, la conclusion s’ensuit. □

Applications des convergences ps et L1 de martingales

W S
On rappelle que pour une famille de tribus (Gi )i∈I , on note i∈I Gi := σ i∈I Gi .
W on écrit Fn ↗ F∞ pour signifier qu’on considère une filtration (Fn )n≥0
Dans la suite,
avec F∞ := n∈N Fn , la tribu limite la plus grande quand n → +∞.
Chapitre 4. ©JCB – M1math – Université de Rennes 72

Théorème 4.27 (Continuité croissante du conditionnement) Soit Fn ↗ F∞ . Alors pour

X ∈ L1 (F), on a
ps,L1
E[X|Fn ] −→ E[X|F∞ ], n → +∞.
Démonstration : En notant Xn = E[X|Fn ] alors (Xn )n≥0 est une martingale fermée
donc convergente ps et dans L1 vers une variable aléatoire limite Z ∈ L1 par le Th. 4.26.
Comme Xn est Fn - donc F∞ -mesurable, Z = limn→+∞ Xn est aussi F∞ -mesurable.
Pour A ∈ Fn , on a E[X1A ] = E[Xn 1A ] (propriété de martingale) et E[XnS1A ] → E[Z1A ],
n → +∞, (convergence L1 ). Ainsi, pour tout A ∈ Fn et donc tout A ∈ n≥0 Fn , on a :

E[X1A ] = E[Z1A ]. (4.20)

S
Comme (Fn )n≥1 est une filtration, n≥1 Fn est stable par intersection (finie). Puis

M = A ∈ F : E[X1A ] = E[Z1A ]

est une classe monotone car

— Ω ∈ M puisque E[X] = E[Z] ;
— si A, B ∈ M avec A ⊂ B alors B \ A ∈ M : comme 1B\A = 1B − 1A ,

E[X1B\A ] = E[X(1B − 1A )] = E[X1B ] − E[X1A ]

= E[Z1B ] − E[Z1A ] = E[Z(1B − 1A )] = E[Z1B\A ];
S
— si An ∈ M avec An ⊂ An+1 alors n≥0 An ∈ M :comme 1Sn≥0 An = limn→+∞ 1An ,

E X1Sn≥0 An = E X lim 1An = lim E[X1An ]
n→+∞ n→+∞

= = lim E[Z1An ] = E Z lim 1An = E Z1Sn≥0 An ,
n→+∞ n→+∞

en utilisant (2 fois) la convergene dominée avec |X1An | ≤ |X| ∈ L1 et |Z1An | ≤

|Z| ∈ L1 .
le théorème des classes monotones (Th. 0.2), assure alors que
_ [
F∞ = Fn = σ Fn ⊂ M,
n≥0 n≥0

et on a donc (4.20) pour tout A ∈ F∞ .

Mais Z est F∞ -mesurable car limite des Xn qui sont Fn donc F∞ -mesurables. Finale-
ps,L1
ment (4.20) assure Z = E[X|F∞ ] et on a donc Xn −→ E[X|F∞ ] quand n → +∞. □

Le résultat suivant généralise la Prop. 2.17 et le Th. 4.27 :

ps
Théorème 4.28 (Convergence dominée pour l’espérance conditionnelle) On suppose Xn −→
X et |Xn | ≤ Z ∈ L1 pour tout n ≥ 1. Alors si Fn ↗ F∞ , on a
ps,L1
E Xn |Fn −→ E X |F∞ , n → +∞.
Chapitre 4. ©JCB – M1math – Université de Rennes 73

Comme conséquence du Th. 4.27, on a :

Théorème 4.29 (Loi du 0/1 de Lévy) On suppose Fn ↗ F∞ . Alors pour A ∈ F∞ , on a
ps,L1
E[1A |Fn ] −→ 1A quand n → +∞.
Démonstration : Il suffit d’appliquer le Th. 4.27 avec X = 1A , pour A ∈ F∞ puisque
dans ce cas E[1A |F∞ ] = 1A . □

La loi du 0/1 de Kolmogorov concerne la tribu asymptotique d’une suite de variables

aléatoires indépendantes. On commence par rappeler pour une suite de variables aléa-
toires (Xn )n≥0 :
— les tribus du futur : F (n) = σ Xn , Xn+1 , . . . , n ≥ 0 ;
— la tribu asymptotique F (∞) = n≥0 F (n) .
T

Théorème 4.30 (Loi du 0/1 de Kolmogorov) Lorsque les variables aléatoires (Xn )n≥0
sont indépendantes, la tribu asymptotique F (∞) se réduit, aux négligeables près, à {∅, Ω},
ie. ∀A ∈ F (∞) , P(A) ∈ {0, 1}.
Chapitre 4. ©JCB – M1math – Université de Rennes 74

Démonstration : On note Fn = σ(X0 , . . . , Xn ) et F∞ = n≥0 Fn . Soit A ∈ F (∞) .

Pour tout n ≥ 1, (X0 , . . . , Xn ) et 1A sont indépendantes car A ∈ F (n+1) . On a donc

E[1A ] = E 1A |Fn et avec le Th. 4.27 :

E[1A ] = lim E 1A |Fn = E 1A |F∞ = 1A ps
n→+∞

en utilisant A ∈ F (∞) ⊂ F∞ . En effet, on peut écrire F (n) = σ p≥n Fnp où Fnp =
S

σ(Xi : n ≤ i ≤ p). Comme Fnp ⊂ Fp ⊂ F∞ , on a F (n) ⊂ F∞ pour tout n ≥ 0 et donc

F (∞) ⊂ F∞ .
Finalement, on a 1A = Cte ps, avec nécessairement Cte ∈ {0, 1}, c’est à dire P(A) ∈
{0, 1}. □

4.5 Convergence Lp de martingales pour p > 1

Théorème 4.31 (Convergence Lp de martingale) Soit (Xn )n≥0 une sous ou sur-martin-
ps,L1
gale telle que supn≥0 E |Xn |p < +∞ pour p > 1. Alors Xn −→ X quand n → +∞. Si
de plus, (Xn )n≥0 est une martingale alors il y a convergence vers X ps et dans Lp , avec
E[X] = E[Xn ] pour tout n ≥ 0.

Démonstration : Soit (Xn )n≥0 une sur- ou sous-martingale. Comme supn≥0 E |Xn |p <
+∞, (Xn )n≥0 est uniformément intégrable par la Prop. 4.19 et donc elle converge ps et
L1 par le Th. 4.25.
Si de plus, (Xn )n≥0 est une martingale, par l’inégalité de moments (4.12) du Corol-
laire 4.6, on a h i p p
E sup |Xk |p ≤ E |Xn |p .

0≤k≤n p−1
En faisant n → +∞ avec le théorème de convergence monotone, on obtient
h i p p
E sup |Xk |p ≤ sup E |Xn |p < +∞,

(4.22)
k≥0 p − 1 n≥0

c’est à dire Z := supn≥0 |Xn | ∈ Lp .

ps
Maintenant, comme |Xn − X|p ≤ (2Z)p ∈ L1 et toujours Xn −→ X, le théorème de
convergence dominée implique alors

lim E |Xn − X|p = 0.

n→+∞

L’égalité des espérances est due au Théorème 4.26. □

Chapitre 4. ©JCB – M1math – Université de Rennes 75

4.6 Martingales carré-intégrables

On rappelle qu’une martingale (Xn )n≥0 carré-intégrable admet un compensateur

(⟨X, X⟩n )n≥0 (Déf. 3.42) et qu’elle est bornée dans L2 si et seulement si E ⟨X, X⟩∞ <
+∞ (Prop. 3.44).

Convergence ps de martingale L2 et compensateur

Théorème 4.32 (Convergence ps de martingale L2 et compensateur) Soit (Xn )n≥0 une
martingale de carré intégrable et de compensateur ⟨X, X⟩.
(1) Pour presque tout ω ∈ Ω tel que ⟨X, X⟩∞ (ω) < +∞, limn→+∞ Xn (ω) existe.
(2) Si (Xn )n≥0 a des accroissements bornés, ie. il existe K < +∞ tel que |Xn −
Xn−1 | ≤ K ps, alors pour presque tout ω tel que limn→+∞ Xn (ω) existe dans R,
on a ⟨X, X⟩∞ (ω) < +∞.

Démonstration : Sans perte de généralité, on suppose pour simplifier que X0 = 0.

1) On note An = ⟨X, X⟩n . Comme (An )n≥0 est prévisible, Sk = inf p ≥ 0 : Ap+1 > k
est un temps d’arrêt : pour tout n ≥ 0,
[
{Sk ≤ n} = {Ap+1 > k} ∈ Fn .
| {z }
p≤n
∈Fp

Par la Prop. 3.34, la suite ASk = ASk ∧n n≥0 est prévisible et, par la Prop. 3.45, ASk =
⟨X Sk , X Sk ⟩. Par la propriété de martingale, il vient :

E (X Sk )2n − ASnk = E (X Sk )20 − AS0 k = 0,

soit par définition de l’arrêt Sk :

E (X Sk )2n = E ASnk ≤ k

pour tout n ≥ 0 et donc X Sk est bornée dans L2 . Par l’inégalité de Cauchy-Schwarz,

X Sk est aussi bornée dans L1 et le Corollaire 4.14 assure la convergence presque sûre.
S
Comme {A∞ < +∞} = k≥0 {Sk = +∞}, si ω ∈ {A∞ < +∞} alors il existe k(ω) tel que
S (ω)
Sk(ω) (ω) = +∞ et Xn k(ω) (ω) = Xn (ω). Pour presque chaque tels ω ∈ {A∞ < +∞},
(Xn (ω))n≥0 converge.
2) On raisonne par l’absurde et on suppose que

P A∞ = +∞ et sup |Xn | < +∞ > 0. (4.23)
n≥0

En notant Tc = inf(n ≥ 0 : |Xn | > c), on a {Tc = +∞} = {supn≥0 |Xn | ≤ c} et par
convergence monotone

P A∞ = +∞ et Tc = +∞
Chapitre 4. ©JCB – M1math – Université de Rennes 76

= P A∞ = +∞, sup |Xn | ≤ c ↗ P A∞ = +∞, sup |Xn | < +∞ .
n≥0 n≥0

Pour c > 0 assez grand, on déduit donc de (4.23) que

P A∞ = +∞ et Tc = +∞ > 0. (4.24)

D’après le théorème d’arrêt borné (Th. 3.37) avec le temps d’arrêt borné Tc ∧ n et la
martingale X 2 − A, on a
E[XT2c ∧n ] − E[ATc ∧n ] = 0.
Mais XT2c ∧n est bornée par (c+K)2 : en effet, à la date (Tc ∧n)−1 < Tc , on a X(Tc ∧n)−1 ≤ c
et comme un accroissement (de la date (Tc ∧ n) − 1 à la date (Tc ∧ n)) est borné par K,
on a
E[ATc ∧n ] = E[XT2c ∧n ] ≤ (c + K)2 .
En faisant n → +∞ par le théorème de convergence monotone, on a

E[ATc ] ≤ (c + K)2 ,

ce qui est en contradiction avec (4.24) et donc (4.23) car en notant B = {A∞ =
+∞ et Tc = +∞}, on a

E[ATc ] ≥ E[ATc 1B ] = E[A∞ 1B ] = +∞

puisque P(B) > 0 et A∞ = +∞ sur B.

Finalement, on doit avoir A∞ < +∞ dès que supn≥0 |Xn | < +∞, en particulier dès que
(Xn )n≥1 converge dans R. □

Martingale bornée dans L2

Dans le cas de martingale L2 , le Théorème 4.31 s’écrit

Corollaire 4.33 (Convergence de martingale bornée dans L2 ) Soit (Xn )n≥0 une mar-
tingale bornée dans L2 (ou de façon équivalente, de compensateur ⟨X, X⟩ intégrable
ps
en +∞). Alors Xn −→ X ps et dans L2 . De plus, E[X0 ] = E[Xn ] = E[X].

Le résultat suivant est une LGN presque sûre pour les martingales. Il complète le
Th. 4.32.

Théorème 4.34 (LGN pour martingale) Soit (Xn )n≥0 une (Fn )-martingale de carré in-
tégrable avec X0 = 0. Alors sur {⟨X, X⟩∞ = +∞}, on a
Xn ps
−→ 0, n → +∞. (4.25)
⟨X, X⟩n
Chapitre 4. ©JCB – M1math – Université de Rennes 77

Remarque 4.35 (Cas iid) Lorsque (Xn )n≥1 est une suite de variables Pn aléatoires iid cen-
2
trées de carrés intégrables, on retrouve la LGN forte L : Sn = k=1 Xk est une mar-
tingale L2 de compensateur ⟨S, S⟩n = nσ 2 (où σ 2 = E[X12 ], voir Exemple 3.46) et (4.25)
se réécrit
Sn ps
−→ 0, n → +∞.
n

Démonstration : On considère la suite prévisible H = (1+⟨X, X⟩n )−1 n≥0 , et W = H·X

donnée par W0 = 0 et
n
X Xk − Xk−1
Wn = , n ≥ 1.
k=1
1 + ⟨X, X⟩k

Comme H est bornée par 1, la Prop. 3.32 assure que W = (Wn )n≥0 définit une martin-
gale. En utilisant l’expression (3.16) du compensateur, celui de W est donné par
⟨W, W ⟩n − ⟨W, W ⟩n−1 = E (Wn − Wn−1 )2 |Fn−1

" 2 #
Xn − Xn−1
= E Fn−1
1 + ⟨X, X⟩n
1
E (Xn − Xn−1 )2 |Fn−1

= 2
(1 + ⟨X, X⟩n )
⟨X, X⟩n − ⟨X, X⟩n−1
=
(1 + ⟨X, X⟩n )2
⟨X, X⟩n − ⟨X, X⟩n−1
≤
(1 + ⟨X, X⟩n )(1 + ⟨X, X⟩n−1 )
1 1
= − .
1 + ⟨X, X⟩n−1 1 + ⟨X, X⟩n
On en déduit
n
X 1
⟨W, W ⟩n = ⟨W, W ⟩k − ⟨W, W ⟩k−1 ≤ 1 − ≤1 ps.
k=1
1 + ⟨X, X⟩n

En passant à la limite, on a ⟨W, W ⟩∞ ≤ 1 ps et par le Th. 4.32 la martingale W converge

ps. Par le lemme de Kronecker (Lemme 4.37) avec ak = 1 + ⟨X, X⟩k , il suit
Xn ps
−→ 0, n → +∞,
1 + ⟨X, X⟩n
ou de façon équivalente
Xn ps
−→ 0, n → +∞.
⟨X, X⟩n
□

On prouve ci-dessous les lemmes de Césaro (Lemme 4.36) et de Kronecker (Lemme 4.37)
pour la convergence de séries numériques.
Chapitre 4. ©JCB – M1math – Université de Rennes 78

Lemme 4.36 (Césaro) Soit (un )n≥1 une suite d’un espace vectoriel
Pn normé E qui converge
vers ℓ et (αn )n≥1 une suite positive, de sommes partielles an = k=1 αn qui tendent vers
+∞. Alors on a
n
1 X
lim αk uk = ℓ.
n→+∞ an
k=1

Démonstration : Soit ε > 0 et n0 ≥ 1 tel que, pour n ≥ n0 , on a |un − ℓ| < ε. Comme

P n
k=1 αk = an , on a
n n
1 X 1 X
αk uk − ℓ = αk (uk − ℓ)
an k=1 an k=1
n0 n
1 X 1 X
≤ αk ∥uk − ℓ∥ + αk ∥uk − ℓ∥
an k=1 an k=n +1
0
n0
1 X an − an0
≤ αk ∥uk − ℓ∥ + ε.
an k=1 an
an −an0 1
Pn0
Comme an
≤ 1 et limn→+∞ an k=1 αn ∥uk − ℓ∥ = 0 (an → +∞), on a
n
1 X
lim sup αn uk − ℓ ≤ ε,
n→+∞ an k=1

ce qui permet de conclure puisque ε > 0 est arbitraire :

n n
1 X 1 X
0 ≤ lim inf αn uk − ℓ ≤ lim sup αn uk − ℓ = 0,
n→+∞ an n→+∞ a n
k=1 k=1

soit n
1 X
lim αn uk − ℓ = 0.
n→+∞ an k=1
□

Lemme 4.37 (Kronecker) Soit (xn )n≥1 une suite dans un espace vectoriel normé P+∞ etxn
(an )n≥1 une suite croissante strictement positive convergeant vers +∞. Si la série n=1 an
converge alors
n
1 X
lim xk = 0.
n→+∞ an
k=1
Pk xn
Démonstration : On note Sk = n=1 an . En écrivant xk /ak = Sk − Sk−1 , on a par une
transformation d’Abel :
n
X n
X n−1
X
xk = ak (Sk − Sk−1 ) = (ak − ak+1 )Sk + an Sn ,
k=1 k=1 k=1
Chapitre 4. ©JCB – M1math – Université de Rennes 79

avec S0 = 0 par convention et donc

n n−1
1 X X ak+1 − ak
xk = Sn − Sk . (4.26)
an k=1 k=1
a n

Comme Sk converge vers S, le Lemme 4.36 (Césaro) avec αk = ak − ak−1 ≥ 0 de somme

partielle an → +∞ assure
n−1
X ak+1 − ak
Sk → S, n → +∞,
k=1
an

ce qui conclut le Lemme 4.37 (Kronecker) quand on passe à la limite dans (4.26). □

4.7 Théorème d’arrêt

Dans cette section, on cherche à généraliser la propriété de martingale (3.3) à des
temps d’arrêt. On rappelle que si T, S sont des temps d’arrêt avec S ≤ T , alors pour
une sous-martingale (Xn )n≥0 on n’a pas toujours E[XS ] ≤ E[XT ].
On rappelle le contre-exemple (Exemple 3.38) de la marche aléatoire simple (Sn )n≥0
partant de S0 = 0 avec T = inf n ≥ 1 : Sn = −1 (temps d’atteinte de −1) : on a
E[ST ] = −1 et E[S0 ] = 0 alors que T ≥ S = 0.
Au contraire si S ≤ T avec T borné (ie. P(T ≤ k) = 1 pour un k ∈ R+ ) alors pour une
sous-martingale (Xn )n≥1 , on a E[XS ] ≤ E[XT ]. En effet, XnT = XT ∧n , n ≥ 0, est une
sous-martingale arrêtée donc une sous-martingale (Prop. 3.36). Le Th. 3.37 appliqué à
X T avec le temps d’arrêt S borné donne
E[XS ] = E[XT ∧S ] = E XST ≤ E XkT = E[XT ∧k ] = E[XT ].

En fait, on a un résultat plus général :

Proposition 4.38 Soit (Xn )n≥0 une sous-martingale uniformément intégrable et T un
temps d’arrêt. Alors :
(1) X T = (XT ∧n )n≥0 est une sous-martingale uniformément intégrable
ps,L1
(2) XT ∧n −−−→ XT , n → +∞
(3) E[X0 ] ≤ E[XT ] ≤ E[X∞ ] où X∞ = limn→+∞ Xn .
Démonstration : D’abord, comme (Xn )n≥0 est une sous-martingale uniformément inté-
grable, le Th. 4.25 assure que (Xn )n≥0 converge ps (et dans L1 ) vers X∞ , XT est bien
défini même pour T = +∞.
Ensuite, on sait déjà que X T = (XT ∧n )n≥0 est une martingale par la Prop. 3.36. On
montre d’abord qu’elle converge ps vers XT ∈ L1 en appliquant le Th. 4.10 en vérifiant
sup E XT+∧n < +∞

(4.27)
n≥0
Chapitre 4. ©JCB – M1math – Université de Rennes 80

En effet, comme φ(x) = x+ est croissante et convexe, (Xn+ )n≥0 est aussi une sous-
martingale (Prop. 3.29). En appliquant le Th. 3.37 à la sous-martingale (Xn+ )n≥0 et au
temps d’arrêt T ∧ n borné, on a

E XT+∧n ≤ E Xn+ ≤ E |Xn | .

Comme (Xn )n≥0 est uniformément intégrable, on a

sup E XT+∧n ≤ sup E |Xn | < +∞,

n≥0 n≥0

ce qui assure (4.27) et donc la convergence ps de XT ∧n vers XT ∈ L1 .

Ensuite, on établit que X T est uniformément intégrable : pour tout c > 0, on a :

E |XT ∧n |1{|XT ∧n |≥c}

= E |XT |1{|XT ≥c} 1{T ≤n} + E |Xn |1{|Xn |≥c} 1{T >n} (4.28)

≤ E |XT |1{|XT |≥c} + E |Xn |1{|Xn |≥c} .

Comme Xn : n ∈ N ∪ {XT } est uniformément intégrable, la famille XT ∧n : n ∈ N
l’est aussi, ce qui prouve 1).
Finalement, le Th. 4.25 s’applique à la sous-martingale X T et prouve la convergence L1
vers XT , ce qui achève de prouver 2).
Le Th. 3.37 pour les temps d’arrêt bornés donne

E[X0 ] ≤ E[XT ∧n ] ≤ E[Xn ].

Par 1), limn→+∞ E[XT ∧n ] = E[XT ] et par le le Th. 4.25 limn→+∞ E[Xn ] = E[X∞ ]. On
obtient donc 3) en faisant n → +∞. □

De (4.28) dans la preuve précédente, on déduit en particulier :

Corollaire 4.39 Soit (Xn )n≥0 une sous-martingale. Si E[|XT |] < +∞ et (Xn 1{T >n} )n≥0
est uniformément intégrable. Alors X T = (XT ∧n )n≥0 est uniformément intégrable.

On arrive à la forme générale du théorème d’arrêt :

Théorème 4.40 (Arrêt de Doob) Soit S ≤ T des temps d’arrêt et (Xn )n≥0 une sous-
martingale uniformément intégrable. Alors E[XS ] ≤ E[XT ] et

XS ≤ E[XT |FS ]. (4.29)

On a des énoncés analogues pour les martingales et sur-martingales.

Chapitre 4. ©JCB – M1math – Université de Rennes 81

Remarque 4.41 Si T ≤ k ps alors

k
X
E |XT | = E |Xn |1{T =n} ≤ kE[|Xk |] < +∞
n=1

et Xn 1{T >n} est uniformément intégrable puisque la famille est finie (pour n > k,
Xn 1{T >n} = 0). D’après le Corollaire 4.39, X T = (XT ∧n )n≥0 est uniformément inté-
grable et le théorème d’arrêt (Th. 4.40) s’applique à X T = (XT ∧n )n≥0 quand T est
borné : on retrouve bien l’exemple introductif de la section dans ce théorème général.

Démonstration :[Th. 4.40] On pose Yn = XT ∧n , n ≥ 0. D’après la Prop. 4.38, (Yn )n≥0

est une sous-martingale uniformément intégrable et on peut lui appliquer le 3) de la
Prop. 4.38 avec le temps d’arrêt S pour avoir E[YS ] ≤ E[Y∞ ], soit comme S ≤ T ,
YS = XS et Y∞ = XT :
E[XS ] ≤ E[XT ],
ce qui prouve la première partie du Th. 4.40.
On observe que XS est FS -mesurable puisque pour tout B ∈ B(R), on a XS−1 (B) =
{XS ∈ B} ∈ FS : {XS ∈ B} ∩ {S = n} = {Xn ∈ B} ∩ {S = n} ∈ Fn .
Pour la deuxième partie (4.29), on considère A ∈ FS et on pose

U = S1A + T 1Ac .

On observe que U est un temps d’arrêt car

{U ≤ n} ∩ A ∪ {U ≤ n} ∩ Ac

{U ≤ n} =
{S ≤ n} ∩ A ∪ {T ≤ n} ∩ Ac .

=

Mais {S ≤ n} ∈ Fn et donc, comme A ∈ FS , {S ≤ n} ∩ A ∈ Fn . Puis {T ≤ n} ∈ Fn

et donc, comme A ∈ FS ⊂ FT , {T ≤ n} ∩ Ac ∈ Fn . On a donc bien {U ≤ n} ∈ Fn ,
justifiant que U est temps d’arrêt.
Comme U ≤ T , par la première partie de la preuve, il vient

E[XU ] ≤ E[XT ]. (4.30)

Comme U = S sur A et U = T sur Ac , on a

E[XU ] = E XU 1A + E XU 1Ac

= E XS 1A + E XT 1Ac (4.31)

≤ E[XT ] = E XT 1A + E XT 1Ac (4.32)

où (4.32) vient de (4.30). En simplifiant (4.31)≤(4.32), il vient pour tout A ∈ FS

E XS 1A ≤ E XT 1A = E Z1A ,
Chapitre 4. ©JCB – M1math – Université de Rennes 82

en notant Z = E[XT |FS ]. On a donc E[(Z − XS )1A ] ≥ 0 pour tout A ∈ FS . Comme

A = {Z − XS < 0} ∈ FS (Z, XS sont FS -mesurables) on a (Z − XS )1A ≤ 0 et donc
E (Z − XS )1A = 0 ce qui exige (Z − XS )1A = 0 ps et comme Z − XS < 0 sur A, il vient
1A = 0 ps, c’est à dire P(A) = 0 et donc XS ≤ Z ps, achevant la preuve du théorème
d’arrêt (Th. 4.40). □

On a un résultat analogue sans l’hypothèse d’uniforme intégrabilité pour les sur-martin-

gales qui sont positives :

Proposition 4.42 Soit (Xn )n≥1 une sur-martingale positive et T un temps d’arrêt. Alors
E[XT ] ≤ E[X0 ] + E[X∞ ] où la limite X∞ = limn→+∞ Xn existe par le Corollaire 4.15.

Démonstration : Par le Corollaire 4.15, la sur-martingale (Xn )n≥0 converge ps vers X∞ .

Comme X T = (XT ∧n )n≥0 est aussi une sur-martingale (Prop. 3.36), son espérance dé-
croı̂t :
E[XT ∧n ] ≤ E[XT ∧0 ] = E[X0 ]. (4.33)
Comme la sur-martingale est positive, par convergence monotone, on a

E XT 1{T <+∞} = lim E XT 1{T ≤n} = lim E XT ∧n 1{T ≤n}
n→+∞ n→+∞

≤ lim E XT ∧n ≤ E[X0 ] (4.34)
n→+∞

en utilisant (4.33). On a aussi

E XT 1{T =+∞} = E X∞ 1{T =+∞} ≤ E[X∞ ]. (4.35)

Ainsi, en combinant (4.34) et (4.35), on a

E[XT ] = E XT 1{T <+∞} + E XT 1{T =+∞}
≤ E[X0 ] + E[X∞ ].

□
Troisième partie

Chaı̂nes de Markov

83
Chapitre 5

Dynamique markovienne

Introduction
On considère un système qui peut être dans un nombre fini ou infini dénombrable
d’états. L’ensemble des états, noté E, est appelé espace d’états et on supposera dans
ce cours que E est dénombrable (souvent, E sera N ou une partie de N). On suppose le
système observé en des temps discrets n = 0, 1, 2, . . . et l’état du système à la date n est
noté Xn .
Comme on s’intéresse aux systèmes non déterministes, on considère des suites de
variables aléatoires (Xn )n≥0 . Pour étudier de tels systèmes aléatoires (Xn )n≥0 , on suppose
que le système –ou son évolution– satisfait certaines propriétés.
La propriété la plus simple est de supposer que les variables aléatoires Xn , n ≥ 0, sont
(mutuellement) indépendantes, c’est à dire de supposer que les états du système sont
tous indépendants. En pratique, une telle hypothèse est trop restrictive pour modéliser
nombre de phénomènes intéressants.
En fait, de nombreux systèmes ont la propriété –plus générale– suivante : l’état pré-
sent du système étant connu, les états passés n’ont pas d’influence sur les états futurs.
Autrement dit le système n’évolue pas indépendamment dans le temps mais évolue sans
mémoire (seul le présent, et non le passé, influe sur le futur). Cette propriété est dite
propriété de Markov et les systèmes qui la vérifient sont des chaı̂nes de Markov (Défi-
nition 5.5).
Pour formaliser ce type de propriété, on commence par un exemple très simple de
système markovien ne pouvant prendre que deux valeurs.

Exemple 5.1 (Chaı̂nes de Markov à deux états) Considérons une machine qui au début
de chaque jour est soit en état de fonctionnement (état 1) soit en panne (état 0). On
note alors Xn = 1 si la machine fonctionne au début du n-ème jour, Xn = 0 sinon. On
suppose que si la machine est en panne le n-ème jour, la probabilité qu’elle soit réparée et
fonctionne au début du (n + 1)-ème jour est p ∈]0, 1[. On suppose aussi que si la machine
fonctionne le n-ème jour, la probabilité qu’un problème survienne et qu’elle soit en panne
au début du (n + 1)-ème jour est q ∈]0, 1[. (Attention, avec ces notations, il n’y a pas de
raison que p + q = 1 comme c’est souvent le cas.) Enfin, on décrit par µ0 = (µ0 (0), µ0 (1))

84
Chapitre 5. ©JCB – M1math – Université de Rennes 85

l’état initial de la machine, ie. µ0 (0) est la probabilité que la machine soit en panne au
début du 0-ème jour et µ0 (1) la probabilité qu’elle fonctionne (ou encore : X0 ∼ µ0 ). Le
modèle se réécrit

P(Xn+1 = 1|Xn = 0) = p, P(Xn+1 = 0|Xn = 1) = q

avec P(X0 = 0) = µ0 (0) et il se représente par le graphe de transitions suivant :

1−p 0 1 1−q
q

Comme les probabilités conditionnelles sont des probabilités, on en déduit immédiate-

ment
P(Xn+1 = 0|Xn = 0) = 1 − p, P(Xn+1 = 1|Xn = 1) = 1 − q
et la probabilité d’être en fonction à la date 0 est µ0 (1) = 1 − µ0 (0).
On calcule P(Xn = 0) et P(Xn = 1) par la formule des probabilités totales (1.3) :

P(Xn+1 = 0) = P(Xn+1 = 0|Xn = 0)P(Xn = 0) + P(Xn+1 = 0|Xn = 1)P(Xn = 1)

= (1 − p)P(Xn = 0) + qP(Xn = 1)
= (1 − p − q)P(Xn = 0) + q.

Lorsque p + q ̸= 0, comme P(X0 = 0) = µ0 (0), on en déduit par récurrence :

n−1
X
n
P(Xn = 0) = (1 − p − q) µ0 (0) + q (1 − p − q)j
j=0
q n
q
= + (1 − p − q) µ0 (0) − . (5.1)
p+q p+q

Comme P(Xn = 1) = 1 − P(Xn = 0), on a aussi

p p
P(Xn = 1) = + (1 − p − q)n µ0 (1) − . (5.2)
p+q p+q

Si |1 − p − q| < 1, en passant à la limite n → +∞, on a

q p
lim P(Xn = 0) = , lim P(Xn = 1) = .
n→+∞ p+q n→+∞ p+q
Ces probabilités s’interprètent comme une sorte de régime asymptotique :
q p
n→+∞
Xn =⇒ µ∞ := , .
p+q p+q
Chapitre 5. ©JCB – M1math – Université de Rennes 86

Si p = q = 1, alors il est facile de voir que le système est périodique de période 2 avec

P(X2n = 0) = µ0 (0), P(X2n = 0) = µ0 (1);

P(X2n+1 = 0) = µ0 (1), P(X2n+1 = 0) = µ0 (0)

ie. X2n ∼ µ0 et X2n+1 ∼ 1 − µ0 . Dans ce cas, (Xn )n≥0 ne converge pas en loi.
Enfin, si p = q = 0 et on a facilement P(Xn = 0) = µ0 (0) et P(Xn = 1) = µ0 (1) et le
système n’évolue donc pas, la loi reste donnée en tout temps par µ0 et donc à la limite
aussi : Xn ∼ µ0 pour tout n ≥ 0.
Observons qu’on peut aussi obtenir les probabilités limites p/(p + q) et q/(p + q) autre-
ment : si on choisit µ0 (0) et µ0 (1) de façon que P(Xn = 0) et P(Xn = 1) ne dépendent
pas de n alors on constate dans les expressions de P(Xn = 0) en (5.1) et P(Xn = 1) en
(5.2) que nécessairement
q p
µ0 (0) = , µ0 (1) = (5.3)
p+q p+q
et dans ce cas si la chaı̂ne (Xn )n≥0 démarre avec la distribution donnée par (5.3), on a
pour tout n ≥ 0 :
q p
P(Xn = 0) = , P(Xn = 1) = .
p+q p+q
La distribution (5.3) s’interprète comme une distribution stationnaire (ou invariante) et
on constate donc que les distributions limite et stationnaire coı̈ncident.
Approche matricielle
Le modèle se représente aussi matriciellement en notant µn = P(Xn = 0), P(Xn = 1)
et
1−p p
P = .
q 1−q
La formule des probabilités totales (1.3) s’écrit

µn+1 = µn P, et par récurrence µn = µ0 P n .

Pour calculer P n , on observe que le spectre de P est Sp(P ) = {1, 1 − p − q} avec les
espaces propres R2 = Vect (1, 1)t ⊗ Vect (p, −q)t . On en déduit la matrice de passage
A et son inverse

1 p −1 1 q p
A= et A = .
1 −q p + q 1 −1
On a donc
1 0
P =A A−1
0 1−p−q
et

1 0
P n
= A A−1
0 (1 − p − q)n
Chapitre 5. ©JCB – M1math – Université de Rennes 87

(1 − p − q)n

1 q p p −p
= + .
p+q q p p+q −q q

Enfin puisque µn = µ0 P n , il vient

q n
q p n
p
µn = + (1 − p − q) µ0 (0) − , + (1 − p − q) µ0 (1) −
p+q p+q p+q p+q

ce qui retrouve (5.1) et (5.2).

5.1 Probabilités de transition

On rappelle la notion de noyau de probabilité aussi appelé noyau de transition ou
noyau markovien (cf. Définition 2.29) :

Définition 5.2 (Noyau de transition) Étant donné deux espaces mesurables (E, E) et
(F, F), on appelle noyau de transition (ou noyau de probabilité ou noyau markovien)
de E dans F toute application ν : E × F → [0, 1] qui vérifie
(i) ∀x ∈ E, ν(x, ·) est une probabilité sur (F, F) ;
(ii) ∀A ∈ F, ν(·, A) est E-mesurable.

Dans la suite, on considérera E = F et on supposera l’ensemble E au plus dénombrable

avec E = F = P(E) si bien que le point (ii) sera automatique.

Définition 5.3 (Matrice stochastique) On appelle matrice stochastique sur E (éventuel-

lement infinie) toute famille (P (x, y))x,y∈E de réels tels que
(i) ∀(x, y) ∈ E 2 , 0 ≤ P (x, y) ≤ 1
P
(ii) ∀x ∈ E, y∈E P (x, y) = 1.

Remarque 5.4
— Dire qu’une matrice P (à coefficients positifs) est stochastique, c’est dire que
(1, . . . , 1)t est vecteur propre de P associé à la valeur propre 1.
— Si l’espace E est fini de cardinal d, on peut supposer sans perte de généralité que
E = {1, . . . , d} et alors (P (x, y))x,y∈E = (Px,y )x,y∈E est une « vraie » matrice de
taille d × d, à coefficients positifs dont les sommes des lignes valent toutes 1.
— Dans le cas où l’ensemble E est dénombrable les notions de noyau de transition
et de matrice stochastique sont équivalentes. Ainsi :
P
(i) Si P est une matrice stochastique, ν(x, A) = y∈A P (x, y) définit un noyau
de transition ;

(ii) Si ν est un noyau de transition, P (x, y) = ν x, {y} définit une matrice sto-
chastique.
En particulier, noter que pour chaque x ∈ E : P (x, •) est une loi de probabilité.
Chapitre 5. ©JCB – M1math – Université de Rennes 88

Quelques notations :
— Si f : E → R+ , on note P f la fonction de E dans R+ donnée par
X
P f (x) = P (x, y)f (y), x ∈ E.
y∈E

En interprétant les fonctions (donc ici f et P f ) comme des vecteurs colonnes,

le vecteur colonne P f s’obtient par le produit matriciel (à droite) et P f (x) =
EP (x,•) [f ].
— En interprétant une mesure µ sur E comme un vecteur (ligne), on définit la mesure
µP par X
(µP )(y) = µ(x)P (x, y), y ∈ E.
x∈E

Le vecteur ligne µP s’obtient par produit matriciel (à gauche).

— On définit le produit P Q de deux matrices stochastiques P, Q par
X
(P Q)(x, y) = P (x, z)Q(z, y). (5.4)
z∈E

On voit facilement que P Q est une matrice stochastique puisque pour tout x ∈ E :
X XX XX
(P Q)(x, y) = P (x, z)Q(z, y) = P (x, z)Q(z, y)
y∈E y∈E z∈E z∈E y∈E
X X
= P (x, z) Q(z, y) = 1.
z∈E y∈E
| {z }
=1

— Dans la suite, on considère P n la puissance n-ème de P dans le sens du produit

matriciel (5.4) : pour n = 0 P 0 (x, y) = 1{x=y} , pour n = 1 P 1 = P et pour n ≥ 2 :
X
Pn+1 (x, y) = Pn (x, z)P (z, y) (5.5)
z∈E
X X
= ··· P (x, y1 )P (y1 , y2 ) . . . P (yn−1 , yn )P (yn , y) (5.6)
y1 ∈E yn ∈E

où (5.6) vient de (5.5) par une récurrence immédiate.

Définition 5.5 (Chaı̂ne de Markov) On appelle chaı̂ne de Markov sur un espace d’états
E dénombrable toute suite de variables aléatoires (Xn )n∈N à valeurs dans E telle que les
lois conditionnelles vérifient pour tout n ≥ 0

L(Xn+1 |X0 , X1 , . . . , Xn ) = L(Xn+1 |Xn ) (5.7)

c’est à dire pour tout x0 , x1 , . . . , xn ∈ E tel que P(X0 = x0 , X1 = x1 , . . . , Xn = xn ) > 0

et pour y ∈ E

P Xn+1 = y |X0 = x0 , X1 = x1 , . . . , Xn = xn = P Xn+1 = y |Xn = xn ). (5.8)
Chapitre 5. ©JCB – M1math – Université de Rennes 89

On dit que la chaı̂ne de Markov est homogène s’il existe une matrice stochastique P telle
que L(Xn+1 |Xn ) = P (Xn , •) ou P Xn+1 = y |Xn = xn ) = P (xn , y), dans ce cas, (5.7) et
(5.8) se réécrivent

L(Xn+1 |X0 , X1 , . . . , Xn ) = P (Xn , •)

P Xn+1 = y |X0 = x0 , X1 = x1 , . . . , Xn = xn = P (xn , y).

Remarque 5.6 — Autrement dit, si la chaı̂ne est en xn à la date n, peu importe

de savoir où elle était avant pour connaı̂tre sa probabilité d’aller en y à la date
suivante n + 1, dans tous les cas cette probabilité est P (x, y). Ainsi, P (x, y) est
appelée aussi probabilité de transition (en une étape) de la chaı̂ne de Markov
(Xn )n≥0 de x vers y.
— On dit encore que le futur ne dépend du passé que par le présent où passé, présent,
futur proviennent des interprétations suivantes :

présent
z}|{
X0 , . . . , Xn−1 , Xn , Xn+1 , Xn+2 , . . .
| {z } | {z }
passé futur

— (Homogénéité) Dans ce cours, la matrice de transition P ne dépend pas de n et

on parle de chaı̂ne de Markov homogène. On pourrait envisager une chaı̂ne dont
les transitions sont données par

P Xn+1 = y |X0 = x0 , X1 = x1 , . . . , Xn = xn = P (n) (xn , y)

c’est à dire avec un noyau de transition P (n) qui dépend de n ; on parlerait alors
de chaı̂ne de Markov inhomogène.

5.2 Exemples de chaı̂ne de Markov

Exemple 5.7 (Suite de variables aléatoires indépendantes et identiquement distribuées)
Soit (Xn )n≥0 une suite de variables aléatoires indépendantes et identiquement distribuées
de loi f à valeurs dans E alors (Xn )n≥0 est une chaı̂ne de Markov de matrice de transition
P (x, y) = f (y) pour tout x, y ∈ E.
Il s’agit d’une chaı̂ne de Markov de matrice stochastique P (x, y) = f (y) car

P(Xn+1 = y |X0 = x0 , . . . , Xn = x) = P(Xn+1 = y) = f (y)

puisque {Xn+1 = y} ⊥
⊥ {X0 = x0 , . . . , Xn = x} et de même

P(Xn+1 = y |Xn = x) = P(Xn+1 = y) = f (y).

Chapitre 5. ©JCB – M1math – Université de Rennes 90

...

...
... µ(y)
µ(x)

µ(y)
x y

µ(x)

Exemple 5.8 (Marche aléatoire sur Zd ) Soit (Xn )n≥0 une suite de variables aléatoires
indépendantes et identiquement distribuées à valeurs entières de distribution f (ie.
P(X1 = x) = f (x)). On considère une variable aléatoire X0 de loi µ0 indépendante
de la suite (Xn )n≥0 et on note Sn = X0 + X1 + · · · + Xn . La suite (Sn )n≥0 est appelée
une marche aléatoire : S0 = X0 est la position initiale d’un marcheur et Xn est le pas
effectué à la date n qui l’amène à sa position Sn à la date n. C’est une chaı̂ne de Markov
d’espace d’états E = N et de noyau de transition P (x, y) = f (y − x) car
P(Sn+1 = y|S0 = x0 , S1 = x1 , . . . , Sn = x) = P(Xn+1 = y − x|S0 = x0 , S1 = x1 , . . . , Sn = x)
= P(Xn+1 = y − x) = f (y − x).
De même
P(Sn+1 = y|Sn = x) = P(Xn+1 = y − x|Sn = x) = P(Xn+1 = y − x) = f (y − x).
On a aussi la probabilité d’une trajectoire jusqu’à la date n :
P(S0 = x0 , . . . , Sn = xn ) = P(X0 = x0 , X1 = x1 − x0 , . . . , Xn = xn − xn−1 )
= P(X0 = x0 )P(X1 = x1 − x0 ) . . . P(Xn = xn − xn−1 )
= µ0 (x0 )f (x1 − x0 ) . . . f (xn − xn−1 ).

f (y − x)
... x y ...

f (x − y)

On peut considérer le cas spécial d’une marche simple sur Z avec f (1) = p, f (−1) = q
et f (0) = r avec p + q + r = 1 (le marcheur fait un pas sur la droite (+1) ou sur la
gauche (−1) ou reste sur place (0) avec probabilités respectives p, q, r). Dans ce cas, les
transitions sont gouvernées par


 p si y = x + 1
q si y = x − 1

P (x, y) =

 r si y = x
0 sinon.

Chapitre 5. ©JCB – M1math – Université de Rennes 91

p p p p p p
r 0 1 ... x−1 x x+1 ...
q
q r q q q q r
r r
r r

Exemple 5.9 (Marche aléatoire sur un graphe) On se donne un graphe au plus dénom-
brable (E, A) où E désigne l’ensemble des sommets et A celui des arêtes. On note Ax
l’ensemble des arêtes issues de x ∈ E. On suppose que pour tout x ∈ E, Ax est fini et
non vide. On pose alors

1/card(Ax ) si (x, y) ∈ A
P (x, y) =
0 sinon.

Une chaı̂ne de Markov de transition P est appelée marche aléatoire simple sur le graphe
(E, A).

Exemple 5.10 (Ehrenfest) Il s’agit d’un modéle élémentaire d’échange de molécules de

gaz entre deux corps isolés introduit par le (couple de) physiciens Ehrenfest 1 .
Considérons deux boı̂tes A et B et d boules numérotées de 1 à d. On suppose qu’à l’origine
certaines boules sont dans A, les autres dans B. À chaque étape (et indépendamment
des autres étapes), on choisit au hasard une boule parmi 1, 2, . . . , d et elle est retirée de
sa boı̂te pour être placée dans l’autre. On note Xn le nombre de boules présentes dans
la boı̂te A après n étapes.
Il s’agit d’une chaı̂ne de Markov à espace d’états E = {0, . . . , d}. Si on suppose que
Xn = x, alors avec une probabilité x/d on tire une boule de la boı̂te A pour la déplacer
en B si bien que Xn+1 = x − 1. Avec probabilité (d − x)/d, on a Xn+1 = x + 1. On en
déduit les probabilités de transition

 x/d si y = x − 1
P (x, y) = P(Xn+1 = y|Xn = x) = (d − x)/d si y = x + 1
0, sinon.


Noter qu’en une étape la chaı̂ne d’Ehrenfest ne peut passer de l’état x ̸∈ {0, d} qu’à
l’état x − 1 ou x + 1 tandis que 0 mène à 1, d à d − 1.
1 (d − 1)/d (d − x + 1)/d (d − x)/d 1/d

0 1 ... x−1 x x+1 ... d

1/d 2/d x/d (x + 1)/d (d − 1)/d

1. Paul Ehrenfest (autrichien, 1880–1933) et Tatiana Ehrenfest-Afanaseva (russo-néerlandaise, 1876–

1964).
Chapitre 5. ©JCB – M1math – Université de Rennes 92

Exemple 5.11 (Ruine du joueur) On considère un joueur qui commence une partie avec
un capital en euro (=C) et fait une série de paris de 1 =
C. On suppose qu’il a une probabilité
p de gagner chaque pari, q = 1 − p de le perdre et que si son capital atteint 0 alors il
est ruiné et doit arrêter. On note Xn son capital après le n-ème pari. C’est une chaı̂ne
de Markov avec 0 comme état absorbant, d’espace d’états E = N et de fonction de
transition donnée par P (0, 0) = 1 (et P (0, y) = 0 pour y > 0) et si x > 0

 q si y = x − 1
P (x, y) = P(Xn+1 = y|Xn = x) = p si y = x + 1
0 sinon.


p p p p p
q
1 0 1 ... x−1 x x+1 ...
q q q q q

On parle de la chaı̂ne de la ruine du joueur sur E = N. On pourrait rajouter un deuxième

état absorbant en d en demandant au joueur d’arrêter si son capital atteint d.
On peut aussi supposer que deux parieurs jouent l’un contre l’autre par des paris de 1 =
C
=
avec un capital total fixe de d C dont la répartition entre les deux joueurs évolue en
fonction des résultats des paris.
Définition 5.12 (État absorbant) On appelle état absorbant d’une chaı̂ne de Markov de
noyau de transition P tout état a ∈ E tel que P (a, a) = 1, ie. si la chaı̂ne arrive en a,
elle y reste !

5.3 Probabilités trajectorielles

On considère dans cette section une chaı̂ne de Markov (Xn )n≥0 d’espace d’états E
dénombrable et de noyau de transition P .
Proposition 5.13 Une suite de variables aléatoires (Xn )n≥0 à valeurs dans E est une
chaı̂ne de Markov de matrice de transition P si et seulement si pour tout n ≥ 0 et pour
tout x0 , . . . , xn ∈ E
P(X0 = x0 , X1 = x1 , . . . , Xn = xn ) = P(X0 = x0 )P (x0 , x1 ) . . . P (xn+1 , xn ). (5.9)
Remarque 5.14 Les lois jointes d’une chaı̂ne de Markov (homogène) sont donc entière-
ment déterminées si on donne sa distribution initiale µ0 (point de départ) et son noyau
de transition P (évolution au cours du temps). Voir aussi la Déf. 5.34.

Démonstration :[Prop. 5.13] Si (Xn )n≥0 est une chaı̂ne de Markov de noyau de transi-
tion P alors l’identité (5.9) s’obtient par une récurrence immédiate : en effet, la récurrence
est automatiquement initialisée pour n = 0 ; puis si (5.9) est vraie pour le rang n alors
d’abord lorsque P X0 = x0 , X1 = x1 , . . . , Xn = xn ̸= 0 on a :
P(X0 = x0 , X1 = x1 , . . . , Xn = xn , Xn+1 = xn+1 )
Chapitre 5. ©JCB – M1math – Université de Rennes 93

= P X0 = x0 , X1 = x1 , . . . , Xn = xn P Xn+1 = xn+1 |X0 = x0 , X1 = x1 , . . . , Xn = xn

= P X0 = x0 , X1 = x1 , . . . , Xn = xn P (xn , xn+1 )
= P(X0 = x0 )P (x0 , x1 ) . . . P (xn+1 , xn )P (xn , xn+1 ) (hyp. récurrence (5.9) pour n).
Puis lorsque P X0 = x0 , X1 = x1 , . . . , Xn = xn ) = 0 alors d’une part
P(X0 = x0 )P (x0 , x1 ) . . . P (xn+1 , xn ) = 0
donc P(X0 = x0 )P (x0 , x1 ) . . . P (xn+1 , xn )P (xn , xn+1 ) = 0 et d’autre part

P X0 = x0 , X1 = x1 , . . . , Xn = xn , Xn+1 = xn+1 = 0,
si bien que (5.9) reste vraie, ce qui achève d’établir complètement (5.9) par récurrence.
Réciproquement, si (5.9) est vraie pour tout n ≥ 0 alors pour x0 , x1 , . . . , xn ∈ E tels que
P(X0 = x0 , X1 = x1 , . . . , Xn = xn ) ̸= 0, on a

P Xn+1 = xn+1 |X0 = x0 , X1 = x1 , . . . , Xn = xn

P X0 = x0 , X1 = x1 , . . . , Xn = xn , Xn+1 = xn+1
=
P X0 = x0 , X1 = x1 , . . . , Xn = xn
P(X0 = x0 )P (x0 , x1 ) . . . P (xn−1 , xn )P (xn , xn+1 )
=
P(X0 = x0 )P (x0 , x1 ) . . . P (xn−1 , xn )
= P (xn , xn+1 )
et donc la Définition 5.5 d’une chaı̂ne de Markov est bien satisfaite. □

Proposition 5.15 (1) Soit (Xn )n≥0 une chaı̂ne de Markov sur E de noyau de transi-
tion P . Alors, pour tout n ≥ 0 et f : E → R, on a

E f (Xn+1 ) |X0 , . . . , Xn = E f (Xn+1 )|Xn = P f (Xn ).
(2) Plus généralement, pour tout i1 , . . . , ik ∈ {0, . . . , n − 1}, on a

E f (Xn+1 )|Xi1 , . . . , Xik , Xn = E f (Xn+1 ) |Xn = P f (Xn ).
Démonstration : (1) Comme l’espérance conditionnelle est l’espérance par rapport à la
conditionnelle (cf. (1.13)), d’après la Définition 5.5, on a
X
E f (Xn+1 )|X0 , . . . , Xn = E f (Xn+1 )|Xn = P (Xn , y)f (y) = P f (Xn ).
y∈E

(2) Ensuite, si i1 , . . . , ik ∈ {0, . . . , n − 1}, par conditionnement en cascade (Prop. 1.13

ou Th. 2.12) avec G1 := σ(Xi1 , . . . , Xik , Xn ) ⊂ G2 := σ(X0 , . . . , Xn ), on a :
h i
E f (Xn+1 ) |Xi1 , . . . , Xik , Xn = E E[f (Xn+1 ) |X0 , . . . , Xn ] Xi1 , . . . , Xik , Xn

= E P f (Xn ) |Xi1 , . . . , Xik , Xn
= P f (Xn ),
puisque P f (Xn ) est σ(Xn ) donc σ(Xi1 , . . . , Xik , Xn )-mesurable. □
Chapitre 5. ©JCB – M1math – Université de Rennes 94

Transition en n étapes
Le noyau de transition en n étapes donne, pour tout x, y ∈ E, la probabilité d’aller
de x en y en n étapes ie. Pn (x, y) = P(Xn = y|X0 = x). Il est donné par

Pn = P n (5.10)

où pour rappel P n est la puissance n-ème de P , dans le sens du produit matriciel (5.4),
cf. (5.6)).
En effet P0 (x, y) = δx (y), P1 (x, y) = P (x, y) et pour n ≥ 2, avec la partition
G
{Xn = y} = X1 = x1 , X2 = x2 , . . . , Xn−1 = xn−1 , Xn = y ,
x1 ∈E,...,xn−1 ∈E

par additivité de P(·|X0 = x), on a :

X
Pn (x, y) = P(X1 = x1 , X2 = x2 , . . . , Xn−1 = xn−1 , Xn = y|X0 = x)
x1 ∈E,...,xn−1 ∈E
X P(X0 = x, X1 = x1 , X2 = x2 , . . . , Xn−1 = xn−1 , Xn = y)
=
x1 ∈E,...,xn−1 ∈E
P(X0 = x)
X
= P (x, x1 )P (x1 , x2 ) . . . P (xn−1 , y) = P n (x, y), (5.11)
x1 ∈E,...,xn−1 ∈E

en utilisant (5.9). Ainsi, on a :

Proposition 5.16 (Chapman-Kolmogorov) Le noyau de transition en n étapes vérifie

une propriété de semi-groupe (dite relation de Chapman-Kolmogorov) : Pn+m = Pn Pm
(dans le sens du produit (5.4)), ie.
X
Pn+m (x, y) = Pn (x, z)Pm (z, y). (5.12)
z∈E

Démonstration : C’est immédiat par (5.10) puisque Pn+m = P n+m = P n P m = Pn Pm ;

cela se retrouve aussi directement par le calcul à partir de l’expression (5.11), on a :
X X X
Pn+m (x, y) = ··· P (x, y1 )P (y1 , y2 ) . . . P (yn−1 , yn )P (yn , yn+1 )
y1 ∈E yn ∈E yn+m−1 ∈E

P (yn−2 , yn−1 ) . . . P (yn+m−1 , y)

 
X X X
=  ··· P (x, y1 )P (y1 , y2 ) . . . P (yn−1 , yn )
yn ∈E y1 ∈E yn−1 ∈E
 
X X
 ··· P (yn , yn+1 )P (yn−2 , yn−1 ) . . . P (yn+m−1 , y)
yn+1 ∈E yn+m−1 ∈E
Chapitre 5. ©JCB – M1math – Université de Rennes 95
X
= Pn (x, yn )Pm (yn , y).
yn ∈E

□
Remarque 5.17 (Semi-groupe) — La formule de Chapman-Kolmogorov (5.12) montre
que Pn est la puissance n-ème de P en terme de produit matriciel : Pn = P n . On
utilise indifféremment l’une ou l’autre notation dans la suite.
— Dans le cas E espace d’états fini, il s’agit de vraies matrices et de vrais produits
matriciels. Dans le cas E dénombrable, il s’agit d’une généralisation naturelle aux
matrices infinies.

Si on note µ0 = (P(X0 = x))x∈E la distribution initiale de la chaı̂ne et µn = (P(Xn =

x))x∈E celle de l’état Xn à la date n, alors pour tout y ∈ E :
X
P(Xn = y) = P(Xn = y|X0 = x)µ0 (x)
x∈E
X
= µ0 (x)P n (x, y),
x∈E
n
c’est à dire µn = µ0 P . On a aussi µn = µn−1 P puisque pour tout y ∈ E :
X
P(Xn = y) = P(Xn−1 = x)P (x, y).
x∈E

On détermine donc la distribution de Xn à partir de la distribution initiale µ0 et du

noyau de transition en n étapes P n . On peut aussi calculer µn à partir de la loi à la date
précédente µn−1 avec transition en une étape :
Notations. Dans la suite, on utilise la notation Pν pour indiquer qu’on suppose que la
loi initiale de la chaı̂ne est ν ie. X0 ∼ µ0 = ν. On note aussi Px = Pδx lorsque la chaı̂ne
part de X0 = x, autrement dit avec la distribution initiale µ0 = δx , cf. après la Déf. 5.34.

Expressions explicites
La proposition suivante donne des expressions explicites pour les calculs de lois jointes
conditionnelles :
Proposition 5.18 (Lois jointes d’une chaı̂ne de Markov) Pour une chaı̂ne de Markov (Xn )n≥0
d’espace d’états E (dénombrable) et de noyau de transition P , en supposant les probabi-
lités conditionnelles bien définies, on a
(1) Pour x0 , . . . , xn−1 , xn et y1 , . . . , ym dans E on a :
P(Xn+1 = y1 , . . . , Xn+m = ym |X0 = x0 , . . . , Xn−1 = xn−1 , Xn = xn )
= P (xn , y1 )P (y1 , y2 ) . . . P (ym−1 , ym ); (5.13)
En particulier, on a

P Xn+m = ym |X0 = x0 , . . . , Xn = xn = P Xn+m = ym |Xn = xn = Pm (xn , ym );
(5.14)
Chapitre 5. ©JCB – M1math – Université de Rennes 96

(2) Pour A0 , . . . , An−1 ⊂ E, on a :

P(Xn+1 = y1 , . . . , Xn+m = ym |X0 ∈ A0 , . . . , Xn−1 ∈ An−1 , Xn = xn )

= P (xn , y1 )P (y1 , y2 ) . . . P (ym−1 , ym ); (5.15)

(3) Pour A0 , . . . , An−1 ⊂ E et B1 , . . . , Bm ⊂ E, on a :

P(Xn+1 ∈ B1 , . . . , Xn+m ∈ Bm |X0 ∈ A0 , . . . , Xn−1 ∈ An−1 , Xn = xn )

X X
= ··· P (xn , y1 )P (y1 , y2 ) . . . P (ym−1 , ym ). (5.16)
y1 ∈B1 ym ∈Bm

La preuve va utiliser le résultat suivant :

Lemme 5.19 (Probabilités conditionnelles) Soit A ⊂ E et Bi des évènements disjoints

non-négligeables. Lorsque P(A|Bi ) ne dépend pas de i ∈ I, alors
G
P A Bi = P(A|Bi ) ∀i ∈ I. (5.17)
i∈I

Démonstration :[Lemme 5.19] En notant PC = P(·|C), observer que PC (A|B) = P(A|B ∩

C). En effet

PC (A ∩ B) P(A ∩ B|C) P(A ∩ B ∩ C) P(C)

PC (A|B) = = =
PC (B) P(B|C) P(C) P(B ∩ C)
P(A ∩ (B ∩ C))
= = P(A|B ∩ C).
P(B ∩ C)

Lorsque P(A|Bi) = α pour tout i ∈ I, la formule des probabilités totales (1.3) avec
F
PB ig(· i∈I Bi = P i∈I Bi , on a
F

G X
P A Bi = PFi∈I Bi (A|Bi )PFi∈I Bi (Bi )
i∈I i∈I
X G
= P(A|Bi )P Bi Bi
i∈I i∈I
X G
= α P Bi | Bi = α.
i∈I i∈I
| {z }
=1

Démonstration :[Prop. 5.18] (1) Les lois jointes conditionnelles sont données par :

P(Xn+1 = xn+1 , . . . , Xn+m = xn+m |X0 = x0 , . . . , Xn = xn )

Chapitre 5. ©JCB – M1math – Université de Rennes 97

P(X0 = x0 , . . . , Xn = xn , Xn+1 = xn+1 , . . . , Xn+m = xn+m )

=
P(X0 = x0 , . . . , Xn = xn )
µ0 (x0 )P (x0 , x1 ) · · · P (xn+m−1 , xn+m )
=
µ0 (x0 )P (x0 , x1 ) · · · P (xn−1 , xn )
= P (xn , xn+1 ) · · · P (xn+m−1 , xn+m )

qu’on peut réécrire sous la forme (5.13). Le cas particulier (5.14) s’obtient alors en faisant
la somme sur y1 , . . . , yp−1 ∈ E et avec la définition (5.11) de Pm et la définition (5.8)
d’une chaı̂ne de Markov.
(2) On écrit la partition
G
X0 ∈ A0 , . . . , Xn−1 ∈ An−1 , Xn = xn } = X0 = x0 , . . . , Xn−1 = xn−1 , Xn = xn .
xi ∈Ai
0≤i≤n−1

Comme d’après (5.13), on a

P(Xn+1 = y1 , . . . , Xn+m = ym |X0 = x0 , . . . , Xn−1 = xn−1 , Xn = xn )

= P (xn , y1 ) . . . P (ym−1 , ym )

pour tout xi ∈ Ai , 0 ≤ i ≤ n − 1, (5.17) dans le Lemme 5.19 s’applique et assure (5.15).

(3) Cela vient de (5.15) avec la σ-additivité de P :

P(Xn+1 ∈ B1 , . . . , Xn+m ∈ Bm |X0 ∈ A0 , . . . , Xn−1 ∈ An−1 , Xn = xn )

X X
= ··· P(Xn+1 = y1 , . . . , Xn+m = ym |X0 ∈ A0 , . . . , Xn−1 ∈ An−1 , Xn = xn )
y1 ∈B1 ym ∈Bm
X X
= ··· P (xn , y1 )P (y1 , y2 ) . . . P (ym−1 , ym ).
y1 ∈B1 ym ∈Bm

Approche récursive
Pour montrer qu’une suite de variables aléatoires à valeurs dans E est une chaı̂ne de
Markov, la proposition suivante est souvent plus pratique que de revenir à la Défini-
tion 5.5.

Proposition 5.20 (Suite récursive et Markov) Soit X0 une variable aléatoire à valeurs
dans E de loi ν. Soit (Un )n≥0 une suite de variables aléatoires indépendantes et identi-
quement distribuées de loi µ à valeurs dans F , indépendantes de X0 . Pour une fonction
f : E × F → E mesurable, on définit par récurrence

Xn+1 = f Xn , Un+1 , n ≥ 0. (5.18)
Chapitre 5. ©JCB – M1math – Université de Rennes 98

Alors (Xn )n≥0 est une chaı̂ne de Markov (homogène) de transition

P (x, y) = P f (x, U ) = y (5.19)

où U ∼ µ.

Démonstration : D’abord, on observe que pour chaque n ≥ 0 : Xn est σ(X0 , U1 , . . . , Un )-

mesurable. En effet, c’est clair pour n = 0 et si c’est vrai pour Xn alors Xn+1 =
f (Xn , Un+1 ) est mesurable par rapport à σ(Xn , Un+1 ) ⊂ σ(X0 , U1 , . . . , Un , Un+1 ). On
en déduit σ(X0 , . . . , Xn ) ⊂ σ(X0 , U1 , . . . , Un ).
On vérifie la Définition 5.5 pour (Xn )n≥0 définie en (5.18). Pour cela, soit x1 , . . . , xn , xn+1 ∈
E avec P(X0 = x0 , . . . , Xn = xn ) ̸= 0. On a

P Xn+1 = xn+1 |X0 = x0 , . . . , Xn = xn

= P f (Xn , Un+1 ) = xn+1 |X0 = x0 , . . . , Xn = xn

= P f (xn , Un+1 ) = xn+1 |X0 = x0 , . . . , Xn = xn

= P f (xn , Un+1 ) = xn+1 (car Un+1 ⊥ ⊥ σ(X0 , U1 , . . . , Un ) ⊃ σ(X0 , . . . , Xn ))
= P (xn , xn+1 ),

ce qui vérifie la Définition 5.5 d’une chaı̂ne de Markov de matrice stochastique P . □

Exemple 5.21 (Suites récursives) On donne quelques exemples de chaı̂nes de Markov

données sous forme de suites récursives.
Marche aléatoire sur Zd . On reprend l’Exemple 5.8. Soit X0 , X1 , . . . , Xn , . . . des va-
d
riables aléatoires indépendantes
Pn et identiquement distribuées dans Z de loi µ.
Alors, pour n ≥ 1, Sn = i=0 Xi définit une chaı̂ne de Markov de la forme
Sn+1 = f (Sn , Xn ) avec f (x, y) = x + y et (Xn )n≥1 indépendantes et identique-
ment distribuées. On retrouve le noyau de transition avec (5.19) :

P (x, y) = P(x + X1 = y) = P(X1 = y − x) = µ(y − x).

En fait, la forme récursive (5.18) de la Prop. 5.20 est la forme typique d’une chaı̂ne de
Markov comme le justifie le résultat suivant :
Proposition 5.22 (Markov et suite récursive) Une chaı̂ne de Markov homogène à va-
leurs réelles peut être vue (en loi) comme une suite récurrente définie comme dans
(5.18).
La preuve de cette proposition repose sur le lemme suivant sur lequel se fonde la méthode
dite d’inversion (voir [Bre-proba]) :
Lemme 5.23 (Méthode d’inversion) Soit µ une loi de probabilité de fonction de ré-
partition F . On pose F −1 (u) = inf(x ∈ R : F (x) > u) pour u ∈]0, 1[. Alors pour
U ∼ U(]0, 1[), on a F −1 (U ) ∼ µ.
Chapitre 5. ©JCB – M1math – Université de Rennes 99

Démonstration :[Proposition 5.22] Soit (Xn )n≥0 une chaı̂ne de Markov homogène de
transition P . Il s’agit de trouver f et U1 telles que X1 = f (x, U1 ) si X0 = x. La loi de X1
est P (x, ·). Soit U1 une variable aléatoire de loi uniforme sur ]0, 1[ indépendante de X0
et f (x, ·) l’inverse généralisé de la fonction de répartition de X1 sachant X0 = x donnée
par
f (x, u) = inf y ∈ R : P (x, ] − ∞, y]) > u , u ∈]0, 1[.
Alors f (x, U1 ) a la même loi que L(X1 |X0 = x) (par la méthode d’inversion du Lemme 5.23).
Considérons (Ui )i≥1 des variables aléatoires indépendantes et identiquement distribuées
de loi uniforme sur ]0, 1[ et indépendantes de X0 . On définit la chaı̂ne (X en )n≥0 par la

récurrence (5.18) : X en+1 = f X en , Un+1 avec f comme ci-dessus et avec X e0 ∼ µ0 . Soit
Pe sa matrice stochastique. Par la Prop. 5.20, on a

Pe(x, y) = P f (x, U1 ) = y = P (x, y).

Exemple 5.24 (Urne de Ehrenfest) On reprend l’Exemple 5.10 pour lequel on a Xn+1 =
Xn + Yn+1 où
 X
 dn si x = −1
d−Xn Xn d − Xn
P(Yn+1 = x|Xn ) = d
si x = +1 ⇐⇒ L(Yn+1 |Xn ) = δ−1 + δ1 .
d d
0 sinon


En considérant (Un )n≥1 une suite iid de loi U([0, 1]), on a

x d−x
(21[0,(d−x)/d] (Un ) − 1) ∼ δ−1 + δ1 ,
d d
si bien qu’avec f (x, u) = x + (21[0,(d−x)/d] (u) − 1), on a Xn+1 ∼ f (Xn , Un+1 ).

Temps d’atteinte
Une notion utile dans les calculs de loi pour les chaı̂nes de Markov est celle de temps
d’atteinte :
Définition 5.25 (Temps d’atteinte) Soit A ⊂ E. Le temps d’atteinte de A est TA =
min(n ≥ 0 : Xn ∈ A) avec par convention min ∅ = +∞.
Le temps d’atteinte TA est la première date où la chaı̂ne atteint A. En particulier,
pour un état y, on définit Ty = min(n ≥ 0 : Xn = y) le temps d’atteinte de y et
Tey = min(n > 0 : Xn = y) le temps d’atteinte de y après le départ. Sous Px pour x ̸= y
(ie. lorsque la chaı̂ne part de x ̸= y), on a Tey = Ty . Sous Py , Ty = 0 et Tey désigne le
temps de premier retour pour la chaı̂ne qui part de y.
La proposition suivante donne une équation utile reliant les temps d’atteinte aux proba-
bilités de transition.
Chapitre 5. ©JCB – M1math – Université de Rennes 100

Proposition 5.26 Pour tout x, y ∈ E avec x ̸= y, et n ≥ 1, on a

n
X
n
P (x, y) = Px (Ty = k)P n−k (y, y). (5.20)
k=1

Démonstration : Avec la partition {Xn = y} = nk=1 {Ty = m, Xn = y} de {Xn = y}

F
(ie. {Ty = k, Xn = y}, 1 ≤ k ≤ n, sont disjoints et de réunion {Xn = y}), on a :
n
X
n
P (x, y) = Px (Xn = y) = Px (Ty = k, Xn = y)
k=1
n
X
= Px (Ty = k) P(Xn = y|X0 = x, Ty = k)
k=1
Xn
= Px (Ty = k) P(Xn = y|X0 = x, X1 ̸= y, . . . Xk−1 ̸= y, Xk = y)
k=1
n
X
= Px (Ty = k) P(Xn = y|Xk = y) (5.21)
k=1
n
X
= Px (Ty = k) P n−k (y, y),
k=1

en utilisant (5.15) en (5.21). □

En particulier pour un état absorbant a (Définition 5.12), on a la relation suivante :

Proposition 5.27 Si a est un état absorbant, alors P n (x, a) = Px (Ta ≤ n).
Démonstration : Comme a est absorbant, on a P n−m (a, a) = 1 pour tout 1 ≤ m ≤ n et
(5.20) devient
n
X n
X
P n (x, a) = Px (Ta = m)P n−m (a, a) = Px (Ta = m) = Px (Ta ≤ n).
m=1 m=1

□
Noter encore la relation Px (Ty = 1) = Px (X1 = y) = P (x, y) et
X X
Px (Ty = 2) = Px (X1 = z, X2 = y) = P (x, z)P (z, y).
z̸=y z̸=y

Plus généralement pour n ≥ 1, on trouve Px (Ty = n) par récurrence à partir de

X
Px (Ty = n + 1) = P (x, z)Pz (Ty = n)
z̸=y

puisque pour aller de x à y en exactement n + 1 étapes, il faut aller de x à n’importe

quel z ̸= y en 1 étape puis de ce z à y en exactement n étapes.
Chapitre 5. ©JCB – M1math – Université de Rennes 101

5.4 Chaı̂ne de Markov canonique

On commence par expliquer que la donnée d’une loi uniforme U[0, 1] est équivalente
à la donnée d’une suite de lois de Bernoulli b(1/2) indépendantes. Rappelons que tout
x ∈ [0, 1] s’écrit en base 2 sous la forme
+∞
X εn (x)
x= avec εn (x) ∈ {0, 1}, n ≥ 1. (5.22)
n=1
2n

Lemme 5.28 (Poisson/Bernoulli) Soit X une variable aléatoire à valeurs dans [0, 1] avec
la décomposition (5.22). Alors X est de loi uniforme U[0, 1] si et seulement si les va-
riables aléatoires εn := εn (X), n ≥ 1, sont indépendantes et identiquement distribuées
de loi de Bernoulli b(1/2).

Démonstration : D’abord, on note que X est mesurable si et seulement si les εn , n ≥ 1,

le sont. C’est clair dans le sens réciproque, X étant limite des sommes partielles qui sont
alors mesurables ; dans le sens direct, on procède par récurrence en écrivant
h p−1 i
X
p p−k
εp = 2 X − 2 εk
k=1

où [x] désigne la partie entière de x. On suppose que les εk sont indépendantes et iden-
tiquement distribuées de loi de Bernoulli b(1/2) et on calcule la fonction caractéristique
de X :
" +∞
# " n
# " n
#
X εk X εk X εk
φ(t) = E exp i k
t = E lim exp i k
t = lim E exp i t
k=1
2 n→+∞
k=1
2 n→+∞
k=1
2k
(convergence dominée)
n n k n
Y t Y 1 + eit/2 Y k+1
t
= lim φε1 k = lim = lim eit/2 cos k+1
n→+∞
k=1
2 n→+∞
k=1
2 n→+∞
k=1
2
+∞ +∞ +∞
X it Y t
it/2
Y t
= exp k+1
cos k+1
= e cos k+1
.
k=1
2 k=1
2 k=1
2
Qn
Mais de sin t = 2 cos(t/2) sin(t/2), on déduit sin(t/2) = 2n k=1 cos t/2k+1
×sin t/2n+1

et donc
+∞
Y t sin(t/2) 2 sin(t/2) eit/2 − e−it/2
cos = lim = = .
k=1
2k+1 n→+∞ 2n sin t/2n+1 t it

On a alors
eit/2 − e−it/2 eit − 1
φX (t) = eit/2 = ,
it it
Chapitre 5. ©JCB – M1math – Université de Rennes 102

c’est à dire X ∼ U[0, 1].

Réciproquement, pour tout n ≥ 1 et ai ∈ {0, 1}, 1 ≤ i ≤ n, on a
n n
X a i
X ai
X 1
P ε 1 = a1 , . . . , ε n = an = P i
≤X< +
i=1
2 i=1
2i i>n 2i
n n
X ai X ai 1 1
= P i
≤X< i
+ n = n,
i=1
2 i=1
2 2 2

ce qui permet de voir par récurrence que P(ε i = a i ) = 1/2 et P ε 1 = a 1 , . . . , ε n = a n =
P ε1 = a1 ) . . . P(εn = an , soit εi , i ≥ 1, sont indépendantes et identiquement distribuées
de loi b(1/2). □

Lemme 5.29 (Suite de variables uniformes iid) L’espace de probabilité ([0, 1[, B([0, 1[), λ),
où λ est la mesure de Lebesgue sur [0, 1[, supporte une suite (Un )n≥0 de variables aléa-
toires uniformes indépendantes et identiquement distribuées.

Démonstration : Par le Lemme 5.28, ω ∈ [0, 1[ s’écrit en base 2 sous la forme (5.22) avec
εn := εn (ω) ∈ {0, 1}, n ≥ 1, indépendantes et de loi b(1/2).
On considère une injection φ de N × N dans N et on pose ηi,j = εφ(i,j) . Les variables aléa-
toires P
ηi,j restent indépendantes et identiquement distribuées de loi b(1/2). On pose alors
Ui = +∞ j=1 ηi,j 2
−j
et on observe par le théorème des coalitions ([Bre-proba, Th. 5.1.1])
que les variables aléatoires U0 , U1 , . . . sont (mutuellement) indépendantes, de loi uni-
forme sur [0, 1[ (Lemme 5.28). □

Proposition 5.30 (Construction d’une chaı̂ne de Markov) Soit E un espace au plus dé-
nombrable et P = (P (x, y))x,y∈E une matrice stochastique. On peut trouver un espace de

e F,
probabilité Ω, e sur lequel il existe pour tout x ∈ E une suite X ex
n n≥0 qui est une
e P
chaı̂ne de Markov de transition P et qui est issue de Xe x = x (ie. µ0 = δx ).
0

Démonstration : On considère l’espace de probabilité Ω, e F,
e Pe = ([0, 1[, B([0, 1[), λ) et
la suite de variables aléatoires (Ui )i≥1 indépendantes et de loi U[0, 1] construites dans le
Lemme 5.29. Soit (yn )n≥1 une énumération des éléments de E (supposé dénombrable).
On pose X e0x = x puis
X X
Xe x = yk si P (x, yj ) < U1 ≤ P (x, yj )
1
1≤j<k 1≤j≤k
.. ..
. .
X X
e x = yk
X si e x , yj ) < Un+1 ≤
P (X e x , yj ).
P (X
n+1 n n
1≤j<k 1≤j≤k
Chapitre 5. ©JCB – M1math – Université de Rennes 103

Par construction, on a P enx = y X
e X x
en−1 = z = P (z, y) pour chaque n ≥ 1.
e x = x est sûr
En effet, pour n = 1 : comme X 0

e x = yk |X
e X
P e x = x) = P e x = yk )
e X
1 0 1
!
X X
= P P (x, yj ) < U1 ≤ P (x, yj )
1≤j<k 1≤j≤k
X X
= P (x, yj ) − P (x, yj ) = P (x, yk ).
1≤j≤k 1≤j<k

Puis comme les variables aléatoires Ui , i ≥ 0, sont indépendantes :

e X x e0x = x, X enx = xn
e1x = x1 , . . . , X
P en+1 = yk X
X X
e x , yj ) < Un+1 ≤ e x , yj ) X
e x = x, X
e x = x1 , . . . , X
e x = xn

= P e P (X n P (X n 0 1 n
1≤j<k 1≤j≤k
X X
= P
e P (xn , yj ) < Un+1 ≤ P (xn , yj ) (5.23)
1≤j<k 1≤j≤k
X X
= P (xn , yj ) − P (xn , yj ) = P (xn , yk )
1≤j≤k 1≤j<k

x
en utilisant X e1x = x1 , . . . , X
e 0 = x0 , X enx = xn ∈ σ(U1 , . . . , Un ) ⊥
⊥ Un+1 pour se débar-

rasser du conditionnement en (5.23). Ainsi par la Définition 5.5, X enx est bien une
n≥0
chaı̂ne de Markov issue de x et de matrice stochastique P . □

Dans la Prop. 5.30, le choix de l’espace de probabilité ([0, 1[, B([0, 1[), λ) fait dans sa
preuve est un peu arbitraire. On considère un espace vraiment canonique en prenant :
— Ω = E N,
— F est la tribu cylindrique σ(Cyl) engendrée par la famille Cyl des cylindres

C = ω ∈ E N : ωi1 = xi1 , . . . , ωin = xin (5.24)

où n ∈ N, 0 ≤ i0 < · · · < in et xi1 , . . . , xin ∈ E.

Sur cet espace mesurable (Ω, F), ω ∈ Ω est une suite ω = (ωn )n∈N de E et on considère
les applications coordonnées : Xn (ω) = ωn , n ≥ 0.

Lemme 5.31 La tribu cylindrique σ(Cyl) est la plus petite tribu rendant mesurables les
applications coordonnées Xn , n ≥ 0.

Démonstration : On note G la plus petite tribu rendant mesurables les applications

coordonnées Xn , n ≥ 0, et on montre la double inclusion.
— Soit x ∈ E, alors Xn−1 ({x}) = {ω ∈ E N : ωn = x} ∈ Cyl ⊂ σ(Cyl), ce qui justifie
la mesurabilité de chaque Xn pour σ(Cyl) et donc G ⊂ σ(Cyl).
Chapitre 5. ©JCB – M1math – Université de Rennes 104

Tn
— Soit C ∈ Cyl comme en (5.24). Comme C = p=1 Xi−1
p
({xip }), on a C ∈ G et
donc Cyl ⊂ G et σ(Cyl) ⊂ G.
□

La suite s’applique avec tout espace de probabilité Ω, e F, e vérifiant la Prop. 5.30.
e P
D’après la preuve de cette proposition, ([0, 1[, B([0, 1[), λ) convient mais tout autre es-
pace vérifiant la proposition ferait l’affaire. On rappelle que, ci-dessous, (Ω, F) désigne
(E N , σ(Cyl)).

Lemme 5.32 Soit ψ : Ω, e Fe → (Ω, F). Alors ψ est mesurable si et seulement si Xn ◦ ψ
est mesurable pour tout n ≥ 0.

Démonstration : ⇒ Le sens direct est immédiat puisqu’il s’agit alors de composition

d’applications mesurables, d’après le choix de F = σ(Cyl).
⇐ Pour le sens réciproque, la famille G = A ∈ F : ψ −1 (A) ∈ Fe est une tribu qui
contient tous les Xn−1 ({x}), x ∈ E, puisque Xn−1 ({x}) = {ω ∈ E N : ωn = x} ∈ Cyl ⊂ F
et par hypothèse
ψ −1 Xn−1 ({x}) = (Xn ◦ ψ)−1 ({x}) ∈ F.

e
La tribu G rend donc mesurables les applications coordonnées Xn , n ≥ 0. Par le
Lemme 5.31, F étant la plus petite tribu rendant mesurables ces applications coor-
données Xn , n ≥ 0, on a F ⊂ G et finalement G = F, ce qui signifie que ψ est bien
(F,
e F)-mesurable. □

Théorème 5.33 (Chaı̂ne canonique) Soit E un espace d’états au plus dénombrable et

P = (P (x, y))x,y∈E une matrice stochastique sur E. Pour toute loi de probabilité ν sur
E, il existe une unique probabilité Pν sur (Ω, F) = (E N , σ(Cyl)) telle que sous Pν la suite
des applications coordonnées (Xn )n≥0 est une chaı̂ne de Markov de matrice stochastique
P et de loi initiale ν.

Démonstration : Existence lorsque ν = δx . On commence par traiter le cas de ν =

δx , pour x ∈ E, et on cherche une probabilité Px telle que, sous Px , les applications
coordonnées (Xn )n≥0 forment une chaı̂ne de Markov de matrice stochastique P partant
de x.

e F,
D’après la Prop. 5.30, il existe un espace de probabilité Ω, e et (X x )n≥0 une chaı̂ne
e P n
de Markov de matrice stochastique P avec X0x = x. On considère alors l’application
(
e Fe) −→ (Ω, F)
(Ω,
ψx :
e 7−→ Xnx (e
ω ω ) n≥0 .

Par la première construction de la Prop. 5.30, pour chaque n ≥ 0, Xn ◦ ψx = Xnx est une
variable aléatoire. Le Lemme 5.32 assure alors que ψx est une application mesurable. On
définit alors
Px = Pe ◦ ψ −1 (5.25)
x
Chapitre 5. ©JCB – M1math – Université de Rennes 105

e par ψx . Par définition de la mesure image, avec C0 = {ω ∈

comme la mesure image de P
Ω : w0 = x}, on a

e ψ −1 (C0 ) = P e X x = x = 1.
e (X x )n≥0 ∈ C0 = P

Px (X0 = x) = Px (C0 ) = P x n 0

Puis, pour tout n ≥ 1, x0 , x1 , . . . , xn ∈ E, en notant Cn = {ω ∈ Ω : ω0 = x0 , ω1 =

x1 , . . . , ωn = xn } le cylindre associé, on a

e ψ −1 (Cn ) = P e (X x )n≥0 ∈ Cn

P x X 0 = x0 , . . . , X n = xn = Px (Cn ) = P x n
e X x = x0 , X x = x1 , · · · , X x = xn

= P 0 1 n
e X x = x0 P (x0 , x1 ) . . . P (xn−1 , xn )

= P 0 (5.26)
= δx,x0 P (x0 , x1 )P (x1 , x2 ) . . . P (xn−1 , xn ) (5.27)

en utilisant la Prop. 5.13 pour la chaı̂ne de Markov (Xnx )n≥0 en (5.26). D’après cette
même Prop. 5.13, (5.27) assure que sous Px , (Xn )n≥0 est une chaı̂ne de Markov de
matrice stochastique P , et par construction, elle part de x.
Existence dans le cas général. Étant donné une loi ν sur E, on considère
X
Pν = ν(x) Px . (5.28)
x∈E
P
Comme x∈E ν(x) = 1, Pν définit bien une probabilité sur (Ω, F) = (E N , σ(Cyl)). De
plus d’après (5.27), on a
X
P ν X 0 = x0 , . . . , X n = xn = ν(x)Px X0 = x0 , . . . , Xn = xn
x∈E
X
= ν(x)δx,x0 P (x0 , x1 )P (x1 , x2 ) . . . P (xn−1 , xn )
x∈E
= ν(x0 ) P (x0 , x1 )P (x1 , x2 ) . . . P (xn−1 , xn ), (5.29)

ce qui caractérise une chaı̂ne de Markov de loi initiale ν et de matrice stochastique P

par la Prop. 5.13.
Unicité. Si une autre probabilité P′ν satisfait l’énoncé alors, (5.29) est vérifiée pour les
deux probabilités, Pν et P′ν . Cela signifie que Pν et P′ν coı̈ncident sur les cylindres. Comme
l’intersection de deux cylindres est encore un cylindre, Cyl est stable par intersection et
forme donc un π-système. Par le théorème des classes monotones (Th. 0.2), on a Pν = P′ν
sur F = σ(Cyl) (tribu cylindrique engendrée par les cylindres). □

Du Th. 5.33, il résulte la définition suivante :

Définition 5.34 (Loi d’une chaı̂ne de Markov) La loi d’une chaı̂ne de Markov homogène
sur E de matrice de stochastique P et de loi initiale ν est l’unique probabilité Pν sur
(E N , σ(Cyl)) du Th. 5.33.
Chapitre 5. ©JCB – M1math – Université de Rennes 106

De plus, d’après la Prop. 5.13, la loi Pν est caractérisée par :

Pν {ω ∈ E N : ω0 = x0 , . . . , ωn = xn } = ν(x0 )P (x0 , x1 ) . . . P (xn−1 , xn ),

pour tout n ≥ 1 et x0 , . . . , xn ∈ E. Dans la suite, on note Eν l’espérance Pν et lorsque

ν = δx , on écrit Ex = Eδx . De (5.28), on déduit
X
Eν = ν(x) Ex . (5.30)
x∈E

Remarque 5.35 Si (Xn′ )n≥0 est une chaı̂ne de Markov de loi initiale ν, de matrice sto-
′

chastique P alors pour tout B ∈ F = σ(Cyl) : P (Xn )n≥0 ∈ B = Pν (B). Les résultats
en loi obtenus pour la chaı̂ne canonique se transposent donc à toute chaı̂ne de Markov
de même matrice de stochastique P et de même loi initiale ν.

5.5 Propriétés de Markov

Sur l’espace canonique (Ω, F) = (E N , σ(Cyl)), on considère les opérateurs de décalage
ou translation (ou shift) : si k ∈ N,

Θk (ωn )n≥0 = (ωk+n )n≥0 .

On a Θk = Θ◦k 1 . Comme, pour tout n ≥ 0, Xn ◦ Θk = Xn+k est mesurable, le Lemme 5.32

assure que les Θk sont des applications mesurables de (Ω, F) = (E N , σ(Cyl))) dans lui
même. On note Fn = σ(X0 , . . . , Xn ), n ≥ 0, la filtration naturelle associée à la suite
(Xn )n≥0 , Ex l’espérance sous la probabilité Px du Th. 5.33, ie. Ex [1A ] = Px (A) pour
A ∈ F.

Théorème 5.36 (Markov faible) Soit G : Ω → R une fonction mesurable positive ou

bornée. Alors pour tout x ∈ E, on a :

Ex G ◦ Θn |Fn = EXn [G]. (5.31)

De manière équivalente, pour toute fonction Fn -mesurable F : Ω → R positive ou bornée,

on a :
Ex F × (G ◦ Θn ) = Ex F EXn [G] . (5.32)
Les identités (5.31), (5.32) se généralisent au cas où Ex est remplacée par Eν , l’espérance
sous Pν pour toute loi initiale ν sur E.

Démonstration : On prouve la formulation (5.31) de la propriété de Markov faible. La

formulation (5.32) en découle par la caractérisation de l’espérance conditionnelle de la
Chapitre 5. ©JCB – M1math – Université de Rennes 107

Prop. 2.4. Pour prouver (5.31), on commence par observer que EXn [G] est σ(Xn ) donc
Fn -mesurable en tant que composée de Xn et de x ∈ E 7→ Ex [G]. Ensuite, on établit

E 1A G ◦ Θn = E 1A EXn [G] , ∀A ∈ Fn . (5.33)

Étape 1. On montre d’abord (5.33) pour G = 1B avec

B = {X0 = y0 , . . . , Xp = yp } ∈ Cyl, (5.34)

pour p ∈ N, y0 , . . . , yp ∈ E. Pour y ∈ E, on a

Ey [G] = Ey 1{X0 =y0 ,...,Xp =yp }
= Py (X0 = y0 , . . . , Xp = yp )
= 1{y0 =y} P (y0 , y1 ) . . . P (yp−1 , yp ). (5.35)

Lorsque A ∈ Fn est de de forme cylindrique

A = {X0 = x0 , . . . , Xn = xn } (5.36)

pour x0 , . . . , xn ∈ E, comme G ◦ Θn = 1{Xn =y0 ,...,Xn+p =yp } , on a

Ex 1A × (G ◦ Θn ) = Ex 1{X0 =x0 ,...,Xn =xn } 1{Xn =y0 ,...,Xn+p =yp }

= Px X0 = x0 , . . . , Xn = xn , Xn = y0 , . . . , Xn+p = yp
= 1{x0 =x} P (x0 , x1 ) . . . P (xn−1 , xn )1{xn =y0 } P (y0 , y1 ) . . . P (yp−1 , yp ).

Puis, en utilisant (5.35) on a aussi

Ex 1A EXn [G] = Ex 1A 1{y0 =Xn } P (y0 , y1 ) . . . P (yp−1 , yp )

= Ex 1{X0 =x0 ,...,Xn =xn } 1{y0 =Xn } P (y0 , y1 ) . . . P (yp−1 , yp )
= 1{x=x0 } P (x0 , x1 ) . . . P (xn−1 , xn )1{xn =y0 } P (y0 , y1 ) . . . P (yp−1 , yp ),

ce qui prouve bien (5.33) pour G = 1B avec (5.34) et A ∈ Fn donné par (5.36).
Comme la famille des cylindres Cyl est un π-système, par un argument de classe mono-
tone (Th. 0.2), on étend (5.32) de A comme en (5.36) à A ∈ Fn . En effet,

M1 = A ∈ F : Ex [1A (1B ◦ Θn )] = Ex 1A EXn [1B ]

est une classe monotone (linéarité de E et convergence monotone). Comme (5.33) est
vraie pour A, B ∈ Cyl en (5.34) alors Cyl∩Fn ⊂ M1 . Puis comme Cyl∩Fn est stable par
intersection, le théorème de classes monotones (Th. 0.2) assure Fn = σ(Cyl ∩ Fn ) ⊂ M1 .
On a alors (5.33) pour tout A ∈ Fn et cela prouve (5.31) pour G = 1B , B ∈ Cyl.
Étape 2. On montre que (5.31) reste vraie pour G = 1B avec B ∈ F. On pose

M2 = B ∈ F : Ex [1A (1B ◦ Θn )] = Ex 1A EXn [1B ] ∀A ∈ Fn .
Chapitre 5. ©JCB – M1math – Université de Rennes 108

Il s’agit de nouveau d’une classe monotone, et, qui contient Cyl, par l’Étape 1. Comme
Cyl est stable par intersection, le théorème de classes monotones (Th. 0.2) assure encore
F = σ(Cyl) ⊂ M2 et on a alors (5.33) pour tout A ∈ Fn et G = 1B , B ∈ F, ce qui
prouve (5.31) pour G = 1B , B ∈ F.
Étape 3. Enfin, par les arguments usuels de théorie de la mesure (linéarité pour passer
aux fonctions simples, convergence monotone pour passer aux fonctions mesurables posi-
tives, parties positive et négative pour traiter le cas de fonctions de signes quelconques),
on étend encore (5.31) aux fonctions F-mesurables G pour lesquelles les espérances sont
bien définies.
Finallement, lorsque (5.31) est vraie pour Ex , on la déduit immédiatement pour Eν par
sommation à partir de (5.30) :
X X
Eν G ◦ Θn |Fn = ν(x)Ex G ◦ Θn |Fn = ν(x)EXn [G] = EXn [G].
x∈E x∈E

La propriété de Markov reste vraie si on conditionne avec un temps d’arrêt T (Défini-

tion 3.7) :

Théorème 5.37 (Markov fort) Soit T un temps d’arrêt de la filtration naturelle (Fn )n≥0
de la chaı̂ne de Markov (Xn )n≥0 . Alors pour toute fonction mesurable G : Ω → R positive
ou bornée, on a :
Ex 1{T <+∞} G ◦ ΘT |FT = 1{T <+∞} EXT [G]. (5.37)
De manière équivalente, pour toute fonction FT -mesurable F : Ω → R positive ou bornée,
on a :
Ex 1{T <+∞} F × (G ◦ ΘT ) = Ex 1{T <+∞} F EXT [G] . (5.38)
De nouveau, (5.37) et (5.38) restent vrais si on y remplace Ex par Eν , pour toute loi ν
sur E.

Démonstration : D’abord, on observe que 1{T <+∞} EXT [G] est FT -mesurable. En effet
pour tout borélien B
[
1{T <+∞} EXT [G] ∈ B ∩ {T ≤ n} = {EXk [G] ∈ B} ∩ {T = k} ∈ Fn
k≤n

car pour k ≤ n, {T = k} ∈ Fk ⊂ Fn , {EXk [G] ∈ B} ∈ Fk ⊂ Fn (Fk -mesurabilité

de EXk [G]. On a donc {1{T <+∞} EXT [G] ∈ B} ∈ FT et 1{T <+∞} EXT [G] est bien FT -
mesurable.
Ensuite pour A ∈ FT , on a

A ∩ {T = n} = A ∩ {T ≤ n} \ A ∩ {T ≤ n − 1} ∈ Fn
Chapitre 5. ©JCB – M1math – Université de Rennes 109

puisque A ∩ {T ≤ n} ∈ Fn et A ∩ {T ≤ n − 1} ∈ Fn−1 ⊂ Fn . On a alors

+∞
X +∞
X
Ex 1A 1{T <+∞} G ◦ ΘT = Ex 1A∩{T =n} G ◦ ΘT = Ex 1A∩{T =n} G ◦ Θn
n=0 n=0
+∞
X +∞
X

= Ex 1A∩{T =n} EXn [G] = Ex 1A∩{T =n} EXT [G](5.39)
n=0 n=0

= Ex 1A 1{T <+∞} EXn [G]

en appliquant la propriété de Markov faible (5.31) dans (5.39).

Comme pour le Th. 5.36, on montre que (5.37), (5.38) restent vraies pour Eν à partir de
(5.30). □

La situation la plus intéressante du Th. 5.37 est lorsqu’on sait que T est fini p.s. :

Corollaire 5.38 Soit T un temps d’arrêt tel que Px (T < +∞) = 1. On suppose qu’il
existe y ∈ E tel que Px (XT = y) = 1. Alors sous Px , ΘT est indépendante de FT et a
pour loi Py , ce qu’on peut écrire :

FT ⊥
⊥Px ΘT ∼ Py .

Ce corollaire s’applique typiquement avec T = Ty = inf(n ≥ 0 : Xn = y), le temps

d’atteinte de y ∈ E (récurrent, cf. Déf. 6.3).
Démonstration : Soit A ∈ FT et B ⊂ E, alors

Px (A, ΘT ∈ B) = Ex 1A 1B ◦ ΘT = Ex 1A EXT [1B ]

= Ex 1A Ey [1B ] = Ex [1A ] Ey [1B ] = Px (A) Py (B). (5.40)
P
Avec A = Ω, (5.40) donne Px (ΘT ∈ B) = Py (B), c’est à dire ΘT ∼x Py . Et en ré-injectant
cette égalité dans (5.40), on a pour tout A ∈ FT et B ⊂ E

Px (A, ΘT ∈ B) = Px (A)Px (ΘT ∈ B)

soit FT ⊥
⊥Px ΘT . □

Remarque 5.39 (Propriétés de Markov sous Pν ) Les propriétés de Markov faibles (5.31),
(5.32) du Théorème 5.36 et fortes (5.37), (5.38) du Théorème 5.37 restentPvraies si on
remplacePEx par Eν pour toute loi initiale ν. En effet, on rappelle que Pν = x∈E ν(x)Px
et Eν = x∈E ν(x)Ex , cf. 5.28). Ainsi en sommant convenablement par exemple l’égalité
(5.38) on obtient
Eν F × (G ◦ ΘT ) = Eν F EXT [G] . (5.41)
De même pour (5.31), (5.32) et (5.37) et pour le Corollaire 5.38 qui restent vrais pour
Pν à la place de Px .
Chapitre 5. ©JCB – M1math – Université de Rennes 110

Reformulation de la propriété de Markov

En notant Lν (Xn )n≥0 la loi de la chaı̂ne de Markov (Xn )n≥0 avec X0 ∼ ν, la
propriété de Markov (5.38) s’écrit

Lν (Xn )n≥T |FT = LXT (Xn )n≥0 , (5.42)
ou pour B ∈ F = σ(Cyl) :

Pν (Xn )n≥T ∈ B|FT = PXT (Xn )n≥0 ∈ B .
Lorsque T est un temps d’arrêt, il s’agit de Markov fort ; lorsque T = p est déterministe,
il s’agit de Markov faible.
Avec des indicatrices, les propriétés de Markov s’écrivent encore
Corollaire 5.40 Pour tout A ∈ F, (xn )n≥0 ∈ E N , y ∈ E, et T temps d’arrêt (ps fini) :

Pν Θp X ∈ A |X0 = x0 , . . . , Xp = xp = Pxn (X ∈ A) (Markov faible)

Pν ΘT X ∈ A |X0 = x0 , . . . , XT = y = Py (X ∈ A) (Markov fort).
Démonstration : On prouve la formulation Markov fort, celle-ci contient la formulation
Markov faible quand on prend le temps d’arrêt constant T = p.
En appliquant (5.38) avec la fonction FT -mesurable F = 1{X0 =x0 ,...,XT =y} et la fonction
mesurable G = 1{X∈A} , on a

Eν 1{X0 =x0 ,...,XT =y} 1{X◦θT ∈A} = Eν 1{X0 =x0 ,...,XT =y} EXT [1{X∈A} ]

= Eν 1{X0 =x0 ,...,XT =y} Ey [1{X∈A} ]

= Eν 1{X0 =x0 ,...,XT =y} Ey [1{X∈A} ]
= Pν (X0 = x0 , . . . , XT = y)Py (X ∈ A).
On a donc
Pν (ΘT X ∈ A, X0 = x0 , . . . , XT = y)
Pν ΘT X ∈ A |X0 = x0 , . . . , XT = y =
Pν (X0 = x0 , . . . , XT = y)
Eν [1{X0 =x0 ,...,XT =y} 1{X◦θT ∈A} ]
=
Pν (X0 = x0 , . . . , XT = y)
= Py (X ∈ A).
□

La propriété de Markov justifie également que, pour une chaı̂ne de Markov, passé et
futur sont indépendants sachant le présent :
Corollaire 5.41 (Passé, présent, futur) Soit n ≥ 1 et A ∈ Fn et B ∈ σ(Xk : k ≥ n)
alors
P(A ∩ B |Xn ) = P(A |Xn ) P(B |Xn ).
De la même façon, si T est un temps d’arrêt Px -ps fini. Alors pour A ∈ FT et B ∈
{Θ−1
T (A) : A ∈ F}, on a

P(A ∩ B |XT ) = P(A |XT ) P(B |XT ).

Chapitre 5. ©JCB – M1math – Université de Rennes 111

Remarque 5.42 Comme ΘT est mesurable, {Θ−1 T (A) : A ∈ F} est une tribu qui contient
les évènements réalisés après T . C’est la façon correcte d’écrire σ(Xk : k ≥ T ) puisque
les évènements typiques en sont {(X1 , . . . , Xn ) ◦ ΘT ∈ B} = {(XT +1 , . . . , XT +n ) ∈ B}
pour tout B ∈ σ(Cyl).

Démonstration : Soit A ∈ Fn -mesurable et B ∈ σ(Xk : k ≥ n). On peut écrire B =

T heta−1 ′
n (B ). On a alors

Avec A = Ω, (5.43) donne P(B|Xn ) = PXn (B ′ ), ce qu’en ré-injectant dans (5.43) donne

Px (A ∩ B|Xn ) = Px (A|Xn ) P(B|Xn )

pour tout A ∈ Fn et B ∈ σ(Xk : k ≥ n), ce qui prouve la première partie du Corol-

laire 5.41. La deuxième partie se prouve de la même façon avec la propriété de Markov
forte (5.38) en (5.43). □
Chapitre 6

Récurrence et transience

Introduction et notations
Exemple 6.1 Sur l’espace E = {1, 2, 3, 4, 5, 6}, on considère une chaı̂ne de Markov de
matrice de transition
 
1/2 1/2 0 0 0 0
 0 0 1 0 0 0 
 
 1/3 0 0 1/3 1/3 0 
P =
 0 1/2 1/4 0
.
 0 1/4  
 0 0 0 0 0 1 
0 0 0 0 1 0
Le graphe associé est alors
1/3 1/3
1/2 1 3 5

1/2 1 1/4 1/3 1 1

2 4 6
1/2 1/4

Les états {1, 2, 3, 4} semblent visités un nombre fini de fois P1 -ps. Au contraire, {5, 6}
sont visités une infinité de fois P1 -ps.
Exemple 6.2 Sur l’espace E = {1, 2, 3, 4, 5}, on considère maintenant une chaı̂ne de
Markov de matrice de transition
 
1/2 0 0 0 1/2
 0 1/2 0 1/2 0 
 
P =  0 0 1 0 0 .

 0 1/4 1/4 1/4 1/4 
1/2 0 0 0 1/2

112
Chapitre 6. ©JCB – M1math – Université de Rennes 113

Le graphe associé est alors

1/2

1/2 1 2

1/2 1/2 1/4 1/2

3 1
1/2 1/4
5 4
1/4

1/4

Cette fois, P2 -ps les états 2 et 4 semblent visités un nombre finis de fois, alors que {1, 5}
et {3} sont visités une infinité de fois mais ne communiquent pas.

L’objet de cette section est de comprendre le comportement qualitatif d’une chaı̂ne de

Markov comme dans les exemples ci-dessus. Il s’agit d’un comportement qualitatif car
les assertions précédentes ne semblent pas dépendre des probabilités de transition mais
seulement de leur non-nullité.
On verra ensuite ce qu’on peut donner comme information quantitative sur la chaı̂ne,
par exemple la proportion de temps passé en un état.

Notations
On considère (Xn )n≥0 une chaı̂ne de Markov d’espace d’états E et de matrice sto-
chastique P . Si nécessaire, on travaille avec la chaı̂ne canonique construite dans le Théo-
rème 5.33. Dans la suite, on note Ex l’espérance par rapport à Px , c’est à dire on suppose
que la chaı̂ne part de x (ie. µ0 = δx ). Pour y ∈ E, avec la convention min ∅ = +∞, on
note

Ty = min n ≥ 0 : Xn = y (temps d’atteinte de y)
+∞
X
N (y) = 1{Xk =y} (nombre de visites en y).
k=0

On note également

Tey = min n > 0 : Xn = y (temps d’atteinte de y)
+∞
X
N (y) =
e 1{Xk =y} (nombre de visites de y après le départ).
k=1
Chapitre 6. ©JCB – M1math – Université de Rennes 114

Les variables aléatoires Ty et Tey sont des temps d’arrêt pour la filtration canonique
associée à la chaı̂ne de Markov (Xn )n≥0 , cf. 2 dans l’Exemple 3.9.
On a les liens suivants selon le point de départ de la chaı̂ne :
— sous Px , avec x ̸= y : Tey = Ty est le temps d’atteinte de y et N e (y) = N (y) ;
— sous Py : Tey > 0 = T (y) est le temps de retour de la chaı̂ne en y et N e (y) =
N (y) − 1 ;

On note également ρx,y = Px Tey < +∞ la probabilité que partant de x ∈ E la chaı̂ne
puisse arriver en temps fini en y ∈ E. En particulier, ρx,x est la probabilité que la chaı̂ne
partant de x finisse par y revenir.
(0)
Enfin, par récurrence, on définit les temps de retours successifs en y ∈ E avec Ty = 0
(convention) et pour k ≥ 1 :

Ty(k) = inf n > Ty(k−1) : Xn = y

(6.1)
= Ty(k−1) + Ty(1) ◦ ΘTy(k−1) , (6.2)

où (6.2) vient de

Ty(k) = Ty(k) + inf j > 0 : Xj+Ty(k−1) = y = Ty(k−1) + inf j > 0 : Xj ◦ ΘTy(k−1) = y

= Ty(k−1) + inf j > 0 : Xj = y ◦ Ty(k−1) = Ty(k−1) + Ty(1) ◦ ΘTy(k−1) .

(k−1) (k)
— Observer que, par (6.1) ou par (6.2), lorsque Ty = +∞ alors Ty = +∞ aussi.
(k−1) (k)
— Lorsqu’ il est fini, l’intervalle de temps [Ty , Ty ] s’appelle une excursion de la
chaı̂ne entre deux visites en y.
(k)
— Les variables aléatoires Ty sont des temps d’arrêt puisque pour tout p ≥ 0 :

{Ty(k) ≤ p} = {la chaı̂ne est passée n fois en y avant la date p}

∈ σ(X1 , . . . , Xp ) = Fp .

6.1 États récurrents et transitoires

On distingue les états selon la propension qu’a la chaı̂ne d’y revenir :

Définition 6.3 (Récurrence et transience) Soit (Xn )n≥0 une chaı̂ne de Markov.

— Un état x ∈ E est dit récurrent si ρx,x = Px Tex < +∞ = 1.

— Un état x ∈ E est dit transitoire (transient) si ρx,x = Px Tex < +∞ < 1.

En particulier, on appelle état absorbant tout étatx ∈ E tel que P (x, x) = 1 (Déf. ??).
Un tel état est récurrent puisque ρx,x = Px Tex = 1 = P (x, x) = 1.
Chapitre 6. ©JCB – M1math – Université de Rennes 115

Nombre de passages
Pour un état transitoire x, une chaı̂ne partant de x a une probabilité non nulle de
ne jamais y revenir alors que si l’état est récurrent, elle y reviendra une fois et donc par
récurrence, avec la propriété de Markov forte, une infinité de fois. On formalise cette
intuition dans la proposition suivante qui montre que le nombre de passages en un état
x dépend fondamentalement de sa nature récurrente ou transitoire.

Proposition 6.4 (Nombre de passages en un état) Pour tout état x ∈ E, on a l’alter-

native suivante :
P
(1) Si x est récurrent alors N (x) = +∞ Px -ps (N (x) ∼x δ+∞ ).
(2) Si x est transitoire alors
P
N (x) ∼x G(1 − ρx,x ). (6.3)
1
En particulier, N (x) < +∞ Px -ps et Ex [N (x)] = 1−ρx,x
.

Démonstration : D’abord on a Px (N (x) ≥ 1) = 1. Ensuite, on observe que sous Px ,

lorsque Tex < +∞, on a :
X X X
N (x) = 1{Xk =x} = 1 + 1{Xk =x} = 1 + 1{Xj+Tex =x}
k≥0 k≥Tex j≥0
X X
= 1+ 1{Xj ◦ΘTex =x} = 1 + 1{Xj =x} ◦ ΘTex = 1 + N (x) ◦ ΘTex . (6.4)
j≥0 j≥0

Pour k ≥ 1, on a donc 1{N (x)≥k+1} = 1{Tex <+∞} 1{N (x)≥k} ◦ ΘTex Px -ps, et :

Px (N (x) ≥ k + 1) = Ex 1{N (x)≥k+1} = Ex 1{Tex <+∞} 1{N (x)≥k} ◦ ΘTex

= Ex 1{Tex <+∞} EXTex [1{N (x)≥k} ] = Px Tex < +∞ Ex 1{N (x)≥k}
(propriété de Markov forte sous la forme du Corollaire 5.38)
= ρx,x Px (N (x) ≥ k).

Comme Px (N (x) ≥ 1) = 1, on déduit d’une récurrence immédiate que

Px (N (x) ≥ k) = ρk−1
x,x . (6.5)

Dès lors,
— (1) lorsque x est récurrent alors ρx,x = 1 et en faisant k → +∞ par convergence
monotone, on obtient

Px (N (x) = +∞) = lim Px (N (x) ≥ k) = 1,

n→+∞

ie. N (x) = +∞ Px -ps ;

— (2) lorsque x est transitoire alors ρx,x < 1 et (6.5) donne pour tout k ≥ 0

Px (N (x) = k) = Px (N (x) ≥ k) − Px (N (x) ≥ k + 1)

= ρk−1 k k−1
x,x − ρx,x = ρx,x (1 − ρx,x ) (6.6)
P
et il vient N (x) ∼x G(1 − ρx,x ). A fortiori, on a Ex [N (x)] = 1/(1 − ρx,x ) et
N (x) < +∞ Px -ps.
□

Lorsque la chaı̂ne part d’un état x différent de l’état y où on considère les visites de la
chaı̂ne, la Prop. 6.4 prend la forme suivante :
Proposition 6.5 (Nombre de passages en y partant de x ̸= y) Soit x, y deux états avec
x ̸= y. Sous Px (ie. lorsque la chaı̂ne part de x),
(1) Si y est récurrent (ρy,y = 1) alors partant de x, soit la chaı̂ne ne rejoint pas y
(N (y) = 0) soit elle le rejoint une fois puis alors une infinité de fois (N (y) = +∞) :
P
N (y) ∼x (1 − ρx,y )δ0 + ρx,y δ+∞ , (6.7)

on a Px (N (y) = +∞) = ρx,y .

(2) Si y est transitoire (ρy,y < 1) alors le nombre de passages en y est de loi
P
N (y) ∼x (1 − ρx,y ) δ0 + ρx,y G(1 − ρy,y ), (6.8)

et on a Px (N (y) < +∞) = 1.

Démonstration : On suppose que la chaı̂ne part de x ̸= y. On a {N

e (y) ≥ 1} = {Tey <
+∞} et
e (y) ≥ 1 = Px Tey < +∞ = ρx,y .
Px N
Étant donné m1 , m2 ≥ 0, la probabilité que la chaı̂ne partant de x visite y la première
fois à la date m1 et n’y revienne qu’en date m1 + m2 est

Px Ty(1) = m1 , Ty(2) = m1 + m2

= Ex 1{Ty(1) =m1 } 1{Ty(2) =m1 +m2 }
h i
(2) (1) (1)
= Ex 1{Ty(1) =m1 } 1 (1) (car par (6.2) : Ty = Ty + Ty ◦ ΘTy(1) )
Ty ◦Θ (1) =m2
Ty
h i
= Ex 1{Ty(1) =m1 } EX (1) 1{Ty(1) =m2 } (par Markov fort avec le Corollaire 5.38)
Ty

= Px Tey = m1 Py Tey = m2 (car XTy(1) = y et donc EX (1) = Ey ).
Ty

On a donc

+∞
X
= Px X visite y la première fois à la date m1 et n’y revient qu’en date m1 + m2
m1 ,m2 =1
+∞
X +∞ X
X +∞
Px Ty(1) m1 , Ty(2)

= = = m1 + m2 ) = Px Tey = m1 Py Tey = m2
m1 ,m2 =1 m1 =1 m2 =1
+∞
! +∞
!
X X
= Px Tey = m1 Py Tey = m2
m1 =1 m2 =1

= Px Tey < +∞ Py Tey < +∞ = ρx,y ρy,y .

Plus généralement, un raisonnement analogue montre que pour k ≥ 1 :

Px (N (y) ≥ k) = ρx,y ρk−1

y,y . (6.9)

En effet, pour m1 , . . . , mk ≥ 1, on a
" k
#
\ Y
Px {Ty(j) = m1 + · · · + mj } = Ex 1{Ty(j) =m1 +···+mj }
1≤j≤k j=1
" k−1
! #
Y
= Ex 1{Ty(j) =m1 +···+mj } 1{Ty(k) =m1 +···+m
k}
j=1
" k−1
! #
Y
= Ex 1{Ty(j) =m1 +···+mj } 1{Ty(1) =m ◦ ΘTy(k−1)
k}
j=1
(k) (k−1) (1)
(car par (6.2) : Ty + Ty ◦ ΘTy(k−1) )
= Ty
!
h k−1
Y i
= Ex 1{Ty(j) =m1 +···+mj } Ex 1{Ty(1) =m } ◦ ΘTy(k−1) FTy(k−1)
k
j=1
| {z }
FTy(k−1) -mesurable
(j)
(car, pour j ≤ k − 1, Ty est FTy(k−1) -mesurable)
" k−1 ! #
Y
= Ex 1{Ty(j) =m1 +···+mj } EX (k−1) 1{Ty(1) =m }
Ty k
j=1

(par Markov fort avec le Corollaire 5.38)

" k−1 !#
Y
= Ex 1{Ty(j) =m1 +···+mj } Ey 1{Ty(1) =m }
k
j=1
\
= Px {Ty(j) = m1 + · · · + mj } Py (Ty(1) = mk )
1≤j≤k−1
k−1
!
Y
= Px (Ty(1) = m1 ) Py (Ty(1) = mj ) Py (Ty(1) = mk )
j=2
Chapitre 6. ©JCB – M1math – Université de Rennes 118

k
Y
= Px (Ty(1) = m1 ) Py (Ty(1) = mj )
j=2
T
(j)
par hypothèse de récurrence pour Px 1≤j≤k−1 {Ty = m1 + · · · + mj } . On a alors

Px (N (y) ≥ k)
X
= Px X visite y la j-ème fois à la date m1 + · · · + mj , ∀j ∈ J1, kK
mj ≥1
1≤j≤k
X \
= Px {Ty(j) = m1 + · · · + mj }
mj ≥1 1≤j≤k
1≤j≤k

X k
Y
= Px (Ty(1) = m1 ) Py (Ty(1) = mj )
mj ≥1 j=2
1≤j≤k
!  
X k
Y X
= Px (Ty(1) = m1 )  Py (Ty(1) = mj )
m1 ≥1 j=2 mj ≥1
k
Y
= Px (Ty(1) < +∞) Py (Ty(1) < +∞) = ρx,y ρy,y
k−1
,
j=2

ce qui établit (6.9).

Puis comme Px (N (y) = k) = Px (N (y) ≥ k) − Px (N (y) ≥ k − 1), on a aussi
Px (N (y) = k) = ρx,y ρk−1
y,y (1 − ρy,y ), k ≥ 1, (6.10)
et
Px (N (y) = 0) = 1 − Px (N (y) ≥ 1) = 1 − ρx,y . (6.11)
Dans le cas où y est récurrent (ρy,y = 1), on déduit de (6.9) par convergence monotone
que
Px (N (y) = +∞) = lim Px (N (y) ≥ k) = ρx,y ,
k→+∞

ce qui établit 1). Puis 2) découle de (6.10). □

Remarque 6.6 — Attention, dans le cas x = y, les formules (6.10) et (6.11) sont
remplacées par (6.6) dans la Proposition 6.4. La différence vient du fait que sous
Px , on a N (x) ≥ 1 puisque la chaı̂ne part de x. Il y a donc un décalage dans le
compte des passages en x dû au point de départ.
— En fait, ces formules (6.10) et (6.11) sont intuitivement claires avec la description
heuristique suivante : pour que partant de x la chaı̂ne visite m fois y, elle com-
mence à aller de x à y (facteur ρx,y ) puis visite y m − 1 fois (facteur ρy,y pour
chaque visite donc globalement ρm−1
y,y ) et n’y retourne plus (facteur 1 − ρy,y ).
Chapitre 6. ©JCB – M1math – Université de Rennes 119

— Les Propositions 6.4 et 6.5 décrivent la différence fondamentale entre un état

transitoire et un état récurrent :
— Si l’état y est transitoire, alors quelque soit l’état initial de la chaı̂ne, il y aura
un nombre fini de passages en y et le nombre moyen de passages est fini aussi.
— Si l’état y est récurrent alors quand la chaı̂ne part de cet état, elle y repasse
une infinité de fois. Si elle part d’ailleurs soit elle n’y va jamais soit elle y va
une fois et alors elle y retourne nécessairement une infinité de fois.

Potentiel ou fonction de Green

À la chaı̂ne de Markov (Xn )n≥0 de matrice stochastique P , on associe :

Définition 6.7 (Potentiel/fonction de Green) Soit x, y ∈ E, on note G(x, y) le nombre

moyen de passages en y de la chaı̂ne partant de x :
+∞
X +∞
X

G(x, y) = Ex N (y) = Px (Xk = y) = Pk (x, y).
k=0 k=0

(Les égalités
P ci-dessus viennent du théorème de convergence monotone et de l’expression
N (y) = k≥0 1{Xk =y} .)

Théorème 6.8 (Nature et potentiel)

(1) Si y est un état transitoire (ρy,y < 1), alors le potentiel (fonction de Green) G(x, y)
est fini pour tout état x et vaut
( ρ
x,y
1−ρy,y
si x ̸= y,
G(x, y) = 1
1−ρy,y
si x = y.

(2) Si y est un état récurrent alors G(y, y) = +∞ et

— si ρx,y = 0 alors G(x, y) = 0 ;
— si ρx,y > 0, G(x, y) = +∞.

Démonstration : La preuve vient de la Proposition 6.5 et des lois (6.7)–(6.8) de N (y)

̸ y ou (6.3) lorsque x = y.
sous Px lorsque x =
D’abord, si x ̸= y, alors par la Prop. 6.5 :
(a) Soit y un état transitoire, G(x, y) = Ex [N (y)] est l’espérance de (1 − ρx,y ) δ0 +
ρx,y G(1 − ρy,y ) donc vaut ρx,y /(1 − ρy,y ).
(b) Si y est récurrent, G(x, y) = Ex [N (y)] est l’espérance de (1 − ρx,y )δ0 + ρx,y δ+∞ donc
vaut 0 si ρx,y = 0 et +∞ sinon.

Ensuite, si x = y, alors par la Prop. 6.4 :

(a) Soit y un état transitoire, G(x, y) = Ex [N (y)] est l’espérance de G(1 − ρy,y ) donc
vaut 1/(1 − ρy,y ).
Chapitre 6. ©JCB – M1math – Université de Rennes 120

(b) Si y est récurrent, G(x, y) = +∞ puisque N (y) = +∞.

□

De l’alternative du Théorème 6.8, on déduit immédiatement un critère de récurrence à

l’aide du potentiel :
Corollaire 6.9 (Récurrence et potentiel) Un état x est récurrent si et seulement si G(x, x) =
+∞.

Corollaire 6.10 En convenant que 0 × (+∞) = 0, pour x ̸= y, on a :

G(x, y) = ρx,y G(y, y). (6.12)

La preuve du Corollaire 6.10 s’obtient des expressions explicites de G(x, y) dans le Théo-
rème 6.8. On peut aussi le prouver directement à partir de la propriété de Markov forte :
Démonstration : Soit x ̸= y. Sous Px , lorsque Ty = +∞ on a N (y) = 0 et lorsque
Ty < +∞

N (y) = #(n ≥ 0 : Xn = y) = #(n ≥ Ty : Xn = y)

= # k ≥ 0 : Xk+Ty = y = # k ≥ 0 : Xk ◦ ΘTy = y

= # k ≥ 0 : Xk = y ◦ ΘTy = N (y) ◦ ΘTy .

On a donc N (y) = N (y) ◦ ΘTy Px -ps et par la propriété de Markov forte (5.38) (sous la
forme du Corollaire 5.38), on a alors

Ex [N (y)] = Ex 1{Ty <+∞} (N (y) ◦ ΘTy ) = Ex 1{Ty <+∞} Ex (N (y) ◦ ΘTy ) FΘTy

= Ex 1{Ty <+∞} EXTy [N (y)] = Ex 1{Ty <+∞} Ey [N (y)]
= Px (Ty < +∞) Ey [N (y)]

ie. G(x, y) = ρx,y G(y, y). □

On précise la notion de récurrence d’un état selon la durée moyenne d’un retour en cet
état.
Définition 6.11 (Récurrence
nulle et positive) Un état x récurrent
est dit récurrent po-
sitif si mx = Ex Tx < +∞. Il est dit récurrent nul si mx = Ex Tex = +∞.
e

Ainsi
— si x est récurrent positif : Tex < +∞ Px -ps et mx = Ex Tex < +∞ ;

— si x est récurrent nul : Tex < +∞ Px -ps mais mx = Ex Tex = +∞ ;
— si x
est
transitoire : Tx = +∞ avec probabilité Px positive et a fortiori mx =
e
Ex Tex = +∞.

Définition 6.12 (Chaı̂nes récurrente et transitoire) Une chaı̂ne est dite :

— transitoire si tous ses états sont transitoires ;

— récurrente si tous ses états sont récurrents ;
— récurrente positive si tous ses états sont récurrents positifs ;
— récurrente nulle si tous ses états sont récurrents nuls.
Remarque 6.13 (1) Noter que si y est un état transitoire alors pour tout x ∈ E,
lim P n (x, y) = 0.
n→+∞

En effet cela découle de la convergence de la série G(x, y) = +∞ n

P
n=0 P (x, y) < +∞.
(2) Si une chaı̂ne (Xn )n≥0 a un nombre fini d’états, alors nécessairement il y a au moins
un état récurrent et la chaı̂ne ne peut pas être transitoire. En effet, si tous les états
étaient transitoires alors on aurait l’égalité absurde suivante :
X X
0= lim P n (x, y) = lim P n (x, y) = lim Px (Xn ∈ E) = 1.
n→+∞ n→+∞ n→+∞
y∈E y∈E
P
La première égalité vient de 1) ci-dessus, la deuxième du fait que la somme y∈E
est finie.

Excursions
(k)
On rappelle que les Ty , k ≥ 0, désignent les dates de retours successifs de la chaı̂ne en
y et qu’ils sont définis en (6.1) et satisfont (6.2).
(n)
Proposition 6.14 (Indépendance des excursions) Sachant Ty < +∞ (qu’on suppose
(k) (k) (k−1)
non négligeable), les variables aléatoires ∆y = Ty − Ty , 1 ≤ k ≤ n, sont iid sous
Py .
Démonstration : Il s’agit de montrer pour des fonctions gi , 1 ≤ i ≤ n, mesurables
bornées sur R+ , on a :
" n # n
Y Y h i
(i) (n) (1)
(n)
Ey gi ∆y Ty < +∞ = Ey gi ∆y Ty < +∞ . (6.13)
i=1 i=1
(n) Pn (i)
Comme Ty = i=1 ∆y , on a
n
\
{Ty(n) < +∞} = {∆(i)
y < +∞}, (6.14)
i=1

et on commence par montrer que pour toutes fonctions gi , 1 ≤ i ≤ n, mesurables bornées

sur R+ : " n #
Y Yn
(i)
Ey gi ∆(1)

Ey gi ∆y 1{∆y(i) <+∞} = y 1 (1)
{∆y <+∞}
. (6.15)
i=1 i=1
On procède par récurrence sur n ≥ 1. Pour n = 1, l’égalité (6.15) est immédiate. On
suppose alors (6.15) établie pour n − 1 fixé et on la prouve pour n. Pour cela, on observe
que
Chapitre 6. ©JCB – M1math – Université de Rennes 122

(1) (n−1)
— les variables aléatoires ∆y , . . . , ∆y sont FTy(n−1) -mesurables,
— ΘTy(n−1) est indépendante de FTy(n−1) et de loi Py (propriété de Markov forte, Co-
rollaire 5.38),
(n) (1) (n) (n−1) (1)
— ∆y = ∆y ◦ ΘTy(n−1) ; en effet par (6.2), on a Ty = Ty + Ty ◦ ΘTy(n−1) et on
a donc
∆(n)
y = Ty
(n)
− Ty(n−1) = Ty(1) ◦ ΘTy(n−1) = ∆(1)
y ◦ ΘTy(n−1) .

En utilisant dans la 3-ème égalité la propriété de Markov fort (Corollaire 5.38), on a :

" n #
Y
Ey gi (∆(i)
y )1{∆y(i) <+∞}
i=1
"n−1 #
Y
gi (∆(i) gn ∆(1)

= Ey y )1{∆y(i) <+∞} y ◦ ΘTy(n−1) 1
(1)
∆y ◦Θ (n−1) <+∞
i=1 Ty
"n−1 " ##
Y
gi (∆(i) (1)

= Ey y )1{∆y(i) <+∞} Ey gn ∆y ◦ ΘTy(n−1) 1 FTy(n−1)
(1)
∆y ◦Θ (n−1) <+∞
i=1 Ty
"n−1 #
Y
gi (∆(i) gn ∆(1)

= Ey y )1{∆y(i) <+∞} EX (n−1) y 1 (1)
Ty ∆y <+∞
i=1
"n−1 #
Y
gi (∆(i) Ey gn (∆(1)

= Ey y )1{∆y(i) <+∞} y )1{∆(1)
y <+∞}
i=1
n−1
Y h i
gi (∆(1) Ey gn (∆(1)

= Ey y )1{∆(1)
y <+∞} y )1{∆(1)
y <+∞}
i=1

en utilisant l’hypothèse de récurrence, ce qui prouve (6.15) par récurrence.

On déduit deux cas particuliers de (6.15) :
— Lorsque toutes les gi sont égales à 1, (6.15) devient
n
Py Ty(n) < +∞ = Py ∆(1)

y < +∞ . (6.16)

— Lorsque les gj sont égales à 1 pour tous les j ̸= i, (6.15) devient

" n
#
h i Y
Ey gi ∆(i) = Ey gi ∆(i)

y 1{Ty(n) <+∞} y 1{∆y(j) <+∞}
j=1
" #
Y
gi ∆(i)

= Ey y 1 (i)
{∆y <+∞}
1{∆(j)
y <+∞}
j̸=i
Y
= Ey gi ∆(1)

y 1 (1)
{∆y <+∞}
× Ey 1 (1)
{∆y <+∞}
j̸=i

= Ey gi ∆(1) × Py (∆(1) n−1

Finalement pour montrer (6.13), on écrit :

hQ i
" # n (i)
n
Y Ey i=1 gi ∆y 1{Ty(n) <+∞}
gi ∆(i) Ty(n) < +∞ =

Ey y (n)
i=1 Py (Ty < +∞)
hQ i
n (i)
Ey i=1 gi ∆y 1{∆(i)
y <+∞}
= (n)
(en utilisant (6.14))
Py (Ty < +∞)
Qn (1)
i=1 Ey gi ∆y 1{∆(1)
y <+∞}
= (n)
(en utilisant (6.15))
Py (Ty < +∞)
Qn (1) Q
i=1 Ey ig ∆ y 1 (1)
{∆y <+∞}
n (1)
P (∆y < +∞)n−1 i=1 y
= (n) (n)
Py (Ty < +∞) Py (Ty < +∞)n−1
| {z }
=1
Qn (1) (1)

i=1 Ey gi ∆y 1{∆(1)
y <+∞}
Py (∆y < +∞)n−1
= (n)
(6.18)
Py (Ty < +∞)n
Qn (1) (n)
en notant grâce à (6.16) que i=1 Py (∆y < +∞)n−1 = Py (Ty < +∞)n−1 . En utilisant
(6.17), on a alors
h i
" # Qn (i)
n
Y i=1 Ey gi ∆y 1{T (n) <+∞} y
gi ∆(i)
(n)
Ey y Ty < +∞ = (n)
i=1 Py (Ty < +∞)n
n
Y
gi ∆(i) Ty(n)

= Ey y < +∞ .
i=1

Finalement, on a obtenu (6.13) ce qui prouve la Proposition 6.14. □

Temps passé en un état

On note Nn (y) (resp. N
en (y)) la variable aléatoire qui indique le temps passé en un
état y ∈ E jusqu’au temps n en comptant la date initiale (resp. en ne la comptant pas) :
n
X n
X
Nn (y) = 1{Xk =y} et N
en (y) = 1{Xk =y} , (6.19)
k=0 k=1

et Gn (x, y) le temps moyen passé en y jusqu’au temps n lorsque la chaı̂ne part de x :

Théorème 6.15 (Proportion du temps de visite) Pour tout état y ∈ E et toute loi ini-
tiale ν, on a
Nn (y) 1{Tey <+∞}
lim = Pν -ps. (6.20)
n→+∞ n my
De plus, pour tout x ∈ E, on a
Gn (x, y) ρx,y
lim = . (6.21)
n→+∞ n my
Remarque 6.16 Ces résultats se justifient heuristiquement : dès que la chaı̂ne atteint
un état y récurrent, elle revient en y en moyenne en my étapes. Donc si Tey < +∞,
et n est grand, la proportion d’étapes parmi les n premières où la chaı̂ne est en y est
d’ordre 1/my . Le résultat (6.21) vient de (6.20) en prenant l’espérance. Par ailleurs si y
est transitoire, il y a un nombre fini de visite en y donc la proportion du temps passé en
y est asymptotiquement nulle, ce qu’on retrouve avec my = +∞ dans ce cas.
Démonstration : a) On commence par considérer le cas y récurrent et une chaı̂ne de
Markov qui démarre de ce y. Avec probabilité 1, la chaı̂ne revient en y une infinité
(n)
de fois (Proposition 6.4). Comme y est récurrent, Ty est fini Py -ps pour tout n ≥ 0
(n) (k) (k) (k−1)
(Ty = 0), et la Proposition 6.14 donne que les variables aléatoires ∆y = Ty − Ty ,
k ≥ 1, (durée entre la (k − 1)-ème visite et la k-ème visite en y) sont iid. Comme
(n) (1) (n)
Ty = ∆y + · · · + ∆y , la loi des grands nombres (LGN) donne alors, Py -ps
(n) (1) (n)
Ty ∆y + · · · + ∆y
lim = lim = my . (6.22)
n→+∞ n n→+∞ n
En effet,
(1)
— si my < +∞, alors ∆y ∈ L1 et (6.22) s’obtient directement par la LGN ;
— si my = +∞, on commence par appliquer la LGN aux variables aléatoires iid
(i)
∆y ∧ a ∈ L1 où a > 0 quelconque est préalablement fixé :
(1) (n)
∆y ∧ a + · · · + ∆y ∧ a
= Ey ∆(1)

lim y ∧a .
n→+∞ n
(1) (1)
Comme ∆y ≥ ∆y ∧ a, on a
(1) (n)
∆y + · · · + ∆y
lim inf
n→+∞ n
(1) (n)
∆y ∧ a + · · · + ∆y ∧ a
≥ lim inf
n→+∞ n
(1)
= Ey [∆y ∧ a].
(1) (1)
Mais comme par convergence monotone Ey [∆y ∧ a] ↗ Ey [∆y ] = my = +∞
quand a → +∞, on a
(1) (n)
∆y + · · · + ∆y
lim = +∞,
n→+∞ n
ce qui correspond à (6.22) avec my = +∞.
Chapitre 6. ©JCB – M1math – Université de Rennes 125

(k)
Par définition de Ty et N
en (y), on a

Ty(Nn (y)) ≤ n < Ty(Nn (y)+1)

e e

en (y) ≥ 1)
et donc pour n assez grand (pour assurer N
(N
e (y)) (N
e (y)+1)
Ty n n Ty n
≤ < . (6.23)
N
en (y) Nen (y) N
en (y)
Mais comme N en (y) → +∞ Py -ps et (N
en (y) + 1)/Nen (y) → 1 quand n → +∞, la LGN
(6.22) donne aussi :
(N
e (y)) (N
en (y)+1)
Ty n Py −ps Ty Py −ps
−−−−→ my et −−−−→ my . (6.24)
en (y) n→+∞
N Nen (y) n→+∞
Le théorème des gendarmes, (6.23) et (6.24) assurent alors que Py -ps :
n
lim = my ,
n→+∞ N en (y)
en (y)/Nn (y) →
ce qui prouve (6.20) dans ce cas (départ de la chaı̂ne de y, récurrent) puisque N
1 quand n → +∞.
b) On suppose maintenant que la chaı̂ne part de x ̸= y. Dans ce cas, la chaı̂ne peut
ne jamais rejoindre y. Cependant si elle rejoint y, l’argument précédent s’applique et se
réécrit alors
Nn (y) 1{Tey <+∞}
lim = Px -ps.
n→+∞ n my
On a donc (6.20) Px -presque sûrement pour tout x ∈ E lorsque y est récurrent.
c) On considère y transitoire et la chaı̂ne part d’un état x quelconque. Par la Prop. 6.4 et
la Prop. 6.5, on a limn→+∞ Nn (y) = N (y) < +∞ Px -presque sûrement pour tout x ∈ E,
et donc
Nn (y)
lim =0
n→+∞ n
ce qui correspond à (6.20) dans ce cas puisque my = 0. On a donc établi (6.20) Px -ps
pour tout x ∈ E.
d) En notant que si Px (A) = 1 pour tout x ∈ E alors par la définition de Pν en (5.28),
on a : X X
Pν (A) = ν(x) Px (A) = ν(x) = 1,
x∈E x∈E
on a encore (6.20) Pν -presque sûrement pour toute loi initiale ν.
e) Pour prouver (6.21), on observe que 0 ≤ Nn (y)/n ≤ 1 puisque 0 ≤ Nn (y) ≤ n. Dés
lors, le théorème de convergence dominée permet d’obtenir (6.21) de (6.20) :

1{Tey <+∞}

Nn (y) Nn (y) Px Tey < +∞ ρx,y
lim Ex = Ex lim = Ex = = .
n→+∞ n n→+∞ n my my my
□
Chapitre 6. ©JCB – M1math – Université de Rennes 126

6.2 Ensembles clos et irréductibilité

Relations entre états
On note ER l’ensemble des états récurrents et ET l’ensemble des états transitoires.
D’après la Proposition 6.4, on a
E = ER ⊔ ET . (6.25)
Dans cette section, on précise cette partition de l’espace d’états E.

Définition 6.17 Étant donné deux états x, y ∈ E, on dit que x peut mener à y et on note
x ⇝ y si ρx,y = Px Tey < +∞ > 0.

Proposition 6.18 Pour des états x, y distincts, on a les équivalences :

(1) x ⇝ y ;
(2) G(x, y) > 0 ;
(3) ∃n ≥ 1 tel que P n (x, y) > 0, ie., avec une probabilité strictement positive, il existe
un chemin de x à y en un nombre fini d’étape.

Démonstration : On suppose que la chaı̂ne part de x ̸= y.

1)⇐⇒2). Comme {N (y) ≥ 1} = {Tey < +∞}, on a Px (N (y) ≥ 1) = ρx,y . La condition
ρx,y > 0 est alors équivalente à avoir N (y) ≥ 1 avec probabilité Px positive donc à
G(x, y) = Ex [N (y)] > 0.
2)⇐⇒3) suit immédiatement de G(x, y) = n≥0 P n (x, y) = n≥1 P n (x, y) (n ̸= 0 car
P P
x ̸= y et P 0 (x, y) = δx,y = 0). □

La relation ⇝ est transitive :

Proposition 6.19 Si x ⇝ y et y ⇝ z alors x ⇝ z.
Démonstration : En effet, pour aller de x à z on peut en particulier aller de x à y et de
y à z : plus précisement, on a
ρx,z = Px (Tz < +∞)

≥ Px Ty < +∞, Tz ◦ ΘTy < +∞

= Ex 1{Ty <+∞} 1{Tz ◦ΘTy <+∞} = Ex 1{Ty <+∞} Ex 1{Tz ◦ΘTy <+∞} |FTy

= Ex 1{Ty <+∞} EXTy [1{Tz <+∞} ] = Ex 1{Ty <+∞} Ey 1{Tz <+∞}
= Px (Ty < +∞) Py (Tz < +∞) = ρx,y ρy,z > 0,
due à la propriété de Markov forte (5.38) sous la forme du Corollaire 5.38.
Autre façon de faire, x ⇝ y et y ⇝ z impliquent P n (x, y) > 0 et P m (y, z) > 0 pour des
entiers n, m ≥ 1. En utilisant la relation de Chapman-Kolmogorov (5.12), on a x ⇝ z
car X
P n+m (x, z) = P n (x, w)P m (w, z) ≥ P n (x, y)P m (y, z) > 0.
w∈E
Chapitre 6. ©JCB – M1math – Université de Rennes 127

Théorème 6.20 Soit x ∈ ER et y ∈ E tel que x ⇝ y (ie. G(x, y) > 0). Alors y ∈ ER
et ρy,x = Py (Tex < +∞) = 1. En particulier, y ⇝ x (ie. G(y, x) > 0) et on a même
ρx,y = 1.
Démonstration : Pour y = x, l’énoncé est immédiat (ρx,x = 1 car x ∈ ER ). On suppose
donc y ̸= x et on dispose de la Proposition 6.18.
On commence par montrer que Py (Tex < +∞) = 1. Lorsque Tey < +∞ et Tex ◦ ΘTey = +∞,
on a nécessairement N (x) ≤ Tey (puisque après Tey , il n’y a plus de visite en x), on a donc

Tey < +∞ et Tex ◦ ΘTey = +∞ ⊂ {N (x) < +∞}.
Comme x est récurrent, on a

0 = Px (N (x) < +∞) ≥ Px Tey < +∞ et Tex ◦ ΘTey = +∞

= Ex 1{Tey <+∞} (1{Tex =+∞} ◦ ΘTey ) = Ex 1{Tey <+∞} Ex (1{Tex =+∞} ◦ ΘTey )|FTey

= Ex 1{Tey <+∞} EXTey [1{Tex =+∞} ] = Ex 1{Tey <+∞} Ey 1{Tex =+∞}
(propriété de Markov forte (5.38) sous la forme du Corollaire 5.38)

= Px Tey < +∞ Py Tex = +∞ .

Comme x ⇝ y, on a ρx,y = Px Tey < +∞ > 0, et cela exige Py Tex = +∞ = 0 et donc

ρy,x = Py Tex < +∞ = 1, c’est à dire y ⇝ x.
On termine en montrant que y ∈ ER . Comme par définition (Déf. 6.7) du potentiel G :
X X
G(x, y) = P k (x, y) > 0, G(y, x) = P k (y, x) > 0,
k≥0 k≥0

on peut trouver des entiers n1 , n2 ≥ 1 tels que

P n1 (x, y) > 0, P n2 (y, x) > 0. (6.26)
Pour tout entier k ≥ 0, on a alors
P n1 +k+n2 (y, y) ≥ P n2 (y, x)P k (x, x)P n1 (x, y)
et donc
+∞ +∞
!
X X
G(y, y) ≥ P n1 +k+n2 (y, y) ≥ P n2 (y, x) P k (x, x) P n1 (x, y) = +∞
k=0 k=0
P+∞
puisque k=0 P k (x, x) = G(x, x) = +∞ et n1 , n2 satisfont (6.26). On a donc y ∈ ER .
Pour terminer, on obtient ρx,y en échangeant les rôles de x et y puisqu’on sait que y ∈ ER
et y ⇝ x. □
Chapitre 6. ©JCB – M1math – Université de Rennes 128

Remarque 6.21 (x ∈ ER ̸⇝ y ∈ ET ) Si x ∈ ER et y ∈ ET alors nécessairement par

le Théorème 6.20 on a G(x, y) = 0 : un état récurrent ne peut pas mener à un état
transitoire !

Le résultat suivant précise le Théorème 6.20.

Théorème 6.22 Soit x un état récurrent positif (resp. nul). Si x ⇝ y alors y est récurrent
positif (resp. nul).

Démonstration : Soit x ∈ ER ⇝ y. D’après le Théorème 6.20, on sait déjà que y ∈ ER

et y ⇝ x.
D’abord, on suppose que x est récurrent positif. Il existe donc des entiers n1 , n2 ≥ 1 tels
que
P n1 (x, y) > 0, P n2 (y, x) > 0. (6.27)
On a alors
P n1 +k+n2 (y, y) ≥ P n2 (y, x)P k (x, x)P n1 (x, y),
puis en sommant sur k = 0, 2, . . . , n, et en divisant par n, on obtient
n1 +n
X 2 +n n
X
j
Gn1 +n+n2 (y, y) − Gn1 +n2 −1 (y, y) = P (y, y) = P n1 +k+n2 (y, y)
j=n1 +n2 k=0
n n
!
X X
≥ P n2 (y, x)P k (x, x)P n1 (x, y) = P n2 (y, x) P k (x, x) P n1 (x, y)
k=0 k=0
= P n1 (y, x)P n2 (x, y)Gn (x, x). (6.28)

Par le Théorème 6.15, quand n → +∞,

Gn1 +n+n2 (y, y) Gn1 +n2 (y, y) 1

lim − =
n→+∞ n n my
Gn (x, x) P n2 (y, x)P n1 (x, y)
lim P n2 (y, x)P n1 (x, y) = ,
n→+∞ n mx
et donc par (6.28)
1 P n2 (y, x)P n1 (x, y)
≥ > 0,
my mx
car mx < +∞ (x récurrent positif) et par choix de n1 , n2 en (6.27), ce qui exige my <
+∞, c’est à dire y est récurrent positif.
Ensuite, dans le cas où x est récurrent nul, nécessairement y doit l’être aussi car si y
était récurrent positif, comme y ⇝ x (Th. 6.20), la première partie exigerait x récurrent
positif, ce qui n’est pas le cas. □
Chapitre 6. ©JCB – M1math – Université de Rennes 129

Ensemble clos
Définition 6.23 (Ensemble clos) Un ensemble d’états C ⊂ E est dit clos si aucun état
de C ne peut mener à l’extérieur de C, ie. ρx,y = 0, ∀x ∈ C, y ̸∈ C ou encore pour tout
n ≥ 1, x ∈ C, y ̸∈ C, P n (x, y) = 0.

Exemple 6.24 Un état absorbant (Déf. 5.12) est un cas (très) particulier d’ensemble clos.

En fait, par récurrence on montre qu’il suffit de voir la propriété de la Définition 6.23
pour n = 1 :

Proposition 6.25 Si pour tout x ∈ C et y ̸∈ C on a P (x, y) = 0, alors l’ensemble C est

clos.

Démonstration : On montre par récurrence que P n (x, y) = 0 pour tout x ∈ C, y ̸∈ C et

n ≥ 1 dès que c’est vrai pour n = 1. Si c’est le cas pour P n−1 alors
X X
P n (x, y) = P (x, z)P n−1 (z, y) = P (x, z)P n−1 (z, y) = 0
z∈E z∈C

par la relation de Chapman-Kolmogorov (5.12) pour la première égalité, l’hypothèse sur

x ∈ C dans la deuxième et par hypothèse de récurrence sur P n pour la troisième. □

Irréductibilité
Définition 6.26 (Irréductibilité) Un ensemble C clos est dit irréductible si pour tout
x, y ∈ C alors x peut mener à y (et y à x). Une chaı̂ne est dite irréductible si l’espace
d’états E entier l’est.

Remarque 6.27 D’après la Proposition 6.18, la Définition 6.26 est équivalente à

— pour tout x, y ∈ C, on a G(x, y) > 0 ;
— pour tout x, y ∈ C, il existe n = n(x, y) ≥ 1 tel que P n (x, y) > 0 ;
— pour tout x, y ∈ C, il existe n = n(x, y) ≥ 1 et x0 = x, x1 . . . , xn = y tels que
P (xi , xi+1 ) > 0 pour tout 0 ≤ i ≤ n − 1.

Proposition 6.28 Dans un ensemble clos irréductible, tous les états sont de même na-
ture : tous transitoires ou tous récurrents positifs ou tous récurrents nuls.

Démonstration : S’il existe x ∈ C récurrent positif (resp. récurrent nul) alors par le
Théorème 6.22, tous les autres états de C sont récurrents positifs (resp. récurrents nuls).
Sinon c’est que tous les états de C sont transitoires. □

En fait, on a :

Théorème 6.29 Soit (Xn )n≥0 une chaı̂ne de Markov.

(1) Soit C un ensemble clos irréductible d’états récurrents. Alors pour tout x, y ∈ C
on a ρx,y = 1, Px (N (y) = +∞) = 1 et G(x, y) = +∞.
(2) Soit C un ensemble fini d’états, clos irréductible. Alors tous les états de C sont
récurrents positifs.
(3) En particulier, une chaı̂ne irréductible sur un espace d’états fini est nécéssairement
récurrente positive.

Démonstration : 1) vient des Propositions 6.4 et 6.5 et du Théorème 6.8.

2) D’abord, un ensemble C fini et clos a au moins un état récurrent. En effet, de la même

façon que dans la Remarque 6.13, comme la chaı̂ne ne quitte pas C, si tous les états
étaient transitoires alors on aurait en partant de x ∈ C :
X X
0= lim P n (x, y) = lim P n (x, y) = lim Px (Xn ∈ C) = 1.
n→+∞ n→+∞ n→+∞
y∈C y∈C

Cela exige donc que l’ensemble C contienne au moins un état récurrent.

Puis, il y a même nécessairement un état récurrent positif dans C : si la chaı̂ne part de
C, on a
X X Nn (y)
n= Nn (y) et 1 =
y∈C y∈C
n

et pour tout x ∈ C :
" # X
X Nn (y) X Nn (y) Gn (x, y)
1 = Ex = Ex = .
y∈C
n y∈C
n y∈C
n

Comme C est fini :

X Gn (x, y) X Gn (x, y) X ρx,y
1 = lim = lim = .
n→+∞
y∈C
n y∈C
n→+∞ n y∈C
my

Il existe donc y ∈ C avec my < +∞, c’est à dire y ∈ C est récurrent positif. Puis comme
y mène à tout x ∈ C (par la Déf. 6.23 de C clos), on a aussi x récurrent positif par le
Théorème 6.22.
3) Appliquer 1) avec C = E. □

Corollaire 6.30 (Irréductibilité, récurrence et transience) Si (Xn )n≥0 est une chaı̂ne
de Markov irréductible partant de x ∈ E, on a l’alternative :
(1) ou bien la chaı̂ne est récurrente : tous les états sont récurrents

Px N (y) = +∞ ∀y ∈ E = 1.
Chapitre 6. ©JCB – M1math – Université de Rennes 131

(2) ou bien la chaı̂ne est transitoire : tous les éléments sont transitoires

Px N (y) < +∞ ∀y ∈ E = 1.

Une chaı̂ne de Markov irréductible est donc soit transitoire soit récurrente positive soit
récurrente nulle.

Démonstration : S’il existe un état x récurrent, le Théorème 6.20 montre que tous les
états sont récurrents puisque par irréductibilité, x mène à tous les états y. De plus,
puisque G(x, y) > 0 pour tout x, y ∈ E, il n’y a qu’une seule classe de récurrence. Le
reste découle du Théorème 6.29. □

Définition 6.31 (Récurrence et irréductibilité) Une chaı̂ne de Markov irréductible dont

tous les états sont récurrents est dite récurrente irréductible.

Exemple 6.32 Classifier les états de la chaı̂ne de Markov sur un espace d’états fini avec
pour matrice stochastique
 
1 0 0 0 0 0
 1 1 1
0 0 0 
 4 2
1
4
2 1

 0
5 5 5
0 15 
P = .
 0
 0 0 16 31 12 

 0 0 0 12 0 12 
0 0 0 14 0 34

1/2 3/4

2 6
1/2
1/4

1/5
1 1 1/5 1/4 1/2 1/4 5
1/3

1/2

On observe que 3 4
1/5
— 1 est absorbant
2/5 1/6
— 2 est transitoire car 2 ⇝ 1,
— 3 est transitoire car 3 ⇝ 2 ⇝ 1,
— {4, 5, 6} forme une classe close irréductible qui est donc récurrente (positive).
On en déduit la classification :

{1, 2, 3, 4, 5, 6} = {1} ∪ {4, 5, 6} ∪ {2, 3}.

6.3 Classes de récurrence

Dans cette section, on précise les ensembles clos récurrents.

Définition 6.33 (Relation d’équivalence ∼) On dit que deux états x et y communiquent

et on note x ∼ y lorsque x ⇝ y et y ⇝ x.

Proposition 6.34 Sur ER la relation ∼ définit bien une relation d’équivalence. De plus
on a :

x ∼ y ⇔ x ⇝ y ⇔ y ⇝ x ⇔ G(x, y) > 0 ⇔ G(y, x) > 0 ⇔ ρx,y > 0 ⇔ ρy,x > 0 (6.29)

et dans ce cas ρx,y = ρy,x = 1.

Démonstration : On définit bien une une relation d’équivalence sur ER puisque

— réflexivité (x ∼ x) car ρx,x = 1 et donc x ⇝ x ;
— symétrie par définition ;
— transitivité par la Proposition 6.19.
De plus d’après le Théorème 6.20 si x ∈ ER ⇝ y alors y ∈ ER et y ⇝ x, prouvant que
x ∼ y est équivalent à x ⇝ y pour des états récurrents. Le reste de (6.29) s’en déduit
facilement, notamment avec la Proposition 6.18. □

On a la partition de l’ensemble des états récurrents ER en classes d’équivalence de la

relation d’équivalence ∼ :
G G G
ER = ERi = ERi ⊔ ERi . (6.30)
i∈I i∈I+ i∈I0

Les ensembles ERi , i ∈ I, sont appelés les classes de récurrence de la chaı̂ne. Une classe
de récurrence est close et irréductible et, d’après le Théorème 6.22, elle est soit récurrente
positive (lorsque i ∈ I + ) soit récurrente nulle (lorsque i ∈ I0 ). Les partitions (6.25) et
(6.30) se combinent en la partition globale de l’espace d’états qu’on appelle classification
des états de la chaı̂ne de Markov
G G
E = ET ⊔ ERi ⊔ E Ri (6.31)
i∈I+ i∈I0

où ET est l’ensemble (a priori non clos, non irréductible) des états transitoires, les classes
ERi sont récurrentes positives pour i ∈ I+ et récurrentes nulles pour i ∈ I0 . Et les classes
de récurrence sont closes irréductibles.
Théorème 6.35 (Classes de récurrence) Les classes de récurrence ERi , i ∈ I, de la par-
tition (6.30) de l’ensemble des états récurrents ER vérifient
(1) Si x ∈ ERi alors Px -ps
— N (y) = +∞ pour tout y ∈ ERi ;
— N (y) = 0 pour tout y ̸∈ ERi .
Chapitre 6. ©JCB – M1math – Université de Rennes 133

(2) Si x ∈ ET et TER = inf n ≥ 0 : Xn ∈ ER alors
— ou bien TER = +∞ et Px -ps : N (y) < +∞ pour tout y ∈ E ;
— ou bien TER < +∞ et Px -ps : ∃j ∈ I (aléatoire) tel que pour tout n ≥ TER on a
Xn ∈ E R j .
Démonstration : 1) Soit x ∈ ERi . On a G(x, y) = 0 pour tout y ∈ E \ ERi . En effet,
— si y ∈ ERj , j ̸= i, la partition garantit que x et y ne communiquent pas et donc
G(x, y) = 0 et N (y) = 0 Px -ps ;
— puis si y ∈ ET , le Théorème 6.20 assure encore G(x, y) = 0. En particulier,
N (y) = 0 Px -ps.
En revanche si y ∈ ERi , on a ρx,y = Px (Tey < +∞) = 1 d’après le Théorème 6.20 et par
la Prop. 6.5, on a Px (N (y) = +∞) = 1.
2) Soit maintenant x ∈ ET . F
— Si TER < +∞ : la chaı̂ne rentre dans ER = j∈I Ej donc dans une des classes ERj
(pour un j aléatoire). D’après la propriété de Markov (5.38) (Théorème 5.37) et
la première partie de l’énoncé, on a Xn ∈ ERj pour tout n ≥ TERj = TER .
— Si TER = +∞, alors N (y) = 0 pour y ∈ ER (puisque TER = +∞) et Px (N (y) <
+∞) = 1 par la Prop. 6.5. □

Avec le Théorème 6.35, on peut préciser le Théorème 6.15 de la façon suivante :

Corollaire 6.36 Soit C un ensemble clos irréductible d’états récurrents. Alors
Gn (x, y) 1
lim = , x, y ∈ C, (6.32)
n→+∞ n my
et si P(X0 ∈ C) = 1 alors avec probabilité 1 :
Nn (y) 1
lim = , y ∈ C. (6.33)
n→+∞ n my
Exemple 6.37 Retour sur l’Exemple 6.2 de l’introduction dont on rappelle le graphe de
transition :
1/2

1/2 1 2

1/2 1/2 1/4 1/2

3 1
1/2 1/4
5 4
1/4

— Les classes de récurrence sont

ER1 = {1, 5}, ER2 = {3} (ie. 3 est absorbant).

— Les états transitoires sont {2, 4} = ET .

En effet

P (1, 5) > 0, P (5, 1) > 0, P (1, 1) > 0, P (5, 5) > 0,

P (1, j) = 0, P (5, j) = 0 ∀j ̸∈ {1, 5}

assurent G(1, 5) > 0, G(5, 1) > 0 et G(1, j) = G(5, j) = 0 ∀j ̸= 1, 5. Puis

P (3, 3) > 0 et P (3, j) = 0 ∀j ̸= 3.

Par ailleurs P1 Te1 < +∞ = 1 car

P1 Te1 = +∞ = P1 (X1 = 5 et Xn = 5 ∀n ≥ 2)
= P (1, 5)P5 (Xn = 5 ∀n ≥ 1)

≤ P (1, 5) lim P5 Xn = 5 ∀n ∈ {1, . . . , N }
N →+∞
1 N
≤ P (1, 5) lim = 0,
N →+∞ 2

ie. P1 Te1 < +∞ = 1 et 1 est donc récurrent.

De la même façon P5 Te5 < +∞ = 1 ie. 5 est récurrent et P3 Te3 < +∞ = 1 = P (3, 3)
donc 3 est récurrent.

L’état {2} est transitoire car P2 Te2 < +∞ < 1, ie. P2 Te2 = +∞ > 0. En effet,
1 1 1
P2 Te2 = +∞ ≥ P2 (X1 = 4 et X2 = 3) = P (2, 4)P (4, 3) = × = .
3 4 12
L’état {4} est transitoire car
1
P4 Te4 = +∞ ≥ P4 (X1 = 3) = > 0.
4
On a alors la décomposition de l’espace d’états

E = 1, 2, 3, 4, 5 = {2, 4} ⊔ {1, 5} ⊔ {3} .
| {z } | {z } |{z}
ET ER1 ER2
| {z }
ER

Exemple 6.38 (Marche aléatoire simple sur Z) On considère Sn = ni=1 Xi avec Xi iid
P
de loi de Rademacher (1 − p)δ−1 + pδ1 . La chaı̂ne (Sn )n≥0 a pour espace d’états Z et
matrice stochastique P (x, y) = (1 − p)1{y=x−1} + p1{y=x+1} .
Chapitre 6. ©JCB – M1math – Université de Rennes 135

p p p p
... x−1 x x+1 ...
q q q q

On a immédiatement l’irréductibilité de la chaı̂ne puisque pour tout x ̸= y : P |x−y| (x, y) =

py−x > 0 (si x < y) ou (1 − p)x−y > 0 (si y < x) et P 2 (x, x) = 2p(1 − p). La nature de
la chaı̂ne est donc déterminée par la nature d’un point quelconque. On détermine celle
de l’état 0 (est-il récurrent ou transitoire ?).
Pour cela, en vertu du Corollaire 6.9, on se ramène à calculer G(0, 0) :
+∞
X +∞
X
G(0, 0) = Pn (0, 0) = P2n (0, 0)
n=0 n=0

car P2n+1 (0, 0) = 0. De plus comme

(4p(1 − p))n

2n n (2n)! n
P2n (0, 0) = p (1 − p)n = p (1 − p)n
∼ √
n (n!)2 πn
√
en utilisant la formule de Stirling n! ∼ (n/e)n 2πn. Ainsi, P+∞
— si p ̸= 1/2, alors (4p(1 − p)) < 1 et G(0, 0) = n=0 P2n (0, 0) < +∞ : 0 est
transitoire (et tous les états le sont !) ; P+∞ √
— si p = 1/2, alors (4p(1 − p)) = 1 et G(0, 0) ∼ n=0 (1/ πn) = +∞ : 0 est
récurrent (et tous les états le sont !).
Pour décider si la chaı̂ne est récurrente positive ou nulle, voir le Chapitre 7 (Exemple 7.5
et Th. 7.25).

6.4 Absorption dans les classes de récurrence

Pour calculer les durées d’absorption dans les classes de récurrence lorsque la chaı̂ne
part de x, on introduit les quantités suivantes :

(temps d’absorption) Si = min n ≥ 0 : Xn ∈ ERi

(probabilité d’absorption) ρi (x) = Ex 1{Si <+∞} = Px (Si < +∞)

(temps moyen d’absorption tronqué) τi (x) = Ex Si 1{Si <+∞}

(temps moyen d’absorption) ti (x) = Ex Si |Si < +∞ .

Si ρi (x) > 0 alors ti (x) est bien défini et on a

Ex Si 1{Si <+∞} τi (x)
ti (x) = Ex Si |Si < +∞ = = . (6.34)
Px (Si < +∞) ρi (x)
Immédiatement, on a :
Chapitre 6. ©JCB – M1math – Université de Rennes 136

— si x ∈ ERi , alors sous Px , Si = 0 et donc ρi (x) = 1 et τi (x) = ti (x) = 0 ;

— si x ∈ ERj pour j ̸= i, alors sous Px , Si = +∞, et donc ρi (x) = 0 et τi (x) = 0.
Le cas restant, intéressant à traiter, est le cas x transitoire. De plus, si x ∈ ET alors a
fortiori x ̸∈ ERi et Si ≥ 1 ; dés lors ρi (x) = 0 implique τi (x) = 0. Ainsi si ρi (x) = 0, on
convient de prendre ti (x) = 0.
Théorème 6.39 (Absorption) Soit x ∈ ET . Pour chaque i ∈ I, les probabilités d’ab-
sorption ρi (x) et le temps moyen d’absorption τi (x), ti (x) sont solutions du système
linéaire :
X
ρi (x) = P (x, y)ρi (y) (6.35)
y∈E
X
τi (x) = ρi (x) + P (x, y)τi (y), (6.36)
y∈E

et lorsque ρi (x) > 0 :

X ρi (y)
ti (x) = 1 + P (x, y) ti (y). (6.37)
y∈E
ρi (x)

Démonstration : Soit x ∈ ET , on a Si ≥ 1 et on peut même écrire sous Px :

Si = inf n ≥ 1 : Xn ∈ ERi

= 1 + inf(k ≥ 0 : Xk+1 ∈ ERi
= 1 + Si ◦ Θ1 .

On utilise la propriété de Markov faible (5.32) en conditionnant par la première transi-

tion. Pour les probabilités d’absorption, on a :

ρi (x) = Px Si < +∞ = Ex 1{Si <+∞}

= Ex 1{1+Si ◦Θ1 <+∞} = Ex 1{Si ◦Θ1 <+∞}

= Ex Ex 1{Si ◦Θ1 <+∞} |F1 = Ex EX1 1{Si <+∞}
(propriété de Markov faible (5.32) à la date p = 1)
X
= Ex ρi (X1 ) = P (x, y)ρi (y),
y∈E

ce qui prouve le système (6.35). Puis pour les temps moyens d’absorption (tronqués), on
a par un raisonnement analogue :

τi (x) = Ex Si 1{Si <+∞} = Ex (1 + Si ◦ Θ1 )1{(1+Si ◦Θ1 )<+∞}

= Ex Ex (1 + Si ◦ Θ1 )1{(1+Si ◦Θ1 )<+∞} |F1

= Ex EX1 (1 + Si )1{Si <+∞}
(propriété de Markov faible (5.32) à la date p = 1)
h i
= Ex EX1 Si 1{Si <+∞} + EX1 1{Si <+∞}
Chapitre 6. ©JCB – M1math – Université de Rennes 137

= Ex τi (X1 ) + Ex ρi (X1 )
X X
= P (x, y)τi (y) + P (x, y)ρi (y)
y∈E y∈E
X
= P (x, y)τi (y) + ρi (x),
y∈E

en utilisant (6.35) déjà prouvée, ce qui prouve le système (6.36). Puis (6.37) découle de
(6.36) avec (6.34) :
τi (x) X τi (y) X ρi (y)
ti (x) = =1+ P (x, y) =1+ P (x, y) ti (y).
ρi (x) y∈E
ρi (x) y∈E
ρi (x)

Exemple 6.40 Retour sur l’Exemple 6.2 avec le calcul des probabilités d’absorption. On
calcule ρi (x) pour i ∈ {1, 5}, {3} et x ∈ {2, 4}.
Comme ρ1 (1) = ρ1 (5) = 1 et ρ1 (3) = 0, on a :
ρ1 (2) = 21 ρ1 (2) + 12 ρ1 (4)

ρ1 (2) = ρ1 (4)
1 1 1 1 ⇐⇒
ρ1 (4) = 4 ρ1 (2) + 4 ρ1 (3) + 4 ρ1 (4) + 4 ρ1 (5) 3ρ1 (4) = ρ1 (2) + 1
1
⇐⇒ ρ1 (2) = ρ1 (4) =
2
Comme ρ2 (1) = ρ2 (5) = 0 et ρ1 (3) = 1, on a :
ρ2 (2) = 21 ρ2 (2) + 12 ρ2 (4)

ρ2 (2) = ρ2 (4)
⇐⇒
ρ2 (4) = 41 ρ2 (2) + 14 ρ2 (3) + 41 ρ2 (4) + 41 ρ2 (5) 3ρ2 (4) = ρ2 (2) + 1
1
⇐⇒ ρ2 (2) = ρ2 (4) =
2
Puis avec le calcul des temps moyens d’absorption : comme τ1 (1) = τ1 (3) = τ1 (5) = 0,
on a :
τ1 (2) = 21 τ1 (2) + 21 τ1 (4) + ρ1 (2)

τ1 (2) = τ1 (4) + 1
⇐⇒
τ1 (4) = 14 τ1 (2) + 41 τ1 (3) + 14 τ1 (4) + 41 τ1 (5) + ρ1 (4) 3τ1 (4) = τ1 (2) + 2
5 3 5 1 3 1
⇐⇒ τ1 (2) = , τ1 (4) = et τ1 (2) = / = 5, τ1 (4) = / = 3
2 2 2 2 2 2
Comme τ2 (1) = τ2 (3) = τ2 (5) = 0, on a :
τ2 (2) = 12 τ2 (2) + 21 τ2 (4) + ρ2 (2)

τ2 (2) = τ2 (4) + 1
1 1 1 1 ⇐⇒
τ2 (4) = 4 τ2 (2) + 4 τ2 (3) + 4 τ2 (4) + 4 τ2 (5) + ρ2 (4) 3τ2 (4) = τ2 (2) + 2
5 3 5 1 3 1
⇐⇒ τ2 (2) = , τ2 (4) = et τ2 (2) = / = 5, τ2 (4) = / = 3
2 2 2 2 2 2
Chapitre 7

Invariance et équilibre

Dans ce chapitre, on étudie les mesures qui sont invariantes pour une chaı̂ne de
Markov. On fait le lien entre ces mesures, les états récurrents (positifs) et leur temps de
retour. On étudie le comportement en temps long des chaı̂nes de Markov et la convergence
vers un régime d’équilibre, en lien avec le théorème ergodique.
Génériquement, on considère dans ce chapitre une chaı̂ne de Markov (Xn )n≥0 sur un es-
pace d’états au plus dénombrable E et avec une matrice stochastique P = (P (x, y))x,y∈E .

7.1 Mesures invariantes

Invariance
Définition 7.1 (Mesure invariante) Soit π une mesure (positive) sur E telle que π(x) <
+∞ pour tout x ∈ E et π ̸= 0. On dit que π est invariante (ou stationnaire) pour le
noyau de transition P si π est solution de l’équation de Chapman-Kolmogorov :
X
π = π P ⇐⇒ ∀y ∈ E, on a π(y) = π(x)P (x, y). (7.1)
x∈E

Par une récurrence immédiate de l’équation de Chapman-Kolmogorov (7.1), on a π =

π P n pour tout n ≥ 0. Dans le cas d’une probabilité, on a l’équivalence suivante pour
l’invariance :
Proposition 7.2 Soit (Xn )n≥0 une chaı̂ne de Markov. La loi de Xn est indépendante de
n si et seulement si la distribution initiale µ0 est une probabilité invariante π.
Démonstration : Pour le sens direct, comme µn = µ0 P n , si la loi µn de Xn ne dépend pas
de n alors en particulier µ1 = µ0 donne µ0 = µ0 P et µ0 vérifie l’équation de Chapman-
Kolmogorov (7.1). Le sens réciproque est immédiat par (7.1) puisque si µ0 = π, on a
µn = πP n = (πP )P n−1 = πP n−1 = · · · = π.
□

Remarque 7.3 (Probabilité et mesure invariantes) Attention, quand E est infini, il se

peut qu’il existe une mesure invariante π mais pas de probabilité invariante, cf. l’exemple
de la marche aléatoire simple qui suit. Dans ce cas, π est de poids π(E) = +∞ et n’est
pas normalisable en une probabilité.

Exemple 7.4 (Mesures invariantes de la chaı̂ne à deux états) Pour la chaı̂ne de Mar-
1−p p
kov à deux états de l’Exemple 5.1 avec la matrice P = , on a vu
q 1−q
que les mesures invariantes sont proportionnelles à (q, p) et il y a une seule probabilité
invariante donnée par :
q p
π= , .
p+q p+q

Exemple 7.5 (Marche aléatoire symétrique sur Z) La mesure uniforme est l’unique me-
sure invariante pour la marche aléatoire simple sur Z mais il n’existe pas de probabilité
invariante.
Supposons que π est invariante pour la marche aléatoire simple sur Z. Alors pour tout
n ∈ Z, on a :
X 1 1
π(n) = P (k, n)π(k) = π(n − 1) + π(n + 1).
k∈Z
2 2
D’où
π(n + 1) − π(n) = π(n) − π(n − 1) = π(1) − π(0) := α.
On déduit alors π(n) = π(0) + nα pour tout n ∈ Z. Si α ̸= 0, c’est absurde pour n
grand ou −n grand car π(n) devient négatif. Cela exige α = 0 et π(1) = π(0) = π(n)
pour tout n ∈ Z, ie. π est une mesure uniforme. Réciproquement, la mesure uniforme
est bien solution de π = πP donc invariante. À facteur multiplicatif près, il s’agit donc
de l’unique mesure invariante de cette chaı̂ne. De plus, il est impossible de normaliser la
mesure uniforme sur Z en une mesure de probabilité : il n’existe donc pas de probabilité
invariante pour la marche aléatoire simple symétrique.

Exemple 7.6 On considère une chaı̂ne de Markov sur E = {0, 1, 2} de matrice stochas-
tique  
1/3 1/3 1/3
 1/4 1/2 1/4  .
1/6 1/3 1/2
Le graphe de transitions est :
Chapitre 7. ©JCB – M1math – Université de Rennes 140

1/3

0
1/4 1/3
1/3 1/6
1/4
1/2 1 2 1/2

1/3

Une probabilité invariante π est solution du système π = πP :

 1
π(0) + 14 π(1) + 16 π(2) = π(0)
 31


3
π(0) + 12 π(1) + 13 π(2) = π(1)
1
π(0) + 14 π(1) + 12 π(2) = π(2)
 3


π(0) + π(1) + π(2) = 1

où la dernière équation est donnée par le fait que π est une probabilité. On en déduit
facilement
6 2 9
π(0) = , π(1) = , π(2) = .
25 5 25
On s’assure facilement que cette probabilité π est bien solution de (7.1), on a donc
existence et unicité de la probabilité invariante.

De façon, générale, la recherche de mesure invariante π consiste à résoudre l’équation de

Chapman-Kolmogorov (7.1) π = πP , c’est à dire un système linéaire de taille card(E)
(possiblement infini). Même si E est fini, le système peut être de grande taille et difficile
à résoudre !

Exemple 7.7 (Matrice bistochastique) Une matrice est dite bistochastique lorsque P t
est stochastique, ie. en plus de ses lignes, la somme de chacune de ses colonnes fait 1.
Pour une telle matrice P , on observe que

(1, 1, . . . )P = (1, 1, . . . )

ie. (1, 1, . . . ) est vecteur propre à gauche de P pour la valeur propre 1. Comme ce vecteur
correspond à la mesure uniforme sur E, cela signifie que la mesure uniforme est invariante
pour une matrice bistochastique.
De plus, si E est fini de cardinal d alors on peut normaliser le vecteur (1, 1, . . . ) en
(1/d, . . . , 1/d) et dans ce cas, la probabilité uniforme sur E est invariante pour P bisto-
chastique.

Proposition 7.8 L’ensemble des mesures invariantes d’un noyau de transition est fermé
et stable par combinaison linéaire à coefficients positifs. L’ensemble des probabilités in-
variantes est convexe, fermé et, si E est fini, il s’agit d’un compact.
Chapitre 7. ©JCB – M1math – Université de Rennes 141

Démonstration : La linéarité et la fermeture suivent facilement de l’équation de Chapman-

Kolmogorov (7.1) (linéaire et fermée). Si E est fini, l’ensemble des probabilités invariantes
s’identifie à la partie de Rd+

(µ1 , . . . , µd ) ∈ Rd+ : µ1 + · · · + µd = 1 .

(7.2)

Comme en dimension finie, la compacité est équivalente à être fermé et borné, l’ensemble
(7.2) est clairement compact. Dès lors, la condition (7.1) définissant les mesures inva-
riantes étant fermée, la compacité de l’ensemble des mesures invariantes suit. □

Il n’existe pas toujours de mesure invariante pour une chaı̂ne de Markov comme on le
voit dans les exemples suivants :
Exemple 7.9 (Chaı̂ne de Markov sans mesure invariante) Soit (Xn )n≥0 une chaı̂ne de
Markov sur E = N avec P (i, i + 1) = 1 pour tout i ≥ 0.

1 1 ... 1 1 ...
0 1 x x+1

Si π est une mesure vérifiant l’équation de Chapman-Kolmogorov (7.1) π = πP , alors

on doit avoir
X
π(i) = π(j)P (j, i) = π(i − 1), i ≥ 1,
j∈N
X
et π(0) = π(j)P (j, 0) = 0 car P (j, 0) = 0 pour tout j ∈ N.
j∈N

Il vient π = 0 et il n’existe pas de mesure invariante !

L’exemple suivant généralise l’Exemple 7.9 à une chaı̂ne de Markov irréductible sans
mesure invariante :
Exemple 7.10 (Chaı̂nes de Markov irréductible sans mesure P invariante) Soit (pi )i≥0 telle
que p0 = 1, pi > 0 et qi := 1 − pi > 0 pour tout i ≥ 1 avec i≥1 qi < +∞ (par exemple
pi = 1 − 1/(2i2 )). On considère la chaı̂ne de Markov (Xn )n≥0 sur E = N avec le noyau
de transition : P (0, 1) = p0 = 1 et

P (i, i + 1) = pi , P (i, 0) = qi , ∀i ≥ 1.

Il s’agit d’une chaı̂ne de Markov irréductible puisque pour tout i, j ∈ N, le chemin

i −→ 0 −→ 1 −→ 2 −→ . . . −→ j − 1 −→ j est possible lorsque pi ̸= 1 pour tout i ∈ N.
Pour une mesure π invariante, l’équation de Chapman-Kolmogorov (7.1) se réduit à
X
π(0) = qi π(i), π(i) = pi−1 π(i − 1), ∀i ≥ 1. (7.3)
i≥1

Une récurrence immédiate assure

i−1
Y
π(i) = π(0) pj (7.4)
j=0

ce qui, reinjectée dans (7.3), donne

X Y i−1 i−1
XY i
Y n
Y
π(0) = π(0) qi pj = π(0) pj − pj = π(0) 1 − lim pj .
n→+∞
i≥1 j=0 i≥1 j=0 j=0 j=0
P Q
Comme j≥1 qj < +∞ implique j≥1 pj > 0, on doit avoir π(0) = 0 (sinon on aurait
π(0) < π(0)) et donc par (7.4), il suit π = 0 et il n’y a pas de mesure invariante pour
cette chaı̂ne.

Réversibilité
Définition 7.11 (Réversibilité) Une mesure π (positive) non nulle sur E telle que π(x) <
+∞ pour tout x ∈ E est dite réversible pour le noyau P si pour tout x, y ∈ E :

π(x)P (x, y) = π(y)P (y, x). (7.5)

Par une récurrence simple, la définition (7.5) est équivalente à avoir pour toute suite
x0 , . . . , x n ∈ E :

π(x0 )P (x0 , x1 ) · · · P (xn−1 , xn ) = π(xn )P (xn , xn−1 ) · · · P (x1 , x0 ). (7.6)

On en déduit immédiatement un résultat qui éclaire la terminologie dans le cas d’une

mesure de probabilité :
Proposition 7.12 (Réversibilité) Une probabilité π est réversible pour un noyau P si et
seulement si pour toute chaı̂ne de Markov (Xn )n≥0 de noyau P et de loi initiale π et
tout entier n ≥ 0, on a

Lπ (X0 , X1 , . . . , Xn ) = Lπ (Xn , Xn−1 , . . . , X0 ).

Démonstration : Pour le sens direct, cela vient de (7.6) puisque pour tout x0 , . . . , xn ∈ E,
on a

Pπ X0 = x0 , X1 = x1 , . . . Xn = xn ) = π(x0 )P (x0 , x1 ) · · · P (xn−1 , xn )

Pπ Xn = x0 , Xn−1 = x1 , . . . X0 = xn ) = Pπ X0 = xn , X1 = xn−1 , . . . Xn = x0 )
= π(xn )P (xn , xn−1 ) · · · P (x1 , x0 ).
Pour le sens indirect, L(X0 , X1 ) = L(X1 , X0 ) donne pour tout x0 , x1 ∈ E :
Pπ X0 = x0 , X1 = x1 ) = Pπ X1 = x0 , X0 = x1 ) = Pπ X0 = x1 , X1 = x0 ),
soit π(x0 )P (x0 , x1 ) = π(x1 )P (x1 , x0 ). □

Proposition 7.13 (Réversibilité et invariance) Une mesure réversible pour un noyau mar-
kovien est invariante pour ce noyau.
Démonstration : On vérifie immédiatement l’équation de Chapman-Kolmogorov (7.1)
en utilisant la réversibilité (7.5) : pour une mesure π réversible, on a
X X X
(πP )(y) = π(x)P (x, y) = π(y)P (y, x) = π(y) P (y, x) = π(y),
x∈E x∈E x∈E

ie. π est invariante. □

Exemple 7.14 (Mesures réversibles)

(1) Marche aléatoire sur Z avec P (i, i + 1) = p, P (i, i − 1) = q = 1 − p avec p ∈]0, 1[
i
(cf. Exemple 6.38). La mesure définie par π(i) = pq , i ∈ Z, est réversible :
i
p pi+1 pi+1
π(i)P (i, i + 1) = p = i = i+1 q = π(i + 1)P (i + 1, i)
q q q
puis comme P (i, j) = 0 lorsque |i − j| > 1 alors π(i)P (i, j) = 0 = π(j)P (j, i).
(2) Marche aléatoire sur un graphe de degré fini. La mesure définie par π(x) = card(Ax )
est réversible : si P (x, y) > 0 et P (y, x) > 0
1 1
π(x)P (x, y) = card(Ax ) = card(Ay ) = π(y)P (y, x).
card(Ax ) card(Ay )
(3) Urne d’Ehrenfest sur {0, . . . , d}. Il s’agit de la chaı̂ne de matrice stochastique
j
P (j, j + 1) = 1 − , 0 ≤ j ≤ d,
d
j
P (j, j − 1) = , 0 ≤ j ≤ d.
d
Alors une mesure π est réversible si et seulement si
j j + 1
π(j) 1 − = π(j + 1) ∀j ∈ {0, . . . , d − 1}.
d d
On vérifie sans peine que π(j) = dj , 0 ≤ j ≤ d, convient. Comme dj=0 dj =
P

(1 + 1)d = 2d , alors π(j) = dj /2d , 0 ≤ j ≤ d, définit une probabilité invariante, c’est

à dire π = B(d, 1/2).

Remarque 7.15 Pour trouver des mesures invariantes, il faut résoudre le système linéaire
donné par l’équation de Chapman-Kolmogorov (7.1). En pratique, ce système peut être
compliqué à résoudre (il est même infini si E l’est). Dans ce cas, il est intéressant de
rechercher mieux en cherchant des mesures réversibles car l’équation (7.5) est en pratique
plus simple à résoudre. On est alors assuré par la Proposition 7.13 qu’une solution serait
aussi invariante.

7.2 Invariance et récurrence

Dans cette section, on discute de l’existence et de l’unicité de mesures ou probabilités
invariantes pour des chaı̂nes de Markov. On voit en particulier que les mesures invariantes
sont liées aux états récurrents (positifs).
Ci-dessous, les échanges de limites et de sommes sont justifiés par le résultat d’interver-
sion suivant dû au théorème de convergence dominée :
Lemme 7.16 (Convergence dominée) Soit (a(x))x∈E ∈ RE une suite de réels positifs de
somme finie et (bn (x))x∈E , n ≥ 1, telle que, pour tout x ∈ E, |bn (x)| ≤ 1, n ≥ 1 et
limn→+∞ bn (x) = b(x). Alors on a
X X
lim a(x)bn (x) = a(x)b(x).
n→+∞
x∈E x∈E

On commence par préciser le support d’une mesure ou probabilité invariante :

Proposition 7.17 (Support d’une mesure invariante) Soit π une mesure invariante d’une
chaı̂ne de Markov.
(1) Si π(x) > 0 alors on a aussi π(y) > 0 pour tout y tel que x ⇝ y.
(2) Si la chaı̂ne est irréductible, le support de π est E.
(3) Si en plus π est une probabilité (invariante) alors π(x) = 0 pour tout x transitoire
ou récurrent nul, π ne charge que les états récurrents positifs et son support est une
union de classes de récurrence positives (closes, irréductibles).
Démonstration : 1) Soit x ∈ E tel que π(x) > 0 et x ⇝ y. Il existe n ≥ 1 tel que
P n (x, y) > 0. L’équation de Chapman-Kolmogorov (7.1) π = πP n pour ce n donne alors
X
π(y) = π(z)P n (z, y) ≥ π(x)P n (x, y) > 0.
z∈E

2) Comme π ̸= 0, il existe x ∈ E tel que π(x) > 0 et comme par irréductibilité, x mène
à tout y, on a aussi π(y) > 0 pour tout y ∈ E.
3) On supposeque π est une probabilité invariante. Si x est transitoire ou récurrent nul
alors mx = Ex Tex = +∞ et la Proposition 6.15 donne pour tout z ∈ E :

Comme par invariance de π, on a pour k ≥ 1 : πP k = π, ie.

X
π(x) = π(z)P k (z, x),
z∈E

en sommant sur k = 0, . . . , n et en divisant par n + 1, on obtient

X Gn (z, x)
π(x) = π(z) .
z∈E
n+1

Comme π est une probabilité, le Lemme 7.16 s’applique et il permet de passer à la limite
avec (7.7) pour obtenir lorsque x est transitoire ou récurrent nul :
!
X Gn (z, x) X Gn (z, x)
π(x) = lim π(z) = π(z) lim = 0.
n→+∞
z∈E
n + 1 z∈E
n→+∞ n + 1

La probabilité π ne charge que des états récurrents positifs et comme d’après le 1), son
support contient les classes de récurrence de ses éléments, le support est donc exactement
une union de classes de récurrence positive. □

Remarque
P 7.18 — L’utilisation du Lemme 7.16 dans la preuve précédente exige que
x∈E π(x) < +∞ et, à normalisation près, que π soit une probabilité. Le 3)
dans la Prop. 7.17 ne concerne donc que les probabilités invariantes (ou mesures
invariantes finies mais pas les mesures invariantes de poids infinis !).
— Par conséquent, une chaı̂ne qui n’a pas d’états récurrents positifs n’a pas de
probabilité invariante (une probabilité ne peut pas être concentrée sur des points
qu’elle ne charge pas !).

Proposition 7.19 (Invariance et transience/récurrence nulle) Pour une chaı̂ne de Mar-

kov transitoire ou récurrente nulle, une mesure invariante est de poids infini. En parti-
culier, l’espace d’états doit être infini et il n’y a pas de probabilité invariante.

Démonstration : Si π est une mesure invariante de poids π(E) < +∞, alors π e = π/π(E)
serait une probabilité. D’après 3) dans la Prop. 7.17, π
e ne charge pas les états transi-
toires ou récurrents nuls, ce qui est absurde puisqu’il n’y a que de tels états. On doit
donc avoir π(E) = +∞. Le reste en découle facilement. □

Exemple 7.20 (Mesure invariante d’une chaı̂ne transitoire) On reprend l’exemple de la

marche aléatoire simple sur Z avec P (i, i + 1) = p, P (i, i − 1) = q = 1 − p avec p ∈]0, 1[.
D’après l’Exemple 6.38, la marche est transitoire si p ̸= 1/2. D’après l’Exemple 7.14, la
i
mesure donnée par π(i) = pq , i ∈ Z, est invariante (car réversible) :
Chapitre 7. ©JCB – M1math – Université de Rennes 146

On montre maintenant qu’on peut associer une mesure invariante à tout état x récurrent
en calculant pour chaque état y le nombre moyen de visite de cet état dans l’excursion
de la chaı̂ne entre deux visites de x. Il s’agit d’une construction trajectorielle de mesures
invariantes. On rappelle que Tex = inf(n > 0 : Xn = x) (date de premier retour en x sous
Px ) et on pose pour y ∈ E :

x −1
TeX
νx (y) = Ex 1{Xk =y} (7.8)
k=0
Tex
X
= Ex 1{Xk =y} . (7.9)
k=1

L’égalité entre (7.9) et (7.8) vient de ce que sous Px , on a X0 = XTex = x. À titre

d’exemple, lorsque x est absorbant, on a νx = δx . Pour étudier la mesure νx , on utilise
le lemme technique suivant :

Lemme 7.21 Pour tout p ≥ 0, et x, y ∈ E, on a :

   
(p+1)∧(Tex −1) p∧(Tex −1)
X X X
Ex  1{Xk =y}  = Ex  1{Xk =z}  P (z, y) + Px Tex > p + 1 δx,y .
k=0 z∈E k=0
(7.10)

Démonstration : D’abord, on observe que

(p+1)∧(Tex −1) (p+1)∧Tex

X X
1{Xk =y} − 1{Xk =y} = 1{X0 =y} − 1{XTex =y} 1{Tex ≤p+1}
k=0 k=1

0 si y ̸= x
=
1 − 1{Tex ≤p+1} = 1{Tex >p+1} si y = x.

On a alors
   
(p+1)∧(Tex −1) (p+1)∧Tex
X X
Ex  1{Xk =y}  = Ex  1{Xk =y} + 1{Tex >p+1} δx,y 
k=0 k=1
 
p∧(Tex −1)
X
= Ex  1{Xk+1 =y}  + Px (Tex > p + 1) δx,y . (7.11)
k=0

Par la propriété de Markov faible (5.32) :

 
p∧(Tex −1) p h i
X XX
Ex  1{Xk+1 =y} =
 Ex 1{Xk =z} 1{Tex −1≥k} 1{Xk+1 =y}
k=0 z∈E k=0
Chapitre 7. ©JCB – M1math – Université de Rennes 147

p h i
XX
= Ex 1{Xk =z} 1{Tex −1≥k} Ex [1{Xk+1 =y} |Fk ]
z∈E k=0 | {z }
Fk -mesurable
p h i
XX
= Ex 1{Xk =z} 1{Tex −1≥k} EXk [1{X1 =y} ]
z∈E k=0
| {z }
Ez [1{X1 =y} ]=P (z,y)
p h i
XX
= Ex 1{Xk =z} 1{Tex −1≥k} P (z, y)
z∈E k=0
 
p∧(Tex −1)
X X
= Ex  1{Xk =z}  P (z, y). (7.12)
z∈E k=0

Les égalités (7.11) et (7.12) concluent à (7.10). □

Proposition 7.22 (Mesure invariante d’un état récurrent) On considère une chaı̂ne de
Markov (Xn )n≥0 et x un état récurrent de la chaı̂ne (s’il y en a !).
(1) La mesure νx est invariante et νx (x) = 1.
(2) La mesure νx a pour support la classe de récurrence de x : νx (y) > 0 si et seulement
si y appartient à la même classe de récurrence que x.
Démonstration : D’abord puisque sous Px , X0 = x et Xk ̸= x pour 1 ≤ k ≤ Tex − 1, on a
PTex −1
k=0 1{Xk =x} = 1 et donc νx (x) = 1 par la définition (7.8). Ensuite, si y n’est pas dans
la classe de récurrence de x, alors x et y ne communiquent pas et G(x, y) = 0, d’où il
vient :
" +∞ #
X x −1
TeX

0 = G(x, y) = Ex Ny = Ex 1{Xk =y} ≥ Ex 1{Xk =y} = νx (y)
k=0 k=0

et donc nécessairement νx (y) = 0. À ce stade, le support de νx est inclus dans la classe

de récurrence de x. Lorsque l’invariance de νx sera établie, le 1) de la Prop. 7.17 donnera
que le support de νx est exactement la classe de récurrence de x.
L’équation de Chapman-Kolmogorov (7.1) pour νx (νx = νx P ) découle de (7.10) dans le
Lemme 7.21 en passant à la imite p → +∞ par convergence monotone, en notant que
comme x est récurrent, on a Px (Tex < +∞) = 1 et donc Px (Tex > p + 1) −−−−→ 0.
p→+∞

On achève de montrer que νx est une mesure invariante en montrant que νx (y) < +∞
pour tout y ∈ E :
— si y n’est pas dans la classe de x alors on a vu que νx (y) = 0 ;
— si y ∼ x alors il existe m ≥ 1 tel que P m (y, x) > 0 et en itérant pour ce m la
relation νx = νx P obtenue précédemment, on a νx = νx P m et
X
νx (x) = νx (z)P m (z, x) ≥ νx (y)P m (y, x);
z∈E
Chapitre 7. ©JCB – M1math – Université de Rennes 148

comme νx (x) = 1 et P m (y, x) > 0, cela exige νx (y) < +∞.

Finalement, νx (y) < +∞ pour tout y ∈ E et νx est bien invariante (Définition 7.1). □

Pour relier les mesures invariantes aux mesures νx , on commence par :

Proposition 7.23 Soit (Xn )n≥0 une chaı̂ne de Markov admettant un état récurrent x.
Si π est une mesure invariante alors pour tout y ∈ E, on a π(y) ≥ π(x)νx (y) où
νx est associée en (7.8) à l’état récurrent x. De plus si y ⇝ x, alors il y a égalité :
π(y) = π(x)νx (y)
Démonstration : À l’aide du Lemme 7.21, on commence par montrer par récurrence que
pour tout entier p ≥ 0, et tout état y ∈ E, on a
 
p∧(Tex −1)
X
π(y) ≥ π(x) Ex  1{Xk =y}  . (7.13)
k=0

D’abord, l’inégalité (7.13) est facilement vérifiée si y = x ou p = 0 :

Pp∧(Te −1)
— si y = x alors k=0 x 1{Xk =x} = 1 (terme d’indice 0) et l’inégalité (7.13) se
réduit à π(x) ≥ π(x) × 1 (qui est vraie) ;
Pp∧(Tex −1)
— si p = 0 alors k=0 1{Xk =y} = 1{X0 =y} et l’espérance dans (7.13) vaut
Px (X0 = y) = δx,y (7.13) se réduit à π(y) ≥ π(x)δx,y (qui est vraie).
Pour le cas général (y ̸= x et p ≥ 1), on procède par récurrence sur p et on suppose que
(7.13) est vraie pour un entier p fini et y ∈ E. Par le Lemme 7.21, on a
   
(p+1)∧(Tex −1) p∧(Tex −1)
X X X
π(x) Ex  1{Xk =y}  = π(x)Ex  1{Xk =z}  P (z, y)
k=0 z∈E k=0
X
≤ π(z)P (z, y) = π(y)
z∈E

par hypothèse de récurrence (7.13) et invariance de π.

En faisant p → +∞ par convergence monotone dans (7.13), on obtient
 
Te
Xx −1

π(y) ≥ π(x) Ex  1{Xk =y}  = π(x)νx (y). (7.14)

k=0

Pour la deuxième partie, en combinant alors l’invariance de π, (7.14), l’invariance de νx

et νx (x) = 1 (Proposition 7.22), on a pour tout n ≥ 1 :
X
π(x) = π(z)P n (z, x)
z∈E
X
≥ π(x)νx (z)P n (z, x) (7.15)
z∈E
Chapitre 7. ©JCB – M1math – Université de Rennes 149

= π(x) νx (x) = π(x). (7.16)

Cela exige l’égalité ci-dessus dans (7.15) et donc dans (7.14) dès que P n (z, x) > 0. Ainsi
pour y ⇝ x, il existe un tel n avec P n (y, x) > 0, ce qui assure π(y) = π(x)νx (y) dès que
P n (y, x) > 0. □

Théorème 7.24 (Mesure invariante et classe de récurrence) On considère une chaı̂ne

de Markov (Xn )n≥0 . Sur une classe de récurrence ERi (close, irréductible), il y a unicité
à facteur multiplicatif près de la mesure invariante, en particulier π invariante s’écrit
π = π(x)νx pour tout x de la classe de récurrence. On a alors l’alternative :
(1) Si ces mesures sont de poids finis, il y a une unique probabilité invariante sur la classe
de récurrence et elle est récurrente positive ; la probabilité invariante est donnée par
1
∀x ∈ ERi , π(x) = . (7.17)
Ex Tex

(2) Si ces mesures sont de poids infinis, il n’y a pas de probabilité invariante sur la classe
de récurrence et elle est récurrente nulle.

Démonstration : Étant donné un état x quelconque de la classe de récurrence ERi consi-

dérée, pour tout y de la classe, on a y ⇝ x. D’après le Lemme 7.23, on a π(y) = π(x)νx (y).
Comme νx est concentrée sur la classe de récurrence (Proposition 7.22) et π aussi (par
hypothèse), on a bien π = π(x)νx . Les mesures invariantes sur ERi sont donc propor-
tionnelles ; en particulier, elles sont toutes de poids finis ou toutes de poids infinis.
1) S’il existe une mesure invariante finie sur la classe récurrente considérée, elles le sont
toutes et on note π l’unique probabilité invariante et νx la mesure invariante associée à
un état x (récurrent !) en (7.8)
 
Te
Xx −1

νx (y) = Ex  1{Xk =y}  .

k=0

Comme π et νx sont proportionnelles (début de la démonstration), π est une probabilité

et νx (x) = 1 (Proposition 7.22), on a
νx
π = π(x)νx = .
νx (E)
On a donc π(x) ̸= 0 et
1
π(x) = .
νx (E)
De plus, par convergence monotone :
 
X X Te
Xx −1

νx (E) = νx (y) = Ex  1{Xk =y} 

y∈E y∈E k=0
Chapitre 7. ©JCB – M1math – Université de Rennes 150
 
Te
Xx −1 X
= Ex  1{Xk =y}  = Ex Tex (7.18)
k=0 y∈E

P
puisque y∈E 1{Xk =y} = 1. On a donc Ex Tex < +∞ et x est récurrent positif et donc
la classe de récurrence est récurrente positive.
2) Dans le cas alternatif où toute
les mesures invariantes sont de poids infinis, alors νx
est de poids infini et donc Ex Tex = +∞ par le même calcul (7.18) que juste précédem-
ment : x est récurrent nul, et sa classe est donc une classe de récurrente nulle. □

Chaı̂nes de Markov irréductibles

Dans le cas irréductible, il n’y a qu’une classe de récurrence et le Théorème 7.24 se
spécialise en le théorème suivant qui dresse un bilan des résultats précédents pour l’inva-
riance d’une chaı̂ne Markov irréductible. Attention, on rappelle que d’après l’Exemple 7.10,
il n’existe pas toujours de mesure invariante, même pour une chaı̂ne irréductible.
Théorème 7.25 (Invariance et irréductibilité) On considère une chaı̂ne de Markov (Xn )n≥0
irréductible. Alors, il y a trois cas distincts :
(1) La chaı̂ne est transitoire (tous les états sont transitoires) : toute mesure invariante
π est de poids infini et il n’y a pas de probabilité invariante ;

est récurrente nulle (tous les états sont récurrents nuls : pour tout x ∈ E,
(2) La chaı̂ne
Ex Tex = +∞) : les mesures invariantes sont toutes proportionnelles et de poids
infinis (π(E) = +∞) ; il n’existe alors pas de probabilité invariante ;
(3) La chaı̂ne est
récurrente
positive (tous les états sont récurrents positifs : pour tout
x ∈ E, Ex Tex < +∞) : les mesures invariantes sont toutes proportionnelles et
de poids finis (π(E) < +∞), il existe une unique probabilité invariante et elle est
donnée par
1
∀x ∈ E, π(x) = .
Ex Tex

Remarque 7.26 (Probabilité invariante) — En particulier, une chaı̂ne de Markov

irréductible sur un espace d’états fini est récurrente positive et admet donc une
unique probabilité invariante.
— On peut préciser 3) dans la Prop. 7.17 : Quand elle existe, l’unique probabilité
invariante est donnée par π(x) = 1/Ex Tex , x ∈ E (et π(x) > 0 si et seulement si
x est récurrent positif). Elle est concentrée sur les états récurrents positifs.

On déduit du Théorème 7.25 la caractérisation suivante pour l’existence et unicité de la

probabilité invariante
Corollaire 7.27 (Existence et unicité de probabilité invariante) Pour une chaı̂ne de Mar-
kov irréductible, les assertions suivantes sont équivalentes :
Chapitre 7. ©JCB – M1math – Université de Rennes 151

(1) il existe une (unique) probabilité invariante π ;

(2) la mesure π définie, pour x ∈ E par π(x) = 1/Ex Tex est la probabilité invariante ;
(3) il existe un état récurrent positif ;
(4) tous les états sont récurrents positifs.

Démonstration : (1)⇒(2)⇒(3) par le Théorème 7.25 et la Remarque 7.26 ; (3)⇒(4) par

irréductibilité ; (4)⇒(1) par le Théorème 7.25. □

Exemple 7.28 (Marche aléatoire simple sur Z) On considère la marche aléatoire sur Z
aux plus proches voisins avec P (x, x+1) = 1−P (x, x−1) = p et P (x, y) = 0 si y ̸= x±1.
p p p p
... x−1 x x+1 ...
q q q q

— D’après l’Exemple 6.38, la marche aléatoire non-symétrique (p ̸= 1/2) est transi-

toire.
— D’après l’Exemple 7.5, π uniforme sur Z est une mesure invariante. Comme cette
mesure est de poids infini, le Théorème 7.25 montre alors que cette chaı̂ne est
récurrente nulle.

Exemple 7.29 (Chaı̂ne de naissance et de mort réfléchie) On considère la chaı̂ne de Mar-

kov irréductible de transition

P (k, k + 1) = p, P (k, k − 1) = 1 − p, P (0, 1) = 1.

1 p p p
... x−1 1−p x ...
0 1−p 1 1−p 1−p x+1

p
k
On vérifie que la mesure π = 1−p k≥0
est réversible donc invariante.
— Si p < 1/2 alors π est de poids fini et la chaı̂ne est récurrente positive par le
Théorème 7.25. La probabilité invariante correspondante, obtenue en normalisant
π, est la loi géométrique G(p/(1 − p)) sur N.
— Si p ≥ 1/2 alors π est de poids infini et la chaı̂ne est récurrente nulle ou transitoire.
Pour trancher, il faut par exemple étudier en détails la probabilité de retour en 0
et on montre que
— pour p = 1/2 : la chaı̂ne est récurrente nulle ;
— pour p > 1/2 : la chaı̂ne est transitoire.
Chapitre 7. ©JCB – M1math – Université de Rennes 152

Chaı̂nes de Markov non irréductibles

De façon générale, une chaı̂ne de Markov admet une classification (6.31) non tri-
viale de ses états. Dans cette partition, les classes récurrentes positives ERi+ sont les
seules classes irréductibles qui portent une probabilité invariante πi . L’ensemble des pro-
babilités invariantes est alors donné par les combinaisons convexes de ces probabilités
invariantes πi .

Théorème 7.30 (Mesures invariantes pour les chaı̂nes non irréductibles) Soit (Xn )n≥0
une chaı̂ne de Markov non irréductible.
(1) Sur chaque classe de récurrence, il existe une mesure invariante (unique à facteur
multiplicatif près).
(2) Il existe une probabilité invariante sur cette classe si et seulement
si la classe est
récurrente positive et elle est alors donnée par π(x) = 1/Ex Tx pour tout état x de
e
la classe.
(3) L’ensemble des probabilités invariantes est donné par les combinaisons convexes des
probabilités invariantes de chaque classe de récurrence positive.

Démonstration : (1) Toute mesure νx associée à un x de la classe par (7.8) est invariante
sur la classe par la Proposition 7.22. Puis par le 1) dans le Théorème 7.24, toutes les
mesures invariantes concentrées sur une classe de récurrence sont proportionnelles et
s’écrivent π = π(x)νx , pour tout état x de la classe.
(2) Cela découle de l’alternative du Théorème 7.24.
(3) Il est immédiat que toute combinaison convexe de probabilités invariantes est une
probabilité invariante (l’équation de Chapman-Kolmogorov (7.1) et être une probabilité
sont des notions stables par combinaison convexe).
Par le Théorème 7.24, il existe une probabilité invariante sur chaque classe de récur-
rence positive. Si π est une probabilité invariante arbitraire, il existe x, nécessairement
récurrent positif par la Prop. 7.17 tel que π(x) > 0. On note ERi la classe de récurrence
(positive) à laquelle x appartient et on montre que la restriction πi = π|ERi de π à la
classe ERi de x reste invariante. En effet, pour y ∈ ERi , on a
X X X
πi (z)P (z, y) = π(z)P (z, y) = π(z)P (z, y) = π(y) = πi (y)
z∈E z∈ERi z∈E

où la première égalité vient de la restriction à ERi , la deuxième de ce qu’un état z qui
peut mener à y ∈ ERi est soit transitoire (et alors π(z) = 0 par la Prop. 7.17) soit dans
la classe de récurrence ERi , les autres ne communiquent pas avec y, la troisième égalité
vient de l’invariance de π. Puis pour y ̸∈ ERi , on a πi (y) = 0 et P (z, y) = 0 pour z ∈ ERi
si bien que X X
πi (z)P (z, y) = π(z)P (z, y) = 0 = πi (y),
z∈E z∈ERi

assurant l’équation de Chapman-Kolmogorov πi = πi P et l’invariance de πi .

Comme par ailleurs pour tout xi ∈ ERi , νxi est une mesure invariante (finie) de support
ERi , l’unicité à facteur multiplicatif près des mesures invariantes donnée par le Théo-
rème 7.24 assure alors que πi = π(xi )νx = π(xi )νxi (E)e νxi en notant νexi = νxi /νxi (E) la
probabilité associée à νxi . Finalement, comme π est concentrée sur les classes de récur-
rence positive (Prop. 7.17) qui sont disjointes, on a
X X
π= πi = π(xi )νxi (E) νexi (7.19)
i∈I+ i∈I+
P
Comme on a des probabilités, il vient i∈I+ π(xi )νxi (E) = 1 et (7.19) prouve que π est
combinaison convexe des νexi , i ∈ I + . □

On déduit immédiatement du 3) dans le Théorème 7.30 que l’unicité d’une probabilité

invariante est équivalente à l’unicité d’une classe de récurrence positive.

Corollaire 7.31 (Existence et unicité des probabilités invariantes) Il existe une unique
probabilité invariante si et seulement s’il existe une unique classe de
récurrence
positive.
Dans ce cas, la probabilité invariante est donnée par π(x) = 1/Ex Tx , x ∈ E.
e

7.3 Périodicité et forte irréductibilité

Périodicité
Définition 7.32 (Période) On appelle période de l’état x ∈ E d’une chaı̂ne de Markov
de matrice stochastique P l’entier

dx = PGCD n ≥ 1 : P n (x, x) > 0

avec la convention dx = 0 si P n (x, x) = 0 pour tout n ≥ 1. Si dx = 1, on dit que l’état

x est apériodique.

Exemple 7.33 (Période)

— Pour la marche aléatoire sur Z, on a vu que P 2n+1 (0, 0) = 0 pour tout n ≥ 0 et
P 2n (0, 0) > 0 pour tout n ≥ 1 (Exemple 6.38). On a donc d0 = 2.
— De même dans le modèle de l’urne d’Ehrenfest (Exemple 5.10, exercice).

Proposition 7.34 (Période commune des états communiquants) Si x ∼ y alors dx =

dy .

Démonstration : Si x ∼ y alors il existe des entiers n ≥ 1 et m ≥ 1 tels que P n (x, y) > 0

et P m (y, x) > 0. Dès lors
N
P m+n+N k (x, x) ≥ P n (x, y) P k (y, y) P m (y, x).

Donc pour tout k ≥ 0 tel que P k (y, y) > 0 on a P m+n+N k (x, x) > 0, ie. dx divise
n + m + N k pour tout N (dx | n + m + N k). En particulier dx divise k (dx | k).
Chapitre 7. ©JCB – M1math – Université de Rennes 154

On en déduit que dx divise dy , et par symétrie dy divise dx , soit finalement dx = dy . □

D’après la Proposition 7.34, la définition qui suit à un sens :

Définition 7.35 (Période) Si la chaı̂ne de Markov est irréductible, tous les états ont
même période, appelée période de la chaı̂ne. Si cette période est 1, on dit que la chaı̂ne
est apériodique.

Forte irréductibilité
Définition 7.36 (Forte irréductibilité) Une chaı̂ne de Markov (Xn )n≥0 de matrice sto-
chastique P est dite fortement irréductible s’il existe k ≥ 1 tel que pour tout x, y ∈ E,
on a P k (x, y) > 0.

D’après la Définition 6.26, un noyau P est irréductible si pour tout x, y ∈ E, il existe un

chemin fini de x à y : ∃n ≥ 1, (xi )0≤i≤n ∈ E n avec x0 = x, xn = y et

P n (x, y) ≥ P (x, x1 )P (x1 , x2 ) . . . P (xn−1 , y) > 0.

Il y a forte irréductibilité quand il existe une longueur commune de chemin reliant tout
x, y ∈ E.

Proposition 7.37 Une chaı̂ne de Markov fortement irréductible est irréductible et apé-
riodique.

Démonstration : Il est immédiat que la forte irréductibilité implique l’irréductibilité. On

considère (x, y) ∈ E 2 tel que P (y, x) > 0. Avec l’indice k de la Déf. 7.36 de la forte
irréductibilité, on a P k (x, x) > 0 et P k (x, y) > 0. On a donc

P k+1 (x, x) ≥ P k (x, y)P (y, x) > 0.

On a donc k, k+1 ∈ R(x) := {n ∈ N : P n (x, x) > 0}, ce qui assure dx = PGCD(R(x)) =

1 et donc la chaı̂ne est apériodique. □

Proposition 7.38 Soit (Xn )n≥0 chaı̂ne de Markov irréductible et apériodique. Alors pour
tout x ∈ E, il existe n(x) ≥ 1 tel que pour tout n ≥ n(x), on a P n (x, x) > 0.

Démonstration : Par irréductibilité, pour tout x, y ∈ E, il existe n(x, y) ≥ 1 tel que

P n(x,y) (x, y) > 0. Comme la chaı̂ne est apériodique, il existe n1 , . . . , nk ∈ R(x) des
entiers de PGCD égale à 1. Par le théorème de Bézout, il existe q1 , . . . , qk ∈ Z tels que
q1 n1 + · · · + qk nk = 1. On note
X X
a(x) = qi ni , b(x) = − qi ni ≥ 0,
i : qi >0 i : qi <0
Chapitre 7. ©JCB – M1math – Université de Rennes 155

de sorte que a(x) = b(x) + 1. Comme ni ∈ R(x), on a

Y Y
P a(x) (x, x) ≥ P ni (x, x)qi > 0, P b(x) (x, x) ≥ P ni (x, x)−qi > 0.
i : qi >0 i : qi <0

On a donc b(x), b(x) + 1 ∈ R(x). Pour tout n ∈ N, on écrit la division euclidienne de n

par b(x) :
n = qb(x) + r = (q − r)b(x) + ra(x) (7.20)
avec 0 ≤ r ≤ b(x) − 1. On pose alors n(x) = b(x)2 − 1. Pour n ≥ n(x), on doit avoir
q ≥ r car ra(x) ≤ (b(x) − 1)(b(x) + 1) = b(x)2 − 1 = n(x). De l’écriture (7.20) de n, i
suit
P n (x, x) ≥ P b(x) (x, x)q−r P a(x) (x, x)r > 0,
puisque a(x), b(x) ∈ R(x). □

En fait, quand E est fini, on la caractérisation suivante de la forte irréductibilité :

Proposition 7.39 Si E est fini, la forte irréductibilité est équivalente à l’irréductibilité
plus l’apériodicité.
Démonstration : On suppose (Xn )n≥0 irréductible, apériodique sur E fini et il s’agit
de montrer que (Xn )n≥0 est fortement irréductible.
Pour cela, avec les notations de la
Prop. 7.38, soit k = sup n(x) + n(x, y) : x, y ∈ E . Observer que k est fini car l’espace
d’état E est fini. Pour x, y ∈ E quelconques, on écrit k = n(x) + j + n(x, y) avec
j = j(x, y) ≥ 0 et d’après la Prop. 7.38, on a

P k (x, y) ≥ P n(x)+j (x, x)P n(x,y) (x, y) > 0.

7.4 Équilibre d’une chaı̂ne de Markov

Dans cette section, on considère une chaı̂ne de Markov (Xn )n≥0 sur un espace d’états
E dénombrable, de matrice stochastique P .
Théorème 7.40 (Convergence vers l’équilibre) On considère une chaı̂ne de Markov (Xn )n≥0
irréductible récurrente positive et apériodique. Alors si π désigne l’unique probabilité in-
variante (Théorème 7.24), pour tout x ∈ E :
X
lim Px (Xn = y) − π(y) = 0. (7.21)
n→+∞
y∈E

On a aussi pour toute loi initiale ν

Remarque 7.41 — Les convergences (7.21) et (7.22) impliquent en particulier

n→+∞ n→+∞
Px (Xn = y) −−−−→ π(y) et Pν (Xn = y) −−−−→ π(y)

c’est à dire la convergence en loi de (Xn )n≥0 vers π sous Px ou sous Pν .

n→+∞
— Noter que Px (Xn = y) = P n (x, y) on a donc P n (x, y) −−−−→ π(y). De là vient
que sous les conditions du Théorème 7.40, on a la convergence de P n vers P ∞
dont toutes les lignes valent π.
— Le Théorème 7.40 implique que la convergence est uniforme en y ∈ E.
— La convergence (7.21) énonce en fait la convergence en variation totale de la loi
var
L(Xn |X0 = x) vers la probabilité invariante π : µn −→ π sous Px .

La démonstration du Th. 7.40 utilise un argument de couplage fondé sur le lemme

Lemme 7.42 (Couplage) Soit P une matrice stochastique sur E. Alors :

(i) On définit une matrice stochastique P = P ⊗ P sur E 2 avec

P (x1 , x2 ), (y1 , y2 ) = P (x1 , y1 )P (x2 , y2 ), (7.23)

et on a
n
(x1 , x2 ), (y1 , y2 ) = P n (x1 , y1 )P n (x2 , y2 ).

P (7.24)

(ii) Si P est irréductible apériodique alors P aussi.

(iii) Si π est une probabilité invariante pour P alors π ⊗ π = (π(x)π(y))(x,y)∈E 2 en est
une de P .
(1) (2)
(iv) Si X n n≥0 = (Xn , Xn ) n≥0 est une chaı̂ne de Markov sur E 2 de matrice sto-
(i)
chastique P et de loi initiale ν sur E 2 alors (Xn )n≥0 est une chaı̂ne de Markov
sur E de matrice stochastique P et de loi initiale νi (où ν1 (A) = ν(A × E) et
ν2 (B) = ν(E × B)), ie.

Pν Xn(i) = x = Pνi (Xn = x) i = 1, 2,

(7.25)

en notant de façon générique (Xn )n≥0 une chaı̂ne de Markov de matrice stochas-
tique P .

Démonstration : i) Pour tout (x1 , x2 ) ∈ E 2 , on a :

X X
P (x1 , x2 ), (y1 , y2 ) = P (x1 , y1 )P (x2 , y2 )
(y1 ,y2 )∈E×E (y1 ,y2 )∈E×E
X X
= P (x1 , y1 ) P (x2 , y2 ) = 1 × 1 = 1,
y1 ∈E y2 ∈E
Chapitre 7. ©JCB – M1math – Université de Rennes 157

ce qui justifie que P est une matrice stochastique car en plus P (x1 , x2 ), (y1 , y2 ) ≥
0. Puis on prouve (7.24) par récurrence : l’initialisation est due à (7.23) ; ensuite, en
supposant (7.24) vraie pour l’entier n − 1, on le montre pour l’entier n :
n X n−1
P (x1 , x2 ), (y1 , y2 ) = P (x1 , x2 ), (z1 , z2 ) P (z1 , z2 ), (y1 , y2 )
(z1 ,z2 )∈E 2
X
= P n−1 (x1 , z1 )P n−1 (x2 , z2 )P (z1 , y1 )P (z2 , y2 )
(z1 ,z2 )∈E 2
! !
X X
= P n−1 (x1 , z1 )P (z1 , y1 ) P n−1 (x2 , z2 )P (z2 , y2 )
z1 ∈E z2 ∈E
= P n (x1 , y1 )P n (x2 , y2 ).

ii) Pour tout (x1 , x2 ), (y1 , y2 ) ∈ E 2 , par irréductibilité de P , il existe m1 ≥ 1 tel que
P m1 (x1 , y1 ) > 0 et par irréductibilité et apériodicité (Proposition 7.38), il existe n1 ≥ 1
tel que P n1 +k (x1 , x1 ) > 0 pour tout k ≥ 0. De la même façon, il existe m2 , n2 ≥ 1 tels
que P m2 (x2 , y2 ) > 0 et P n2 +k (x2 , x2 ) > 0 pour tout k ≥ 0. Alors pour tout k ≥ 0, on a :

P n1 +m1 +k (x1 , y1 ) ≥ P n1 +k (x1 , x1 )P m1 (x1 , y1 ) > 0,

P n2 +m2 +k (x2 , y2 ) ≥ P n2 +k (x2 , x2 )P m2 (x2 , y2 ) > 0.

Cela assure que pour tout n ≥ max(n1 + m1 , n2 + m2 ), on a

n
P (x1 , x2 ), (y1 , y2 ) = P n (x1 , y1 )P n (x2 , y2 )

= P n1 +m1 +k1 (x1 , y1 )P n2 +m2 +k2 (x2 , y2 ) > 0,

en écrivant n = n1 + m1 + k1 = n2 + m2 + k2 avec k1 , k2 ≥ 0 et la matrice stochastique

P est bien irréductible. De plus, de cette façon, on montre que chaque (x1 , x2 ) ∈ E 2
n n+1
pour n assez grand P (x1 , x2 ), (x1 , x2 ) > 0 et P (x1 , x2 ), (x1 , x2 ) > 0 si bien que
la période de la chaı̂ne (Prop. 7.34) divise n et n + 1 et vaut donc 1.
iii) La mesure produit π ⊗ π est invariante pour P puisque pour tout (y1 , y2 ) ∈ E 2 on
a:
X X
(π ⊗ π)(x1 , x2 )P (x1 , x2 ), (y1 , y2 ) = π(x1 )π(x2 )P (x1 , y1 )P (x2 , y2 )
(x1 ,x2 )∈E 2 x1 ,x2 ∈E
! !
X X
= π(x1 )P (x1 , y1 ) π(x2 )P (x2 , y2 )
x1 ∈E x2 ∈E

= π(y1 )π(y2 ) = (π ⊗ π)(y1 , y2 ),

soit l’équation de Chapman-Kolmogorov (7.1) pour P : (π ⊗ π) = (π ⊗ π)P , et π ⊗ π ̸= 0

charge finiment tous les points. De plus π ⊗ π est une probabilité puisque
X X X X
(π ⊗ π)(x1 , x2 ) = π(x1 )π(x2 ) = π(x1 ) π(x2 ) = 1 × 1 = 1.
(x1 ,x2 )∈E 2 x1 ,x2 ∈E x1 ∈E x2 ∈E
Chapitre 7. ©JCB – M1math – Université de Rennes 158

(1) (1)
iv) On montre que Pν Xn = x = Pν1 Xn = x (on procèderait de la même façon
pour i = 2). Pour cela, on a :
X
Pν Xn(1) = x = Pν Xn(1) = x, Xn(2) = y

y∈E
X X n
= ν(x0 , y0 )P (x0 , y0 ), (x, y)
y∈E (x0 ,y0 )∈E 2
X X
= ν(x0 , y0 )P n (x0 , x)P n (y0 , y)
y∈E (x0 ,y0 )∈E 2
X X X
= P n (x0 , x) ν(x0 , y0 ) P n (y0 , y)
x0 ∈E y0 ∈E y∈E
X
ν1 (x0 )P (x0 , x) = Pν1 Xn(1) = x
n

=
x0 ∈E

P n (y0 , y) = 1 et en notant ν1 (x0 ) = ν({x0 } × E).

P
car y∈E □

Démonstration :[Théorème 7.40] On commence par prouver (7.21) en utilisant le cou-

(1) (2)
plage du Lemme 7.42. On considère la chaı̂ne X = Xn , Xn n≥0 de matrice sto-
chastique P en (7.23) qui est irréductible, apériodique, de probabilité invariante π ⊗2
(Lemme 7.42). D’après le Théorème 7.25, (X n )n≥0 est donc récurrente positive (car ir-
réductible et existence d’une probabilité invariante, cf. 3) dans le Th.7.25). On note
∆ = {(x, x) ∈ E 2 : x ∈ E} la diagonale de E 2 . Comme la chaı̂ne (X n )n≥0 est récurrente
2
et irréductible, elle atteint presque sûrement en temps fini tout état de E quelque soit
(1) (2)
la loi initiale. Par conséquent, T∆ = inf n ≥ 0 : (Xn , Xn ) ∈ ∆ est un temps d’arrêt
et il est fini presque sûrement pour toute loi initiale de (X n )n≥0 , en particulier π ⊗ δx .
(2) (1)
L’identité
(7.25) du Lemme 7.42 assure P π⊗δ x X n = y = Px (Xn = y) et Pπ⊗δx Xn =
y = π(y). On a donc

Px (Xn = y) − π(y) = Pπ⊗δx Xn(2) = y − Pπ⊗δx Xn(1) = y

h i
= Eπ⊗δx 1{Xn(2) =y} − 1{Xn(1) =y} .

En distinguant selon les valeurs de T∆ , on a :

h i
Px (Xn = y) − π(y) = Eπ⊗δx 1{Xn(2) =y} − 1{Xn(1) =y}
h i
= Eπ⊗δx 1{T∆ >n} 1{Xn(2) =y} − 1{Xn(1) =y}
n
X h i
+ Eπ⊗δx 1{T∆ =k} 1{Xn(2) =y} − 1{Xn(1) =y}
k=0
h i
= Eπ⊗δx 1{T∆ >n} 1{Xn(2) =y} − 1{Xn(1) =y}
Chapitre 7. ©JCB – M1math – Université de Rennes 159

n X
X h i
+ Eπ⊗δx 1{T∆ =k} 1{X (1) =X (2) =z} 1{Xn(2) =y} − 1{Xn(1) =y} . (7.26)
k k
k=0 z∈E

En utilisant la propriété de Markov (Théorème 5.36) au temps k avec loi initiale π ⊗ δx

(cf. Remarque 5.39), on a
h i
Eπ⊗δx 1{T∆ =k} 1{X (1) =X (2) =z} 1{Xn(2) =y}
k
h h k ii
= Eπ⊗δx Eπ⊗δx 1{T∆ =k} 1{X (1) =X (2) =z} 1{Xn(2) =y} Fk
| {zk k
}
Fk -mesurable
h i
= Eπ⊗δx 1{T∆ =k} 1{X (1) =X (2) =z} E(X (1) ,X (2) ) 1{X (2) =y} (par Markov faible, Théorème 5.36)
k k k k n−k
h i
= Eπ⊗δx 1{T∆ =k} 1{X (1) =X (2) =z} E(z,z) 1{X (2) =y}
k k
h i h n−k i
= Eπ⊗δx 1{T∆ =k} 1{X (1) =X (2) =z} E(z,z) 1{X (2) =y}
k k n−k
h i
= Eπ⊗δx 1{T∆ =k} 1{X (1) =X (2) =z} Pn−k (z, y)
k k
h i
= Eπ⊗δx 1{T∆ =k} 1{X (1) =X (2) =z} 1{Xn(1) =y} (par symétrie entre X (1) et X (2) )
k k

ce qui assure pour tout z ∈ E

h i
Eπ⊗δx 1{T∆ =k} 1{X (1) =X (2) =z} 1{Xn(2) =y} − 1{Xn(1) =y} = 0
k k

et donc (7.26) se réduit à

h i
Px (Xn = y) − π(y) = Eπ⊗δx 1{T∆ >n} 1{Xn(2) =y} − 1{Xn(1) =y} .

Il vient alors
X X h i
Px (Xn = y) − π(y) = Eπ⊗δx 1{T∆ >n} 1{Xn(2) =y} − 1{Xn(1) =y}
y∈E y∈E
X h i
≤ Eπ⊗δx 1{T∆ >n} 1{Xn(2) =y} − 1{Xn(1) =y}
y∈E
X h i
≤ Eπ⊗δx 1{T∆ >n} 1{Xn(2) =y} + 1{Xn(1) =y}
y∈E
h X i
= Eπ⊗δx 1{T∆ >n} 1{Xn(2) =y} + 1{Xn(1) =y}
y∈E

= 2 Eπ⊗δx 1{T∆ >n} = 2 Pπ⊗δx (T∆ > n) (7.27)
P P
puisque y∈E 1{Xn(1) =y} = y∈E 1{Xn(2) =y} = 1.
Comme T∆ est fini Pπ⊗δx -ps, par convergence monotone on a
lim Pπ⊗δx (T∆ > n) = 0,
n→+∞
Chapitre 7. ©JCB – M1math – Université de Rennes 160

et donc par (7.27) X

lim Px (Xn = y) − π(y) = 0.
n→+∞
y∈E

On termine avec la preuve de (7.22) : on rappelle la définition (5.28) de Pν (Pν =

P
x∈E ν(x)Px ) et on a
X X
Pν (Xn = y) − π(y) = ν(x)Pν (Xn = y) − ν(x) π(y)
x∈E x∈E
X
= Px (Xn = y) − π(y) ν(x)
x∈E

et donc
X XX
|Pν (Xn = y) − π(y)| ≤ Px (Xn = y) − π(y) ν(x)
y∈E y∈E x∈E
XX
= Px (Xn = y) − π(y) ν(x). (7.28)
x∈E y∈E
P
En appliquant le Lemme 7.16 avec a = ν de poids fini et bn (x) = y∈E |Px (Xn = y) − π(y)|
vérifiant X X
0 ≤ bn (x) ≤ Px (Xn = y) + π(y) = 2,
y∈E y∈E

avec limn→+∞ bn (x) = 0 par (7.21), on obtient la conclusion (7.22) en passant à la limite
dans (7.28). □

Remarque 7.43 1) L’apériodicité est essentielle, sans elle, le couplage échoue en général.
Par exemple pour la chaı̂ne à deux états sur E = {0, 1} (Exemple 5.1)

0 1 2n 1 0 2n+1 0 1
P = , P = , P = , n ≥ 0,
1 0 0 1 1 0
(1) (2) (1) (2)
et si X0 = 0, X0 = 1, on aura Xn ̸= Xn pour tout n ≥ 0 (ie. pas de couplage
possible).

Cas périodique
Dans le cas d’une chaı̂ne de Markov périodique, on généralise le Théorème 7.40 comme
suit :

Théorème 7.44 Soit (Xn )n≥0 une chaı̂ne irréductible récurrente positive, périodique de
période d et de probabilité invariante π. Alors pour toute paire d’états x, y ∈ E, il existe
r ∈ J0, d − 1K tel que P n (x, y) = 0 si n ̸= r mod d, sinon n = md + r et on a
lim P md+r (x, y) = dπ(y).
m→+∞
Chapitre 7. ©JCB – M1math – Université de Rennes 161

Exemple 7.45 (Chaı̂ne de de naissance et de mort) On considère une chaı̂ne de nais-

sance et de mort irréductible récurrente positive de période 2 . Si y − x est pair alors
P 2m+1 (x, y) = 0 pour tout m ≥ 0 et

lim P 2m (x, y) = 2π(y).

m→+∞

Si y − x est impair alors P 2m (x, y) = 0 pour tout m ≥ 0 et

lim P 2m+1 (x, y) = 2π(y).

m→+∞

Démonstration : On commence par une extension du Théorème 7.40 pour une classe
close irréductible récurrente positive apériodique. Soit Ei une telle classe et soit π (i)
la probabilité invariante concentrée sur ERi (Théorème 7.30). En considérant la chaı̂ne
restreinte à ERi , on a d’après le Théorème 7.40 :
1
lim P n (x, y) = π (i) (y) = , x, y ∈ ERi .
n→+∞ Ey Tey
En particulier si y est un état récurrent positif de période 1 alors en choisissant pour
ERi la classe close irréductible contenant y, on voit que :
1
lim P n (y, y) = . (7.29)
n→+∞ Ey Tey

On prouve maintenant le Théorème 7.44 pour le cas périodique. Soit donc (Xn )n≥0
une chaı̂ne irréductible récurrente positive et périodique de période d > 1. En posant
(Ym )m≥0 = (Xmd )m≥0 , on définit une chaı̂ne de Markov de matrice stochastique Q = P d .
Soit y ∈ E, alors

PGCD m : Qm (y, y) > 0 = PGCD m : P md (y, y) > 0

1
PGCD n : P n (y, y) > 0 = 1.

=
d
Les états sont donc de période 1 pour la chaı̂ne (Ym )m≥0 , qui est donc apériodique.
On suppose que la chaı̂ne (Xn )n≥0 , et donc aussi (Ym )m≥0 , démarre de y. Comme la
chaı̂ne (Xn )n≥0 revisite y la première fois à un multiple de d, la durée d’un retour moyen
en y pour la chaı̂ne (Ym )m≥0 est d−1 Ey Tey où Ey Tey est la durée d’un retour moyen

en y de la chaı̂ne (Xn )n≥0 . En particulier, y est récurrent positif pour toute chaı̂ne de
Markov de matrice stochastique Q. En appliquant le résultat préliminaire (7.29) à cette
matrice stochastique, on a
d
lim Qm (y, y) = = dπ(y),
m→+∞ my
soit
lim P md (y, y) = dπ(y), y ∈ E. (7.30)
m→+∞
Chapitre 7. ©JCB – M1math – Université de Rennes 162

Soit x, y ∈ E, par irréductibilité de P , il existe n ≥ 1 tel que P n (x, y) > 0. On pose alors
r1 = min(n ≥ 0 : P n (x, y) > 0). On a en particulier P r1 (x, y) > 0.
On montre que P n (x, y) > 0 seulement si n − r1 est multiple de d : par irréductibilité,
on choisit n1 > 0 tel que P n1 (y, x) > 0, alors
P r1 +n1 (y, y) ≥ P n1 (y, x)P r1 (x, y) > 0
et donc r1 + n1 est multiple de d. Réciproquement, si P n (x, y) > 0 alors de la même
façon,
P n+n1 (x, x) ≥ P n (x, y)P n1 (y, x) > 0
et n + n1 doit être un multiple de d ; par conséquent n − r1 = (n + n1 ) − (r1 + n1 ) aussi.
Finalement, n − r1 doit être multiple de d et n = kd + r1 pour un certain k ∈ N.
Il existe m1 ∈ N tel que r1 = m1 d + r avec r ∈ J0, d − 1K. D’après ce qui précède, on a
P n (x, y) = 0 si et seulement si n ̸= r mod d. On déduit maintenant que
m
X
md+r
Px Tey = kd + r P (m−k)d (y, y).

P (x, y) = (7.31)
k=0

On pose
P (m−k)d (y, y) si 0 ≤ k ≤ m
bm (k) =
0 si k > m
Alors par (7.30), pour chaque k fixé, on a limm→+∞ bm (k) = dπ(y). En appliquant le
Lemme 7.16 (convergence dominée) avec E = N, b(k) = dπ(y) et a(k) = Px Tey = kd+r
(sommable) pour passer à la limite en m → +∞ dans (7.31), on a
+∞
X
md+r

lim P (x, y) = dπ(y) Px Tey = kd + r
m→+∞
k=0

= dπ(y)Px Ty < +∞
= dπ(y),
P+∞
ce qui
achève la preuve du Théorème 7.44. Noter que k=0 P x T
ey = kd + r = Px Ty <
+∞ vient de P n (x, y) = 0 si n ̸= r mod d.
□

7.5 Théorème ergodique

Le théorème ergodique relie moyenne temporelle et moyenne spatiale.
Théorème 7.46 (Ergodique) Soit (Xn )n≥0 une chaı̂ne deR Markov récurrente irréductible
et soit π une mesure invariante. Soit f, g ∈ L1 (π) avec E g dπ ̸= 0. Alors pour toute loi
initiale ν sur E, on a
Pn R
f (X k ) f dπ
lim Pk=0n = RE Pν -ps. (7.32)
k=0 g(Xk ) g dπ
n→+∞
E
Chapitre 7. ©JCB – M1math – Université de Rennes 163

R
Remarque 7.47 En fait le résultat reste vrai R si f est positive avec E f dπ = +∞, il
suffit de prendre des fonctions fk ↗ f avec E fk dπ < +∞ et d’utiliser le théorème de
convergence monotone : Comme f ≥ fk , on a :
Pn Pn R
f (X i ) f k (X i ) fk dπ
lim inf Pi=0
n ≥ lim inf Pi=0 n = RE Pν -ps.
i=0 g(Xi ) i=0 g(Xi ) g dπ
n→+∞ n→+∞
E
R
Puis comme E fk dπ ↗ +∞ quand k → +∞, il vient
Pn
f (Xi )
lim Pi=0 n = +∞ Pν -ps.
i=0 g(Xi )
n→+∞

Corollaire 7.48 (Ergodique) Soit (Xn )n≥0 une chaı̂ne de Markov irréductible récurrente
positive et π son unique probabilité invariante. Alors pour toute loi initiale ν sur E et
f ∈ L1 (π), on a :
n Z
1X
lim f (Xk ) = f dπ Pν -ps. (7.33)
n→+∞ n E
k=0

Démonstration : Comme la chaı̂ne (Xn )n≥0 est irréductible récurrente positive, il existe
une unique probabilité invariante π par le Théorème 7.25 et on a 1 ∈ L1 (π). Le Théo-
rème 7.46 s’applique alors avec g(x) = 1 et assure (7.33). □

Remarque 7.49 Cette limite (7.33) est l’essence même de la notion d’ergodicité Pn : la
1
R temporelle n k=0 f (Xk ),
moyenne de f le long de la trajectoire de la chaı̂ne, ie. sa moyenne
converge en temps long (n → +∞) vers la moyenne spatiale E f dπ de f (par rapport
à la probabilité invariante).

Puis en appliquant le Théorème 7.46 avec f (y) = 1{y=x} et g(y) = 1 (avec la Re-
marque 7.47 lorsque g ̸∈ L1 (π)), on récupère immédiatement le Théorème 6.15 :

Corollaire 7.50 (Ergodique) Soit (Xn )n≥0 une chaı̂ne de Markov récurrente irréductible.
Alors pour toute loi initiale ν sur E :
(1) Dans le cas récurrent positif :
n
1X
lim 1{Xk =x} = π(x) Pν -ps ;
n→+∞ n
k=0

(2) Dans le cas récurrent nul :

Démonstration :[Théorème 7.46] D’abord on observe qu’il suffit de voir la convergence

(7.32) pour Px pour tout x ∈ E pour laPrécupérer pour toute P loi ν par (5.28) : si
Px (A) = 1 pour tout x ∈ E alors Pν (A) = x∈E ν(x)Px (A) = x∈E ν(x) = 1.
Pour la suite, on fixe x ∈ E. On commence par observer que π(x) > 0 : en effet, par
le Théorème 7.24, les mesures invariantes π = π(x)νx où νx est la mesure invariante
associée à l’état x récurrent dans (7.8). Comme π ̸= 0, cela exige π(x) > 0.
On utilise les dates de retour de la chaı̂ne (Xn )n≥0 en x définies par récurrence en (6.1)
(n) (n−1)
par Tx = inf k > Tx : Xk = x et satisfaisant (6.2)
Tx(n+1) = Tx(n) + Tx(1) ◦ ΘTx(n) . (7.34)
(n)
Puisque x est récurrent, les temps (Tx )n≥0 sont Px -ps finis (Déf. 6.3 + Markov fort
(5.37)). Pour k ≥ 1, on pose alors
(k)
X−1
Tx
Zk (f ) = f (Xi ). (7.35)
(k−1)
i=Tx

Lemme 7.51 La variable aléatoire Zk (f ) est FTx(k) -mesurable.

Démonstration :[Lemme 7.51] On montre que pour tout A ∈ B(R), on a {Zk (f ) ∈ A} ∈
(k)
FTx(k) . Pour cela, il faut et il suffit de voir que pour tout n ≥ 1 {Zk (f ) ∈ A} ∩ {Tx =
n} ∈ Fn (cf. 2) dans la Prop. 3.15).
n−1
[
{Zk (f ) ∈ A} ∩ {Tx(k) = n} = {Zk (f ) ∈ A} ∩ {Tx(k) = n} ∩ {Tx(k−1) = m}
m=1
n−1 n−1
!
[ nX o
= f (Xj ) ∈ A ∩ {Tx(k) = n} ∩ {Tx(k−1) = m} ∈ Fn
m=1 j=m
nP o
n−1 (k−1) (k)
car j=m f (Xj ) ∈ A ∈ Fn−1 ⊂ Fn , {Tx = m} ∈ Fm ⊂ Fn , {Tx = n} ∈ Fn . □

Lemme 7.52 Les variables aléatoires Zk (f ) k≥1 sont iid. En particulier avec f = 1,
(n) (n−1)
on obtient que les variables aléatoires Tx − Tx , n ≥ 1, sont iid et on retrouve la
Proposition 6.14.
Démonstration :[Lemme 7.52] Pour tout k ≥ 1, il suffit de voir pour des fonctions gi
mesurables bornées sur R+ (1 ≤ i ≤ k) :
" k # k
Y Y
Ex gi Zi (f ) = Ex gi Z1 (f ) . (7.36)
i=1 i=1

Pour cela, on raisonne par récurrence sur l’entier k.

Pour k = 1, l’égalité (7.36) est immédiate. On suppose alors (7.36) établie pour k fixé
et on la prouve pour k + 1. Pour cela, on observe que
Chapitre 7. ©JCB – M1math – Université de Rennes 165

— les variables aléatoires Z1 (f ), Z2 (f ), . . . , Zk (f ) sont FTx(k) -mesurables (Lemme 7.51),

— ΘTx(k) (ω) est indépendante de FTx(k) et de loi Px (propriété de Markov forte sous
la forme du Corollaire 5.38),
— Zk+1 (f ) = Z1 (f ) ◦ ΘTx(k) . En effet, avec (7.34) on a :

(k+1) (k+1) (k)

Tx X−1 Tx −Tx
X −1

Zk+1 (f ) = f (Xi ) = f Xj+Tx(k)
i=Tx
(k) j=0
(1)
Tx ◦Θ (k) −1 (1)
Tx
X x −1
TX

= f Xj ◦ ΘTx(k) = f (Xj ) ◦ ΘTx(k)
j=0 j=0
= Z1 (f ) ◦ ΘTx(k) .

En utilisant la propriété de Markov fort (Théorème 5.37), on a donc

"k+1 # " k #
Y Y
Ex gi (Zi (f )) = Ex gi (Zi (f )) gk+1 Z1 (f ) ◦ ΘTx(k)
i=1 i=1
" k
#
Y h i
= Ex gi (Zi (f )) Ex gk+1 Z1 (f ) ◦ ΘTx(k) FTx(k)
i=1
" k
#
Y h i
= Ex gi (Zi (f )) EX (k)
gk+1 Z1 (f )
Tx
i=1
" k
#
Y
= Ex gi (Zi (f )) Ex gk+1 (Z1 (f ))
i=1
k
!
Y
= Ex gi (Zi (f )) Ex gk+1 (Z1 (f )) (par hyp. de récurrence),
i=1

ce qui prouve (7.36) pour k + 1 et donc le Lemme 7.52 par récurrence. □

Suite de la preuve du théorème ergodique (Théorème 7.46). Afin d’appliquer la loi des
grands nombres (LGN) aux variables aléatoires (Zk (f ))k≥1 iid (Lemme 7.52), on montre
qu’elles sont L1 lorsque f ∈ L1 (π) : en effet
 (1)   (1) 
x −1
TX x −1 X
TX

Ex |Z1 (f )| ≤ Ex  |f (Xk )| = Ex  |f (y)|1{Xk =y}  (7.37)
k=0 k=0 y∈E
 (1)

x −1
TX R
X X
E
|f | dπ
= |f (y)| Ex  1{Xk =y}  = |f (y)|νx (y) = (7.38)
y∈E k=0 y∈E
π(x)
Chapitre 7. ©JCB – M1math – Université de Rennes 166

puisque π = π(x)νx . Le même calcul avec f à la place de |f |, et égalité dans ce ce cas

dans (7.37), donne
 (1)  R
x −1
TX
f dπ
f (Xk ) = E

Ex Z1 (f ) = Ex  < +∞.
k=0
π(x)

La LGN assure alors n R

1X f dπ
lim Zk (f ) = E Px -ps. (7.39)
n→+∞ n π(x)
k=1

ex (n) = Pn 1{X =x} de sorte que

Maintenant, on note N k=1 k

Tx(Nx (n)) ≤ n < Tx(Nx (n)+1) .

e e

Lorsque f est une fonction positive, on a

PTx(Nex (n)) −1 Pn PTx(Nex (n)+1) −1
k=0 f (Xk ) k=0 f (Xk ) k=0 f (Xk )
≤ ≤ .
N
ex (n) N
ex (n) N
ex (n)

En regroupant les paquets Zj (f ) définis en (7.35), on a :

(N
ex (n)) (j)
N
ex (n)
NeX
x (n)
Tx X −1 X TX x −1

f (Xk ) = f (Xi ) = Zj (f ),
k=0 j=1 (j−1)
i=Tx j=1

et donc PNex (n) PNex (n)+1

Pn
j=1 Zj (f ) k=0 f (Xk ) j=1 Zj (f )
≤ ≤ . (7.40)
N
ex (n) N
ex (n) N
ex (n)

Comme x est récurrent, Nex (n) → +∞ et (7.39) assurent que les termes de gauche et
R
de droite de (7.40) convergent Px -ps vers E f dπ/π(x) et donc par le théorème des
gendarmes
n R
1 X f dπ
lim f (Xk ) = E Px -ps. (7.41)
n→+∞ N ex (n) π(x) k=0

Si f ∈ L (π) est de signe quelconque, on applique (7.41) à f + = max(f, 0) et à f − =

max(−f, 0) et par différence on obtient (7.41) pour f = f + − f − (la différence dans

(7.41) a bien un sens car f ∈ L1 (π)) :
n n
1 X 1 X
f + (Xk ) − f − (Xk )

f (Xk ) =
N
ex (n)
k=0 N
ex (n)
k=0
n n
1 X 1 X
= +
f (Xk ) − f − (Xk )
N
ex (n)
k=0 N
ex (n)
k=0
Chapitre 7. ©JCB – M1math – Université de Rennes 167

f − dπ (f + − f − ) dπ
R R R R
E
f + dπ E E
f dπ
−−−−→ − = = E Px -ps.
n→+∞ π(x) π(x) π(x) π(x)

De la même façon, on obtient pour la fonction g :

n R
1 X g dπ
lim g(Xk ) = E ̸= 0 Px -ps.
n→+∞ N ex (n)
k=0
π(x)

Le rapport des deux limites donne alors

Pn R
f (X k ) f dπ
lim Pk=0
n = RE Px -ps,
k=0 g(Xk ) g dπ
n→+∞
E

prouvant le Théorème 7.46. □

Exemple 7.53 (MCMC) La méthode de Monte Carlo par P chaı̂ne de Markov (Monte
Carlo Markov Chains) vise à estimer une somme S := x∈E ν(x)f (x) où ν est une
1
probabilité, et f ∈ L (ν), a priori difficile à calculer, en trouvant une chaı̂ne de Markov
(Xn )n≥0 (irréductible, récurrente positive) admettant ν comme probabilité invariante.
On a alors n
1X ps
f (Xk ) −−−−→ Eν [f ] = S
n k=0 n→+∞

et pour n assez grand n1 nk=0 f (Xk ) est une bonne estimation de la somme S. Cf. [Rob].
P
Bibliographie

[BL] Philippe Barbe, Michel Ledoux. Probabilité. EDP sciences, 2007.

[Bei] Frank Beichelt. Stochastic processes in Science, Engineering and Finance. Chapman & Hall,
2006.
[BEL] Michel Benaı̈m, Nicole El Karoui. Promenade Aléatoire, Ed. École Polytechnique, 2007.
[BC] Bernard Bercu, Djalil Chafaı̈. Modélisation stochastique et simulation. Dunod Ed., 2007.
[Bre-Leb] Jean-Christophe Breton. Intégrale de Lebesgue. Notes de cours de L3 Mathématiques, Uni-
versité de Rennes 1, 2014.
http://perso.univ-rennes1.fr/jean-christophe.breton/Fichiers/Integrale Lebesgue.pdf
[Bre-proba] Jean-Christophe Breton. Probabilités. Notes de cours de L3 Mathématiques, Université de
Rennes 1, 2014. http://perso.univ-rennes1.fr/jean-christophe.breton/Fichiers/proba base.pdf
[BP] Marc Briane, Gilles Pagès. Théorie de l’intégration, 5ème édition. Coll. Vuibert Supérieur, Ed.
Vuibert, 2012.
[Dud] Richard M. Dudley. Real analysis and Probability. Cambridge studies in advanced mathematics,
vol 74, 2002.
[FF] Dominique Foata, Aimé Fuch. Processus stochastiques. Dunod, 2004.
[Gra] Carl Graham. Chaı̂nes de Markov. Dunod Ed., 2008.
[HPS] Paul G. Hoel, Sidney C. Port et Charles J. Stone. Introduction to stochastic processes. Wa-
veland Ed., 1972.
[JP] Jean Jacod, Philipp Protter. L’essentiel en théorie des probabilités. Vuibert, 2003.
[Jir] Miloslav Jiřina. Conditional probabilities on strictly separable σ-algebras. (Russian, with English
summary) Czechoslovak Math. J. no. 4, vol. 79 pp. 372–380, 1954.
[Kal] Olav Kallenberg. Foundations of modern probability. 2nd Edition, Springer Series in Statistics.
Probability and its Applications, 2002.
[Nev] Jacques Neveu. Martingales à temps discret, Masson, 1972.
[Nor] James Norris. Markov Chains. Cambridge studies in advanced mathematics, 1997.
[Ouv] Jean-Yves Ouvrard. Probabilités. Tomes 1 et 2. Cassini, 2008.
[Pri] Nicolas Privault. Understanding Markov Chains – Examples and Applications. Second Edition,
Springer Undergraduate Mathematics Series, Springer, 2018.
[Rob] Christian Robert. Méthodes de Monte Carlo par chaı̂ne de Markov, Ed. Economica., 1996
[Rue] Alain Ruegg. Processus Stochastique. Presse Universitaire Romande, 1989.
[Wil] David Williams. Probability with martingales. Cambridge mathematical textbooks, 1991.
[Yca] Bernard Ycart. Modèles et Algorithmes Markoviens, Ed. Springer, 2002.

168

Vous aimerez peut-être aussi

CMMA
Pas encore d'évaluation
CMMA
105 pages
4M011 Poly Duquesne
Pas encore d'évaluation
4M011 Poly Duquesne
173 pages
Garet - Probabilités Et Modélisation Stochastique (M1 Nancy)
Pas encore d'évaluation
Garet - Probabilités Et Modélisation Stochastique (M1 Nancy)
119 pages
Martingales et chaînes de Markov
Pas encore d'évaluation
Martingales et chaînes de Markov
198 pages
MAP432 Poly
100% (1)
MAP432 Poly
194 pages
Markov - Polycopié Du Cours
Pas encore d'évaluation
Markov - Polycopié Du Cours
51 pages
Chaînes de Markov : Concepts et Applications
Pas encore d'évaluation
Chaînes de Markov : Concepts et Applications
186 pages
Cours et Exercices sur Processus Stochastiques
Pas encore d'évaluation
Cours et Exercices sur Processus Stochastiques
46 pages
011 Cours
Pas encore d'évaluation
011 Cours
119 pages
Calcul Stochastique
100% (1)
Calcul Stochastique
88 pages
Math Fi Bon
Pas encore d'évaluation
Math Fi Bon
88 pages
Poly M1S6 Probas PDF
Pas encore d'évaluation
Poly M1S6 Probas PDF
100 pages
MAP432
Pas encore d'évaluation
MAP432
245 pages
Chaînes de Markov et Martingales
Pas encore d'évaluation
Chaînes de Markov et Martingales
216 pages
Master: AMA: Polycopié de Cours: Equations Différentielles Stochastiques, Approximations Et Estimation
Pas encore d'évaluation
Master: AMA: Polycopié de Cours: Equations Différentielles Stochastiques, Approximations Et Estimation
51 pages
Martingales Et Calcul Stochastique
Pas encore d'évaluation
Martingales Et Calcul Stochastique
129 pages
CMMA
Pas encore d'évaluation
CMMA
133 pages
Poly 2020
Pas encore d'évaluation
Poly 2020
87 pages
Table Des Mati' Eres
Pas encore d'évaluation
Table Des Mati' Eres
142 pages
Modaleat
Pas encore d'évaluation
Modaleat
39 pages
Poly CoursTD - Pro Sto
Pas encore d'évaluation
Poly CoursTD - Pro Sto
88 pages
Probastatm 4
Pas encore d'évaluation
Probastatm 4
69 pages
Martingale Prolongée en Calcul Stochastique
Pas encore d'évaluation
Martingale Prolongée en Calcul Stochastique
96 pages
CalcSto15 16
Pas encore d'évaluation
CalcSto15 16
105 pages
Cours de Probabilite II
100% (1)
Cours de Probabilite II
32 pages
Calcul Stochastique Avancé
Pas encore d'évaluation
Calcul Stochastique Avancé
93 pages
Intégration, Probabilités Et Processus Aléatoires
100% (1)
Intégration, Probabilités Et Processus Aléatoires
248 pages
Processus de Markov
Pas encore d'évaluation
Processus de Markov
67 pages
Polycop CCM
Pas encore d'évaluation
Polycop CCM
46 pages
Calcul Sto
Pas encore d'évaluation
Calcul Sto
105 pages
Cours MTH15204 Theorie Gene Des Proba-1
Pas encore d'évaluation
Cours MTH15204 Theorie Gene Des Proba-1
32 pages
Processus Markoviens
Pas encore d'évaluation
Processus Markoviens
38 pages
Polyconcentration
Pas encore d'évaluation
Polyconcentration
75 pages
Calcul Stochastique, Bougerol
Pas encore d'évaluation
Calcul Stochastique, Bougerol
104 pages
Martingales à Temps Discret
Pas encore d'évaluation
Martingales à Temps Discret
14 pages
PCAcours 2023
Pas encore d'évaluation
PCAcours 2023
66 pages
LF
Pas encore d'évaluation
LF
116 pages
Master: AMA: Polycopié de Cours: Equations Différentielles Stochastiques, Approximations Et Estimation
Pas encore d'évaluation
Master: AMA: Polycopié de Cours: Equations Différentielles Stochastiques, Approximations Et Estimation
44 pages
Cours Michel Pain
Pas encore d'évaluation
Cours Michel Pain
74 pages
Théorie de la Mesure et Probabilités
Pas encore d'évaluation
Théorie de la Mesure et Probabilités
2 pages
Chaînes de Markov pour Ingénieurs
Pas encore d'évaluation
Chaînes de Markov pour Ingénieurs
134 pages
Probastat 82
Pas encore d'évaluation
Probastat 82
156 pages
Processus M2
Pas encore d'évaluation
Processus M2
165 pages
Classes d'équivalence de Markov
Pas encore d'évaluation
Classes d'équivalence de Markov
64 pages
Poly Copie Partie 2
Pas encore d'évaluation
Poly Copie Partie 2
78 pages
Processus Stochastiques Continus M2 Rennes 2
Pas encore d'évaluation
Processus Stochastiques Continus M2 Rennes 2
138 pages
Statistiques Des Processus 3A
Pas encore d'évaluation
Statistiques Des Processus 3A
72 pages
Probabilités: Année 2015-2016
Pas encore d'évaluation
Probabilités: Année 2015-2016
134 pages
Statistiques des processus stochastiques
Pas encore d'évaluation
Statistiques des processus stochastiques
80 pages
Calcul Stochastique Cours - DeSS IM EVRY-Option Finance-Monique Jeanblanc-Sep 2002
Pas encore d'évaluation
Calcul Stochastique Cours - DeSS IM EVRY-Option Finance-Monique Jeanblanc-Sep 2002
131 pages
STT 4700 2021
Pas encore d'évaluation
STT 4700 2021
210 pages
Processus Stochastiques
Pas encore d'évaluation
Processus Stochastiques
62 pages
FPR L3
100% (1)
FPR L3
58 pages
Prob l3 Tic Imsp 2020
Pas encore d'évaluation
Prob l3 Tic Imsp 2020
42 pages
Cours de Probabilités Appliquées
Pas encore d'évaluation
Cours de Probabilités Appliquées
103 pages
PDF IntroductionauxProcessusStochastiques
Pas encore d'évaluation
PDF IntroductionauxProcessusStochastiques
44 pages
La sommabilité dans un espace - Safia DAIRI
Pas encore d'évaluation
La sommabilité dans un espace - Safia DAIRI
36 pages
BATCHCOOKING_INTRADEL_LIVRE_FR_DIGITAL-(1)
Pas encore d'évaluation
BATCHCOOKING_INTRADEL_LIVRE_FR_DIGITAL-(1)
64 pages
TD Enonce
Pas encore d'évaluation
TD Enonce
17 pages
Introduction aux intégrales stochastiques
Pas encore d'évaluation
Introduction aux intégrales stochastiques
16 pages
482-Texte de L'article-1439-1-10-20211210
Pas encore d'évaluation
482-Texte de L'article-1439-1-10-20211210
18 pages
Examen de Syst Gramm
Pas encore d'évaluation
Examen de Syst Gramm
4 pages
CR3T - ECM - 5e Ok
Pas encore d'évaluation
CR3T - ECM - 5e Ok
1 page
Textes A Fautes
Pas encore d'évaluation
Textes A Fautes
3 pages
Cours+exercices Francais Moodle FSR
Pas encore d'évaluation
Cours+exercices Francais Moodle FSR
15 pages
Culture Littéraire 1
Pas encore d'évaluation
Culture Littéraire 1
6 pages
Francois Roustang Le Secret de Socrate C
Pas encore d'évaluation
Francois Roustang Le Secret de Socrate C
5 pages
Exposé de Biologie Animal
Pas encore d'évaluation
Exposé de Biologie Animal
4 pages
La Nouvelle Coccinelle CE2 - Dictees Edition 2023
Pas encore d'évaluation
La Nouvelle Coccinelle CE2 - Dictees Edition 2023
127 pages
Mouvement Ibérique de Libération. Mémoires de Rebelles
Pas encore d'évaluation
Mouvement Ibérique de Libération. Mémoires de Rebelles
369 pages
Chérubins
Pas encore d'évaluation
Chérubins
19 pages
Maîtriser le Discours Indirect
Pas encore d'évaluation
Maîtriser le Discours Indirect
3 pages
3AEP Francais
Pas encore d'évaluation
3AEP Francais
11 pages
Répartition 1AM 2022-2023
100% (2)
Répartition 1AM 2022-2023
5 pages
Livre VI des Nuits Attiques
Pas encore d'évaluation
Livre VI des Nuits Attiques
9 pages
Drekkana 3 Sudarshan
Pas encore d'évaluation
Drekkana 3 Sudarshan
15 pages
Ecommerce Senegal
100% (1)
Ecommerce Senegal
55 pages
Auteur Andrew Gillies
Pas encore d'évaluation
Auteur Andrew Gillies
4 pages
Dons Spirituels et Amour
Pas encore d'évaluation
Dons Spirituels et Amour
7 pages
Les Funambules
0% (1)
Les Funambules
181 pages
Théatre
Pas encore d'évaluation
Théatre
53 pages
Exercices Complementaires - Chapitreno5 - Les Polynomes - Premiere Partie - Corrige
Pas encore d'évaluation
Exercices Complementaires - Chapitreno5 - Les Polynomes - Premiere Partie - Corrige
5 pages
Séries Les Structures Conditionnelles
100% (1)
Séries Les Structures Conditionnelles
3 pages
Cours sur la Reconnaissance de Formes
Pas encore d'évaluation
Cours sur la Reconnaissance de Formes
42 pages
Cahier Prof Principal V1
Pas encore d'évaluation
Cahier Prof Principal V1
97 pages
Violences Obstétricales. Le Rapport Du Haut Conseil À L'égalité
Pas encore d'évaluation
Violences Obstétricales. Le Rapport Du Haut Conseil À L'égalité
174 pages